Computer Use Agents: Benchmark & Architektur

aktualisiert am Apr 27, 2026

Computergestützte Benutzeragenten versprechen die Bedienung realer Desktop- und Webanwendungen, doch ihre Funktionsweise, Grenzen und Kompromisse sind oft unklar. Wir untersuchen führende Systeme, indem wir ihre Funktionsweise, ihr Lernverhalten und die Unterschiede in ihren Architekturen analysieren. Zudem beziehen wir uns auf einen fokussierten UI-Benchmark anhand von 100 Desktop-Screenshots, die vier Aufgabentypen und fünf Durchläufe pro Beispiel umfassen. Dieser Benchmark isoliert die Qualität der visuellen Wahrnehmung und verdeutlicht, warum leistungsstarke Bildverarbeitungsmodelle selbst für computergestützte Benutzeragenten wichtig sind.

Eine Funktionstabelle, Architekturhinweise, praktische Tipps und Benchmark-Ergebnisse helfen Benutzern bei der Auswahl oder Entwicklung des richtigen Computer-Nutzungsagenten:

Ergebnisse des UI-Grounding-Benchmarks

Loading Chart

Einzelheiten zur Benchmark-Methodik finden Sie in den Benchmark-Details .

Die Qwen3-VL-Modelle erreichen eine Genauigkeit von ca. 90 % bei geringem Fehler (≈7–9 px).
UI-spezialisierte Modelle wie UI-TARS schneiden deutlich schlechter ab ( ca. 38 % Genauigkeit ) und weisen eine hohe Varianz und große Fehler auf, insbesondere bei zustandsabhängigen und dichten Schnittstellen.
Zustandsabhängige und dichte Benutzeroberflächen stellen für die meisten Modelle die schwierigsten Fälle dar.

Top-Computernutzer-Agenten

Die in der Tabelle aufgeführten Funktionen finden Sie im Abschnitt „Funktionen“, und die Details zur Architektur der Computernutzungsagenten finden Sie im Abschnitt „ Architekturansätze “.

OpenAI Computernutzungsvorschau

Die Computernutzungsvorschau von OpenAI ist ein spezialisiertes Modell, das entwickelt wurde, um Computeraufgaben über die Responses API zu verstehen und auszuführen. Es konzentriert sich auf die Texteingabe und -ausgabe mit optionaler Bildeingabe, unterstützt jedoch keine Audio- oder Videoverarbeitung.

Anthropic Claude Computernutzung

Die Beta-Funktion „Claude Computernutzung“ ermöglicht es Claude, mit einer Desktop- oder Fensterumgebung zu interagieren, genau wie ein Mensch. Er kann den Bildschirm sehen, die Maus bewegen und auf der Tastatur tippen.

Claude kann ohne die Konfiguration eines Entwicklers nicht eigenständig funktionieren. Es greift nicht automatisch auf Ihren realen Computer zu, sondern interagiert mit der von Ihnen bereitgestellten Sandbox.

Open Interpreter (OS-Modus)

Open Interpreter ist ein Open-Source-Terminalagent, der Code ausführen und mit Ihrem System interagieren kann.

Es läuft auf Ihrem eigenen Computer und kann daher direkt auf Ihre Dateien, Programme und Ihren Browser zugreifen. Die Kommunikation erfolgt in natürlicher Sprache, und das Programm setzt Ihre Anweisungen durch die Generierung und Ausführung von Code in Aktionen um. Bevor Code ausgeführt wird, zeigt Open Interpreter an, was ausgeführt werden soll, und bittet um Ihre Zustimmung.

Simular Agent S/S3

Simular Agent S3 ist ein Computeragent, der durch Bildschirmbeobachtung, Aktionsplanung und Steuerung von Maus und Tastatur komplexe Aufgaben erledigt. Er ist Teil des offenen Agent-S-Frameworks für die autonome Interaktion mit grafischen Benutzeroberflächen.

Behavior Best-of-N (bBoN) ist eine Kernmethode, die es Agent S3 ermöglicht, mehrere mögliche Aktionssequenzen („Rollouts“) anstelle eines einzelnen Durchlaufs zu generieren. Jeder Rollout wird in eine Verhaltensbeschreibung umgewandelt, die eine einfache Zusammenfassung des Geschehens darstellt. In einem separaten Entscheidungsschritt wird dann der beste Durchlauf ausgewählt.

Cua AI

Cua AI ist ein Open-Source-Framework, mit dem sich KI- Agenten für Desktop-Umgebungen entwickeln, ausführen und testen lassen. Es integriert Bildverarbeitungsmodelle, Schlussfolgerungsmodelle und isolierte Betriebssystemumgebungen in ein System. Cua kann Agenten in der Cloud mithilfe von Remote-Sandboxes ausführen. Alternativ können sie auch lokal ausgeführt werden, wenn mehr Kontrolle oder Datenschutz gewünscht ist.

Cua unterstützt Sie außerdem bei der Erstellung von UI-Screenshots und Agentenaktionsprotokollen. Sie können mehrstufige Interaktionen aufzeichnen, Trainingsdaten erstellen und Benchmarks durchführen, um die Leistung Ihrer Agenten zu überprüfen.

Claude Cowork

Claude Cowork ermöglicht es Claude, komplexe Aufgaben direkt auf Ihrem Computer zu erledigen. Es nutzt dasselbe Agenten-Design wie Claude Code, konzentriert sich aber auf Aufgaben, die Ihre lokalen Dateien und Programme betreffen, anstatt nur kurze Chat-Antworten zu liefern. Diese Funktion befindet sich in der Forschungsvorschau und läuft in der Claude Desktop-App für macOS.

Aktuelle Einschränkungen:

Nur für macOS Desktop verfügbar.
Claude speichert keine Erinnerungen über mehrere Sitzungen hinweg.
Cowork kann seine Arbeit noch nicht mit anderen teilen.

OSWorld-Benchmark

Ergebnisse für die Nutzung agentenbasierter KI durch Computer

Hinweis: Dasselbe Modell kann in unterschiedlichen Rängen erscheinen, da OSWorld die Ergebnisse nach vollständiger Evaluierungskonfiguration auflistet ( Agenten-Framework , Grounding- oder Planungsmodell, Best-of-N-Einstellung, Anzahl der Durchläufe und Schrittlimit). Selbst kleine Änderungen dieser Einstellungen werden als separate Einträge mit unterschiedlichen Leistungsergebnissen behandelt.

Methodik

Der Benchmark umfasst 369 praxisnahe Aufgaben (bzw. 361 ohne die manuell einzurichtenden Drive-Aufgaben Google). Die Aufgaben decken Web- und Desktop-Anwendungen, Dateivorgänge im Betriebssystem und Workflows mit mehreren Anwendungen ab. Jede Aufgabe startet von einem reproduzierbaren Ausgangszustand und ist mit einem benutzerdefinierten, ausführungsbasierten Auswertungsskript verknüpft, um eine zuverlässige Bewertung zu gewährleisten.

Evaluierungsprozess

Agenten interagieren mit einer laufenden Betriebssystemumgebung. Der Erfolg wird anhand der tatsächlichen Aktionen des Agenten gemessen, nicht anhand von Textausgaben. Die Umgebungen unterstützen parallele und bildschirmlose Ausführung und ermöglichen so skalierbare Tests.

Benchmark-Bereich

OSWorld unterstützt offene Aufgaben in beliebigen Anwendungen, multimodale Eingaben, anwendungsübergreifende Workflows und Zwischenzustände. Im Vergleich zu früheren Benchmarks bietet es eine breitere Abdeckung und realistischere Bedingungen.

Ausgangswerte und Analyse

Der Benchmark evaluiert allgemeine und spezialisierte Modelle sowie agentenbasierte Frameworks der LLM- und VLM-Familien. Die Ergebnisse zeigen eine große Diskrepanz zwischen menschlicher Leistung (~72 %) und der Leistung aktueller Agenten und verdeutlichen die Herausforderungen bei der GUI-Implementierung und dem operativen Wissen. OSWorld ermöglicht zudem detaillierte Analysen hinsichtlich Aufgabentypen, UI-Komplexität, Eingaben und Betriebssystemen.

Zwei architektonische Ansätze für Computernutzungsmodelle

Heutzutage lassen sich die meisten Computerbenutzeragenten in eines von zwei Designmustern einteilen:

End-to-End (E2E)-Agenten
Zusammengesetzte Agenten

Beide Ansätze zielen darauf ab, Aufgaben am Computer zu erledigen. Sie unterscheiden sich darin, wie sie Wahrnehmung, Denken und Handeln unterteilen.

End-to-End (E2E)-Agenten

End-to-End-Agenten verwenden ein einziges Bildverarbeitungsmodell, um den gesamten Ablauf abzuwickeln. Das Modell empfängt einen Screenshot und eine Aufgabenbeschreibung und gibt anschließend direkt die nächste Aktion aus.

Es gibt keine klare Grenze zwischen Sehen, Denken und Handeln. Diese Prozesse werden gemeinsam innerhalb desselben Modells erlernt.

Wie E2E-Agenten funktionieren

Screenshot + Aufgabe → Einheitliche Darstellung → Aktion

Das Modell verarbeitet Pixel und Text direkt. Es erstellt keine explizite Liste von Schaltflächen oder Feldern. Stattdessen lernt es während des Trainings Assoziationen zwischen visuellen Mustern und Aktionen.

Stärken

Einfacheres Systemdesign
Weniger Integrationspunkte, an denen Fehler auftreten können
Oft stabiler bei längeren Aufgaben

Einschränkungen

Eingeschränkte Transparenz darüber, warum eine bestimmte Maßnahme gewählt wurde
Es ist schwieriger, Fehler zu beheben, wenn etwas schiefgeht.
Weniger Kontrolle über Zwischenschritte im Denkprozess

Praktische Auswirkungen

Da Wahrnehmung und Planung eng miteinander verknüpft sind, führen kleine visuelle Fehler seltener zu einem vollständigen Ausfall. Wenn eine Aktion nicht funktioniert, kann der Agent den aktualisierten Bildschirm erneut auswerten und sich anpassen.

Zielkonflikt: Es ist schwierig, Zwischenentscheidungen zu überprüfen oder die Fehlerursache zu isolieren.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Folgen auf

Zusammengesetzte Agenten

Zusammengesetzte Agenten unterteilen den Interaktionsablauf in separate Phasen. Jede Phase wird von einem anderen Modell oder Subsystem verarbeitet.

Wie zusammengesetzte KI-Agenten funktionieren

Eine typische Pipeline sieht folgendermaßen aus:

Erdung: Grafische Benutzeroberflächenelemente aus dem Screenshot erkennen
Planung: Entscheiden Sie, was als Nächstes zu tun ist.
Ausführung: Aufgaben im System ausführen

Dieses Design macht jeden Schritt deutlich.

Stärken

Klare Trennung der Verantwortlichkeiten
Zwischenergebnisse lassen sich leichter überprüfen
Besser geeignet für Forschung und kontrollierte Experimente

Einschränkungen

Höhere Systemkomplexität
Fehler können sich zwischen Komponenten ausbreiten.
In realen Desktop-Umgebungen oft weniger zuverlässig

Praktische Auswirkungen

Komponierte Agenten nutzen strukturierte Darstellungen des Bildschirms, wie beispielsweise erkannte Schaltflächen oder Textfelder. Dies erhöht zwar die Transparenz, birgt aber auch Risiken. Bei ungenauen Datengrundlagen schlagen Planungsentscheidungen wahrscheinlich fehl.

Abwägung : Längere Aufgaben stellen eine besondere Herausforderung dar. Kleine Diskrepanzen zwischen wahrgenommenem und tatsächlichem Bildschirmzustand können sich im Laufe der Zeit summieren.

Kernbausteine von Computer-nutzenden Agenten (CUAs)

Moderne Computerbenutzeragenten bestehen aus drei Hauptkomponenten:

1. Bild-Sprach-Modelle (VLMs)

Einzelne VLMs bilden den Kern der meisten End-to-End-Agenten. Sie verarbeiten Screenshots und Anweisungen gemeinsam und geben Aktionen direkt aus.

Screenshot + Aufgabe → Gemeinsamer Seh- und Sprachraum → Aktion

Das Modell kodiert visuelle und textuelle Eingaben in einem gemeinsamen internen Raum. In diesem Raum lernt es, wie visuelle Muster mit Aktionen ohne explizite Bezeichnungen zusammenhängen.

Es gibt keinen separaten Einführungsschritt. UI-Verständnis und Aufgabenplanung erfolgen implizit und gleichzeitig.

Praktische Auswirkungen: Einzelne VLMs reduzieren die architektonische Komplexität und begrenzen die Fehlerfortpflanzung. Sie priorisieren Robustheit und Einfachheit gegenüber Transparenz und feingranularer Steuerung.

2. Erdungsmodelle

Grounding-Modelle konzentrieren sich ausschließlich auf die Wahrnehmung und spielen eine entscheidende Rolle in den zusammengesetzten Agenten. Ihre Aufgabe ist es, Rohdaten von Screenshots in strukturierte Beschreibungen der Benutzeroberfläche zu übersetzen. Sie treffen keine Entscheidungen über Ziele oder wählen Aktionen aus.

Screenshot → Grounding-Modell → Strukturierte UI-Darstellung

Zu den Ergebnissen gehören häufig:

Erkannte UI-Elemente
Räumliche Positionen (Begrenzungsrahmen)
Semantische Bezeichnungen (Schaltfläche, Eingabefeld, Text)
Extrahierter Text

Diese Repräsentation wird an ein Planungsmodell übergeben.

Stärken

Klare und überprüfbare Wahrnehmung
Fehler lassen sich leichter protokollieren und analysieren.
Verbesserte Transparenz

Einschränkungen

Fehler breiten sich nachgelagert aus
Sensibel für visuelle Veränderungen und dynamische Layouts
Es ist schwierig, über viele Schritte hinweg Konsistenz zu wahren.

Praktische Auswirkungen: Die Erdung ist oft das schwächste Glied in komplexen Systemen. Fehlende oder veraltete Elemente können Planungsmodelle in die Irre führen und wiederholte Ausfälle verursachen.

UI Grounding Benchmark: Warum die Bildqualität wichtig ist

Um die Rolle der visuellen Wahrnehmung zu isolieren, beziehen wir uns auf einen fokussierten UI-Grounding-Benchmark, der bewertet, wie gut Modelle die genaue Pixelposition eines UI-Elements anhand einer natürlichsprachlichen Anweisung identifizieren.

Benchmark-Setup

100 Desktop-Screenshots
4 Aufgabentypen: einfache, relationale, zustandsabhängige und dichte Benutzeroberfläche
5 Durchläufe pro Probe zur Messung der Konsistenz
Feste Auflösung: 2560×1440

Für einen detaillierteren Datensatz und eine ausführlichere Methodik besuchen Sie AIMultiple UI Grounding on HuggingFace.

Wegbringen
Eine präzise Verankerung der Benutzeroberfläche stellt weiterhin einen großen Engpass dar. Aktuelle Erkenntnisse zeigen, dass eine robuste visuelle Wahrnehmung und ein implizites Verständnis der Benutzeroberfläche wichtiger sind als eine enge Spezialisierung auf die Benutzeroberfläche, insbesondere für zuverlässige Computerbenutzer, die mit realen Desktop-Computern arbeiten.

Planungsmodelle

Planungsmodelle legen die nächsten Schritte fest. Sie arbeiten mit strukturierten UI-Daten, Aufgabenzielen und Interaktionshistorie. Rohbilder werden nicht verarbeitet. Diese Modelle spielen eine entscheidende Rolle in der Architektur des zusammengesetzten Agenten.

Strukturierte Benutzeroberfläche + Aufgabenziel → Planungsmodell → Nächste Aktion

Planungsmodelle können:

Aufgaben in Schritte unterteilen
Fortschritt verfolgen
Regeln oder Heuristiken anwenden
Log-Argumentation explizit

Herausforderungen in der Praxis

Hohe Empfindlichkeit gegenüber Eingabefehlern
Falsche Erdung führt zu fehlerhaften Plänen.
Zustandsänderung im Laufe der Zeit
Änderungen an der Benutzeroberfläche können frühere Annahmen ungültig machen.
Begrenzte Fehlerbehebung
Ohne deutliches Feedback laufen die Planer Gefahr, in einer Endlosschleife zu landen oder ins Stocken zu geraten.
Ausführungsabweichungen
Fehler im Timing, in der Konzentration oder in der Koordination können Pläne zum Scheitern bringen.

Praktische Implikationen: Planungsmodelle schaffen Struktur und Transparenz, ihre Wirksamkeit hängt jedoch stark von einer genauen Wahrnehmung und einer zuverlässigen Ausführung ab.

Erläuterung der wichtigsten Funktionen des Computernutzungsagenten

Laufzeitumgebung

Es definiert, wo der Computernutzungsagent ausgeführt wird und wie er das Betriebssystem steuert (Cloud-VM, lokaler Rechner oder containerbasierte Laufzeitumgebung).

Zugriff auf das lokale System

Dies zeigt an, ob der Agent Dateien auf dem tatsächlichen Rechner des Benutzers lesen oder schreiben kann, nicht nur in einer Remote-Sandbox. Lokaler Zugriff ist zwar für persönliche Arbeitsabläufe nützlich, birgt aber höhere Sicherheitsrisiken.

Welcher Gesamtvorteil besteht zwischen E2E- und zusammengesetzten Agenten?

End-to-End-Agenten sind derzeit für den direkten Einsatz auf PCs zuverlässiger. Ihr einheitliches Design reduziert Koordinationsprobleme und potenzielle Fehlerquellen.

Zusammengesetzte Agenten sind nicht grundsätzlich schwächer. Sie bieten mehr Flexibilität, Anpassungsmöglichkeiten und Interpretierbarkeit. Allerdings benötigen sie eine solidere Verankerung, ein strafferes Zustandsmanagement und eine sorgfältige Integration, um in realen Umgebungen gut zu funktionieren.

Der zentrale Zielkonflikt besteht nicht in der Leistungsfähigkeit, sondern in der Robustheit versus der Kontrollierbarkeit .

Was sind Computernutzungsagenten?

Computerbenutzeragenten sind Systeme, die entwickelt wurden, um einen Computer ähnlich wie ein Mensch zu bedienen. Sie betrachten den Bildschirm, entscheiden, was zu tun ist, und interagieren durch Aktionen wie Klicken, Tippen und Scrollen.

Auf den ersten Blick klingt das einfach. In der Praxis ist es schwierig. Desktop-Umgebungen sind dynamisch. Benutzeroberflächen ändern sich häufig. Es gibt keine festen APIs oder stabilen Strukturen, auf die man sich verlassen könnte. Diese Agenten müssen mit dem arbeiten, was sie auf dem Bildschirm sehen, und in Echtzeit darauf reagieren.

Trotz unterschiedlicher Implementierungen folgen die meisten Computernutzungsagenten demselben grundlegenden Ablauf:

Beobachten → Interpretieren → Entscheiden → Ausführen

Die Art und Weise, wie diese Schleife implementiert wird, bestimmt, wie stabil, flexibel und zuverlässig ein Agent im realen Einsatz ist.

Cem Dilmegani

Leitender Analyst

Folgen auf

Cem ist seit 2017 leitender Analyst bei AIMultiple. AIMultiple informiert monatlich Hunderttausende von Unternehmen (laut similarWeb), darunter 55 % der Fortune 500. Cems Arbeit wurde von führenden globalen Publikationen wie Business Insider, Forbes und der Washington Post, von globalen Unternehmen wie Deloitte und HPE sowie von NGOs wie dem Weltwirtschaftsforum und supranationalen Organisationen wie der Europäischen Kommission zitiert. Weitere namhafte Unternehmen und Ressourcen, die AIMultiple referenziert haben, finden Sie hier. Im Laufe seiner Karriere war Cem als Technologieberater, Technologieeinkäufer und Technologieunternehmer tätig. Über ein Jahrzehnt lang beriet er Unternehmen bei McKinsey & Company und Altman Solon in ihren Technologieentscheidungen. Er veröffentlichte außerdem einen McKinsey-Bericht zur Digitalisierung. Bei einem Telekommunikationsunternehmen leitete er die Technologiestrategie und -beschaffung und berichtete direkt an den CEO. Darüber hinaus verantwortete er das kommerzielle Wachstum des Deep-Tech-Unternehmens Hypatos, das innerhalb von zwei Jahren von null auf einen siebenstelligen jährlichen wiederkehrenden Umsatz und eine neunstellige Unternehmensbewertung kam. Cems Arbeit bei Hypatos wurde von führenden Technologiepublikationen wie TechCrunch und Business Insider gewürdigt. Er ist ein gefragter Redner auf internationalen Technologiekonferenzen. Cem absolvierte sein Studium der Informatik an der Bogazici-Universität und besitzt einen MBA der Columbia Business School.

Vollständiges Profil anzeigen