Benchmark

Agents d'utilisation d'ordinateur: Benchmark & Architecture

mis à jour le 22 juin 2026

Les agents d'utilisation d'ordinateur promettent de faire fonctionner de vrais ordinateurs de bureau et applications web, mais leurs conceptions, limites et compromis sont souvent obscurs. Nous examinons les systèmes leaders en décomposant leur fonctionnement, leur apprentissage et la différence de leurs architectures. Nous référons également à un benchmark de mise en ancrage UI focalisé sur 100 captures d'écran de bureau, couvrant 4 types de tâches et 5 exécutions par échantillon, qui isole la qualité de la perception visuelle et met en évidence pourquoi les modèles vision-langage (VLM) puissants sont importants même pour les agents d'utilisation d'ordinateur composés.

Consultez un tableau de fonctionnalités, des notes d'architecture, des enseignements pratiques et les résultats du benchmark pour aider les utilisateurs à choisir ou à créer le bon agent d'utilisation d'ordinateur :

Résultats du benchmark de mise en ancrage UI

Loading Chart

Pour les détails de la méthodologie du benchmark, lisez les détails du benchmark.

Les modèles Qwen3-VL atteignent ~90% de précision, avec une faible erreur (≈7–9 px).
Les modèles spécialisés UI comme UI-TARS performent beaucoup moins bien (~38% de précision) et montrent une forte variance et de grandes erreurs, en particulier sur les interfaces dépendantes de l'état et denses.
Les interfaces utilisateur dépendantes de l'état et denses sont les cas les plus difficiles pour la plupart des modèles.

Meilleurs agents d'utilisation d'ordinateur

Agent	Architecture	Environnement d'exécution	Accès au système local
Claude Cowork	End-to-End	Environnement d'espace de travail visuel local	✅
OpenAI Aperçu d'utilisation d'ordinateur	End-to-End	Exécution d'agent hébergée dans le cloud via API	❌
Anthropic Claude Utilisation d'ordinateur	End-to-End	Sandbox local ou cloud (le client API contrôle une VM)	❌
Open Interpreter (Mode OS)	Composé	Exécution au niveau du système d'exploitation local	✅
Simular Agent S/S3	Composé	Le framework peut s'exécuter localement ou être hébergé (S/S3 open-source s'exécute localement)	❌ (mais l'exécution locale est possible via le framework open-source)
Cua IA	Composé	Sandbox cloud + options d'intégration locale	❌

Consultez la section fonctionnalités pour les fonctionnalités du tableau, et examinez la section approches architecturales pour les détails de l'architecture des agents d'utilisation d'ordinateur.

OpenAI Aperçu d'utilisation d'ordinateur

L'aperçu d'utilisation d'ordinateur de OpenAI est un modèle spécialisé conçu pour comprendre et exécuter des tâches informatiques via l'API Responses. Il se concentre sur l'entrée et la sortie de texte, avec une entrée d'image optionnelle, mais ne prend pas en charge l'audio ou la vidéo.

Anthropic Claude Utilisation d'ordinateur

Claude Utilisation d'ordinateur est une fonctionnalité bêta qui permet à Claude d'interagir avec un environnement d'ordinateur de bureau ou à fenêtres, tout comme une personne le ferait. Il fonctionne en voyant l'écran, en déplaçant la souris et en tapant au clavier.

Claude ne peut pas agir seul sans la configuration d'un développeur. Il n'accède pas automatiquement à votre véritable ordinateur ; il interagit avec le sandbox que vous fournissez.

Open Interpreter (Mode OS)

Open Interpreter est un agent de terminal open-source capable d'exécuter du code et d'interagir avec votre système.

Il s'exécute sur votre propre ordinateur, il peut donc utiliser vos fichiers, programmes et navigateur directement. Les utilisateurs communiquent avec lui en anglais simple, et il traduit leurs instructions en actions en générant et en exécutant du code. Avant l'exécution de tout code, Open Interpreter affiche ce qu'il prévoit d'exécuter et demande votre approbation.

Simular Agent S/S3

Simular Agent S3 est un agent d'utilisation d'ordinateur qui fonctionne en observant les écrans, en planifiant des actions et en contrôlant la souris et le clavier pour accomplir des tâches complexes. Il fait partie du framework open Agent S pour l'interaction autonome avec les interfaces graphiques (GUI).

Le comportement Best-of-N (bBoN) est une méthode centrale qui permet à Agent S3 de générer plusieurs séquences d'actions possibles (« rollouts »), plutôt qu'une seule exécution. Il transforme chaque rollout en un récit de comportement, qui est un résumé simple de ce qui s'est passé. Une étape de jugement séparée choisit ensuite la meilleure exécution.

Cua IA

Cua IA est un framework open-source qui permet de créer, d'exécuter et de tester des agents d'utilisation d'ordinateur dans des environnements de bureau en reliant les modèles de vision, les modèles de raisonnement et les environnements de système d'exploitation sandboxés dans un seul système. Cua peut exécuter des agents dans le cloud en utilisant des sandboxes distants. Il vous permet également de les exécuter localement si vous souhaitez plus de contrôle ou de confidentialité.

Cua vous aide également à générer des captures d'écran d'interface utilisateur et des journaux d'actions d'agent. Vous pouvez enregistrer des interactions multi-étapes, créer des données d'entraînement et exécuter des benchmarks pour voir comment les agents performent.

Claude Cowork

Claude Cowork est un moyen de faire à Claude un travail complexe directement sur votre ordinateur. Il utilise la même conception d'agent que Claude Code, mais avec un accent sur les tâches impliquant vos fichiers et programmes locaux, plutôt que de simplement fournir de courtes réponses de chat. Cette fonctionnalité est en aperçu de recherche et s'exécute dans l'application Claude Desktop pour macOS.

Limitations actuelles :

Disponible uniquement sur macOS Desktop.
Claude ne conserve pas la mémoire entre les sessions.
Cowork ne peut pas encore partager son travail avec d'autres.

Benchmark OSWorld

Résultats pour l'IA agentique d'utilisation d'ordinateur

Rang	Modèle & Date	Approche & Détails	Taux de réussite (Moy±Écart)
1	agent s3 w/ Opus 4.5 + GPT-5 bBoN (N=10) Simular	Type : Framework agentique Étapes max : 100 Exécutions : 1	72.6%
2	agent s3 w/ GPT-5 bBoN (N=10) Simular	Type : Framework agentique Étapes max : 100 Exécutions : 1	69.9%
3	UiPath Screen Agent w/ Opus 4.5 UiPath	Type : Framework agentique Étapes max : 100 Exécutions : 1	67.1%
4	agent s3 w/ Opus 4.5 bBoN (N=1) Simular	Type : Framework agentique Étapes max : 100 Exécutions : 5	66.0%
5	OS-Symphony w/ GPT-5 Shanghai IA Laboratory	Type : Framework agentique Étapes max : 50 Exécutions : 1	65.8%
6	UiPath Screen Agent w/ Opus 4.5 UiPath	Type : Framework agentique Étapes max : 50 Exécutions : 1	64.4%
7	GBOX Agent GBOX.IA	Type : Framework agentique Étapes max : 15 Exécutions : 1	64.2%
8	GTA1 w/ GPT-5 Salesforce & The Australian National University & The University of Hong Kong	Type : Framework agentique Étapes max : 100 Exécutions : 1	63.4%
9	claude-sonnet-4-5-20250929 Anthropic	Type : Modèle général Étapes max : 100 Exécutions : 1	62.9%
10	agent s3 w/ GPT-5 bBoN (N=1) Simular	Type : Framework agentique Étapes max : 100 Exécutions : 10	62.6%

Avis : Le même modèle peut apparaître à différents rangs car OSWorld liste les résultats par configuration d'évaluation complète (framework agentique, modèle de mise en ancrage ou de planification, paramètre Best-of-N, nombre d'exécutions et limite d'étapes), et même de petits changements dans ces paramètres sont traités comme des entrées séparées avec des résultats de performance différents.

Méthodologie

Le benchmark comprend 369 tâches du monde réel (ou 361 en excluant les tâches Google Drive qui nécessitent une configuration manuelle). Les tâches couvrent les applications web et de bureau, les opérations de fichiers OS et les flux de travail multi-apps. Chaque tâche commence par un état initial reproductible et est associée à un script d'évaluation basé sur l'exécution personnalisé, garantissant un score fiable.

Processus d'évaluation

Les agents interagissent avec un environnement OS en direct. La réussite est mesurée par ce que l'agent fait réellement, et non par les sorties de texte. Les environnements prennent en charge l'exécution parallèle et sans tête, permettant des tests évolutifs.

Portée du benchmark

OSWorld prend en charge les tâches ouvertes dans des applications arbitraires, les entrées multimodales, les flux de travail inter-apps et les états de départ intermédiaires. Par rapport aux benchmarks précédents, il offre une couverture plus large et des conditions plus réalistes.

Lignes de base et analyse

Le benchmark évalue les modèles généraux, les modèles spécialisés et les frameworks agentiques à travers les familles LLM et VLM. Les résultats montrent un grand écart entre la performance humaine (~72%) et les agents actuels, mettant en évidence les défis de la mise en ancrage GUI et des connaissances opérationnelles. OSWorld permet également une analyse détaillée à travers les types de tâches, la complexité de l'interface utilisateur, les entrées et les systèmes d'exploitation.

Deux approches architecturales pour les modèles d'utilisation d'ordinateur

Aujourd'hui, la plupart des agents d'utilisation d'ordinateur tombent dans l'un de deux modèles de conception :

Agents End-to-End (E2E)
Agents Composés

Tous deux visent à accomplir des tâches sur un ordinateur. Ils diffèrent par la façon dont ils divisent la perception, le raisonnement et l'action.

Agents End-to-End (E2E)

Les agents end-to-end utilisent un seul modèle vision-langage pour gérer la boucle entière. Le modèle reçoit une capture d'écran et une description de tâche. Il produit ensuite l'action suivante directement.

Il n'y a pas de frontière claire entre la vision, le raisonnement et l'action. Ces processus sont appris ensemble à l'intérieur du même modèle.

Comment fonctionnent les agents E2E

Capture d'écran + Tâche → Représentation unifiée → Action

Le modèle raisonne directement sur les pixels et le texte. Il ne construit pas de liste explicite de boutons ou de champs. Au lieu de cela, il apprend les associations entre les motifs visuels et les actions pendant l'entraînement.

Points forts

Conception de système plus simple
Moins de points d'intégration où des erreurs peuvent survenir
Souvent plus stable sur les longues tâches

Limitations

Visibilité limitée sur pourquoi une action a été choisie
Plus difficile à déboguer lorsque quelque chose tourne mal
Moins de contrôle sur les étapes intermédiaires de raisonnement

Implications pratiques

Parce que la perception et la planification sont étroitement liées, de petites erreurs visuelles sont moins susceptibles de se propager en échecs complets. Lorsqu'une action ne fonctionne pas, l'agent peut réévaluer l'écran mis à jour et s'adapter.

Compromis : Il est difficile d'inspecter les décisions intermédiaires ou d'isoler la source des échecs.

Laissez notre équipe automatiser l'un de vos processus métier avec des agents IA, gratuitement.

Automatiser un processus

Agents composés

Les agents composés divisent la boucle d'interaction en étapes séparées. Chaque étape est gérée par un modèle ou un sous-système différent.

Comment fonctionnent les agents IA composés

Un pipeline typique ressemble à ceci :

Mise en ancrage : Détecter les éléments d'interface utilisateur graphique à partir de la capture d'écran
Planification : Décider quoi faire ensuite
Exécution : Effectuer des tâches sur le système

Ce design rend chaque étape explicite.

Points forts

Séparation claire des responsabilités
Plus facile d'inspecter les sorties intermédiaires
Mieux adapté à la recherche et aux expériences contrôlées

Limitations

Complexité système plus élevée
Les erreurs peuvent se propager entre les composants
Souvent moins fiable dans les vrais environnements de bureau

Implications pratiques

Les agents composés reposent sur des représentations structurées de l'écran, telles que des boutons détectés ou des champs de texte. Cela améliore la transparence mais ajoute de la fragilité. Si la mise en ancrage est inexacte, les décisions de planification sont susceptibles d'échouer.

Compromis : Les longues tâches sont particulièrement difficiles. De petits écarts entre l'état de l'écran perçu et réel peuvent s'accumuler avec le temps.

Blocs de construction de base des agents d'utilisation d'ordinateur (CUA)

Les agents d'utilisation d'ordinateur modernes sont construits en utilisant trois composants principaux :

1. Modèles vision-langage (VLM)

Les VLM uniques forment le cœur de la plupart des agents end-to-end. Ils traitent les captures d'écran et les instructions ensemble et produisent des actions directement.

Capture d'écran + Tâche → Espace vision-langage conjoint → Action

Le modèle encode les entrées visuelles et textuelles dans un espace interne partagé. Dans cet espace, il apprend comment les motifs visuels se rapportent aux actions sans étiquettes explicites.

Il n'y a pas d'étape de mise en ancrage séparée. La compréhension de l'interface utilisateur et la planification de la tâche se produisent implicitement et simultanément.

Implications pratiques : Les VLM uniques réduisent la complexité architecturale et limitent la propagation des erreurs. Ils privilégient la robustesse et la simplicité par rapport à la transparence et au contrôle fin.

2. Modèles de mise en ancrage

Les modèles de mise en ancrage se concentrent uniquement sur la perception et jouent un rôle crucial dans les agents composés. Leur travail est de traduire les captures d'écran brutes en descriptions structurées de l'interface de l'ordinateur. Ils ne raisonnent pas sur les objectifs ni ne sélectionnent d'actions.

comment le modèle de mise en ancrage est utilisé dans les agents d'utilisation d'ordinateur

Capture d'écran → Modèle de mise en ancrage → Représentation UI structurée

Les sorties incluent souvent :

Éléments UI détectés
Emplacements spatiaux (boîtes englobantes)
Étiquettes sémantiques (bouton, champ de saisie, texte)
Texte extrait

Cette représentation est transmise à un modèle de planification.

Points forts

Perception claire et inspectable
Plus facile de journaliser et d'analyser les échecs
Transparence améliorée

Limitations

Les erreurs se propagent en aval
Sensible aux changements visuels et aux mises en page dynamiques
Difficile de maintenir la cohérence sur de nombreuses étapes

Implications pratiques : La mise en ancrage est souvent le maillon faible des systèmes composés. Les éléments manquants ou obsolètes peuvent induire en erreur les modèles de planification et causer des échecs répétés.

Benchmark de mise en ancrage UI : Pourquoi la qualité visuelle compte

Pour isoler le rôle de la perception visuelle, nous référons à un benchmark de mise en ancrage UI focalisé qui évalue dans quelle mesure les modèles identifient l'emplacement pixel exact d'un élément d'interface utilisateur à partir d'une instruction en langage naturel.

Configuration du benchmark

100 captures d'écran de bureau
4 types de tâches : simple, relationnel, dépendant de l'état, UI dense
5 exécutions par échantillon pour mesurer la cohérence
Résolution fixe : 2560×1440

Pour un jeu de données et une méthodologie plus détaillés, visitez AIMultiple UI Grounding sur HuggingFace.

À retenir
La mise en ancrage UI précise reste un goulot d'étranglement majeur. Les preuves actuelles montrent que la perception visuelle robuste et la compréhension implicite de l'interface utilisateur sont plus importantes que la spécialisation étroite de l'interface utilisateur, en particulier pour les agents d'utilisation d'ordinateur fiables opérant sur de vrais ordinateurs de bureau.

Modèles de planification

Les modèles de planification déterminent les prochaines étapes. Ils travaillent avec des données UI structurées, des objectifs de tâche et un historique d'interaction. Ils ne traitent pas les images brutes. Ces modèles jouent un rôle crucial dans l'architecture des agents composés.

UI structurée + Objectif de tâche → Modèle de planification → Prochaine action

Les modèles de planification peuvent :

Diviser les tâches en étapes
Suivre les progrès
Appliquer des règles ou des heuristiques
Journaliser le raisonnement explicitement

Défis dans la pratique

Forte sensibilité aux erreurs d'entrée
Une mise en ancrage incorrecte conduit à des plans défectueux.
Dérive d'état au fil du temps
Les changements d'interface utilisateur peuvent invalider les hypothèses antérieures.
Recovery d'échec limitée
Sans retour d'information fort, les planificateurs peuvent boucler ou bloquer.
Incohérences d'exécution
Les erreurs de timing, de focus ou de coordination peuvent briser les plans.

Implications pratiques : Les modèles de planification ajoutent de la structure et de la transparence, mais leur efficacité dépend fortement d'une perception précise et d'une exécution fiable.

Découvrez davantage de nos benchmarks et analyses basées sur les données dans la recherche Google.

Ajouter comme source préférée

Explication des fonctionnalités clés des agents d'utilisation d'ordinateur

Environnement d'exécution

Il définit où l'agent d'utilisation d'ordinateur s'exécute et comment il contrôle système d'exploitation (VM cloud, machine locale ou environnement d'exécution basé sur des conteneurs).

Accès au système local

Cela montre si l'agent peut lire ou écrire des fichiers sur la véritable machine de l'utilisateur, et non seulement dans un sandbox distant. L'accès local est utile pour les flux de travail personnels mais soulève des préoccupations de sécurité plus élevées.

Quel est le compromis global entre les agents E2E et composés ?

Les agents end-to-end sont actuellement plus fiables pour une utilisation directe sur les ordinateurs personnels. Leur conception unifiée réduit les problèmes de coordination et les points de défaillance.

Les agents composés ne sont pas intrinsèquement plus faibles. Ils offrent une plus grande flexibilité, personnalisation et interprétabilité. Cependant, ils nécessitent une mise en ancrage plus forte, une gestion d'état plus serrée et une intégration soignée pour bien performer dans de vrais environnements.

Le compromis central n'est pas la capacité, mais la robustesse versus le contrôle.

Qu'est-ce que les agents d'utilisation d'ordinateur ?

Les agents d'utilisation d'ordinateur sont des systèmes conçus pour faire fonctionner un ordinateur d'une manière similaire à un humain. Ils regardent l'écran, décident quoi faire et interagissent par des actions telles que le clic, la frappe et le défilement.

À première vue, cela semble simple. En pratique, c'est difficile. Les environnements de bureau sont dynamiques. Les interfaces changent souvent. Il n'y a pas de API fixes ou de structures stables sur lesquelles s'appuyer. Ces agents doivent fonctionner à partir de ce qu'ils voient sur l'écran et raisonner à ce sujet en temps réel.

Malgré des implémentations différentes, la plupart des agents d'utilisation d'ordinateur suivent la même boucle de base :

Observer → Interpréter → Décider → Exécuter

La façon dont cette boucle est implémentée détermine la stabilité, la flexibilité et la fiabilité d'un agent dans une utilisation réelle.

Citez ce benchmark

Choisissez le format qui correspond à votre lieu de publication. Coller la version avec lien dans votre CMS préserve le lien retour.

Cem Dilmegani (2026) - "Agents d'utilisation d'ordinateur: Benchmark & Architecture". Publié en ligne sur AIMultiple.com. Consulté le 22 Juin 2026, à : https://aimultiple.com/computer-use-agents [Ressource en ligne]

Dilmegani, C. (2026, 22 Juin). Agents d'utilisation d'ordinateur: Benchmark & Architecture. AIMultiple. https://aimultiple.com/computer-use-agents

@misc{dilmegani2026,
  author = {Dilmegani, Cem},
  title  = {{Agents d'utilisation d'ordinateur: Benchmark & Architecture}},
  year   = {2026},
  month  = jun,
  howpublished    = {\url{https://aimultiple.com/computer-use-agents}},
  note   = {AIMultiple. Consulté le 22 Juin 2026}
}

Cem Dilmegani

Analyste principal

Suivre

Cem est analyste principal chez AIMultiple depuis 2017. AIMultiple informe chaque mois des centaines de milliers d'entreprises (selon similarWeb), dont 55 % des entreprises du classement Fortune 500. Les travaux de Cem ont été cités par des publications internationales de premier plan telles que Business Insider, Forbes et le Washington Post, ainsi que par des entreprises mondiales comme Deloitte et HPE, des ONG comme le Forum économique mondial et des organisations supranationales comme la Commission européenne. Vous trouverez d'autres entreprises et ressources réputées ayant fait référence à AIMultiple. Tout au long de sa carrière, Cem a exercé les fonctions de consultant, d'acheteur et d'entrepreneur dans le secteur des technologies. Il a conseillé des entreprises sur leurs décisions technologiques chez McKinsey & Company et Altman Solon pendant plus de dix ans. Il a également publié un rapport McKinsey sur la numérisation. Il a dirigé la stratégie technologique et les achats d'un opérateur télécom, sous la responsabilité directe du PDG. Il a également piloté la croissance commerciale de la société de deep tech Hypatos, qui a atteint un chiffre d'affaires annuel récurrent à sept chiffres et une valorisation à neuf chiffres en seulement deux ans. Les travaux de Cem chez Hypatos ont été présentés dans des publications technologiques de référence telles que TechCrunch et Business Insider. Cem intervient régulièrement lors de conférences internationales sur les technologies. Diplômé en génie informatique de l'université de Bogazici, il est également titulaire d'un MBA de la Columbia Business School.

Voir le profil complet