Contactez-nous
Aucun résultat trouvé.

Agents d'utilisation informatique : analyse comparative et architecture

Cem Dilmegani
Cem Dilmegani
mis à jour le Avr 27, 2026
Consultez notre normes éthiques

Les agents d'utilisation d'ordinateurs promettent d'interagir avec de véritables bureaux et applications web, mais leur conception, leurs limites et leurs compromis restent souvent flous. Nous analysons les systèmes les plus performants en détaillant leur fonctionnement, leur apprentissage et les différences entre leurs architectures. Nous présentons également un test d'intégration d'interface utilisateur (UI) ciblé sur 100 captures d'écran de bureaux, couvrant 4 types de tâches et 5 exécutions par échantillon. Ce test isole la qualité de la perception visuelle et souligne l'importance de modèles vision-langage robustes, même pour les agents d'utilisation d'ordinateurs complexes.

Consultez un tableau des fonctionnalités, des notes d'architecture, des conseils pratiques et des résultats de tests comparatifs pour aider les utilisateurs à choisir ou à créer l'agent d'utilisation informatique adapté :

résultats de l'analyse comparative de l'ancrage de l'interface utilisateur

Loading Chart

Pour plus de détails sur la méthodologie de référence, consultez les détails de référence .

  • Les modèles Qwen3-VL atteignent une précision d'environ 90 % , avec une faible erreur (≈7–9 px).
  • Les modèles spécialisés en interface utilisateur comme UI-TARS sont beaucoup moins performants ( environ 38 % de précision ) et présentent une variance élevée et des erreurs importantes, en particulier sur les interfaces dépendantes de l'état et denses.
  • Les interfaces utilisateur denses et dépendantes de l'état représentent les cas les plus difficiles pour la plupart des modèles.

Principaux agents d'utilisation informatique

Consultez la section « Fonctionnalités » pour connaître les fonctionnalités présentées dans le tableau, et examinez la section « Approches architecturales » pour obtenir des détails sur l'architecture des agents d'utilisation informatique.

OpenAI Aperçu de l'utilisation de l'ordinateur

Le modèle d'aperçu d'utilisation informatique OpenAI est un modèle spécialisé conçu pour comprendre et exécuter des tâches informatiques via l'API Responses. Il se concentre sur la saisie et l'affichage de texte, avec la possibilité de saisir des images, mais ne prend pas en charge l'audio ni la vidéo.

Anthropic Claude Utilisation de l'ordinateur

Claude Computer Use est une fonctionnalité bêta qui lui permet d'interagir avec un ordinateur de bureau ou un environnement fenêtré, comme le ferait un humain. Elle fonctionne en visualisant l'écran, en déplaçant la souris et en saisissant des commandes au clavier.

Claude ne peut fonctionner de manière autonome sans la configuration d'un développeur. Il n'accède pas automatiquement à votre ordinateur ; il interagit avec l'environnement isolé que vous fournissez.

Interpréteur ouvert (mode OS)

Open Interpreter est un agent terminal open-source capable d'exécuter du code et d'interagir avec votre système.

Il s'exécute sur votre ordinateur et peut donc utiliser directement vos fichiers, programmes et navigateur. Les utilisateurs communiquent avec lui en langage naturel, et il traduit leurs instructions en actions en générant et en exécutant du code. Avant toute exécution de code, Open Interpreter affiche le code qu'il prévoit d'exécuter et vous demande votre autorisation.

Agent Simular S/S3

Simular Agent S3 est un agent d'interface utilisateur qui fonctionne en observant les écrans, en planifiant les actions et en contrôlant la souris et le clavier pour accomplir des tâches complexes. Il fait partie du framework open source Agent S pour l'interaction autonome avec les interfaces graphiques.

L'algorithme Behavior Best-of-N (bBoN) est une méthode fondamentale qui permet à l'agent S3 de générer plusieurs séquences d'actions possibles (« déploiements »), au lieu d'une seule exécution. Chaque déploiement est transformé en un récit comportemental, c'est-à-dire un résumé concis des événements. Une étape de jugement distincte sélectionne ensuite la meilleure exécution.

Cua AI

Cua AI est un framework open source permettant de créer, d'exécuter et de tester des agents d'IA pour ordinateurs sur différents environnements de bureau. Il intègre des modèles de vision, des modèles de raisonnement et des environnements d'exploitation isolés (sandbox) au sein d'un même système. Cua peut exécuter des agents dans le cloud via des sandboxes distantes. Il permet également de les exécuter localement pour un contrôle et une confidentialité accrus.

Cua vous permet également de générer des captures d'écran d'interface utilisateur et des journaux d'actions des agents. Vous pouvez enregistrer des interactions en plusieurs étapes, créer des données d'entraînement et effectuer des tests de performance pour évaluer les performances des agents.

Claude Cowork

Claude Cowork permet à Claude d'effectuer des tâches complexes directement sur votre ordinateur. Il utilise la même architecture d'agent que Claude Code, mais se concentre sur les tâches impliquant vos fichiers et programmes locaux, plutôt que de se contenter de brèves réponses par chat. Cette fonctionnalité est actuellement en version préliminaire et s'exécute au sein de l'application Claude Desktop pour macOS.

Limitations actuelles :

  • Disponible uniquement sur macOS Desktop.
  • Claude ne conserve pas de souvenirs d'une session à l'autre.
  • Cowork ne peut pas encore partager son travail avec d'autres personnes.

Référence OSWorld

Résultats pour l'utilisation de l'ordinateur et l'IA agentique

Avertissement : Un même modèle peut apparaître à différents rangs car OSWorld classe les résultats selon la configuration d’évaluation complète ( cadre d’agents , modèle d’ancrage ou de planification, paramètre Best-of-N, nombre d’exécutions et limite d’étapes), et même de petites modifications de ces paramètres sont traitées comme des entrées distinctes avec des résultats de performance différents.

Méthodologie

Le banc d'essai comprend 369 tâches réelles (ou 361 en excluant les tâches Drive Google qui nécessitent une configuration manuelle). Ces tâches couvrent les applications web et de bureau, les opérations sur les fichiers du système d'exploitation et les flux de travail multi-applications. Chaque tâche démarre à partir d'un état initial reproductible et est associée à un script d'évaluation personnalisé basé sur l'exécution, garantissant ainsi une notation fiable.

processus d'évaluation

Les agents interagissent avec un système d'exploitation en production. Leur succès se mesure à leurs actions concrètes, et non aux résultats textuels qu'ils produisent. Les environnements prennent en charge l'exécution parallèle et sans interface graphique, permettant ainsi des tests à grande échelle.

portée de référence

OSWorld prend en charge les tâches ouvertes dans des applications quelconques, les entrées multimodales, les flux de travail inter-applications et les états de départ intermédiaires. Par rapport aux benchmarks précédents, il offre une couverture plus étendue et des conditions plus réalistes.

Données de référence et analyse

Ce test de performance évalue les modèles généraux, les modèles spécialisés et les frameworks d'agents au sein des familles LLM et VLM. Les résultats révèlent un écart important entre les performances humaines (environ 72 %) et celles des agents actuels, soulignant les difficultés liées à l'intégration de l'interface utilisateur et aux connaissances opérationnelles. OSWorld permet également une analyse détaillée selon les types de tâches, la complexité de l'interface, les entrées et les systèmes d'exploitation.

Deux approches architecturales des modèles d'utilisation informatique

Aujourd'hui, la plupart des agents informatiques s'inscrivent dans l'un des deux modèles de conception suivants :

  • Agents de bout en bout (E2E)
  • Agents composés

Toutes deux visent à accomplir des tâches sur ordinateur. Elles diffèrent dans la manière dont elles répartissent la perception, le raisonnement et l'action.

Agents de bout en bout (E2E)

Les agents de bout en bout utilisent un seul modèle vision-langage pour gérer l'ensemble du processus. Ce modèle reçoit une capture d'écran et une description de la tâche, puis génère directement l'action suivante.

Il n'existe pas de frontière nette entre la vision, le raisonnement et l'action. Ces processus s'apprennent simultanément au sein d'un même modèle.

Comment fonctionnent les agents E2E

Capture d'écran + Tâche → Représentation unifiée → Action

Le modèle raisonne directement sur les pixels et le texte. Il ne construit pas de liste explicite de boutons ou de champs. Au lieu de cela, il apprend les associations entre les motifs visuels et les actions lors de l'entraînement.

Points forts

  • Conception de système plus simple
  • Moins de points d'intégration où des erreurs peuvent survenir.
  • Souvent plus stable sur les tâches de longue durée

Limites

  • Visibilité limitée quant aux raisons du choix d'une action.
  • Plus difficile à déboguer lorsqu'un problème survient
  • Moins de contrôle sur les étapes de raisonnement intermédiaires

Implications pratiques

Comme la perception et la planification sont étroitement liées, les petites erreurs visuelles ont moins de chances d'entraîner des échecs complets. Lorsqu'une action échoue, l'agent peut réévaluer l'écran mis à jour et s'adapter.

Compromis : Il est difficile d'examiner les décisions intermédiaires ou d'isoler la source des défaillances.

Agents composés

Les agents composés divisent la boucle d'interaction en étapes distinctes. Chaque étape est gérée par un modèle ou un sous-système différent.

Comment fonctionnent les agents d'IA composés

Un pipeline typique ressemble à ceci :

  1. Mise à la terre : Détecter les éléments d’interface utilisateur graphique à partir de la capture d’écran
  2. Planification : Décider de la suite
  3. Exécution : Effectuer des tâches sur le système

Cette conception rend chaque étape explicite.

Points forts

  • Séparation claire des responsabilités
  • Les résultats intermédiaires sont plus faciles à inspecter.
  • Plus adapté à la recherche et aux expériences contrôlées

Limites

  • Complexité du système plus élevée
  • Les erreurs peuvent se propager entre les composants
  • Souvent moins fiable dans les environnements de bureau réels

Implications pratiques

Les agents composés s'appuient sur des représentations structurées de l'écran, telles que les boutons ou les champs de texte détectés. Cela améliore la transparence, mais accroît la fragilité du système. En cas d'ancrage inexact, les décisions de planification risquent d'échouer.

Inconvénient : Les tâches longues sont particulièrement difficiles. De petits décalages entre l’état perçu et l’état réel de l’écran peuvent s’accumuler au fil du temps.

Éléments constitutifs de base des agents utilisant un ordinateur (CUA)

Les agents informatiques modernes sont construits à partir de trois composants principaux :

1. Modèles vision-langage (VLM)

Les VLM uniques constituent le cœur de la plupart des agents de bout en bout. Ils traitent conjointement les captures d'écran et les instructions et génèrent directement des actions.

Capture d'écran + Tâche → Espace vision-langage conjoint → Action

Le modèle encode les entrées visuelles et textuelles dans un espace interne partagé. Dans cet espace, il apprend comment les motifs visuels sont liés à des actions sans étiquettes explicites.

Il n'y a pas d'étape d'ancrage distincte. La compréhension de l'interface utilisateur et la planification des tâches se font implicitement et simultanément.

Implications pratiques : Les VLM uniques réduisent la complexité architecturale et limitent la propagation des erreurs. Ils privilégient la robustesse et la simplicité à la transparence et au contrôle précis.

2. Modèles de mise à la terre

Les modèles d'ancrage se concentrent exclusivement sur la perception et jouent un rôle crucial dans la composition des agents. Leur fonction consiste à traduire des captures d'écran brutes en descriptions structurées de l'interface informatique. Ils ne raisonnent pas sur les objectifs ni ne sélectionnent les actions.

Capture d'écran → Modèle de base → Représentation structurée de l'interface utilisateur

Les résultats comprennent souvent :

  • Éléments d'interface utilisateur détectés
  • Emplacements spatiaux (boîtes englobantes)
  • Étiquettes sémantiques (bouton, champ de saisie, texte)
  • Texte extrait

Cette représentation est transmise à un modèle de planification.

Points forts

  • Perception claire et vérifiable
  • Il est plus facile d'enregistrer et d'analyser les défaillances.
  • transparence améliorée

Limites

  • Les erreurs se propagent en aval
  • Sensible aux changements visuels et aux mises en page dynamiques
  • Difficile de maintenir la cohérence sur de nombreuses étapes

Implications pratiques : La mise à la terre est souvent le maillon faible des systèmes complexes. Des éléments manquants ou obsolètes peuvent fausser les modèles de planification et entraîner des défaillances répétées.

Test d'ancrage de l'interface utilisateur : pourquoi la qualité visuelle est importante

Pour isoler le rôle de la perception visuelle, nous nous référons à un banc d'essai d'ancrage d'interface utilisateur ciblé qui évalue dans quelle mesure les modèles identifient l'emplacement exact en pixels d'un élément d'interface utilisateur à partir d'une instruction en langage naturel.

Configuration de référence

  • 100 captures d'écran de bureau
  • 4 types de tâches : simple, relationnelle, dépendante de l’état, interface utilisateur dense
  • 5 essais par échantillon pour mesurer la cohérence
  • Résolution fixe : 2560×1440

Pour des données et une méthodologie plus détaillées, consultez la page AIMultiple UI Grounding sur HuggingFace.

Emporter
L'ancrage précis de l'interface utilisateur demeure un obstacle majeur. Les données actuelles montrent qu'une perception visuelle robuste et une compréhension implicite de l'interface utilisateur sont plus importantes qu'une spécialisation étroite de celle-ci, notamment pour les agents informatiques fiables opérant sur de véritables ordinateurs de bureau.

Modèles de planification

Les modèles de planification déterminent les étapes suivantes. Ils exploitent les données structurées de l'interface utilisateur, les objectifs des tâches et l'historique des interactions. Ils ne traitent pas les images brutes. Ces modèles jouent un rôle crucial dans l'architecture de l'agent composé.

Interface utilisateur structurée + Objectif de la tâche → Modèle de planification → Action suivante

Les modèles de planification peuvent :

  • Décomposez les tâches en étapes
  • Suivre les progrès
  • Appliquer des règles ou des heuristiques
  • Logiquer le raisonnement explicitement

Défis dans la pratique

  • Haute sensibilité aux erreurs de saisie
    Une mise à la terre incorrecte entraîne des plans défectueux.
  • Dérive d'état au fil du temps
    Les modifications apportées à l'interface utilisateur peuvent invalider les hypothèses précédentes.
  • Récupération limitée en cas de panne
    Sans un retour d'information clair, les planificateurs risquent de tourner en rond ou de stagner.
  • Incohérences d'exécution
    Des erreurs de timing, de concentration ou de coordination peuvent faire échouer les plans.

Implications pratiques : Les modèles de planification apportent structure et transparence, mais leur efficacité dépend fortement d’une perception précise et d’une exécution fiable.

Explication des principales fonctionnalités de l'agent d'utilisation de l'ordinateur

Environnement d'exécution

Il définit où l'agent d'utilisation de l'ordinateur s'exécute et comment il contrôle le système d'exploitation (machine virtuelle cloud, machine locale ou environnement d'exécution basé sur des conteneurs).

Accès au système local

Cela indique si l'agent peut lire ou écrire des fichiers sur la machine de l'utilisateur, et non pas seulement dans un environnement isolé distant. L'accès local est utile pour les flux de travail personnels, mais soulève des problèmes de sécurité plus importants.

Quel est le compromis global entre les agents E2E et les agents composés ?

Les agents de bout en bout sont actuellement plus fiables pour une utilisation directe sur les ordinateurs personnels. Leur conception unifiée réduit les problèmes de coordination et les risques de défaillance.

Les agents composés ne sont pas intrinsèquement plus faibles. Ils offrent une plus grande flexibilité, une personnalisation accrue et une meilleure interprétabilité. Cependant, pour fonctionner correctement en environnement réel, ils nécessitent une architecture plus robuste, une gestion d'état plus rigoureuse et une intégration soignée.

Le principal compromis ne réside pas dans la capacité, mais dans la robustesse par rapport au contrôle .

Que sont les agents d'utilisation informatique ?

Les agents d'utilisation informatique sont des systèmes conçus pour faire fonctionner un ordinateur de manière similaire à un humain. Ils regardent l'écran, décident des actions à entreprendre et interagissent par des actions telles que cliquer, taper et faire défiler.

À première vue, cela semble simple. En pratique, c'est complexe. Les environnements de bureau sont dynamiques. Les interfaces évoluent fréquemment. Il n'existe ni API fixes ni structures stables sur lesquelles s'appuyer. Ces agents doivent donc interpréter ce qui s'affiche à l'écran et raisonner en temps réel.

Malgré des implémentations différentes, la plupart des agents informatiques suivent la même boucle de base :

Observer → Interpréter → Décider → Exécuter

La manière dont cette boucle est implémentée détermine la stabilité, la flexibilité et la fiabilité d'un agent en situation réelle d'utilisation.

Cem Dilmegani
Cem Dilmegani
Analyste principal
Cem est analyste principal chez AIMultiple depuis 2017. AIMultiple informe chaque mois des centaines de milliers d'entreprises (selon similarWeb), dont 55 % des entreprises du classement Fortune 500. Les travaux de Cem ont été cités par des publications internationales de premier plan telles que Business Insider, Forbes et le Washington Post, ainsi que par des entreprises mondiales comme Deloitte et HPE, des ONG comme le Forum économique mondial et des organisations supranationales comme la Commission européenne. Vous trouverez d'autres entreprises et ressources réputées ayant fait référence à AIMultiple. Tout au long de sa carrière, Cem a exercé les fonctions de consultant, d'acheteur et d'entrepreneur dans le secteur des technologies. Il a conseillé des entreprises sur leurs décisions technologiques chez McKinsey & Company et Altman Solon pendant plus de dix ans. Il a également publié un rapport McKinsey sur la numérisation. Il a dirigé la stratégie technologique et les achats d'un opérateur télécom, sous la responsabilité directe du PDG. Il a également piloté la croissance commerciale de la société de deep tech Hypatos, qui a atteint un chiffre d'affaires annuel récurrent à sept chiffres et une valorisation à neuf chiffres en seulement deux ans. Les travaux de Cem chez Hypatos ont été présentés dans des publications technologiques de référence telles que TechCrunch et Business Insider. Cem intervient régulièrement lors de conférences internationales sur les technologies. Diplômé en génie informatique de l'université de Bogazici, il est également titulaire d'un MBA de la Columbia Business School.
Voir le profil complet

Soyez le premier à commenter

Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.

0/450