Contactez-nous
Aucun résultat trouvé.

Des agents d'IA mobile testés sur 65 tâches réelles

Cem Dilmegani
Cem Dilmegani
mis à jour le Jan 23, 2026
Consultez notre normes éthiques

Nous avons passé 3 jours à évaluer les performances de quatre agents d'IA mobiles ( DroidRun, Mobile-Agent, AutoDroid et AppAgent ) sur 65 tâches réelles à l'aide d'un émulateur Android avec des applications telles que la gestion de calendrier, la création de contacts, la capture de photos, l'enregistrement audio et les opérations sur les fichiers.

Consultez les résultats des tests de performance, notamment la comparaison des performances réelles, les coûts et les temps d'exécution :

Comparaison des performances des agents d'IA mobile

Loading Chart

DroidRun

Taux de réussite le plus élevé (43 %) avec un coût élevé par tâche réussie (0,075 $, ~3 225 jetons)

DroidRun a affiché les meilleures performances avec un taux de réussite de 43 % sur les 65 tâches. Si l'on considère uniquement la tâche réussie par tous les agents, DroidRun a consommé en moyenne 3 225 jetons, soit un coût de 0,075 $ par tâche.

Cette consommation importante de ressources s'explique par l'architecture de raisonnement multi-étapes de DroidRun, où l'agent assure un suivi précis de l'état, génère des plans d'action explicites et fournit des explications pour chaque décision. Bien que coûteuse, cette approche globale offre le taux de réussite le plus élevé du test de performance.

Agent mobile

Performances solides (29 %) et rapport coût-efficacité avantageux (0,025 $, ~1 130 jetons)

L'agent mobile a obtenu le deuxième meilleur taux de réussite (29 %) tout en conservant une rentabilité raisonnable. Pour les tâches courantes réussies par tous les agents, l'agent mobile a consommé en moyenne 0,025 $ et 1 130 jetons par tâche.

Cela représente environ un tiers du coût par tâche de DroidRun tout en atteignant environ les deux tiers de son taux de réussite, faisant de Mobile-Agent une option intéressante pour les déploiements où les contraintes budgétaires sont importantes.

Toutefois, l'écart de 14 points de pourcentage dans le taux de réussite suggère que les capacités de raisonnement supplémentaires de DroidRun apportent une valeur ajoutée significative aux applications critiques.

AutoDroid

Rapport coût-efficacité optimal (14 % de réussite, 0,017 $, environ 765 jetons), mais efficacité limitée.

AutoDroid a démontré le coût le plus bas sur les tâches courantes réussies, à seulement 0,017 $ et 765 jetons par tâche, ce qui en fait l'option la plus économique du comparatif.

Cependant, son taux de réussite de 14 %, soit moins de la moitié des performances de Mobile-Agent et environ un tiers de celles de DroidRun, indique que cet avantage en termes de coût s'accompagne de compromis importants en matière de fiabilité.

Malgré l'utilisation d'une approche basée sur l'action similaire à celle de DroidRun, la surcharge de raisonnement minimale d'AutoDroid entraîne des économies substantielles, mais une capacité d'exécution des tâches limitée.

Agent d'application

Performances les plus faibles (7 % de réussite) pour un coût maximal (0,90 $, soit environ 2 346 jetons).

AppAgent a enregistré le taux de réussite le plus faible (7 %) et le coût le plus élevé pour les tâches courantes (0,90 $ et 2 346 jetons par tâche), soit douze fois plus cher que DroidRun et plus de cinquante fois plus cher qu'AutoDroid.

Ce faible rapport coût-performance s'explique par l'approche d'AppAgent, basée sur la vision, qui traite des captures d'écran annotées via des LLM multimodaux pour chaque interaction. Chaque capture d'écran envoyée au LLM multimodal consomme un nombre important de jetons d'entrée pour le traitement d'image, tandis que les réponses textuelles (jetons de complétion) restent relativement modestes.

Cela crée une distribution de jetons très déséquilibrée où la surcharge liée au traitement visuel domine le coût sans amélioration correspondante de l'exécution des tâches, car l'agent peine à effectuer des calculs de coordonnées et à identifier les éléments d'interface utilisateur sur les interfaces mobiles.

comparaison du temps d'exécution des agents d'IA mobile

Sur la tâche unique que tous les agents ont accomplie avec succès, AutoDroid a été le plus rapide en 57 secondes, suivi de près par Mobile-Agent en 66 secondes. DroidRun a terminé la tâche en 78 secondes, démontrant ainsi que son architecture de raisonnement multi-étapes permet toujours une exécution efficace malgré une consommation de jetons plus élevée.

AppAgent a affiché une latence nettement plus élevée de 180 secondes, en raison de son approche basée sur la vision nécessitant un traitement intensif des captures d'écran via des LLM multimodaux pour chaque interaction.

Vous pouvez consulter notre méthodologie de référence ici.

Aperçu des agents d'IA mobiles

Le nombre d'étoiles sur GitHub évolue rapidement, et nous mettrons le tableau à jour en conséquence.

DroidRun

DroidRun est un framework open source permettant de créer des agents d'IA natifs pour appareils mobiles, capables de contrôler de manière autonome des applications et des téléphones mobiles. Ce framework fondamental convertit les interfaces utilisateur en données structurées avec lesquelles de grands modèles de langage peuvent interagir, rendant possible une automatisation complexe directement sur les appareils mobiles.

DroidRun a rapidement gagné en popularité : plus de 900 développeurs se sont inscrits en 24 heures, et le projet a atteint 3 800 étoiles sur GitHub, ce qui en fait l’un des frameworks à la croissance la plus rapide pour les agents d’IA mobiles.

Voyez-le en action :

AutoDroid

AutoDroid est un système d'automatisation des tâches mobiles conçu pour exécuter des tâches arbitraires dans n'importe quelle application Android sans configuration manuelle. Il exploite le raisonnement de grands modèles de langage comme GPT-4 et Vicuna, combiné à une analyse automatisée spécifique à l'application.

AutoDroid introduit une représentation d'interface utilisateur fonctionnelle pour connecter les interfaces d'applications aux modèles de langage (LLM), utilise l'injection de mémoire basée sur l'exploration pour enseigner au modèle les comportements spécifiques à l'application et inclut une optimisation des requêtes pour réduire les coûts d'inférence. Évalué sur un ensemble de référence de 158 tâches, il a atteint une précision d'action de 90,9 % et un taux de réussite des tâches de 71,3 %, surpassant ainsi les modèles de référence utilisant uniquement GPT-4. 1

Agent mobile

Le dépôt GitHub X-PLUG/MobileAgent est l'implémentation officielle de Mobile-Agent, un framework d'agent IA conçu pour contrôler de manière autonome les applications mobiles en percevant et en raisonnant sur leurs représentations visuelles d'interface utilisateur.

Ce projet, issu du groupe X-PLUG de l'université Tsinghua et présenté à ICLR 2024, vise à repousser les limites des agents mobiles grâce à l'apprentissage multimodal, notamment la perception visuelle et le suivi d'instructions. Visionnez la vidéo pour le voir en action.

Agent d'application

Le dépôt GitHub TencentQQGYLab/AppAgent est un projet de recherche open source du QQG Y-Lab de Tencent. Il présente AppAgent, un framework d'agent d'IA mobile conçu pour fonctionner de manière autonome et interagir avec les applications Android sans nécessiter de code écrit par un humain pour chaque application.

Source : AppAgent 2

Caractéristiques des agents d'IA mobiles

Gestion des commandes orientée vers un objectif

L'agent détermine les applications à ouvrir, les actions à effectuer et leur ordre d'exécution. Par exemple, les utilisateurs indiquent l'action souhaitée (par exemple : « Réserver une course pour l'aéroport »), et non les étapes individuelles.

Raisonnement fondé sur un LLM

S'appuyant sur de grands modèles de langage (par exemple, GPT-4, Claude, Gemini), ces agents peuvent :

  • Identifier l'intention de l'utilisateur et le contenu de l'écran
  • Élaborer des plans d'action logiques et détaillés
  • S'adapter aux changements dynamiques de l'interface utilisateur dans les différents états de l'application

Contrôle structuré et natif des applications

Au lieu de recourir au web scraping :

  • Les agents extraient les hiérarchies d'interface utilisateur structurées (par exemple, les arbres XML de boutons et de champs).
  • Ils interagissent directement avec les éléments d'interface utilisateur, les traitant comme des API de premier ordre.
    • Exemple : DroidRun utilise les API d’accessibilité Android pour lire et interagir avec les éléments d’interface utilisateur réels.

Exécution de flux de travail inter-applications

Les agents interagissent avec plusieurs applications et suivent des flux de travail complexes. Ils peuvent revoir leur plan si une étape intermédiaire échoue. Par exemple : « Télécharger un fichier depuis un e-mail → le charger sur Google Drive → envoyer une confirmation. »

Exécution dans le cloud et sur l'appareil pour les agents d'IA mobiles

Les agents d'IA mobiles peuvent s'exécuter dans le cloud, sur l'appareil ou utiliser une approche hybride.

Les agents basés sur le cloud se connectent à des modèles tels que GPT-4, Claude ou Gemini via des appels d'API. Ceci permet un raisonnement sophistiqué et l'exécution de tâches en plusieurs étapes. Cependant, cela implique la transmission des données d'écran et du contexte utilisateur à des serveurs externes, ce qui soulève des problèmes de confidentialité, notamment pour les applications sensibles. Les performances dépendent également d'une connexion réseau stable.

Les agents embarqués exécutent les modèles directement sur le matériel mobile, conservant ainsi toutes les données en local. Ceci élimine les risques de transmission et permet un fonctionnement hors ligne. En contrepartie, la capacité des modèles est limitée : les NPU et GPU mobiles actuels restreignent la taille des modèles, ce qui peut réduire la précision des tâches de raisonnement complexes.

Les architectures hybrides combinent les deux approches. Des modèles légers embarqués gèrent les tâches routinières et la classification initiale des intentions, tandis que les opérations complexes sont acheminées vers des modèles LLM dans le cloud. Apple Intelligence et Gemini Nano suivent ce modèle, traitant les requêtes simples localement et intensifiant la charge en cas de besoin. L'équilibre optimal entre traitement local et cloud continue d'évoluer au fur et à mesure des améliorations apportées au matériel d'IA embarqué.

Risques liés à la sécurité et à la confidentialité des agents d'IA mobiles

Les agents d'IA mobiles lisent le contenu des écrans, naviguent dans les applications et exécutent des actions, obtenant ainsi un accès étendu aux données sensibles des utilisateurs. Cela soulève plusieurs préoccupations :

  • Exposition du contenu à l'écran : les agents peuvent transmettre des mots de passe, des messages et des données financières à des serveurs LLM dans le cloud pour traitement.
  • Fuite d'identifiants : les flux de connexion automatique peuvent exposer involontairement les mots de passe enregistrés et les jetons d'authentification.
  • Conservation des données floue : la manière dont les journaux des agents et les captures d’écran sont stockés ou partagés est souvent difficile à déterminer.
  • Risque d'injection de prompts : un contenu malveillant dans une application pourrait manipuler le comportement de l'agent via un texte d'interface utilisateur spécialement conçu.

Pour faire face à ces risques, une approche par couches est nécessaire :

  • Traitement sur l'appareil : l'exécution locale des modèles réduit la nécessité de transmettre des données sensibles à des serveurs externes.
  • Masquage des données personnelles : La détection et la suppression automatiques des informations personnelles avant les appels API limitent l'exposition.
  • Limites d'autorisation : limiter l'accès des agents aux catégories d'applications sensibles (banque, santé, messagerie) empêche les accès non intentionnels aux données.
  • Politiques d'API transparentes : choisir des fournisseurs dotés de politiques claires en matière de traitement et de conservation des données contribue à garantir la conformité.

Méthodologie de référence

Nous avons mené une évaluation comparative afin d'évaluer les performances d'agents mobiles d'IA fonctionnant sous Android dans des tâches réelles. Nous avons utilisé le framework AndroidWorld et testé tous les agents sur les mêmes tâches standard.

AndroidWorld Framework

AndroidWorld est une plateforme de benchmark open source développée spécifiquement par Google Research pour évaluer les agents mobiles. Cette plateforme vise à mesurer les performances des agents fonctionnant dans des applications Android réelles à travers des tâches standardisées.

La principale caractéristique d'AndroidWorld est qu'il utilise de véritables applications Android plutôt que des environnements de test artificiels et qu'il peut évaluer automatiquement les performances des agents. Nous avons utilisé 65 tâches dans cette étude. Ces tâches couvrent des scénarios d'utilisation quotidienne d'appareils mobiles, tels que la gestion du calendrier, l'ajout de contacts, l'enregistrement vocal, la prise de photos et les opérations sur les fichiers.

Configuration de l'environnement

Configuration du système : Pour configurer l'environnement de test, nous avons d'abord installé Android Studio sur le système d'exploitation Windows 11 et configuré l'émulateur Android officiel de Google.

Configuration de l'appareil virtuel : Nous avons créé un appareil virtuel simulant un Pixel 6. Les spécifications de cet appareil virtuel étaient les suivantes : système d'exploitation Android 13 (niveau d'API 33), résolution 1080×2400, 8 Go de RAM et 20 Go d'espace de stockage.

Configuration de l'émulateur : Pour intégrer l'émulateur à AndroidWorld, nous avons configuré le port gRPC sur 8554 car AndroidWorld communique avec l'émulateur via ce port.

Configuration de l'environnement Python : Pour préparer l'environnement Python, nous avons créé un nouvel environnement conda avec Python 3.11 à l'aide de Miniconda. Après avoir cloné le dépôt AndroidWorld depuis GitHub, nous avons installé toutes les dépendances avec pip. L'une des étapes les plus importantes d'AndroidWorld est la configuration de l'émulateur.

La commande d'installation a duré environ 45 à 60 minutes. Pendant ce processus, AndroidWorld a installé automatiquement toutes les applications Android à tester sur l'émulateur.

Création des données d'état initial : Le système a créé des données d'état initial pour chaque application. Par exemple, des événements ont été ajoutés à l'application Calendrier, des contacts à l'application Contacts et un podcast intitulé « banane » à l'application Podcasts. Des instantanés ont également été enregistrés pour chaque tâche, permettant ainsi à chacune de démarrer à partir d'un état initial vierge.

Intégrations d'agents

AutoDroid

Intégration d'AutoDroid : Pour intégrer AutoDroid, nous avons d'abord cloné le dépôt depuis GitHub et installé les packages Python nécessaires. La principale fonctionnalité d'AutoDroid est l'identification des éléments d'interface utilisateur par l'analyse XML et l'exécution des tâches grâce à une approche basée sur les actions.

L'agent attribue un numéro d'index à chaque élément cliquable ou focalisable à l'écran et reçoit des commandes du LLM telles que « tap(5) » ou « text('bonjour') ».

Interface AutoDroid : Pour l’intégration avec AndroidWorld, nous avons créé une classe d’interface nommée autodroid_agent.py. Cette interface effectue les configurations nécessaires dans la méthode d’initialisation d’AutoDroid, convertit l’objectif de la tâche provenant d’AndroidWorld en un format d’invite qu’AutoDroid peut transformer en véritables commandes ADB à l’aide des fonctions execute_adb_call d’AndroidWorld.

Flux d'exécution : Dans la méthode par étapes d'AutoDroid, l'agent prend d'abord une capture d'écran et un dump XML de l'écran, analyse les éléments d'interface utilisateur, envoie ces informations au LLM et effectue des actions de tapotement, de glissement ou de saisie de texte en fonction de la réponse reçue.

DroidRun

Intégration de DroidRun : Nous avons suivi une procédure d’intégration similaire pour DroidRun. Après avoir cloné le dépôt DroidRun depuis GitHub, nous avons installé les dépendances listées dans le fichier requirements.txt.

L'architecture de DroidRun est plus complexe car elle intègre un système de raisonnement multi-étapes et de suivi d'état. DroidRun peut expliquer non seulement ce qu'il fera à chaque étape, mais aussi pourquoi, et peut utiliser les résultats des étapes précédentes dans l'étape suivante.

Wrapper DroidRun : Nous avons créé le wrapper droidrun_agent.py pour l’intégration à AndroidWorld. L’élément principal de ce wrapper était de rendre la classe CodeActAgent de DroidRun compatible avec l’interface d’agent de base d’AndroidWorld.

Processus d'exécution : Lorsque nous appelons la méthode `execute_task` de DroidRun, l'agent effectue une phase de planification des tâches, puis exécute chaque étape et évalue les résultats. Nous avons adapté ce processus au modèle d'exécution pas à pas d'AndroidWorld. Nous avons également implémenté les outils utilisés par DroidRun (`tap_by_index`, `start_app`, `list_packages`, etc.) avec les commandes ADB d'AndroidWorld.

Agent d'application

Intégration d'AppAgent : L'intégration d'AppAgent se distinguait des autres car elle repose sur une approche visuelle. Après avoir cloné le dépôt AppAgent, nous avons intégré les fichiers Python du dossier « scripts » à AndroidWorld.

Approche basée sur la vision : le principe de fonctionnement d’AppAgent est le suivant : il prend d’abord une capture d’écran, puis calcule les cadres de délimitation des éléments d’interface utilisateur, les dessine sur la capture d’écran, attribue un numéro à chacun et envoie cette capture d’écran annotée à un module de langage multimodal. Ce module détermine visuellement l’élément sur lequel cliquer.

Configuration du wrapper : L’étape la plus importante de l’intégration d’AppAgent a consisté à rediriger la partie communiquant avec l’appareil Android via le module `and_controller.py` d’AppAgent vers l’émulateur d’AndroidWorld. Dans le wrapper `appagent_agent.py`, nous avons réimplémenté les méthodes `get_screenshot` et `get_xml` d’AppAgent pour qu’elles fonctionnent avec les API d’AndroidWorld. Nous avons également rendu le fichier `model.py` d’AppAgent, qui utilise le format d’API `OpenAI`, compatible avec l’API `OpenRouter`.

Agent mobile (M3A)

Intégration de Mobile-Agent (M3A) : L’intégration de M3A a constitué le processus le plus complexe, car ce système repose entièrement sur la vision et dispose d’une analyse d’interface utilisateur très détaillée. Après avoir cloné le dépôt M3A, nous avons également installé le framework d’interaction Android Mobile-Env, dont M3A dépend.

Analyse multi-étapes : le principe de fonctionnement de M3A repose sur la division de l’écran en grilles, l’analyse de chaque grille séparément et la planification multi-étapes. Lors de la création du wrapper m3a_agent.py, nous avons dû intégrer l’environnement de M3A à celui d’AndroidWorld. M3A utilise normalement son propre environnement mobile, mais nous l’avons redirigé vers celui d’AndroidWorld.

Appels LLM multiples : nous avons observé que M3A effectue plusieurs appels LLM à chaque étape (telles que la planification, la sélection d'actions, la vérification) et nous les avons rendus compatibles avec les limites d'étapes d'AndroidWorld.

Procédure de test et collecte de données

Déroulement des tests : La procédure de test pour chaque agent s'est déroulée comme suit : nous avons d'abord démarré l'émulateur avec un instantané vierge. Une fois l'émulateur complètement ouvert, nous avons exécuté le script run.py d'AndroidWorld. Nous avons exécuté 65 tâches séquentiellement pour chaque agent et utilisé Claude 4.5 Sonnet pour tous les agents.

Exécution des tâches : AndroidWorld a automatiquement effectué les étapes suivantes pour chaque tâche : chargement de l’état initial de la tâche, démarrage de l’agent, envoi de l’objectif de la tâche à l’agent, suivi des étapes de l’agent, arrêt lorsque le nombre maximal d’étapes est atteint ou lorsque l’agent indique « tâche terminée », et vérification de la réussite de la tâche.

Critères de réussite : Le système d’évaluation des tâches d’AndroidWorld inclut des critères de réussite prédéfinis. Par exemple, pour la tâche « Ajouter un contact nommé John Doe », AndroidWorld interroge la base de données des contacts pour confirmer l’ajout du contact.

Pour les tâches du calendrier, le système vérifie dans la base de données si l'événement a été créé avec la date, l'heure, le titre et la description corrects. À la fin de chaque exécution, AndroidWorld nous a fourni la durée d'exécution et le résultat (réussite/échec). Ces données ont été automatiquement enregistrées et utilisées pour l'analyse.

Collecte des données : Une fois le test de performance terminé, nous avons identifié la tâche accomplie avec succès par tous les agents. Chaque agent a ensuite exécuté cette tâche 10 fois, et le temps d’exécution moyen, le coût et la consommation de jetons ont été calculés afin d’obtenir des indicateurs de performance plus fiables.

Raisons potentielles des différences de performance des agents d'IA mobiles

Les différences observées proviennent principalement des choix architecturaux et des méthodes d'interaction.

DroidRun privilégie la fiabilité grâce à un raisonnement multi-étapes, une planification explicite et un suivi d'état. Cela améliore la réussite des tâches, mais augmente la consommation de jetons et le coût.

Mobile-Agent allie performance et efficacité. Son raisonnement simplifié et sa compréhension visuelle permettent de réduire les coûts tout en maintenant des taux de réussite satisfaisants, ce qui le rend adapté aux cas d'utilisation à budget limité.

AutoDroid privilégie l'exécution par actions avec une charge de raisonnement minimale. Il en résulte un coût minimal et des temps d'exécution très rapides, mais cela limite également sa capacité à gérer des tâches complexes ou ambiguës.

AppAgent repose fortement sur l'interaction visuelle via des LLM multimodaux. Le traitement fréquent des captures d'écran augmente la latence et le coût, tandis que les difficultés de coordination de l'interface utilisateur réduisent le taux de réussite des tâches.

FAQ

Les agents d'IA mobile sont des systèmes logiciels qui interagissent de manière autonome avec les utilisateurs et les applications mobiles. Ils utilisent le langage naturel et un raisonnement orienté vers un objectif pour accomplir des tâches à la place des utilisateurs. Contrairement aux outils d'automatisation traditionnels ou aux premiers assistants personnels, ces agents sont basés sur l'IA. Voici quelques exemples d'utilisation :

Automatisation des tests QA mobiles sans scripts de test
Automatisation des flux de travail mobiles tels que le téléchargement de documents d'identité ou la modification des paramètres de profil
Des assistants IA qui font fonctionner des applications pour les personnes malvoyantes, les personnes âgées ou toute autre personne.
Les tâches quotidiennes générales telles que la création d'événements dans le calendrier ou même la réalisation de leçons Duolingo.

Cem Dilmegani
Cem Dilmegani
Analyste principal
Cem est analyste principal chez AIMultiple depuis 2017. AIMultiple informe chaque mois des centaines de milliers d'entreprises (selon similarWeb), dont 55 % des entreprises du classement Fortune 500. Les travaux de Cem ont été cités par des publications internationales de premier plan telles que Business Insider, Forbes et le Washington Post, ainsi que par des entreprises mondiales comme Deloitte et HPE, des ONG comme le Forum économique mondial et des organisations supranationales comme la Commission européenne. Vous trouverez d'autres entreprises et ressources réputées ayant fait référence à AIMultiple. Tout au long de sa carrière, Cem a exercé les fonctions de consultant, d'acheteur et d'entrepreneur dans le secteur des technologies. Il a conseillé des entreprises sur leurs décisions technologiques chez McKinsey & Company et Altman Solon pendant plus de dix ans. Il a également publié un rapport McKinsey sur la numérisation. Il a dirigé la stratégie technologique et les achats d'un opérateur télécom, sous la responsabilité directe du PDG. Il a également piloté la croissance commerciale de la société de deep tech Hypatos, qui a atteint un chiffre d'affaires annuel récurrent à sept chiffres et une valorisation à neuf chiffres en seulement deux ans. Les travaux de Cem chez Hypatos ont été présentés dans des publications technologiques de référence telles que TechCrunch et Business Insider. Cem intervient régulièrement lors de conférences internationales sur les technologies. Diplômé en génie informatique de l'université de Bogazici, il est également titulaire d'un MBA de la Columbia Business School.
Voir le profil complet

Soyez le premier à commenter

Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.

0/450