Contactez-nous
Aucun résultat trouvé.

Agents d'IA : comparaison entre l'utilisation par un opérateur, par navigateur et avec Project Mariner

Cem Dilmegani
Cem Dilmegani
mis à jour le Jan 22, 2026
Consultez notre normes éthiques

Les agents d'IA sont de plus en plus présentés comme des assistants numériques complets, mais leurs performances réelles peuvent varier considérablement selon la tâche, les outils et l'environnement d'exécution. Afin de comprendre ce que ces systèmes peuvent réellement apporter aujourd'hui, nous avons mené des tests comparatifs pratiques dans des scénarios d'entreprise concrets.

Nous avons passé plus de 40 heures à tester les 5 meilleurs agents d'IA pour voir s'ils pouvaient nous aider à

Résultats de l'analyse comparative des flux de travail d'entreprise

L'agent ChatGPT est l'agent le plus performant de ce test de référence et a réalisé 80 % de la tâche de référence.

Loading Chart

Agent ChatGPT

L'agent ChatGPT est conçu pour connecter l'opérateur OpenAI et la recherche approfondie en lui permettant d'exécuter des tâches longues nécessitant des capacités d'analyse. L'opérateur OpenAI est obsolète depuis la sortie de l'agent ChatGPT.

Il permet à l'utilisateur de prendre le contrôle de la connexion aux comptes ou de l'exécution de tâches difficiles pour l'agent.

Il affiche en temps réel le navigateur utilisé et explique les actions qu'il effectue.

L'agent a géré avec succès la navigation, la création de branches et les mises à jour des graphiques, mais n'a pas réussi à mettre à jour la configuration des boutons comme demandé, en particulier la création de boutons pour chaque catégorie de données tout en conservant le style et les fonctionnalités existants.

Projet Mariner Google

Le projet Mariner (Google) n'est pas encore disponible au public, mais il est possible de le tester après avoir été inscrit sur la liste d'attente et après autorisation. Il fonctionne directement dans le navigateur, sous forme d'extension Chrome. Il peut être utilisé dans le cadre d'un processus nécessitant une intervention humaine. Par exemple, lorsqu'un CAPTCHA s'affiche, Mariner invite l'utilisateur à prendre le relais et à le résoudre.

Utilisation du navigateur

Browser Use est un agent d'IA open source que vous pouvez utiliser avec vos clés API.

Vous pouvez observer les actions de l'agent dans l'onglet du navigateur qu'il ouvre, et vous pouvez également lire certains résultats de ses actions sur votre terminal. 1

Il s'est connecté à observablehq.com et a dupliqué le modèle avec succès. Cependant, il a ensuite supprimé le modèle original. Il n'a pas réussi à nommer correctement le notebook dupliqué. Nous lui avons demandé de conserver le style de la cellule, mais il n'y est pas parvenu et n'a pas pu y écrire de code. Il n'a pas pu modifier le code du graphique ni celui des boutons.

Nous avons utilisé l'utilisation du navigateur avec la clé API ChatGPT-4o.

L'utilisation du navigateur peut également être utilisée dans une interface Web, mais nous ne l'avons pas utilisée dans cette tâche. 2

Anthropic Utilisation de l'ordinateur

Le projet Anthropic se concentre sur la sécurité de l'IA, et nous avons constaté ces efforts dans leur agent. Nous avons essayé toutes les solutions possibles, mais l'agent n'a pas pu se connecter à notre compte ObservableHQ. Il a refusé la connexion pour des raisons de sécurité.

De plus, il n'est pas possible de prendre le contrôle du processus à partir de l'agent et de le laisser continuer puisque nous avons utilisé l'environnement virtuel recommandé par Anthropic.

Par conséquent, l'agent n'a pas obtenu de points pour notre tâche puisqu'il n'a pas pu progresser.

Tarification comparative des agents IA pour les flux de travail métier

Anthropic L'utilisation de l'ordinateur nécessite des clés API, ce qui la rend potentiellement plus coûteuse pour les tâches longues que d'autres options.

L'agent ChatGPT peut être utilisé avec un compte ChatGPT.

Browser Use est un outil open source dont le seul coût est celui des appels API.

Méthodologie d'évaluation comparative des flux de travail d'entreprise

Notre objectif était de vérifier si des agents pouvaient faciliter nos processus métier. Nous souhaitions tester un exemple concret issu de notre entreprise ; nous avons donc décidé de vérifier s’ils pouvaient préparer les graphiques interactifs que nous avions créés sur observablehq.com.

Avec cette tâche, nous souhaitions observer leur utilisation des outils et leurs compétences en programmation.

Bien que nous disposions de modèles de graphiques, la modification des données nécessite la modification des extraits de code pour les graphiques et les boutons.

Nous leur avons fourni la consigne suivante :

# Instructions de mise à jour du modèle observable

J'ai un modèle de graphique sur observablehq.com et, à partir de ce modèle, je souhaite que vous créiez de nouveaux graphiques avec les nouvelles données que je vous fournirai. Voici les instructions :

1. Accès et configuration

– Rendez-vous sur observablehq.com

– Trouvez le modèle nommé « vis_template » et dupliquez-le, nommez le fork « new_graph1 », dans la section des notebooks.

2. Structure du modèle

– Cellule de style : Ne pas modifier (contient les paramètres de police)

– Cellule Boutons : Doit être mise à jour en fonction des nouvelles données

– Cellule du graphique : Doit être mise à jour en fonction des nouvelles données

3. Gestion des données

Vous recevrez des données sur les plateformes et leurs scores pour différentes catégories.

– Les noms de plateforme et les noms de catégorie dans les données peuvent différer du modèle.

– La structure des données sera toujours la suivante : des plateformes avec des scores (0-1) pour chaque catégorie

4. Mises à jour requises

– Boutons :

* Créez un bouton pour chaque catégorie dans les nouvelles données

* Conservez « Global » comme premier bouton

* Conserver le style des boutons et la conception adaptative existants

– Graphique :

* Mettre à jour les noms des plateformes sur l'axe des ordonnées

* Mettre à jour toutes les valeurs et tous les calculs des scores

* Conserver le schéma de couleurs et les animations existants

* Assurer la compatibilité mobile (point de rupture < 500px)

5. Exigences de test

– Vérifiez que tous les boutons fonctionnent correctement.

– Vérifier les mises à jour du graphique lorsque des catégories sont sélectionnées

– Tester la mise en page adaptative sur les vues mobiles et de bureau

– S’assurer que le positionnement du logo reste correct avec les nouvelles données

N'oubliez pas : la structure et le style du modèle doivent rester inchangés ; mettez uniquement à jour les données et les éléments liés à la catégorie.

Voici les nouvelles données à utiliser : données = [

{ plateforme : « AcmeOCR », documents_numérisés : 0,95, texte_numérique : 0,99 },

{ plateforme : « TextPro », Documents_numérisés : 0,92, Texte_numérique : 0,97 },

{ plateforme : « DocReader », Documents numérisés : 0,88, Texte numérique : 0,96 },

{ platform: “SmartScan”, Scanned_docs: 0.85, Digital_text: 0.94 }

]

Afin de préserver notre objectivité, nous n'avons pas posé d'autres questions. Nous avons simplement répondu « Oui » à la question de savoir si nous souhaitions continuer et avons saisi nos identifiants pour nous connecter à observablehq.com.

Critères d'évaluation :

  1. Connectez-vous – ou demandez à l'utilisateur de se connecter à notre compte observablehq.com. (10 points)
  2. Trouver le modèle (10 points)
  3. Fork it (10 points)
  4. Changer son nom (10 points)
  5. Ne pas toucher à la cellule de style. (5 points)
  6. Mise à jour des données dans le code (15 points)
  7. Mise à jour du code graphique (20 points)
  8. Mise à jour du code du bouton (20 points)

Soyez prudent lorsque vous utilisez des agents d'IA sur vos propres comptes. Cela pourrait entraîner des problèmes de sécurité ou des activités indésirables.

Résultats de référence de la recherche Web

Pour étudier les cas d'utilisation en entreprise des agents d'IA, nous avons utilisé deux tâches de web scraping différentes. Tous les agents ont échoué à la plupart des tâches. L'utilisation de l'ordinateur (Anthropic) et Dendrite ont obtenu des résultats légèrement supérieurs à ceux de Phidata.

Pour en savoir plus sur le web scraping, vous pouvez consulter Roadmap to Web Scraping: Use Cases, Methods & Tools et RPA Web Scraping .

Tâche 1 :

Consigne : Indiquez tous les fournisseurs de GPU cloud proposant des GPU H100. Nous avons besoin de toutes les offres H100 de chaque fournisseur. Par conséquent, un fournisseur peut apparaître sur plusieurs lignes s’il propose plusieurs offres de GPU H100 (par exemple, une offre avec un seul GPU et une autre avec deux). Pour chaque ligne, nous avons besoin des informations suivantes : l’URL où l’offre est partagée, le nombre de GPU (un entier) et le prix horaire (en dollars, décimal). Le résultat doit être au format JSON.

Nous avons évalué leurs capacités à

  • Trouvez toutes les sources correctes (Figure 1)

  • Fournissez des informations correctes (Figure 2).

Figure 1 : Le pourcentage de sources correctement fournies par les produits.
Figure 2 : Le pourcentage d'exactitude des informations fournies par les produits.

Tâche 2 :

Consigne : Trouvez les entreprises technologiques B2B privées qui ont levé des fonds en octobre 2024. Formatez chaque résultat comme suit : [Company name] ont levé [amount] dans [secteur/industrie].

Dans cette tâche, l'utilisation de l'ordinateur (Figure 3) et de Phidata (Figure 4) n'a pas permis de fournir de réponses.

Figure 3 : Réponse de l'utilisation de l'ordinateur à notre tâche.
Figure 4 : La réponse de Phidata à notre tâche, elle a fourni des ressources pertinentes mais pas les réponses.

La recherche de ChatGPT a renvoyé 7 entreprises, dont 6 sont exactes. Cependant, une entreprise est indiquée comme ayant levé des fonds en août 2024, ce qui ne correspond pas à notre critère (levée de fonds en octobre 2024). Par conséquent, cette information est incorrecte.

Dendrite a correctement indiqué deux entreprises, alors qu'il en existe beaucoup plus. Cela s'explique par le fait qu'il s'est basé sur des résultats de recherche incomplets.

Perplexity a fourni 6 entreprises, et bien que leurs noms, les montants collectés et les secteurs d'activité soient exacts, aucune d'entre elles n'a terminé sa levée de fonds en octobre 2024. Par conséquent, ces informations ne répondent pas à nos exigences.

Les chefs de file de cette tâche sont donc ChatGPT search et Dendrite.

Anthropic Utilisation de l'ordinateur

L'utilisation d'un ordinateur génère de nombreux appels API pour une seule tâche. L'exécution d'un agent avec un ordinateur utilisé est lente.

Nous avons initialement rencontré des problèmes liés aux limites de débit de Anthropic. En mode Tier 1, Anthropic autorise 50 requêtes API par minute. Ce nombre étant insuffisant pour mener à bien nos tâches, nous avons dû exécuter l'invite de commande à plusieurs reprises.

Nous avons ensuite demandé une limite d'API plus élevée et l'avons obtenue en quelques heures, ce qui a facilité l'analyse comparative.

Perplexity

L'outil de recherche de Perplexity est accessible directement sur son site web. À l'instar de la recherche ChatGPT, il ne s'agit pas d'une IA active, mais nous avons choisi de l'inclure dans nos tests car notre tâche de référence implique l'extraction de données web.

La fonction de recherche de ChatGPT est accessible aux utilisateurs professionnels et aux membres d'équipe directement depuis l'interface ChatGPT. Bien qu'il ne s'agisse pas d'une IA autonome, nous l'avons incluse dans nos tests car ce benchmark porte sur l'extraction de données web.

Dendrite

Dendrite fournit sur son site web des exemples d'agents, comme des agents d'extraction de données, ce qui facilite la création de nouveaux agents.

Les agents de Dendrite sont plus lents que la plupart des autres agents dans ce test de performance.

Contrairement à d'autres agents, il exige que les utilisateurs saisissent la requête de recherche.

Phidata

Phidata fournit des exemples, comme des agents de recherche web, sur son site internet afin de faciliter la création de nouveaux agents. Nous avons développé un agent en quelques minutes.

Les résultats erronés fournis par les agents de Phidata dans notre analyse comparative renvoyaient vers des pages et des informations tarifaires inexistantes.

Prix des agents d'IA de référence pour la recherche Web

Le coût d'utilisation de l'ordinateur Anthropic est calculé en fonction des requêtes API. Par exemple, l'exécution de ces deux tâches nous a coûté environ 2,50 $, chacune étant exécutée plusieurs fois. 0,50 $ par exécution de tâche est un coût élevé. Si vous souhaitez utiliser l'automatisation des processus par agents , vous trouverez des solutions plus économiques.

La fonctionnalité de recherche de ChatGPT est disponible pour les utilisateurs abonnés aux forfaits Plus et Team, respectivement au prix de 20 $ par mois et 25 $ par utilisateur et par mois (facturés annuellement).

Dendrite propose une version gratuite limitée et une version Développeur à 30 $. Les détails concernant les limitations de la version gratuite seront communiqués dès leur publication officielle.

Phidata propose des formules gratuites, Pro et Entreprise. Les autres formules ne sont pas encore disponibles. L'entreprise annonce également qu'elle offrira une formule Pro gratuite aux étudiants, aux enseignants et aux start-ups.

Notre méthodologie pour l'évaluation comparative de la recherche Web

Versions : La dernière version est disponible depuis le 1er novembre 2024.

Environnement de déploiement :

  • Dendrite et Phidata ont été exécutés sur notre ordinateur portable.

  • Anthropic L'utilisation de l'ordinateur a été déployée sur une VM cloud car il était déconseillé de déployer sur les appareils des utilisateurs.

  • La fonction de recherche ChatGPT et Perplexity sont disponibles directement sur leurs sites Web respectifs.

Processus:

  • Pour évaluer les capacités de recherche web des fournisseurs, nous avons d'abord établi une liste de référence des fournisseurs de cloud H100 . Ensuite, nous l'avons comparée aux résultats des agents d'IA.

  • Pour évaluer l'exactitude des informations, nous avons vérifié tous les liens fournis afin de déterminer si les informations qu'ils nous ont communiquées étaient correctes ou non.

  • Nous n'avons pas tenté de recourir à une ingénierie rapide pour obtenir des résultats plus précis.

Notation :

Étant donné que le nombre de résultats fournis varie, nous avons veillé à ce que le système de notation soit le plus simple possible. Pour la tâche 1, si un produit renvoie une URL provenant d'une source non fiable, il obtient la note de 0.

De plus, le nombre de résultats varie de 6 à 28, il est donc important de noter qu'un produit avec 3 réponses correctes sur 6 résultats et un autre avec 14 réponses correctes sur 24 résultats reçoivent le même score dans la figure 2.

Nous n'avons pas évalué les produits pour la tâche 2, car les résultats de recherche varient considérablement selon le navigateur utilisé et la localisation de l'utilisateur, et les produits extraient les données en conséquence. Cependant, ChatGPT et Dendrite ayant fourni des résultats précis, ils sont considérés comme les meilleurs pour cette tâche.

Clause de non-responsabilité

Étant donné que les agents utilisent des navigateurs et des emplacements différents, ces modèles peuvent rencontrer des sources différentes lors de l'extraction de données Web. Par souci d'équité, toutes les sources potentielles ont été incluses dans notre base de données de référence.

Ces produits étant en version 1 ou bêta, ils présentent diverses limitations. Nous poursuivrons les tests de performance et mettrons à jour les résultats au fur et à mesure de leur évolution.

Ces modèles étant de développement récent, ils peuvent engendrer des failles de sécurité ; nous recommandons donc de les utiliser dans une machine virtuelle ou un conteneur. Le document Anthropic mentionne également la nécessité de prendre cette précaution lors de l'utilisation d'un ordinateur. 3

Figure 5 : Avertissement de Anthropic concernant l'utilisation de l'ordinateur.

FAQ

Les agents d'IA peuvent automatiser les flux de travail complexes, réduisant ainsi le besoin d'intervention humaine et augmentant l'efficacité. Capables de gérer les exceptions et les cas particuliers, ils sont plus fiables que les solutions d'automatisation traditionnelles.
Les agents d'IA peuvent accomplir des tâches difficiles ou fastidieuses pour les humains. Ils peuvent également être utilisés pour le traitement automatique du langage naturel, le traitement et l'analyse des données.

Choisissez un fournisseur en tenant compte de vos besoins, de vos capacités et des prix.
Ils peuvent être intégrés à des systèmes externes via des appels d'API et accéder à un large éventail de sources de données.
Lors de la conception de la tâche pour votre agent IA, vous devez être en mesure de fournir une consigne orientée vers un objectif et non déroutante pour le modèle.

Les agents d'IA doivent être conçus dans le respect de la confidentialité et de la sécurité des données, notamment par le biais de techniques telles que le chiffrement et le contrôle d'accès. À l'heure actuelle, nous vous recommandons de ne pas partager vos données sensibles avec les agents d'intelligence artificielle.

Les agents d'IA peuvent accroître l'efficacité et la productivité en automatisant les tâches répétitives et en libérant les agents humains pour qu'ils se concentrent sur des tâches plus complexes.
Ils peuvent analyser les données d'entreprise et automatiser les processus métier. Pour en savoir plus, consultez la section sur l'automatisation des processus par agents. En créant des agents autonomes, vous pouvez automatiser les processus et accomplir davantage de tâches.

Si vous utilisez un agent dans votre entreprise, utilisez des indicateurs tels que l'efficacité, la productivité et la satisfaction client pour mesurer le succès des agents IA.
Surveillez les performances des agents d'IA au fil du temps et effectuez les ajustements nécessaires.
Utiliser les données et l'analyse pour mieux comprendre les processus décisionnels et la fiabilité des agents d'IA.

Cem Dilmegani
Cem Dilmegani
Analyste principal
Cem est analyste principal chez AIMultiple depuis 2017. AIMultiple informe chaque mois des centaines de milliers d'entreprises (selon similarWeb), dont 55 % des entreprises du classement Fortune 500. Les travaux de Cem ont été cités par des publications internationales de premier plan telles que Business Insider, Forbes et le Washington Post, ainsi que par des entreprises mondiales comme Deloitte et HPE, des ONG comme le Forum économique mondial et des organisations supranationales comme la Commission européenne. Vous trouverez d'autres entreprises et ressources réputées ayant fait référence à AIMultiple. Tout au long de sa carrière, Cem a exercé les fonctions de consultant, d'acheteur et d'entrepreneur dans le secteur des technologies. Il a conseillé des entreprises sur leurs décisions technologiques chez McKinsey & Company et Altman Solon pendant plus de dix ans. Il a également publié un rapport McKinsey sur la numérisation. Il a dirigé la stratégie technologique et les achats d'un opérateur télécom, sous la responsabilité directe du PDG. Il a également piloté la croissance commerciale de la société de deep tech Hypatos, qui a atteint un chiffre d'affaires annuel récurrent à sept chiffres et une valorisation à neuf chiffres en seulement deux ans. Les travaux de Cem chez Hypatos ont été présentés dans des publications technologiques de référence telles que TechCrunch et Business Insider. Cem intervient régulièrement lors de conférences internationales sur les technologies. Diplômé en génie informatique de l'université de Bogazici, il est également titulaire d'un MBA de la Columbia Business School.
Voir le profil complet
Recherche effectuée par
Şevval Alper
Şevval Alper
Chercheur en IA
Şevval est analyste chez AIMultiple, spécialisé dans les outils de codage IA, les agents IA et les technologies quantiques.
Voir le profil complet

Soyez le premier à commenter

Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.

0/450