Comparatif des plateformes d'agents IA : Claude Managed Agents vs Vertex Agent Engine (991259_843).

mis à jour le Mai 5, 2026

Nous avons comparé 4 plateformes d'agents d'IA selon 3 dimensions : achèvement des tâches (10 tâches de codage × 3 exécutions), capacités spécifiques au harnais (direction, reconnexion, rappel de longues conversations, gestion de fichiers volumineux) et coût.

Résultats de l'analyse comparative des plateformes d'agents IA

Plate-forme	Modèle	Taux de réussite	Temps d'arrêt	Coût	Jeton
Agents gérés par Claude	Claude Sonnet 4.6	30/30 (100%)	1 172 secondes	2,50 $	93k
Moteur d'agents IA Vertex	Gemini 2.5 Pro	30/30 (100%)	1 447 secondes	1,45 $	159k
OpenAI Réponses + IC	GPT-5.4	27/30 (90%)	522s	1,54 $	113k
Contrôle (auto-hébergé)	Claude Sonnet 4.6	30/30 (100%)	794s	1,96 $	464k

Claude Managed Agents et Vertex AI Agent Engine obtiennent tous deux un taux de réussite de 100 % à la suite de tests, Vertex étant plus avantageux en termes de coût (1,45 $ contre 2,50 $). Pour les fonctionnalités spécifiques aux harnais, disponibles uniquement sur les plateformes gérées (comme le pilotage en cours de flux, la déconnexion/reconnexion et la compression des conversations longues), Claude Managed Agents est le plus performant, mais Vertex Agent Engine l'égale lors des tests portables (compression et gestion des fichiers volumineux).

Principaux résultats de l'analyse comparative des tâches

Claude MA et Vertex AE ont obtenu le même taux de réussite de 30/30 (100 %). Les deux gèrent tous les types de tâches, y compris les tâches réseau (06, 10) qui ont déclenché OpenAI.
Les échecs de OpenAI sont dus à sa politique d'environnement isolé. Les tâches 06 (API REST) et 10 (téléchargeur simultané) nécessitent toutes deux des requêtes HTTP sortantes. L'environnement isolé de l'interpréteur de code restreint ces requêtes, et les deux tâches ont échoué respectivement 2/3 et 1/3. Nous avons constaté que GPT-5.4 peut écrire le code, mais l'environnement isolé ne permet pas son exécution fiable.
Vertex AE est le plus économique à 1,45 $ au total. Claude MA est le plus cher à 2,50 $. Il coûte 72 % plus cher que Vertex pour la même suite de tâches avec un taux de réussite identique.
Vertex AE est le plus lent. L'orchestration ADK gérée ajoute une surcharge.

capacités spécifiques au harnais

Deux plateformes sont comparées directement sur des fonctionnalités qui n'existent que grâce à un système de gestion intégré.

Voir la méthodologie de référence ci-dessous.

plateformes d'agents IA

Agents gérés par Claude

Claude Managed Agents (Anthropic) propose un environnement d'exécution d'agents hébergé, combinant sessions avec état, exécution d'outils intégrée, streaming événementiel et compactage automatique pour les charges de travail autonomes de longue durée. La plateforme se distingue par des fonctionnalités uniques, absentes des offres concurrentes, telles que l'injection d'événements utilisateur en cours de traitement pour le pilotage en temps réel, les flux SSE reprenables pour la déconnexion/reconnexion et l'intégration native avec le serveur MCP. L'ensemble de ces fonctionnalités est fourni sous forme de service entièrement géré, sans infrastructure à provisionner pour les développeurs. ¹

Le tarif est de 0,08 $ par heure de session, en plus des coûts standard des jetons de l'API Claude.

Avantages :

Les sessions avec état et injection d'événements en cours permettent aux nouveaux messages utilisateur de guider les agents pendant leur exécution.

Prise en charge de la déconnexion et de la reconnexion via des flux SSE persistants ; les sessions continuent de s’exécuter côté serveur malgré les interruptions réseau et les clients peuvent reprendre la consommation d’événements lors de la reconnexion.

L'ensemble d'outils de l'agent intégré regroupe bash, les opérations sur les fichiers (lecture, écriture, édition, glob, grep) et les outils Web (web_fetch, web_search) accessibles via un seul paramètre de configuration, éliminant ainsi le câblage d'outils personnalisés.

Intégration native du serveur MCP (Model Context Protocol) pour les extensions d'outils personnalisées sans modifier l'ensemble d'outils intégré de l'agent.

Inconvénients :

Actuellement en version bêta ; toutes les requêtes nécessitent l’en-tête bêta managed-agents-2026-04-01, et le comportement peut être amélioré entre les versions.
Claude uniquement, aucune flexibilité de modèle comparé à des plateformes comme AWS Bedrock AgentCore ou Northflank qui prennent en charge plusieurs fournisseurs de modèles.

Salesforce Agentforce

Salesforce Agentforce se différencie par son accès natif aux données CRM via le moteur de raisonnement Atlas et ses agents préconfigurés pour les flux de travail de vente, de service, de marketing et de commerce. ²

La plateforme s'intègre à MuleSoft Agent Fabric pour l'orchestration inter-systèmes et propose Agentforce 360 pour les partenariats AWS.

Agentforce sert les organisations qui ont besoin de flux de travail autonomes orientés client intégrés directement dans leur infrastructure Cloud existante Salesforce.

Avantages :

– L’accès natif aux données CRM via Atlas Reasoning Engine permet des actions d’agent contextuelles.

– Des agents préconfigurés pour les ventes, le service client, le marketing et le commerce permettent de réduire les délais de déploiement.

– Autorisation FedRAMP le Salesforce Cloud gouvernemental pour les industries réglementées.

– Le niveau gratuit de Foundations inclut 200 000 crédits Flex pour les tests initiaux.

Inconvénients :

– Solution SaaS exclusivement cloud, sans option de déploiement sur site.

– Agnosticisme limité du modèle ; par défaut, les modèles gérés par Salesforce avec un support de fournisseur externe restreint.

– Nécessite un investissement existant dans l’écosystème Salesforce pour réaliser sa pleine valeur.

Microsoft Copilot Studio

Avantages :

– Inclus avec Microsoft 365 licences Copilot pour une utilisation interne par l'agent sans frais supplémentaires. ³

– Agents vocaux en temps réel et assistance téléphonique IVR pour les scénarios de service client.

– FedRAMP autorisé par le gouvernement via Azure pour les déploiements dans le secteur public.

– Prend en charge les modèles OpenAI, Anthropic et les frameworks open-source dans un seul environnement de construction.

Inconvénients :

– Fonctionnalités limitées en dehors de l'écosystème Microsoft ; nécessite un engagement Azure ou M365 pour des capacités complètes.

– Pas de niveau gratuit permanent autonome ; nécessite un abonnement M365 Copilot existant pour l’utilisation incluse.

– Modèle d'IA vocale en temps réel hébergé en Amérique du Nord uniquement à partir d'avril 2026.

Copilot Studio est plus rentable pour les organisations utilisant déjà Microsoft 365, Teams et Azure, offrant une automatisation destinée aux employés qui hérite des configurations existantes en matière d'identité, de sécurité et de conformité.

Google Agentspace et Vertex AI Agent Builder

L'offre double de Google combine Agentspace pour la gestion des connaissances d'entreprise et Vertex AI Agent Builder pour le développement low-code, différenciée par l'intégration de modèles Gemini, le contexte inter-produits de Workspace Google et la prise en charge des entrées multimodales pour le texte, la voix et les images. ⁴

La plateforme offre 300 $ de crédits gratuits aux nouveaux utilisateurs et une tarification à l'utilisation pour Vertex AI Agent Engine.

Avantages :

– Un crédit gratuit de 300 $ pour les nouveaux utilisateurs permet un prototypage intensif sans investissement initial.

– Déploiement sur site pris en charge via Google Cloud distribué pour les environnements réglementés.

– FedRAMP autorisé via Google Cloud.

– Google ADK (Agent Development Kit) prend en charge le développement en code-first en Python, TypeScript, Go et Java.

Inconvénients :

– Gemini-limites de conception primaires flexibilité du modèle par rapport aux plateformes entièrement agnostiques.

Agents AWS Bedrock et AgentCore

AWS Bedrock Agents et la nouvelle plateforme AgentCore offrent une gestion d'infrastructure sans serveur pour les agents à l'échelle de l'entreprise, lancée lors de re:Invent 2025. ⁵

Les éléments différenciateurs incluent une tarification à l'utilisation de 0,0895 $ par heure vCPU pour le temps d'exécution AgentCore, des options de débit provisionné et Mem0 comme fournisseur de mémoire exclusif.

Avantages :

– Autorisation FedRAMP de niveau élevé sur AWS GovCloud pour les charges de travail sensibles.

– Le streaming bidirectionnel prend en charge les agents vocaux avec une parole simultanée de l'utilisateur et de l'agent.

– Un niveau gratuit est disponible pour les nouveaux clients AWS à des fins d'expérimentation initiale.

– Accès aux modèles de Anthropic, Amazon, Meta, Mistral et AI21 via le catalogue Bedrock.

Inconvénients :

– Aucun modèle d'agent préconfiguré spécifique au domaine ; nécessite une construction à partir de zéro à l'aide du SDK.

– Aucune option de déploiement sur site ; fonctionne exclusivement sur l’infrastructure AWS.

– La création d'agents nécessite un codage API/SDK important par rapport aux générateurs visuels.

AWS Bedrock s'adresse aux entreprises qui ont besoin d'une infrastructure d'agents évolutive et sans serveur, avec une intégration poussée dans l'écosystème AWS, offrant une rentabilité optimale grâce à une facturation granulaire basée sur l'utilisation.

IBM watsonx Orchestrate

IBM watsonx Orchestrate cible les entreprises réglementées avec plus de 150 agents préconfigurés spécifiques au domaine pour les RH, les achats, les ventes et la finance, ainsi que Skills Studio pour la création de compétences personnalisées. ⁶

La plateforme offre une flexibilité de déploiement hybride cloud et sur site grâce à IBM Cloud Pak pour Data et Software Hub.

Avantages :

– Installation sur site prise en charge via IBM Cloud Pak for Data pour les exigences de résidence des données.

– Plus de 150 agents et outils préconfigurés de IBM et de partenaires, avec plus de 80 intégrations d'applications d'entreprise, dont SAP, Salesforce et Workday.

– L’autorisation FedRAMP a été étendue en avril 2026 aux déploiements fédéraux.

– Une véritable indépendance vis-à-vis des modèles, permettant de prendre en charge plusieurs fournisseurs de LLM sans dépendance vis-à-vis d'un fournisseur unique.

Inconvénients :

– Pas de formule gratuite permanente ; un abonnement payant Essentials ou Standard est requis pour une utilisation continue.

– Les fonctionnalités vocales et de téléphonie sont disponibles dans watsonx Orchestrate via la configuration vocale native dans l'ADK et les intégrations avec des fournisseurs tels que Deepgram et ElevenLabs, bien que la téléphonie avancée puisse nécessiter une configuration supplémentaire.

– Structure tarifaire complexe nécessitant des devis personnalisés pour les fonctionnalités destinées aux entreprises.

Agents IA ServiceNow

Les agents d'IA de ServiceNow s'intègrent directement à la plateforme Now, se distinguant par une intégration native aux flux de travail informatiques, RH et de service client, au lieu de fonctionner comme une plateforme autonome.

La plateforme comprend une tour de contrôle IA pour la gouvernance, des flux de travail d'agents préconfigurés pour ITSM et HRSD, et un moteur de contexte reliant l'historique des politiques aux actions des agents. ⁷

Avantages :

– Hérite de la gouvernance, des règles SLA et des flux d'approbation existants de la plateforme Now.

– Les agents vocaux IA prennent en charge Genesys Cloud, Twilio et 3CLogic en tant que fournisseurs CCaaS.

– Les agents Web IA apprennent des démonstrations humaines pour automatiser les tâches basées sur le navigateur.

Inconvénients :

– Pas de formule gratuite permanente ; les nouveaux clients ne reçoivent que 100 appels gratuits avec Build Agent.

– L’autorisation FedRAMP High pour AI Agents, AI Agent Orchestrator et AI Agent Studio a été confirmée pour les clients de Government Community Cloud (GCC) à compter de mars 2026.

– Valeur limitée pour les organisations qui n'utilisent pas déjà ServiceNow pour la gestion de leurs services informatiques ou RH.

Kore.ai

Kore.ai se concentre sur l'IA conversationnelle d'entreprise avec plus de 300 agents préconfigurés, plus de 250 intégrations d'entreprise et une architecture indépendante du modèle prenant en charge les déploiements dans le cloud et sur site.

La plateforme dessert six secteurs d'activité, dont la banque, la santé et le commerce de détail. ⁸

Avantages :

– Infrastructure vocale native assurant des interactions vocales mondiales à faible latence.

– Déploiement flexible incluant des options sur site et dans le cloud privé.

– Soutenir plusieurs fournisseurs de programmes de maîtrise en droit (LLM).

Inconvénients :

– Pas de formule gratuite permanente ; offre seulement 500 $ de crédits uniques pour les tests initiaux.

LangGraph

Avantages :

– La licence open source du MIT autorise une utilisation et une modification commerciales sans restriction.

– Le contrôle déterministe du flux de travail via une architecture graphique garantit des chemins d'exécution reproductibles.

– L’intégration de l’observabilité LangSmith assure la surveillance et le traçage de la production.

Inconvénients :

– Pas de générateur visuel sans code ; nécessite du code Python ou JavaScript pour définir les graphes d’agents.

– Aucune intégration native de la voix ou de la téléphonie ; nécessite un codage personnalisé pour les canaux vocaux.

– Courbe d'apprentissage abrupte pour les équipes non familiarisées avec les paradigmes de programmation basés sur les graphes.

LangGraph convient aux équipes d'ingénierie qui développent des agents de qualité professionnelle nécessitant une logique conditionnelle complexe, une récupération des erreurs et une auditabilité des étapes d'exécution individuelles.

IA d'équipage

Avantages :

– L’abstraction basée sur les rôles reflète les structures d’équipe humaines pour une coordination intuitive des agents.

– Noyau open source gratuit sans frais de licence pour les déploiements auto-hébergés.

– Un éditeur visuel et un copilote IA sont disponibles gratuitement pour les membres de l'équipe non techniques.

Inconvénients :

– Absence de plateforme officielle de modèles gérée par les fournisseurs ; repose sur les contributions de la communauté.

– L’approche « code-first » nécessite des connaissances en Python pour la création d’agents.

– Le tarif du forfait entreprise n'est disponible que sur demande, ce qui peut engendrer une incertitude budgétaire pour les petites équipes par rapport à d'autres options open source.

CrewAI permet le prototypage rapide de pipelines d'agents basés sur les rôles, particulièrement adaptés au traitement de documents, aux flux de travail de recherche et aux tâches de génération de contenu en plusieurs étapes.

n8n

n8n fonctionne sous une licence de code équitable (Sustainable Use License), offrant plus de 400 connecteurs d'applications natives avec des nœuds d'IA visuelle et une infrastructure auto-hébergée.

Avantages :

– L’édition communautaire auto-hébergée inclut gratuitement l’authentification unique SAML, LDAP, le contrôle d’accès basé sur les rôles (RBAC) et des coffres-forts de secrets chiffrés.

– Prise en charge native de LangChain et LlamaIndex dans les flux de travail visuels.

– L’éditeur de flux de travail visuel permet une automatisation complexe sans programmation.

Inconvénients :

– La licence Fair-code exige une licence payante pour l'hébergement commercial ou les produits SaaS.

– Pas de module vocal ou téléphonique natif ; nécessite une intégration API externe pour la voix.

– Aucune autorisation FedRAMP confirmée.

n8n fait le lien entre l'automatisation traditionnelle des flux de travail et les agents d'IA, au service des analystes techniques et des équipes DevOps qui exigent un déploiement auto-hébergé pour la résidence des données tout en conservant des capacités de construction visuelle.

Dify

Dify est une plateforme LLMOps open source.

La plateforme prend en charge les pipelines RAG, les outils d'ingénierie rapide et une architecture indépendante du modèle.

Avantages :

– L’édition communautaire auto-hébergée est gratuite en permanence et offre un contrôle total des données via le déploiement Docker.

– Le générateur de flux de travail visuel permet la création d'agents complexes sans programmation.

– Prend en charge des centaines de LLM propriétaires et open source provenant de dizaines de fournisseurs d'inférence.

Inconvénients :

– La prise en charge vocale nécessite des plugins de marché tels qu'Agora ou Tencent RTC ; pas de téléphonie PSTN native.

– Aucune autorisation FedRAMP.

– L’abonnement Cloud Team à 159 $ par mois peut s’avérer coûteux pour les petites équipes.

Dify convient aux équipes produit et opérations qui ont besoin d'agents capables de gérer les documents et dotés de solides capacités RAG, en particulier celles qui privilégient le contrôle des données grâce à l'auto-hébergement.

Flux vocal

Voiceflow se distingue comme la seule plateforme majeure à considérer la conception d'agents vocaux comme une composante à part entière plutôt que comme un module complémentaire, en proposant un canevas de conception spécialement conçu pour les agents vocaux et de chat avec une latence inférieure à 500 ms.

La plateforme est spécialisée dans l'automatisation des tickets de service client et les systèmes IVR.

Avantages :

– Canaux vocaux et téléphoniques natifs avec prise en charge IVR et latence inférieure à 500 ms.

– Capacités d'extraction d'entités pour les requêtes de bases de connaissances.

– Le forfait gratuit comprend 2 agents et 100 jetons d'IA mensuels sans date d'expiration.

– Canevas visuel conçu spécifiquement pour les flux de travail d'IA conversationnelle.

Inconvénients :

– Le déploiement sur site est uniquement disponible via des accords d'entreprise personnalisés.

Voiceflow s'adresse aux équipes CX et de support qui développent des agents conversationnels destinés aux clients et qui nécessitent un déploiement sur les canaux vocaux, de chat et de messagerie à partir d'une interface de conception unique.

Pertinence IA

Relevance AI offre une flexibilité BYOLLM (Bring-Your-Own-LLM) avec un modèle de facturation basé sur l'action, permettant aux équipes non techniques de constituer des équipes multi-agents grâce à des descriptions en langage naturel.

Avantages :

– Le niveau gratuit comprend 100 crédits par jour sans date d'expiration.

– Plus de 2 000 intégrations, dont HubSpot, Salesforce, Slack et Gmail.

– Un véritable agnosticisme des modèles soutenant plusieurs fournisseurs de LLM.

Inconvénients :

– Aucune option d'auto-hébergement ou de déploiement sur site ; solution SaaS exclusivement dans le cloud.

– Aucune autorisation FedRAMP pour les secteurs réglementés.

– Les fonctionnalités vocales nécessitent une intégration avec Vapi ou Twilio plutôt qu'avec la téléphonie native.

Lindy IA

Lindy AI propose diverses intégrations via Pipedream, des modèles d'agents préconfigurés pour le tri et la planification des e-mails, ainsi que des fonctionnalités d'agent téléphonique grâce à la fonction vocale Gaia. ⁹

La plateforme utilise un modèle d'exécution basé sur les crédits, avec un niveau gratuit disponible.

Avantages :

– La formule gratuite comprend 400 crédits par mois et une base de connaissances d'un million de caractères.

– Véritable indépendance vis-à-vis des modèles et vaste bibliothèque d'intégration.

Inconvénients :

– Le déploiement sur site est uniquement disponible via des accords d'entreprise personnalisés pour les secteurs réglementés.

Idéal pour les utilisateurs individuels, les fondateurs et les équipes opérationnelles qui ont besoin d'automatiser rapidement les flux de travail liés aux e-mails, aux calendriers et à la gestion de la relation client (CRM) sans ressources d'ingénierie.

Méthodologie

Qu'apporte réellement une plateforme d'agents IA managés par rapport à ses concurrents et à la possibilité de développer sa propre solution d'agents ? Le secteur des outils d'IA présente une lacune persistante à ce sujet. Les produits « agents managés » sont systématiquement comparés à l'aide des mêmes indicateurs de performance que ceux utilisés pour les modèles de langage bruts, ce qui confond deux choses très différentes : la capacité du modèle à générer du code correct et la capacité de la plateforme à exécuter ce code de manière fiable dans un environnement d'exécution managé avec gestion de l'état, outils et isolation. Nous avons conçu ce benchmark pour distinguer ces deux aspects.

Qu'est-ce qu'une plateforme d'agents gérés ?

Nous évaluons une catégorie spécifique : les environnements d’exécution hébergés qui regroupent l’inférence LLM, l’orchestration d’agents et l’exécution de code en sandbox au sein d’un service géré unique. Cette approche se distingue (1) des API d’inférence LLM brutes, (2) des frameworks d’orchestration d’agents que vous hébergez vous-même et (3) des sandboxes de calcul que vous associez à votre propre modèle. Les quatre plateformes testées présentent chacune une configuration légèrement différente de ce regroupement.

Claude Managed Agents (Anthropic) : Solution entièrement gérée. Définition des agents, sessions, flux événementiel, compactage et exécution des outils sont entièrement gérés côté serveur. L'un des deux seuls véritables concurrents dans cette catégorie.
Moteur d'agents Vertex AI (Google) : Infrastructure entièrement gérée. Déployez un agent défini par l'ADK sur un environnement d'exécution géré ; le déploiement héberge l'état de l'agent et l'exécution des outils. Accessible via le SDK vertexai.agent_engines.
OpenAI API de réponses avec interpréteur de code : Catégorie adjacente. API d'inférence avec un outil sandbox Python intégré, mais sans état de session persistant sur plusieurs tours ni pilotage en cours de traitement.
Contrôle : API Claude Messages avec boucle d’outils locale : Inclus comme référence. Même modèle que Claude MA (claude-sonnet-4-6), mais nous implémentons la boucle d’agent localement en environ 150 lignes de Python. Les outils (bash, write, read, edit) s’exécutent dans un répertoire temporaire par tâche sur la machine de test. Ceci isole la contribution du framework géré au-delà du « modèle plus boucle d’outils ». L’exécution de l’API Messages avec une boucle d’agent locale produit une comparaison où le modèle est identique mais le framework absent. Tout écart entre Claude MA et le contrôle est entièrement attribuable au framework, et non aux capacités du modèle.

La suite de tâches

Dix tâches de programmation réparties sur trois niveaux de difficulté. Chaque tâche comprend une consigne fixe précisant le résultat attendu, ainsi qu'un script de vérification définissant des critères de réussite/échec déterministes. Chaque tâche est exécutée trois fois par plateforme afin de mesurer la variance.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Suivre

tests de résistance spécifiques au harnais

La suite de tests évalue la correction de bout en bout. Elle ne peut pas mesurer les fonctionnalités qui dépendent d'un système de gestion : persistance de session avec état, pilotage en cours de traitement, reprise de connexion, compactage automatique du contexte et gestion des artefacts du système de fichiers. Pour ces fonctionnalités, nous avons conçu deux suites de tests supplémentaires.

Suite A : Pilotage et interruption

Trois tests mettant en œuvre des primitives spécifiques au harnais.

A1 lance un agent sur une tâche de codage, puis injecte un nouvel événement utilisateur via POST /events après 10 secondes modifiant les exigences, et vérifie en inspectant le système de fichiers du conteneur que l'artefact final reflète la nouvelle exigence plutôt que l'originale.

A2 ouvre un flux SSE, interrompt la connexion après quatre événements, se reconnecte et vérifie que la session atteint toujours le statut inactif.

A3 envoie une invite délibérément contradictoire et mesure si l'agent demande des éclaircissements ou choisit silencieusement une interprétation.

Seul A3 est portable sur différentes plateformes. L'injection d'événements en cours de traitement de A1 n'a pas d'équivalent direct sur les réponses OpenAI (requête/réponse unique) ni sur Vertex Agent Engine (le modèle de session ne prend pas en charge l'injection de messages en transit). De même, la déconnexion/reconnexion de A2 est sans équivalent. Il s'agit là d'avantages structurels inhérents au modèle de session événementiel de Claude MA, non comparables aux alternatives. Nous avons exécuté A1 et A2 uniquement sur Claude MA et A3 à la fois sur Claude MA et sur Vertex Agent Engine.

Suite B : Compactage et contexte

Deux tests mettant en œuvre les fonctionnalités de contexte géré.

B1 insère une chaîne de test unique (un jeton dérivé d'un UUID) au premier tour d'une session, exécute 23 tours de remplissage de petites tâches de codage indépendantes, chacune produisant des appels et des résultats d'outils, puis demande à l'agent de récupérer la chaîne de test en mémoire au 25e tour, sans accès à un fichier. La récupération réussie après ces 23 tours de remplissage prouve que le système préserve le contexte initial grâce à sa politique de compactage.

Le test B2 demande à l'agent de générer un fichier texte de 50 000 lignes contenant un marqueur caché, puis de répondre à une question nécessitant de localiser ce marqueur. Ce test vérifie si l'agent est capable de raisonner sur des artefacts plus volumineux que sa fenêtre de contexte sans tenter de lire l'intégralité du fichier.

Les deux B1 et B2 fonctionnaient sur Claude MA et Vertex Agent Engine, en utilisant les mêmes invites et protocoles.

LLM en tant que juge pour l'évaluation comportementale

Pour la suite A3 (contradictions), le critère réussite/échec n'est pas déterministe ; nous avons considéré la question de savoir si l'agent a demandé des précisions comme un jugement qualitatif sur le comportement conversationnel. Nous utilisons un modèle LLM-as-juge avec trois garde-fous méthodologiques :

Le modèle du juge est différent du modèle testé : Claude Opus 4.6 est le juge pour éviter le biais d'auto-évaluation.
Grille d'évaluation structurée avec 4 dimensions booléennes : Le juge renvoie un score JSON : contradiction reconnue, demande de clarification, hypothèse suivie, hypothèse documentée et un raisonnement d'un paragraphe.
Vérification de cohérence en 3 étapes : chaque jugement est exécuté 3 fois. Nous indiquons le consensus majoritaire et le taux d’accord par dimension. Si le taux d’accord d’une dimension est inférieur à 67 %, le jugement est considéré comme incohérent pour cette dimension et le résultat est jugé peu fiable.

Une heuristique de mots-clés est exécutée en parallèle à titre de vérification de cohérence. Les divergences entre l'heuristique et le jugement sont consignées pour un examen manuel.

Score

Pour chaque tâche exécutée sur chaque plateforme :

Réussite/échec
Temps d'exécution : Nombre de secondes écoulées entre l'envoi de l'invite et la réception de l'événement terminal (status_idle pour Claude MA, achèvement de la tâche pour Vertex AE, achèvement de la réponse pour OpenAI, sortie de la boucle d'outils pour le contrôle).
Nombre d'appels d'outils : invocations d'outils distinctes. Utile comme empreinte comportementale ; moins utile comme mesure d'efficacité car la granularité des outils diffère considérablement d'une plateforme à l'autre.
Utilisation des jetons : extraite des événements model_request_end sur Claude MA, des métadonnées d'utilisation sur Vertex AE, de response.usage sur OpenAI, et cumulée par tour dans la boucle de messages du contrôle. Décomposée en entrée, sortie, lecture du cache et création du cache.
Coût en USD : calculé à partir de l’utilisation des jetons par rapport aux prix publiés : claude-sonnet-4-6 à 3 $/15 $/0,30 $/3,75 $ par million ; gpt-5.4 à 2,50 $/15 $/0,25 $ ; gemini-2.5-pro à 1,25 $/10 $/0,13 $. Des frais d’infrastructure spécifiques à la plateforme sont ajoutés : 0,08 $/heure de session pour Claude MA, calculés au prorata du temps d’exécution ; 0,03 $/conteneur pour OpenAI lors de tout appel d’outil ; et environ 0,35 $/heure de frais d’hébergement pour Vertex AE, calculés au prorata de la disponibilité du déploiement.

Les résultats des suites A et B capturent en outre des indicateurs au niveau de la session (tours, rappel canary, consensus et accord des juges).

Considérations d'équité et limitations connues

Plusieurs asymétries dans la configuration influent sur la façon dont les nombres doivent être lus ; il convient de les mentionner explicitement :

L'outil de contrôle exécute les tâches sur la machine de référence sans passer par le cloud. Cela lui confère un avantage injuste en termes de temps d'exécution, qui reflète moins la vitesse de l'agent que les raccourcis réseau. Lorsque nous constatons que l'outil de contrôle termine les tâches environ 25 % plus rapidement que Claude MA sur le même modèle, la moitié de cet écart est due à l'asymétrie des temps d'aller-retour.

L'interpréteur de code OpenAI fonctionne dans un environnement isolé avec accès réseau restreint. Les tâches 06 (API REST) et 10 (téléchargeur simultané) nécessitent des requêtes HTTP sortantes, que l'interpréteur de code n'autorise que de manière intermittente. Les échecs de OpenAI sur ces tâches sont dus à des problèmes de sécurité liés à l'environnement isolé, et non à des défaillances du modèle. GPT-5.4 est capable de générer du code HTTP simultané correct ; la plateforme ne peut cependant pas toujours l'exécuter. Il ne faut pas interpréter le fait que OpenAI échoue sur les tâches réseau comme un problème du modèle.

La version Gemini 3.1-pro-preview est soumise à une autorisation de prévisualisation au niveau du projet. Nous avons tenté d'évaluer les performances de ce modèle à la fois via l'API Vertex directe et via Vertex Agent Engine. Les appels à l'API directe ont renvoyé une erreur 404 ; les déploiements via Agent Engine avec le modèle ont réussi lors du déploiement, mais les appels d'inférence n'ont renvoyé aucun événement, sans erreur. Nous avons donc utilisé la version gemini-2.5-pro.

Une série de tâches de refactorisation de plusieurs heures, le débogage dans des bases de code inconnues ou des flux de travail autonomes de longue durée solliciteraient différemment les harnais et permettraient probablement de mieux distinguer les options de haut niveau.

Nous n'avons pas mesuré la latence de provisionnement, le comportement au démarrage à froid, les performances des sessions simultanées ni les limites de débit. Ces paramètres sont importants pour les charges de travail de production à haut débit, mais n'entraient pas dans le cadre de cette étude.

Caractéristiques communes à toutes les plateformes d'agents IA

Chaque plateforme de ce comparatif offre des fonctionnalités de base qui définissent la catégorie des agents d'IA. Ces caractéristiques communes constituent le produit minimum viable pour l'automatisation par agents, tandis que les fonctionnalités différenciantes déterminent le choix de la plateforme.

Orchestration multi-agents : Toutes les plateformes prennent en charge l’orchestration multi-agents, bien que la mise en œuvre varie (voir les sections relatives à chaque plateforme ci-dessus).

Utilisation des outils et intégrations externes : les agents, quelle que soit la plateforme, peuvent interroger des API externes, des bases de données et des applications métier. Le nombre de connecteurs préconfigurés varie d’une cinquantaine (Dify) à plus de 2 000 (Relevance AI), toutes les plateformes prenant en charge les définitions d’API personnalisées.

Gestion de la mémoire persistante et du contexte : la conservation des informations au sein des sessions (mémoire à court terme) et entre les sessions (mémoire à long terme) est une fonctionnalité standard, réalisée grâce à des bases de données vectorielles, des objets de session ou des fenêtres de contexte configurables selon la plateforme.

Surveillance et observabilité : chaque plateforme expose des journaux, des traces ou des analyses permettant d’inspecter l’exécution des agents, de suivre l’utilisation et la latence des jetons et d’identifier les défaillances.

Supervision et contrôles humains : des mécanismes de vérification, d’approbation ou de modification des actions des agents sont présents sur toutes les plateformes. Citons par exemple les contrôles d’approbation par outil de n8n, les primitives d’interruption et de reprise de LangGraph, les contrôles de stratégie de Bedrock AgentCore, ServiceNow AI Control Tower et l’escalade automatique de Lindy.

Génération augmentée par la base de connaissances (RAG) : L’ancrage des agents dans des connaissances personnalisées grâce à l’indexation et à la recherche de documents est une capacité fondamentale pour cette catégorie. Parmi les implémentations, on peut citer le pipeline RAG de Dify, la base de connaissances Voiceflow, les bases de connaissances Bedrock, le moteur RAG de Vertex AI et l’IA de recherche Kore.ai.

Interface de création d'agents sans code ou à faible code : des interfaces graphiques ou en langage naturel pour la création d'agents sont disponibles sur toutes les plateformes. Les plateformes d'entreprise proposent des studios sans code (Agentforce Builder, Copilot Studio, watsonx Orchestrate), tandis que les frameworks de développement fournissent des outils visuels complémentaires (LangGraph Studio, AutoGen Studio, CrewAI Studio).