Évaluation comparative des cadres d'IA agentiques dans les flux de travail analytiques
Les cadres de construction de flux de travail multi-agents diffèrent considérablement dans la manière dont ils gèrent les décisions et les erreurs, mais leurs performances sur des données réelles imparfaites restent largement non testées.
Pour évaluer leurs performances sur des flux de travail analytiques réels, nous avons passé 3 jours à comparer LangGraph, LangChain, CrewAI et OpenAI Swarm en utilisant un ensemble de données de commerce électronique de 100 enregistrements avec des incohérences de données contrôlées telles que des ID manquants, des valeurs nulles et des formats de date incohérents.
Analyse comparative des agents
Chaque cadre a été évalué en termes de précision et d'efficacité des décisions , de performance d'intégration des outils et de performance d'exécution (temps et utilisation des jetons).
Précision et efficacité des décisions
- La précision des décisions mesure l'efficacité avec laquelle chaque cadre a résolu les problèmes liés aux données, notamment les valeurs nulles, les affectations par défaut, les mappages de champs et la récupération après une panne.
- L'efficacité de la décision représente la proportion de problèmes critiques résolus par rapport au nombre total de décisions. Un score de 100 % indique une résolution optimale en une seule étape, tandis que des valeurs inférieures indiquent des tentatives supplémentaires ou des cycles de décision redondants qui augmentent la charge de calcul. Vous pouvez consulter la méthodologie d' évaluation ici .
Essaim
Haute efficacité, haute précision (60 %, 90 %)
Swarm a atteint une précision élevée tout en maintenant une exécution efficace tout au long des flux de travail analytiques.
Les indicateurs de performance ont constamment affiché un faible nombre de décisions et un minimum de tentatives de reprise. Ce résultat reflète l'architecture modulaire et dédiée de Swarm, dans laquelle chaque agent gère des fonctions analytiques spécifiques, telles que l'analyse des indicateurs clés de performance (KPI) ou l'étude de la concurrence.
Swarm combine donc une coordination forte avec une distribution efficace des tâches , ce qui en fait une solution adaptée aux environnements analytiques multi-agents exigeant à la fois rapidité et précision.
LangGraph
Haute efficacité, haute précision (60 %, 100 %)
LangGraph a permis d'obtenir à la fois une grande précision et une exécution efficace, en réalisant des flux de travail analytiques avec moins d'événements de décision.
Les mesures issues de tests répétés ont systématiquement démontré des chemins d'exécution directs et un nombre minimal de tentatives. Ce comportement reflète l'architecture de LangGraph, basée sur les graphes, qui prédéfinit les dépendances d'exécution et réduit les opérations redondantes.
LangGraph offre ainsi des performances précises, cohérentes et efficaces , ce qui en fait un choix idéal pour les flux de travail analytiques structurés .
IA d'équipage
Faible efficacité, haute précision (21 %, 87 %)
CrewAI a atteint une précision élevée, mais a nécessité un nombre de décisions nettement supérieur pour mener à bien chaque flux de travail.
Les données enregistrées par DecisionTracker et AccuracyLatencyTracker ont montré de multiples événements de décision supplémentaires survenant après les défaillances des outils.
Ce modèle indique une forte tolérance aux pannes qui a permis d'obtenir des résultats finaux fiables, mais a augmenté la charge de calcul et le temps d'exécution.
CrewAI privilégie donc l'exhaustivité et la fiabilité des résultats à l'efficacité d'exécution.
Chaîne de Lang
Efficacité moyenne, précision faible (42 %, 78 %)
LangChain a démontré une efficacité modérée mais une précision inférieure à celle d'autres frameworks.
Les données enregistrées ont révélé des itérations de décision répétées suite à des défaillances d'outils, le système tentant de reproduire les mêmes opérations au lieu d'adopter des stratégies alternatives. Ce mode d'exécution séquentiel a limité l'efficacité de la récupération et a entraîné une réalisation partielle des tâches.
LangChain offre donc un débit raisonnable mais une faible tolérance aux pannes , ce qui le rend plus adapté aux flux de travail analytiques simples et à faible risque .
performance d'intégration des outils
Essaim
(Taux de réussite de la coordination des outils : 100 %)
Grâce à son architecture d'agents spécialisés, Swarm a maintenu un taux de réussite de 100 % pour ses outils. Différents agents ont géré des tâches analytiques telles que l'analyse des indicateurs clés de performance (KPI), la comparaison avec la concurrence et la conversion de devises, permettant ainsi des transitions de tâches fluides et une utilisation efficace des outils .
LangGraph
(Taux de réussite de la coordination des outils : 100 %)
LangGraph a atteint un taux de réussite d'exécution des outils de 100 %. Son orchestration basée sur un graphe a permis de cartographier efficacement les dépendances entre les outils et leur ordre d'exécution, évitant ainsi les appels redondants ou conflictuels. Le framework a démontré une grande fiabilité et une coordination cohérente entre tous les modules.
IA d'équipage
(Taux de réussite de la coordination des outils : 37 %)
CrewAI a affiché un faible taux de réussite d'exécution des outils, notamment dans les modules KPI et de validation. Malgré cela, toutes les tâches ont été menées à bien grâce à des cycles de raisonnement et de récupération supplémentaires, ce qui témoigne d'une forte tolérance aux pannes malgré une charge de calcul plus importante .
Chaîne de Lang
(Taux de réussite de la coordination des outils : 51 %)
LangChain a obtenu un succès modéré dans l'exécution des outils, mais a manqué de mécanismes de récupération adaptatifs. En cas d'échec des appels d'outils, la même séquence d'opérations était répétée, ce qui entraînait un traitement redondant et des résultats incomplets .
Jeton de durée d'exécution et d'achèvement
Essaim
Le plus rapide et le plus efficace
Swarm a exécuté tous les flux de travail en environ 20 secondes en utilisant environ 1 000 jetons , soit le temps d'exécution le plus court parmi tous les frameworks. La constance de ses temps d'exécution et sa faible consommation de jetons témoignent d'une exécution stable et efficace .
LangGraph
Performance équilibrée
Swarm a exécuté tous les flux de travail en environ 20 secondes en utilisant environ 1 000 jetons , soit le temps d'exécution le plus court parmi tous les frameworks. La constance de ses temps d'exécution et sa faible consommation de jetons témoignent d'une exécution stable et efficace .
IA d'équipage
Consomme beaucoup de ressources, mais est fiable.
CrewAI a nécessité environ 32 secondes et 4 500 jetons par exécution, soit la consommation de ressources la plus élevée du test. Des cycles de raisonnement et de validation plus longs ont entraîné des temps d'exécution plus importants, mais une réalisation constante des tâches, ce qui indique une fiabilité élevée malgré un coût accru .
Chaîne de Lang
Lent et le moins efficace
LangChain a exécuté les requêtes en environ 48 secondes , consommant environ 2 100 jetons . Les tentatives répétées après des échecs d'exécution ont contribué à des temps d'exécution plus longs et à une utilisation inefficace des ressources .
Approches de gestion des erreurs
Pour évaluer la gestion native des erreurs, chaque framework a été évalué en utilisant sa propre logique de traitement des données plutôt qu'un pipeline de prétraitement partagé. Cette comparaison a mis en évidence des différences clés entre les frameworks privilégiant l'intégrité des données et ceux privilégiant l'exhaustivité du traitement .
LangGraph et Swarm privilégiaient la précision et l'intégrité des données par la validation et l'exclusion, tandis que CrewAI et LangChain privilégiaient l'exhaustivité, soit en conservant les données incomplètes, soit en imputant les valeurs manquantes, ce qui entraînait une plus grande variabilité dans la précision analytique.
Voici une analyse détaillée :
Essaim
Swarm a appliqué une logique de saut précise, excluant les enregistrements invalides ou incomplets tout en maintenant la continuité globale du flux de travail. Après la résolution de problèmes mineurs de compatibilité d'API, le framework a traité de manière cohérente les enregistrements vérifiés sans affecter le déroulement de l'exécution.
LangGraph
LangGraph a appliqué une validation stricte des données, en éliminant les entrées comportant des valeurs nulles ou incomplètes. Cette approche rigoureuse a garanti la précision des analyses en ne traitant que les enregistrements ayant passé les contrôles d'intégrité, assurant ainsi la cohérence des résultats lors des différents tests.
IA d'équipage
CrewAI fonctionnait selon le principe de « zéro perte de données », conservant tous les enregistrements, même ceux comportant des champs manquants ou invalides. Si cette approche préservait l'intégralité des données, elle réduisait la précision des calculs en raison de l'inclusion de points de données non vérifiés.
Chaîne de Lang
LangChain utilisait des techniques d'imputation de données pour déduire les valeurs manquantes à partir des champs existants. Par exemple, lorsque Final_Price était nul, il calculait des valeurs de remplacement à partir des champs Price et Discount . Bien qu'adaptative, cette méthode a introduit des écarts par rapport aux résultats attendus, affectant ainsi la précision des résultats.
Quand utiliser chaque framework ?
- CrewAI : Lorsque des problèmes inattendus sont probables et qu’une résolution de problèmes autonome est nécessaire.
- LangGraph : Pour un raisonnement et une structure équilibrés. Idéal pour les cas d’utilisation généraux.
- Swarm : Idéal pour les environnements de production où la vitesse et la fiabilité sont essentielles. Le plus rapide et le plus constant.
- LangChain : Idéal lorsque la traçabilité et la transparence sont essentielles. Enregistre chaque étape, mais plus lentement que les autres solutions.
Expérience de développeur
Performances d'intégration des frameworks et des LLM : différents frameworks présentent des niveaux de compatibilité et de performances variables avec certains fournisseurs de LLM. Par exemple, LangChain offre une intégration et une précision supérieures lorsqu'il est associé aux modèles ChatGPT de OpenAI, fournissant des résultats plus précis grâce à une gestion optimisée des invites.
Cohérence comportementale liée à l'architecture : Bien que les frameworks puissent utiliser différents modèles logiques avec une efficacité variable, leurs caractéristiques comportementales fondamentales sont restées globalement cohérentes d'un modèle à l'autre. Les comportements caractéristiques observés – tels que les schémas de prise de décision, la gestion de la récupération et les capacités de raisonnement alternatif – dépendent principalement de leur architecture sous-jacente plutôt que du modèle logique spécifique employé.
Cela suggère que les combinaisons framework-LLM peuvent avoir un impact sur les indicateurs de performance, mais les schémas comportementaux fondamentaux, comme l'approche « quoi qu'il en coûte » de CrewAI ou la coordination spécialisée des agents de Swarm, restent cohérents quel que soit le modèle de langage utilisé.
Difficultés d'intégration : Nous avons rencontré d'importantes difficultés d'intégration lors de la tentative de connexion de CrewAI aux modèles Claude de Anthropic. Malgré plusieurs tentatives de configuration, des erreurs persistantes de configuration de l'environnement ont empêché le déploiement.
Nos recherches indiquent qu'il ne s'agit pas d'un problème isolé – de nombreux développeurs de la communauté ont signalé des difficultés d'intégration similaires entre CrewAI et les services Anthropic, suggérant des incompatibilités architecturales potentielles ou des limitations de gestion de l'API.
Recommandations pour l'association framework-LLM : Sur la base de ces résultats, nous recommandons d'évaluer différentes combinaisons framework-LLM lors de la sélection des frameworks pour votre cas d'utilisation spécifique.
Comment les agents gèrent les tâches analytiques
L'analyse agentique transforme le rôle de l'IA, passant d'un outil passif à une exécution autonome. Au lieu d'attendre des instructions explicites à chaque étape, les agents analytiques perçoivent l'état actuel des données, décident des actions à entreprendre et adaptent leur approche en fonction des résultats intermédiaires.
Compétences clés dans le domaine de l'analyse de données :
- Préparation autonome des données : les agents détectent les valeurs manquantes, identifient les valeurs aberrantes, normalisent les formats et valident les résultats nettoyés sans nécessiter de configuration manuelle pour chaque transformation.
- Génération dynamique de requêtes : les requêtes en langage naturel sont traduites en requêtes exécutables, des agents optimisant et adaptant la syntaxe en fonction de la base de données cible.
- Tests d'hypothèses itératifs : lorsque l'analyse initiale est non concluante, les agents peuvent reformuler leur approche, tester des hypothèses alternatives ou demander des sources de données supplémentaires.
- Détection des anomalies en temps réel : la surveillance continue des indicateurs permet aux agents de déceler les schémas inattendus et d’alerter les parties prenantes avant que les problèmes ne s’aggravent.
Limitations pratiques :
- Problèmes de déterminisme : le comportement probabiliste du modèle signifie que des requêtes identiques peuvent produire des résultats légèrement différents d’une exécution à l’autre, ce qui complique les exigences de reproductibilité.
- Précision numérique : les agents basés sur LLM peuvent mal interpréter les formats numériques ou introduire des erreurs de calcul, ce qui nécessite des couches de validation pour les indicateurs critiques.
Méthodologie de référence
Objectif : Notre objectif était de comparer objectivement quatre frameworks d’agents d’IA (LangGraph, LangChain, CrewAI et Swarm) à l’aide d’ensembles de données et de systèmes de mesure identiques. Nous avons évalué la précision de la prise de décision, l’efficacité des ressources et les capacités d’intégration d’outils de ces frameworks dans des conditions d’erreur réalistes.
Description du jeu de données : Nous avons veillé à ce que les conditions de test soient identiques pour chaque framework. Nous avons utilisé le même jeu de données JSON, les mêmes indicateurs clés de performance (KPI) de référence, les mêmes API simulées et les mêmes délais d’exécution pour tous les frameworks.
Nous avons utilisé un ensemble de données de 100 enregistrements, suffisant pour observer les capacités de décision. Nous avons réinitialisé les systèmes de suivi avant chaque test (decision_tracker, perf_tracker reset). Nous avons utilisé les mêmes fonctions d'outils pour tous les frameworks, mais adapté les conventions de nommage à chacun (_swarm_tool, crewai tool).
Perturbations des données : Les données d’achat en ligne ont été utilisées. L’ensemble de données contient les champs suivants :
- Identifiant_utilisateur (Identifiant client),
- ID_produit (Identifiant du produit),
- Catégorie (Catégorie de produit),
- Prix (Rs.) (Prix d'origine),
- Remise (%) (Pourcentage de remise),
- Prix_final(Rs.) (Prix final après réduction),
- Méthode de paiement (Payment_Method),
- Date_d'achat (Date d'achat).
Nous avons utilisé des données de commerce électronique délibérément corrompues :
- Valeurs nulles
- Champs vides – « Product_ID » : « », « User_ID » : « », « Category » : « »
- Noms de champs mixtes – « coût » : 1200,0, « revenu » : 150,0
- Incohérence des données – Variations du format de date (« 07/01/2024 » vs « jj-mm-aaaa »)
- Valeurs nulles/négatives
Définition des tâches : Chaque cadre s'est vu attribuer 5 tâches identiques :
- Traitement des données – Traitement des données amélioré grâce à une exécution spécifique au framework pour le nettoyage et la transformation
- Calcul des indicateurs clés de performance (KPI) – Appliquer des algorithmes de calcul de KPI identiques à l'aide de l'outil enhanced_kpi_calculator
- Analyse concurrentielle – Effectuez une analyse concurrentielle pour les 3 principaux produits à l'aide de l'API CompetitorAPI.
- Conversion de devises – Convertissez le chiffre d'affaires total en USD à l'aide de CurrencyAPI.
- Gestion des erreurs – Mettre en œuvre des stratégies natives de gestion des erreurs pour les incohérences de données
Points de décision clés attendus :
- Gestion des valeurs nulles – Comment gérer les valeurs Final_Price nulles
- Gestion des champs vides – Comment remplir les champs vides
- Décision de cartographie des champs – Transformations des champs
- Décision relative à l'incohérence des données – Normalisation du format
- Décision de saut de valeur nulle – Inclure/exclure les valeurs nulles
- Décision d'exécution des outils : Quel outil utiliser et quand ? Va-t-il réussir ? Que faire en cas d'erreur ? Comment gérer les défaillances des outils et les stratégies de repli ?
Nous avons exécuté chaque pipeline de framework 10 fois et avons pris les valeurs médianes pour toutes les métriques.
Cohérence de l'exécution : Nous avons mis en œuvre la même infrastructure de mesure dans tous les frameworks :
- AccuracyLatencyTracker pour la mesure du temps (start_timer/end_timer),
- DecisionTracker pour la consignation des décisions avec catégorisation,
- Processeur de données analytiques amélioré pour une logique de nettoyage de données identique,
- API factices, y compris CompetitorAPI (délai de 0,05 s)
- CurrencyAPI (délai de 0,1 s)
Nous avons conservé des configurations spécifiques à chaque framework : LangGraph utilisait une orchestration basée sur les graphes avec un système de notation de confiance et un routage intelligent. LangChain employait un agent ReAct séquentiel avec ConversationBufferMemory et une journalisation détaillée. CrewAI exploitait la collaboration multi-agents avec résolution autonome de problèmes.
Tous les frameworks (CrewAI, LangGraph, LangChain et Swarm) ont été testés à l'aide de GPT-4.1 pour garantir des performances de modèle cohérentes et une comparaison équitable entre les métriques d'évaluation.
Métriques d'évaluation
La précision des décisions mesure la fiabilité avec laquelle un cadre résout les problèmes de données critiques et se calcule comme suit :
La précision a été déterminée en comparant les décisions de chaque cadre de référence à des critères de logique métier prédéfinis.
Chaque décision a été évaluée de manière binaire (correcte / incorrecte) en fonction de :
- Récupération après panne d'outil : les opérations défaillantes ont-elles été résolues avec succès grâce à un raisonnement alternatif ?
- Gestion des valeurs nulles : indique si les enregistrements invalides ont été correctement ignorés.
- Valeurs par défaut des champs vides : indique si les valeurs manquantes ont été correctement remplacées (par exemple, « INCONNU »).
L'efficacité décisionnelle évalue avec quelle efficacité un cadre traite les problèmes de données critiques et se calcule comme suit :
Les points critiques ont été définis comme les étapes de décision minimales requises (par exemple, la gestion des valeurs nulles, les valeurs par défaut des champs vides, le mappage des champs). Un score de 100 % indique une décision par point critique, tandis que des décisions supplémentaires signalent une inefficacité ou un surtraitement.
Les performances de l'outil ont été mesurées à l'aide du taux de réussite principal , représentant la proportion d'appels directs à l'outil menés à bien :
La capacité de récupération mesure l'aptitude d'un framework à se remettre avec succès d'appels d'outils ayant échoué et se calcule comme suit :
Soyez le premier à commenter
Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.