Contactez-nous
Aucun résultat trouvé.

15 outils d'observabilité des agents IA en 2026 : AgentOps et Langfuse

Cem Dilmegani
Cem Dilmegani
mis à jour le Jan 29, 2026
Consultez notre normes éthiques

Les outils d'observabilité des agents d'IA, tels que Langfuse et Arize, aident à collecter des traces détaillées (un enregistrement de l'exécution d'un programme ou d'une transaction) et fournissent des tableaux de bord pour suivre les indicateurs en temps réel .

De nombreux frameworks d'agents , comme LangChain, utilisent la norme OpenTelemetry pour partager des métadonnées avec la supervision des agents. Par ailleurs, de nombreux outils d'observabilité offrent une instrumentation personnalisée pour une plus grande flexibilité.

Nous avons testé 15 plateformes d'observabilité pour les applications LLM et les agents d'IA. Chaque plateforme a été implémentée concrètement par la mise en place de flux de travail, la configuration d'intégrations et l'exécution de scénarios de test. Nous avons comparé les performances de 4 outils d'observabilité afin de déterminer s'ils induisent une surcharge dans les pipelines de production. Nous avons également présenté un tutoriel d'observabilité LangChain utilisant Langfuse .

Analyse comparative de la surcharge des outils de surveillance d'agents

Nous avons intégré chaque plateforme d'observabilité à notre système de planification de voyages multi-agents et exécuté 100 requêtes identiques afin de mesurer leur impact sur les performances par rapport à une configuration de référence sans instrumentation. Consultez notre méthodologie d'évaluation comparative.

  • LangSmith a démontré une efficacité exceptionnelle avec pratiquement aucun surcoût mesurable, ce qui le rend idéal pour les environnements de production critiques en termes de performances.
  • La technologie Laminar a introduit des frais généraux minimes de 5 %, ce qui la rend parfaitement adaptée aux environnements de production où la performance est essentielle.
  • AgentOps et Langfuse ont affiché une surcharge modérée, respectivement de 12 % et 15 %, ce qui représente un compromis acceptable entre les fonctionnalités d'observabilité et l'impact sur les performances. Ces plateformes conservent une latence acceptable pour la plupart des cas d'utilisation en production.

Raisons potentielles des différences de performance

Notre analyse comparative indique que les différences de latence sont principalement dues à la profondeur de l'instrumentation et à l'implication du chemin d'exécution, notamment dans les flux de travail multi-agents. Les outils offrant une observabilité plus poussée, au niveau de chaque étape, ont présenté une surcharge plus importante, tandis que les approches de traçage plus légères sont restées plus proches de la valeur de référence.

1. Profondeur d'instrumentation sur le chemin d'exécution

Les outils d'observabilité ajoutent une logique au flux d'exécution de l'agent afin de capturer des traces et des métadonnées. Lorsque cette logique s'exécute de manière synchrone lors du traitement des requêtes, elle augmente directement la latence de bout en bout, car l'agent doit effectuer ce travail supplémentaire avant de renvoyer une réponse.

Par exemple:

  • LangSmith n'a pratiquement pas ajouté de surcharge mesurable (~0%), indiquant un faible travail synchrone.
  • L'instrumentation plus poussée au niveau des étapes de Langfuse a contribué à une surcharge plus élevée (~15%).

2. Amplification d'événements à travers des pipelines multi-étapes

Dans les systèmes multi-agents, une simple requête utilisateur déclenche plusieurs actions d'agents. Lorsqu'un outil enregistre des données détaillées à chaque étape, le nombre total d'événements augmente rapidement, accroissant la charge de traitement et de gestion des traces à mesure que le flux de travail se complexifie.

Dans les résultats de référence :

  • Langfuse et AgentOps ont généré des frais généraux sensiblement plus élevés (15 % et 12 %) dans notre flux de travail de planification de voyage en plusieurs étapes.
  • LangSmith et Laminar ont émis moins d'événements par étape d'agent.

3. Surcharge d'évaluation et de validation en ligne

Certaines plateformes effectuent des contrôles ou une surveillance supplémentaires pendant l'exécution de l'agent. Bien que chaque contrôle soit léger, leur application répétée à toutes les étapes de l'agent engendre une latence mesurable.

Par exemple:

  • La surveillance du cycle de vie d'AgentOps a coïncidé avec une surcharge de 12 %.
  • Laminar n'a montré aucune preuve d'une évaluation en ligne affectant l'exécution, restant à ~5%.

4. Fréquence de sérialisation et de persistance

La capture de données d'observabilité détaillées nécessite la sérialisation des traces et leur écriture dans un système de stockage ou des backends externes. Plus le niveau de détail des traces est élevé, plus la fréquence de ces opérations augmente, ce qui accroît la charge d'E/S à chaque requête.

Dans notre analyse comparative :

  • Le suivi détaillé des invites, des sorties et des jetons de Langfuse a entraîné la surcharge la plus élevée (~15%).
  • Les artefacts de traces plus légers de LangSmith sont restés proches de la ligne de base.

5. Intégration étroite avec le cadre d'agents

Le degré d'intégration d'un outil avec le framework d'agents influe sur ses performances. Une intégration plus poussée réduit les étapes de traduction et d'orchestration, tandis que des SDK plus génériques ajoutent des couches de traitement supplémentaires.

Par exemple:

  • L'alignement précis de LangSmith avec l'exécution des agents s'est traduit par une surcharge quasi nulle.
  • AgentOps et Langfuse ont montré un impact de latence plus élevé, ce qui correspond à des chemins d'intégration plus découplés.

plateformes d'observabilité des agents d'IA

Niveau 1 : LLM à granularité fine et observabilité des prompts/sorties

Les fonctionnalités présentées dans ces colonnes sont des exemples illustratifs des capacités de surveillance de chaque outil, une fois étendues par des intégrations ou des personnalisations. Elles ne sont pas exclusives à une seule plateforme.

Niveau 2 : Observabilité du flux de travail, du modèle et de l'évaluation

Niveau 3 : Observabilité du cycle de vie et des opérations des agents

Niveau 4 : Surveillance du système et de l’infrastructure (non native à l’agent)

Datadog (avec son module LLM Observability) et Prometheus (via des exportateurs) sont de plus en plus utilisés aux côtés de Langfuse/LangSmith.

Plateformes de développement et d'orchestration d'agents :

  • Des outils comme Flowise , Langflow , SuperAGI et CrewAI permettent de créer, d'orchestrer et d'optimiser les flux de travail des agents grâce à des interfaces sans code ou à faible code.

Déploiement, éditions gratuites et tarification

Les versions gratuites varient selon les limites d'utilisation (par exemple, observations, traces, jetons ou unités de travail). Les prix de départ correspondent généralement à une formule de base, qui peut comporter des restrictions sur les fonctionnalités, le nombre d'utilisateurs ou les limites d'utilisation.

Poids et biais (Tissage W&B)

Cas d'utilisation : Débogage des défaillances dans les systèmes multi-agents en traçant la propagation des erreurs à travers les appels d'agents.

Figure 1 : Tableau de bord Traces de Weights & Biases Weave.

Weights & Biases Weave enregistre des traces d'exécution structurées pour les systèmes multi-agents, préservant les relations parent-enfant entre les appels d'agents. Les entrées, les sorties, les états intermédiaires, la latence et l'utilisation des jetons sont capturés pour chaque agent et chaque trace.

fonctionnalités de surveillance Weave

  • Traçage hiérarchique des agents plutôt que journaux de requêtes plats
  • Attribution des coûts et de la latence au niveau de l' agent
  • Prise en charge native des outils d'évaluation appliqués directement aux traces.

capacités d'évaluation

Weave propose également des outils d'évaluation intégrés, notamment :

  • HallucinationFreeScorer pour la détection des hallucinations,
  • SummarizationScorer pour évaluer la qualité des résumés,
  • Évaluateur de similarité d'intégration pour la similarité sémantique,
  • ValidJSONScorer et ValidXMLScorer pour la validation du format,
  • PydanticScorer pour la conformité aux schémas,
  • OpenAIModérationÉvaluateur de la sécurité du contenu,
  • Les outils d'évaluation RAGAS comme ContextEntityRecallScorer,
  • Système d'évaluation de la pertinence du contexte pour le système RAG.

Idéal pour : Les équipes exécutant des flux de travail à plusieurs étapes ou à plusieurs agents et qui ont besoin d'une analyse des causes profondes au niveau des traces plutôt que de simples indicateurs de surface.

Langfuse

Cas d'utilisation : Suivre les interactions LLM, gérer les versions d'invite et surveiller les performances du modèle lors des sessions utilisateur.

Figure 2 : Exemple de tableau de bord Langfuse montrant les détails de la trace. 1

Langfuse offre une visibilité approfondie sur la couche d'invite, capturant les invites, les réponses, les coûts et les traces d'exécution pour aider à déboguer, surveiller et optimiser les applications LLM.

Cependant, Langfuse peut ne pas convenir aux équipes qui préfèrent les flux de travail basés sur Git pour la gestion du code et des invites, car son système externe de gestion des invites peut ne pas offrir le même niveau de contrôle de version et de collaboration.

fonctionnalités de surveillance Langfuse

  • Visibilité sur l'évolution et les modèles d'utilisation des prompts
  • Analyse par session adaptée aux applications destinées aux utilisateurs
  • Modèle pratique de métadonnées et d'étiquetage pour le filtrage et la révision

Fonctionnalités de niveau entreprise :

Voici quelques-unes de ces caractéristiques :

  • Niveaux de journalisation : Ajustez le niveau de détail des journaux pour obtenir des informations plus précises.
  • Multimodalité : Prend en charge le texte , les images , l'audio et d'autres formats pour les applications LLM multimodales.
  • Gestion des versions et des mises à jour : Suivez l’historique des versions et voyez comment les nouvelles versions affectent les performances du modèle.
  • URL de suivi : Accédez aux traces détaillées via des URL uniques pour une inspection et un débogage plus approfondis.
  • Graphiques d'agents : Visualisez les interactions et les dépendances entre agents pour une meilleure compréhension de leur comportement.
  • Échantillonnage : Collecter des données représentatives des interactions à analyser sans surcharger le système.
  • Suivi des jetons et des coûts : Suivez l’utilisation des jetons et les coûts pour chaque appel de modèle, garantissant ainsi une gestion efficace des ressources.
  • Masquage : Protégez les données sensibles en les masquant dans des traces, garantissant ainsi la confidentialité et la conformité.

Idéal pour : Les équipes qui travaillent sur les invites et surveillent leur utilisation en production, notamment lorsque les sessions utilisateur sont importantes.

Galilée

Cas d'utilisation : surveiller les coûts/la latence, évaluer la qualité de la sortie, bloquer les réponses non sécurisées et fournir des correctifs exploitables.

Figure 3 : Graphiques montrant la qualité de la sélection des outils, le respect du contexte, la compilation des actions de l'agent et le temps jusqu'au premier jeton.

Galileo suit les indicateurs de coût, de latence et de qualité de sortie tout en appliquant des contrôles de sécurité et de conformité en temps réel.

La plateforme combine l'observabilité traditionnelle (latence, coût, performance) avec le débogage et l'évaluation basés sur l'IA (détection d'hallucinations, exactitude des faits, cohérence, respect du contexte).

fonctionnalités de surveillance de Galileo

  • Identification des modes de défaillance au-delà des erreurs superficielles (par exemple, des hallucinations entraînant des entrées d'outils invalides)
  • Des commentaires prescriptifs tels que des suggestions de modifications d'invite ou des ajouts en quelques étapes
  • Lien étroit entre les résultats de l'évaluation et les correctifs recommandés.

Idéal pour : les organisations qui privilégient la qualité de la production, la sécurité et des cycles d'itération rapides avec une correction guidée.

IA des garde-fous

Cas d'utilisation : Prévenir les résultats nocifs, valider les réponses LLM et garantir la conformité aux politiques de sécurité

Figure 4 : Tableau de bord du comportement du garde montrant les différences dans la durée d'exécution du garde et les échecs du garde.

Guardrails valide les entrées et sorties LLM par rapport à des règles configurables, notamment la toxicité, les biais, l'exposition aux PII, les hallucinations de drapeaux et la conformité au format.

Fonctionnalités de surveillance par IA de Guardrails

  • Validation déterministe via les spécifications RAIL
  • Protections d'entrée pour la détection d'injection rapide et de jailbreak
  • Nouvelle tentative automatique en cas d'échec de la validation.

Idéal pour
Les équipes qui doivent imposer des garanties strictes en matière de sécurité, de conformité ou de formatage avant de renvoyer les réponses.

LangSmith

Cas d'utilisation : Raisonnement des agents et débogage des appels d'outils (centré sur LangChain)

Figure 5 : Tableau de bord LangSmith montrant les traces, y compris leurs noms, entrées, heures de début et latences.

LangSmith capture l'intégralité des traces de raisonnement des agents basés sur LangChain, y compris les invites, le contexte récupéré, la logique de sélection des outils, les entrées/sorties des outils, les erreurs et les exceptions.

fonctionnalités de surveillance LangSmith

  • Inspection étape par étape des chemins de décision des agents
  • Exécutez la relecture et la comparaison côte à côte des invites, des modèles ou des outils
  • Intégration étroite avec LangChain via des rappels.

Idéal pour
Équipes de développement utilisant LangChain qui doivent déboguer en détail des raisonnements incorrects ou des invocations d'outils erronées.

Langtrace IA

Cas d'utilisation : Identification des goulots d'étranglement liés aux coûts et à la latence dans les applications LLM

Figure 6 : Tableau de bord de traçage de l'IA Langtrace.

Langtrace suit le nombre de jetons, la durée d'exécution, les coûts des API et les paramètres de requête à travers les pipelines LLM à l'aide de traces compatibles avec OpenTelemetry.

Fonctionnalités de surveillance IA de Langtrace

  • Alignement OpenTelemetry pour l'intégration avec les systèmes dorsaux existants
  • Visibilité sur les facteurs de coût et de latence par étape
  • Terrain de jeu léger pour le versionnage et les tests de prompts.

Idéal pour : les équipes qui optimisent les performances et les dépenses des flux de travail LLM plutôt que d'évaluer la qualité des résultats.

Arize (Phoenix)

Cas d'utilisation : surveiller la dérive du modèle, détecter les biais et évaluer les résultats des modèles linéaires logiques grâce à des systèmes de notation complets.

Figure 7 : Tableau de bord du moniteur de dérive Arize Phoenix.

Phoenix se concentre sur la dérive comportementale, la détection des biais et l'évaluation de la pertinence, de la toxicité et de la précision par LLM en tant que juge.

Cependant, son intégration est plus complexe que celle des proxys légers et la gestion des versions instantanées n'est pas aussi fluide que celle des outils dédiés.

fonctionnalités de surveillance de Phoenix

  • Noyau open source avec extensions d'entreprise optionnelles
  • Terrain de jeu interactif pour le développement
  • Détection de dérive pour le suivi des changements de comportement au fil du temps
  • Contrôles des biais pour identifier les biais de réponse,
  • Évaluation par un juge de la précision, de la toxicité et de la pertinence des résultats de LLM.

Idéal pour : les équipes qui surveillent le comportement à long terme des modèles et le risque de régression plutôt que les itérations rapides.

Agenta

Cas d'utilisation : Déterminer quelle invite fonctionne le mieux sur quel modèle

Figure 8 : Image montrant différentes alternatives d'invite d'Agenta.

Agenta compare les réponses des modèles en termes de coût, de latence et de qualité de sortie en utilisant des entrées partagées et un contexte contrôlé.

Figure 9 : Exemple de sortie d'Agenta.

fonctionnalités de surveillance d'Agenta

  • Évaluation comparative des modèles
  • Aide à la décision en préproduction.

Idéal pour : l'évaluation préliminaire et la sélection de modèles.

AgentOps.ai

Cas d'utilisation : Surveiller le raisonnement des agents, suivre les coûts et déboguer les sessions en production

Figure 10 : Exemple de tableau de bord de relecture de session d'AgentOps.ai.

AgentOps capture les traces de raisonnement, les appels d'outils/API, l'état de la session, le comportement de mise en cache et les indicateurs de coût des agents déployés.

fonctionnalités de surveillance d'AgentOps

  • Relecture de session pour le débogage en production
  • Privilégiez l'analyse du comportement des agents en direct plutôt que l'évaluation hors ligne.

Idéal pour : Les équipes qui gèrent des agents en production et qui ont besoin d'une visibilité opérationnelle.

Groupe de réflexion

Cas d'utilisation : Déterminer, grâce à une évaluation détaillée et une analyse des erreurs, quelle invite, quel ensemble de données ou quel modèle est le plus performant.

Figure 11 : Tableau de bord de l'agent de support client de Braintrust.

Braintrust évalue les invites, les ensembles de données et les modèles par rapport aux résultats attendus, en suivant la latence, le coût, les erreurs d'outils et les indicateurs d'exécution.

fonctionnalités de surveillance du groupe de réflexion

  • Évaluez les ensembles de données de test avec des entrées et des sorties attendues, puis comparez les invites ou les modèles côte à côte en utilisant des variables comme {{input}}, {{expected}} et {{metadata}}.
  • Analyse détaillée des indicateurs, y compris la qualité d'exécution des outils

Idéal pour : Les équipes qui évaluent les modèles et les invites avant leur déploiement.

AgentNeo

Cas d'utilisation : Débogage des interactions multi-agents, suivi de l'utilisation des outils et évaluation des flux de travail de coordination

AgentNeo assure le suivi des communications entre agents, de l'utilisation des outils, des graphiques d'exécution, ainsi que des coûts et de la latence par agent via un SDK Python.

fonctionnalités de surveillance d'AgentNeo

  • Logiciel libre et exécutable localement
  • Tableau de bord local interactif (localhost:3000) pour la surveillance en temps réel des flux de travail multi-agents.
  • Intégration à l'aide de décorateurs (par exemple, @tracer.trace_agent, @tracer.trace_tool)

Idéal pour : Les équipes d'ingénierie qui expérimentent avec des systèmes multi-agents.

laminaire

Cas d'utilisation : Suivre les performances à travers différents frameworks et modèles LLM.

Figure 12 : Exemple de tableau de bord Traces de Laminar.

Laminar suit les durées d'exécution, les coûts, l'utilisation des jetons et les percentiles de latence à travers les frameworks et les modèles LLM.

caractéristiques de surveillance laminaire

  • analyse de performance indépendante du cadre
  • Inspection de portée à grain fin.

Idéal pour : l'analyse comparative des performances de différentes architectures hétérogènes.

Hélicone

Cas d'utilisation : Suivre les flux de travail des agents en plusieurs étapes et analyser les modèles de session utilisateur.

Figure 12 : Image montrant 3 mois de changements dans les requêtes, les coûts, les erreurs et la latence.

Helicone enregistre les volumes de requêtes, les coûts, les erreurs, les tendances de latence et les flux de travail des agents au niveau de la session.

fonctionnalités de surveillance d'Helicone

  • visibilité du parcours utilisateur
  • Analyse des tendances historiques.

Idéal pour : Les équipes produit chargées de surveiller les habitudes d'utilisation et le comportement des utilisateurs.

Coval

Cas d'utilisation : simuler des milliers de conversations entre agents, tester les interactions vocales/par chat et valider le comportement avant le déploiement.

Figure 13 : Tableau de bord d'évaluation de Coval montrant les pourcentages d'objectifs atteints, d'identité vérifiée, de répétition correcte, de clarté de l'agent et d'informations incorrectes.

Coval simule des milliers de conversations pour mesurer l'achèvement des tâches, leur exactitude et l'efficacité des appels d'outils.

fonctionnalités de surveillance Coval

  • Tests d'agents basés sur la simulation
  • Détection automatique de régression
  • Assistance vocale et textuelle par agent.

Idéal pour : la validation avant déploiement et la détection des régressions.

Datadog

Cas d'utilisation : Observabilité de l'infrastructure et des applications grâce à la corrélation des signaux LLM.

Datadog collecte les métriques d'infrastructure (CPU, mémoire, réseau), les données de performance des applications (latence, taux d'erreur, débit) et les journaux. Pour les applications LLM, il peut intégrer l'utilisation des jetons, le coût par requête, la latence du modèle et les signaux liés à la sécurité, tels que les tentatives d'injection de requêtes.

fonctionnalités de surveillance de Datadog

  • Observabilité étendue à l'échelle du système, couvrant l'infrastructure, les applications et les charges de travail d'IA
  • Vaste écosystème d'intégration (plus de 900 intégrations) permettant la corrélation entre le comportement de l'IA et l'état de l'infrastructure

Idéal pour : Les organisations qui souhaitent corréler le comportement LLM avec l'infrastructure sous-jacente et les performances des applications plutôt que d'inspecter le raisonnement ou les invites des agents

Prométhée

Cas d'utilisation : surveiller les performances du système, suivre les indicateurs de performance des applications et configurer des alertes en cas de problèmes d'infrastructure.

Prometheus est un système de surveillance open source qui collecte des métriques de séries temporelles à partir de points de terminaison HTTP à intervalles réguliers afin de suivre les métriques d'infrastructure, d'application, de base de données, de conteneur et les métriques métier personnalisées.

fonctionnalités de surveillance de Prometheus

  • Collecte de métriques de séries temporelles par extraction de données
  • PromQL pour les conditions d'interrogation, d'agrégation et d'alerte
  • Écosystème d'exportation (par exemple, Node Exporter) pour une couverture système étendue

Idéal pour : la surveillance des infrastructures et des applications avec alertes basées sur des règles.

Grafana

Cas d'utilisation : Visualiser les indicateurs, créer des tableaux de bord et acheminer les alertes à travers les données LLM, des agents et de l'infrastructure.

Figure 14 : Tableau de bord des traces montrant l'évolution du taux de requêtes, du nombre total de jetons d'utilisation, du coût d'utilisation moyen et du coût d'utilisation total.

Grafana est une plateforme de visualisation et d'analyse open source qui s'intègre à des sources de données telles que Prometheus, OpenTelemetry et Datadog pour fournir des tableaux de bord d'observabilité unifiés.

fonctionnalités de surveillance de Grafana

  • Tableaux de bord regroupant les métriques, les journaux et les traces
  • Corrélation intersystème pour les signaux LLM, d'agent et d'infrastructure
  • Gestion des alertes et des notifications.

Idéal pour : la visualisation centralisée des données observables et la réponse aux incidents.

Tutoriel : Observabilité de LangChain avec Langfuse

Nous avons construit un pipeline LangChain en plusieurs étapes comportant trois phases :

  1. analyse de questions
  2. génération de réponses
  3. vérification des réponses

Après avoir configuré le pipeline, nous l'avons connecté à Langfuse pour surveiller et suivre son exécution en temps réel. Cela nous a permis d'explorer comment Langfuse nous aide à recueillir des informations détaillées sur les performances, les coûts et le comportement des applications d'IA.

Voici ce que nous avons observé avec Langfuse :

Vue d'ensemble du tableau de bord

Figure 15 : Tableaux de bord des coûts, de la gestion de l'utilisation et de la latence de Langfuse.

Langfuse nous a fourni plusieurs tableaux de bord qui nous donnent une visibilité sur différents aspects des performances du pipeline :

  1. Tableau de bord des coûts : Ce tableau de bord suit les dépenses liées à tous les appels d’API, avec des ventilations détaillées par modèle et par période.
  2. Gestion de l'utilisation : Elle surveille les indicateurs d'exécution, tels que le nombre d'observations et l'allocation des ressources, nous aidant ainsi à suivre l'utilisation des ressources pendant l'exécution.
  3. Tableau de bord de latence : Ce tableau de bord nous a permis d’analyser les temps de réponse, de détecter les goulots d’étranglement et de visualiser les tendances de performance.

Métriques d'utilisation

Figure 16 : Image montrant les métriques d'utilisation de Langfuse, y compris le nombre total de traces, le nombre total d'observations et le nombre total de scores (numériques et catégoriels).

Le tableau de bord des indicateurs d'utilisation nous a fourni les informations suivantes sur les performances du système :

  • Nombre total de traces : Nous avons suivi huit traces, chacune représentant un cycle complet de question-réponse dans le pipeline.
  • Nombre total d'observations : En moyenne, chaque trace comportait 16 observations, reflétant la nature multi-étapes du processus.

De plus, Langfuse nous permet de suivre les modèles d'utilisation , l'allocation des ressources et les périodes de pointe au cours des 7 derniers jours, ce qui nous aide à comprendre quand le système est le plus actif et comment les ressources sont réparties dans le temps.

Inspection des traces

Figure 17 : Tableau de bord des traces de Langfuse montrant les niveaux d'entrée, de sortie, d'observabilité, de latence et de jetons.

En analysant une trace individuelle, nous avons pu voir des informations d'exécution détaillées :

  • Lignes de trace : Chaque ligne représente une exécution complète du pipeline avec un ID de trace unique.
  • Métriques de latence : Le temps d'exécution a varié, allant de 0,00 s à 34,08 s.
  • Nombre de jetons : Le tableau de bord a permis de suivre l'utilisation des jetons d'entrée/sortie, ce qui contribue à la gestion des coûts et à l'efficacité.
  • Filtrage de l'environnement : Nous pourrions filtrer les traces en fonction des environnements de déploiement (par exemple, développement, production).

Détails de la trace individuelle

Figure 18 : Architecture de chaîne séquentielle de Langfuse.

Nous avons ensuite analysé la trace plus en détail afin de comprendre la défaillance de l'exécution :

  • Architecture de chaîne séquentielle : La trace affichait un flux visuel montrant chaque étape, commençant par SequentialChainLLMChainChatOpenAI , avec une structure hiérarchique.
  • Suivi des entrées/sorties : La question initiale, « Quels sont les avantages de l'utilisation de Langfuse pour l'observabilité des agents d'IA ? », a été suivie à chaque étape, ainsi que les sorties respectives produites par l'IA à chaque étape.
  • Analyse des jetons : Nous avons observé que 1 203 jetons ont été utilisés en entrée et 1 516 jetons en sortie, ce qui a des implications en termes de coûts liés à l'utilisation des jetons et contribue à optimiser la gestion des ressources.
  • Données de synchronisation : La latence totale pour la trace complète était de 34,08 s , répartie comme suit pour chaque composant :
    • Chaîne séquentielle → 14,02 s
    • LLMChain → 10,25 s
    • ChatOpenAI → 9,81s
  • Informations sur le modèle : Langfuse a confirmé l'utilisation du modèle Anthropic Claude-Sonnet-4 , avec des détails sur les réglages spécifiques, y compris la configuration de la température.
  • Sortie formatée : Des vues d’aperçu et JSON ont été fournies pour le débogage, donnant un aperçu de la réponse du modèle sous une forme lisible par l’homme et dans un format lisible par la machine.

Analyse automatisée

Figure 19 : Exemple d'évaluations automatisées Langfuse.

Langfuse a également fourni des évaluations automatisées de nos réponses :

  • Évaluation de la qualité : Le système a évalué la structure, la cohérence et l'exhaustivité des réponses, soulignant les sections bien organisées mais suggérant que les réponses pourraient être plus concises.
  • Suggestions d'amélioration : Le rapport a identifié des sections redondantes, suggérant des pistes d'amélioration du libellé, et a regroupé les points connexes afin de rendre la réponse plus transparente et plus efficace.
  • Analyse des performances : Le système a fourni des informations sur l'utilisation des jetons et la pertinence des réponses, ce qui nous a permis d'optimiser l'efficacité tout en garantissant que les résultats restent utiles et pertinents.
  • Commentaires structurés : Les commentaires ont été organisés en catégories, ce qui nous a permis d'aborder de manière ciblée les points à améliorer.

Analyse des utilisateurs

Figure 20 : L'image montre l'activité anonymisée des utilisateurs, montrant les premières et dernières interactions de chaque utilisateur, les volumes d'événements, la consommation de jetons et les coûts associés pour aider à analyser l'engagement, l'utilisation des ressources et l'allocation du budget.

Langfuse enregistre les interactions détaillées entre les utilisateurs et l'agent d'IA :

  • Chronologie de l'activité utilisateur : Affiche la première et la dernière interaction de chaque utilisateur, permettant ainsi de distinguer les utilisateurs actifs des utilisateurs inactifs. On peut voir quand les utilisateurs ont interagi avec le système pour la première et la dernière fois.
  • Suivi du volume d'événements : Permet de suivre le nombre d'événements déclenchés par chaque utilisateur. Par exemple, certains utilisateurs ont généré plus de 2 000 événements, ce qui témoigne de leur niveau d'engagement avec le système.
  • Analyse de la consommation de jetons : Surveille le nombre total de jetons consommés par chaque utilisateur. La consommation de jetons a varié de 6 590 à 357 000, fournissant ainsi des informations sur l’utilisation des ressources.
  • Attribution des coûts : Elle détaille les coûts associés à chaque utilisateur, facilitant ainsi le suivi des dépenses et l'optimisation de l'allocation budgétaire pour l'utilisation des ressources.
  • Identification de l'utilisateur : Utilise des identifiants utilisateur anonymisés pour préserver la confidentialité tout en suivant les interactions individuelles des utilisateurs, facilitant ainsi l'analyse de l'utilisation sans compromettre la confidentialité des utilisateurs.

Figure 21 : Un exemple de la vue de session, montrant l'ensemble du flux de conversation ainsi que le code Python exécuté, corrélant les entrées de l'utilisateur avec les sorties du système et affichant les métadonnées de session pour donner une image complète de la façon dont l'interaction a été traitée.

La vue session nous permet de suivre les détails précis des interactions des utilisateurs :

  • Déroulement complet de la conversation : Affiche l’intégralité de l’interaction question-réponse, permettant de suivre facilement la conversation du début à la fin.
  • Visibilité de l'implémentation : Affiche le code Python réellement utilisé pendant la session, offrant un aperçu de l'implémentation technique.
  • Corrélation entrée/sortie : Relie les questions de l'utilisateur aux réponses correspondantes du système, ce qui nous aide à résoudre les problèmes et à identifier où des difficultés ont pu survenir dans la conversation.
  • Métadonnées de session : Incluent des détails techniques tels que la durée, le contexte utilisateur et les données d’implémentation spécifiques, offrant une vue d’ensemble de l’exécution de la session.

Quand ne pas utiliser les outils d'observabilité

  • Phase de développement initiale : Si vous êtes encore en train de valider l’adéquation produit-marché ou de mettre en place vos premiers flux de travail d’agents, l’accent doit être mis sur les fonctionnalités essentielles plutôt que sur une observabilité étendue.
  • Goulots d'étranglement de l'API : Si vos principaux problèmes concernent les coûts, la latence ou la mise en cache de l'API, la priorité immédiate devrait être l'optimisation de ces domaines, et non le suivi des indicateurs au niveau du système.
  • Optimisation du modèle : Si les améliorations sont principalement dues à la sélection du modèle, à son réglage fin ou à une ingénierie rapide, les outils d’observabilité de la dérive et du biais ne sont peut-être pas encore nécessaires.

Quand utiliser les outils d'observabilité

  • Production à grande échelle : Lorsque vous travaillez avec plusieurs modèles, agents ou chaînes, les outils d’observabilité sont essentiels pour surveiller les performances et garantir la santé du système.
  • Applications d'entreprise ou destinées aux clients : Pour les applications où la fiabilité, la sécurité et la conformité sont non négociables, les outils d'observabilité offrent la visibilité et le contrôle nécessaires.
  • Surveillance continue : Lorsque vous devez surveiller la dérive, le biais, les performances et les problèmes de sécurité au fil du temps, ce qui ne peut pas être facilement capturé avec des scripts de base ou des vérifications manuelles, les outils d’observabilité sont essentiels.
  • Scénarios à haut risque : Dans les environnements où le coût d'une défaillance (par exemple, hallucinations, résultats non sécuritaires) est important, l'observabilité permet de minimiser les risques et de détecter les problèmes au plus tôt.

Méthodologie de référence

Pour évaluer la surcharge de performance des plateformes d'observabilité dans les applications LLM de production, nous avons développé une approche d'évaluation comparative systématique utilisant un flux de travail agentiel réel.

Application de test

Nous avons construit un système de planification de voyages multi-agents séquentiel utilisant LangChain qui traite les demandes de voyage en langage naturel en cinq étapes :

  1. Agent d'analyse syntaxique : extrait les données structurées (origine, destination, dates, durée) des données saisies par l'utilisateur.
  2. Agent de recherche de vols : Récupère les vols disponibles via l'API Amadeus
  3. Agent météo : Récupère les prévisions météo de destination via l'API Météo
  4. Agent de recommandation d'activités : Suggère des activités en fonction des conditions météorologiques
  5. Agent de planification de voyages : Synthétise toutes les informations en un itinéraire complet

Le système utilise Claude 4 Haiku via OpenRouter pour tous les appels LLM et intègre des API externes pour les données en temps réel.

Conception de référence

Établissement d'une base de référence : Nous avons d'abord mesuré les performances de l'application sans aucun instrument d'observabilité, en exécutant 100 requêtes identiques afin d'établir une base de référence pour la comparaison.

Intégration de la plateforme : Nous avons ensuite intégré cinq plateformes d'observabilité de premier plan (LangSmith, Laminar, AgentOps, Langfuse) une à une, en instrumentant les mêmes points de traçage sur toutes les plateformes pour plus de cohérence.

Exécution séquentielle : chaque plateforme a été testée indépendamment en exécutant les 100 requêtes consécutivement avant de passer à la plateforme suivante. Cette approche minimise la variabilité due à des facteurs externes tels que les conditions du réseau ou les limites de débit de l’API.

Environnement contrôlé : Tous les tests ont été exécutés sur la même infrastructure serveur avec des ensembles de requêtes identiques afin de garantir une comparaison équitable. Pour isoler la surcharge due aux variations de latence induites par le LLM, nous avons configuré le modèle avec une température nulle et des invites structurées afin de minimiser la variabilité des réponses entre les exécutions.

Métriques collectées

Pour chaque plateforme, nous avons mesuré la latence moyenne et calculé la surcharge comme la latence supplémentaire introduite par rapport à la valeur de référence : ((Platform Latency - Base Latency) / Base Latency) × 100

FAQ

L'observabilité est la capacité à comprendre le fonctionnement interne d'un agent d'IA en examinant des signaux externes tels que les journaux, les métriques et les traces.

Pour les agents d'IA, cela implique de surveiller les actions, l'utilisation des outils, les interactions avec les modèles et les réponses afin de résoudre les problèmes et d'améliorer les performances.

L'observabilité des agents est cruciale pour suivre et améliorer les performances de l'IA en permettant :

Comprendre les compromis : Cela permet de mesurer des indicateurs clés comme la précision et le coût, facilitant ainsi la recherche d'un équilibre entre performance et utilisation des ressources.

Mesure de la latence : Le suivi de la latence en temps réel offre une visibilité sur les temps de réponse, contribuant ainsi à optimiser les performances des agents.

Détection des entrées malveillantes : l’observabilité permet d’identifier les langages nuisibles et les injections de messages, ce qui permet une intervention rapide pour prévenir les problèmes.

Suivi des retours utilisateurs : En observant les interactions et les retours des utilisateurs, l’observabilité fournit des données précieuses pour l’amélioration continue et le réglage précis des agents.

Les principaux éléments comprennent :

Suivi des actions : Surveillance de chaque étape effectuée par l'agent.
Utilisation des outils : Observation des outils et des ressources utilisés par l'agent.
Mesure de la latence : Surveillance des temps de réponse pour optimiser les performances.
Évaluations : Évaluation du comportement des agents et des performances du modèle.
Détection des entrées malveillantes : Identification des invites ou attaques nuisibles.

Cem Dilmegani
Cem Dilmegani
Analyste principal
Cem est analyste principal chez AIMultiple depuis 2017. AIMultiple informe chaque mois des centaines de milliers d'entreprises (selon similarWeb), dont 55 % des entreprises du classement Fortune 500. Les travaux de Cem ont été cités par des publications internationales de premier plan telles que Business Insider, Forbes et le Washington Post, ainsi que par des entreprises mondiales comme Deloitte et HPE, des ONG comme le Forum économique mondial et des organisations supranationales comme la Commission européenne. Vous trouverez d'autres entreprises et ressources réputées ayant fait référence à AIMultiple. Tout au long de sa carrière, Cem a exercé les fonctions de consultant, d'acheteur et d'entrepreneur dans le secteur des technologies. Il a conseillé des entreprises sur leurs décisions technologiques chez McKinsey & Company et Altman Solon pendant plus de dix ans. Il a également publié un rapport McKinsey sur la numérisation. Il a dirigé la stratégie technologique et les achats d'un opérateur télécom, sous la responsabilité directe du PDG. Il a également piloté la croissance commerciale de la société de deep tech Hypatos, qui a atteint un chiffre d'affaires annuel récurrent à sept chiffres et une valorisation à neuf chiffres en seulement deux ans. Les travaux de Cem chez Hypatos ont été présentés dans des publications technologiques de référence telles que TechCrunch et Business Insider. Cem intervient régulièrement lors de conférences internationales sur les technologies. Diplômé en génie informatique de l'université de Bogazici, il est également titulaire d'un MBA de la Columbia Business School.
Voir le profil complet

Soyez le premier à commenter

Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.

0/450