What is observability?

Observability is the ability to understand an AI agent's internal workings by examining external signals such as logs, metrics, and traces. For AI agents, this involves monitoring actions, tool usage, model interactions, and responses to troubleshoot and enhance performance.

What makes agent observability essential for AI?

Agent observability is crucial for tracking and improving AI performance by enabling:Understanding trade-offs: It helps measure key metrics like accuracy and cost, making it easier to strike a balance between performance and resource usage.Measuring latency: Real-time latency tracking offers insights into response times, helping optimize agent performance.Detecting malicious inputs: Observability helps identify harmful language and prompt injections, allowing for prompt intervention to prevent issues.User feedback monitoring: By observing user interactions and feedback, observability provides valuable data for continuous improvement and fine-tuning of agents.

What are the key components of agent observability?

Key components include:- Tracking actions: Monitoring each step taken by the agent. - Tool usage: Observing the tools and resources the agent uses.- Latency measurement: Monitoring response times to optimize performance.- Evaluations: Assessing agent behavior and model performance.- Malicious input detection: Identifying harmful prompts or attacks.

Agent IA Cadres d'IA agentique

15 outils d'observabilité des agents IA en 2026 : AgentOps et Langfuse

Cem Dilmegani

mis à jour le Jan 29, 2026

Consultez notre normes éthiques

Les outils d'observabilité des agents d'IA, tels que Langfuse et Arize, aident à collecter des traces détaillées (un enregistrement de l'exécution d'un programme ou d'une transaction) et fournissent des tableaux de bord pour suivre les indicateurs en temps réel .

De nombreux frameworks d'agents , comme LangChain, utilisent la norme OpenTelemetry pour partager des métadonnées avec la supervision des agents. Par ailleurs, de nombreux outils d'observabilité offrent une instrumentation personnalisée pour une plus grande flexibilité.

Nous avons testé 15 plateformes d'observabilité pour les applications LLM et les agents d'IA. Chaque plateforme a été implémentée concrètement par la mise en place de flux de travail, la configuration d'intégrations et l'exécution de scénarios de test. Nous avons comparé les performances de 4 outils d'observabilité afin de déterminer s'ils induisent une surcharge dans les pipelines de production. Nous avons également présenté un tutoriel d'observabilité LangChain utilisant Langfuse .

Analyse comparative de la surcharge des outils de surveillance d'agents

Nous avons intégré chaque plateforme d'observabilité à notre système de planification de voyages multi-agents et exécuté 100 requêtes identiques afin de mesurer leur impact sur les performances par rapport à une configuration de référence sans instrumentation. Consultez notre méthodologie d'évaluation comparative.

LangSmith a démontré une efficacité exceptionnelle avec pratiquement aucun surcoût mesurable, ce qui le rend idéal pour les environnements de production critiques en termes de performances.
La technologie Laminar a introduit des frais généraux minimes de 5 %, ce qui la rend parfaitement adaptée aux environnements de production où la performance est essentielle.
AgentOps et Langfuse ont affiché une surcharge modérée, respectivement de 12 % et 15 %, ce qui représente un compromis acceptable entre les fonctionnalités d'observabilité et l'impact sur les performances. Ces plateformes conservent une latence acceptable pour la plupart des cas d'utilisation en production.

Raisons potentielles des différences de performance

Notre analyse comparative indique que les différences de latence sont principalement dues à la profondeur de l'instrumentation et à l'implication du chemin d'exécution, notamment dans les flux de travail multi-agents. Les outils offrant une observabilité plus poussée, au niveau de chaque étape, ont présenté une surcharge plus importante, tandis que les approches de traçage plus légères sont restées plus proches de la valeur de référence.

1. Profondeur d'instrumentation sur le chemin d'exécution

Les outils d'observabilité ajoutent une logique au flux d'exécution de l'agent afin de capturer des traces et des métadonnées. Lorsque cette logique s'exécute de manière synchrone lors du traitement des requêtes, elle augmente directement la latence de bout en bout, car l'agent doit effectuer ce travail supplémentaire avant de renvoyer une réponse.

Par exemple:

LangSmith n'a pratiquement pas ajouté de surcharge mesurable (~0%), indiquant un faible travail synchrone.
L'instrumentation plus poussée au niveau des étapes de Langfuse a contribué à une surcharge plus élevée (~15%).

2. Amplification d'événements à travers des pipelines multi-étapes

Dans les systèmes multi-agents, une simple requête utilisateur déclenche plusieurs actions d'agents. Lorsqu'un outil enregistre des données détaillées à chaque étape, le nombre total d'événements augmente rapidement, accroissant la charge de traitement et de gestion des traces à mesure que le flux de travail se complexifie.

Dans les résultats de référence :

Langfuse et AgentOps ont généré des frais généraux sensiblement plus élevés (15 % et 12 %) dans notre flux de travail de planification de voyage en plusieurs étapes.
LangSmith et Laminar ont émis moins d'événements par étape d'agent.

3. Surcharge d'évaluation et de validation en ligne

Certaines plateformes effectuent des contrôles ou une surveillance supplémentaires pendant l'exécution de l'agent. Bien que chaque contrôle soit léger, leur application répétée à toutes les étapes de l'agent engendre une latence mesurable.

Par exemple:

La surveillance du cycle de vie d'AgentOps a coïncidé avec une surcharge de 12 %.
Laminar n'a montré aucune preuve d'une évaluation en ligne affectant l'exécution, restant à ~5%.

4. Fréquence de sérialisation et de persistance

La capture de données d'observabilité détaillées nécessite la sérialisation des traces et leur écriture dans un système de stockage ou des backends externes. Plus le niveau de détail des traces est élevé, plus la fréquence de ces opérations augmente, ce qui accroît la charge d'E/S à chaque requête.

Dans notre analyse comparative :

Le suivi détaillé des invites, des sorties et des jetons de Langfuse a entraîné la surcharge la plus élevée (~15%).
Les artefacts de traces plus légers de LangSmith sont restés proches de la ligne de base.

5. Intégration étroite avec le cadre d'agents

Le degré d'intégration d'un outil avec le framework d'agents influe sur ses performances. Une intégration plus poussée réduit les étapes de traduction et d'orchestration, tandis que des SDK plus génériques ajoutent des couches de traitement supplémentaires.

Par exemple:

L'alignement précis de LangSmith avec l'exécution des agents s'est traduit par une surcharge quasi nulle.
AgentOps et Langfuse ont montré un impact de latence plus élevé, ce qui correspond à des chemins d'intégration plus découplés.

plateformes d'observabilité des agents d'IA

Niveau 1 : LLM à granularité fine et observabilité des prompts/sorties

Les fonctionnalités présentées dans ces colonnes sont des exemples illustratifs des capacités de surveillance de chaque outil, une fois étendues par des intégrations ou des personnalisations. Elles ne sont pas exclusives à une seule plateforme.

Niveau 2 : Observabilité du flux de travail, du modèle et de l'évaluation

Niveau 3 : Observabilité du cycle de vie et des opérations des agents

Niveau 4 : Surveillance du système et de l’infrastructure (non native à l’agent)

Datadog (avec son module LLM Observability) et Prometheus (via des exportateurs) sont de plus en plus utilisés aux côtés de Langfuse/LangSmith.

Plateformes de développement et d'orchestration d'agents :

Des outils comme Flowise , Langflow , SuperAGI et CrewAI permettent de créer, d'orchestrer et d'optimiser les flux de travail des agents grâce à des interfaces sans code ou à faible code.

Déploiement, éditions gratuites et tarification

Les versions gratuites varient selon les limites d'utilisation (par exemple, observations, traces, jetons ou unités de travail). Les prix de départ correspondent généralement à une formule de base, qui peut comporter des restrictions sur les fonctionnalités, le nombre d'utilisateurs ou les limites d'utilisation.

Poids et biais (Tissage W&B)

Cas d'utilisation : Débogage des défaillances dans les systèmes multi-agents en traçant la propagation des erreurs à travers les appels d'agents.

Figure 1 : Tableau de bord Traces de Weights & Biases Weave.

Weights & Biases Weave enregistre des traces d'exécution structurées pour les systèmes multi-agents, préservant les relations parent-enfant entre les appels d'agents. Les entrées, les sorties, les états intermédiaires, la latence et l'utilisation des jetons sont capturés pour chaque agent et chaque trace.

fonctionnalités de surveillance Weave

Traçage hiérarchique des agents plutôt que journaux de requêtes plats
Attribution des coûts et de la latence au niveau de l' agent
Prise en charge native des outils d'évaluation appliqués directement aux traces.

capacités d'évaluation

Weave propose également des outils d'évaluation intégrés, notamment :

HallucinationFreeScorer pour la détection des hallucinations,
SummarizationScorer pour évaluer la qualité des résumés,
Évaluateur de similarité d'intégration pour la similarité sémantique,
ValidJSONScorer et ValidXMLScorer pour la validation du format,
PydanticScorer pour la conformité aux schémas,
OpenAIModérationÉvaluateur de la sécurité du contenu,
Les outils d'évaluation RAGAS comme ContextEntityRecallScorer,
Système d'évaluation de la pertinence du contexte pour le système RAG.

Idéal pour : Les équipes exécutant des flux de travail à plusieurs étapes ou à plusieurs agents et qui ont besoin d'une analyse des causes profondes au niveau des traces plutôt que de simples indicateurs de surface.

Langfuse

Cas d'utilisation : Suivre les interactions LLM, gérer les versions d'invite et surveiller les performances du modèle lors des sessions utilisateur.

Figure 2 : Exemple de tableau de bord Langfuse montrant les détails de la trace. ¹

Langfuse offre une visibilité approfondie sur la couche d'invite, capturant les invites, les réponses, les coûts et les traces d'exécution pour aider à déboguer, surveiller et optimiser les applications LLM.

Cependant, Langfuse peut ne pas convenir aux équipes qui préfèrent les flux de travail basés sur Git pour la gestion du code et des invites, car son système externe de gestion des invites peut ne pas offrir le même niveau de contrôle de version et de collaboration.

fonctionnalités de surveillance Langfuse

Visibilité sur l'évolution et les modèles d'utilisation des prompts
Analyse par session adaptée aux applications destinées aux utilisateurs
Modèle pratique de métadonnées et d'étiquetage pour le filtrage et la révision

Fonctionnalités de niveau entreprise :

Voici quelques-unes de ces caractéristiques :

Niveaux de journalisation : Ajustez le niveau de détail des journaux pour obtenir des informations plus précises.
Multimodalité : Prend en charge le texte , les images , l'audio et d'autres formats pour les applications LLM multimodales.
Gestion des versions et des mises à jour : Suivez l’historique des versions et voyez comment les nouvelles versions affectent les performances du modèle.
URL de suivi : Accédez aux traces détaillées via des URL uniques pour une inspection et un débogage plus approfondis.
Graphiques d'agents : Visualisez les interactions et les dépendances entre agents pour une meilleure compréhension de leur comportement.
Échantillonnage : Collecter des données représentatives des interactions à analyser sans surcharger le système.
Suivi des jetons et des coûts : Suivez l’utilisation des jetons et les coûts pour chaque appel de modèle, garantissant ainsi une gestion efficace des ressources.
Masquage : Protégez les données sensibles en les masquant dans des traces, garantissant ainsi la confidentialité et la conformité.

Idéal pour : Les équipes qui travaillent sur les invites et surveillent leur utilisation en production, notamment lorsque les sessions utilisateur sont importantes.

Galilée

Cas d'utilisation : surveiller les coûts/la latence, évaluer la qualité de la sortie, bloquer les réponses non sécurisées et fournir des correctifs exploitables.

Figure 3 : Graphiques montrant la qualité de la sélection des outils, le respect du contexte, la compilation des actions de l'agent et le temps jusqu'au premier jeton.

Galileo suit les indicateurs de coût, de latence et de qualité de sortie tout en appliquant des contrôles de sécurité et de conformité en temps réel.

La plateforme combine l'observabilité traditionnelle (latence, coût, performance) avec le débogage et l'évaluation basés sur l'IA (détection d'hallucinations, exactitude des faits, cohérence, respect du contexte).

fonctionnalités de surveillance de Galileo

Identification des modes de défaillance au-delà des erreurs superficielles (par exemple, des hallucinations entraînant des entrées d'outils invalides)
Des commentaires prescriptifs tels que des suggestions de modifications d'invite ou des ajouts en quelques étapes
Lien étroit entre les résultats de l'évaluation et les correctifs recommandés.

Idéal pour : les organisations qui privilégient la qualité de la production, la sécurité et des cycles d'itération rapides avec une correction guidée.

IA des garde-fous

Cas d'utilisation : Prévenir les résultats nocifs, valider les réponses LLM et garantir la conformité aux politiques de sécurité

Figure 4 : Tableau de bord du comportement du garde montrant les différences dans la durée d'exécution du garde et les échecs du garde.

Guardrails valide les entrées et sorties LLM par rapport à des règles configurables, notamment la toxicité, les biais, l'exposition aux PII, les hallucinations de drapeaux et la conformité au format.

Fonctionnalités de surveillance par IA de Guardrails

Validation déterministe via les spécifications RAIL
Protections d'entrée pour la détection d'injection rapide et de jailbreak
Nouvelle tentative automatique en cas d'échec de la validation.

Idéal pour
Les équipes qui doivent imposer des garanties strictes en matière de sécurité, de conformité ou de formatage avant de renvoyer les réponses.

LangSmith

Cas d'utilisation : Raisonnement des agents et débogage des appels d'outils (centré sur LangChain)

Figure 5 : Tableau de bord LangSmith montrant les traces, y compris leurs noms, entrées, heures de début et latences.

LangSmith capture l'intégralité des traces de raisonnement des agents basés sur LangChain, y compris les invites, le contexte récupéré, la logique de sélection des outils, les entrées/sorties des outils, les erreurs et les exceptions.

fonctionnalités de surveillance LangSmith

Inspection étape par étape des chemins de décision des agents
Exécutez la relecture et la comparaison côte à côte des invites, des modèles ou des outils
Intégration étroite avec LangChain via des rappels.

Idéal pour
Équipes de développement utilisant LangChain qui doivent déboguer en détail des raisonnements incorrects ou des invocations d'outils erronées.

Langtrace IA

Cas d'utilisation : Identification des goulots d'étranglement liés aux coûts et à la latence dans les applications LLM

Figure 6 : Tableau de bord de traçage de l'IA Langtrace.

Langtrace suit le nombre de jetons, la durée d'exécution, les coûts des API et les paramètres de requête à travers les pipelines LLM à l'aide de traces compatibles avec OpenTelemetry.

Fonctionnalités de surveillance IA de Langtrace

Alignement OpenTelemetry pour l'intégration avec les systèmes dorsaux existants
Visibilité sur les facteurs de coût et de latence par étape
Terrain de jeu léger pour le versionnage et les tests de prompts.

Idéal pour : les équipes qui optimisent les performances et les dépenses des flux de travail LLM plutôt que d'évaluer la qualité des résultats.

Arize (Phoenix)

Cas d'utilisation : surveiller la dérive du modèle, détecter les biais et évaluer les résultats des modèles linéaires logiques grâce à des systèmes de notation complets.

Figure 7 : Tableau de bord du moniteur de dérive Arize Phoenix.

Phoenix se concentre sur la dérive comportementale, la détection des biais et l'évaluation de la pertinence, de la toxicité et de la précision par LLM en tant que juge.

Cependant, son intégration est plus complexe que celle des proxys légers et la gestion des versions instantanées n'est pas aussi fluide que celle des outils dédiés.

fonctionnalités de surveillance de Phoenix

Noyau open source avec extensions d'entreprise optionnelles
Terrain de jeu interactif pour le développement
Détection de dérive pour le suivi des changements de comportement au fil du temps
Contrôles des biais pour identifier les biais de réponse,
Évaluation par un juge de la précision, de la toxicité et de la pertinence des résultats de LLM.

Idéal pour : les équipes qui surveillent le comportement à long terme des modèles et le risque de régression plutôt que les itérations rapides.

Agenta

Cas d'utilisation : Déterminer quelle invite fonctionne le mieux sur quel modèle

Figure 8 : Image montrant différentes alternatives d'invite d'Agenta.

Agenta compare les réponses des modèles en termes de coût, de latence et de qualité de sortie en utilisant des entrées partagées et un contexte contrôlé.

Figure 9 : Exemple de sortie d'Agenta.

fonctionnalités de surveillance d'Agenta

Évaluation comparative des modèles
Aide à la décision en préproduction.

Idéal pour : l'évaluation préliminaire et la sélection de modèles.

AgentOps.ai

Cas d'utilisation : Surveiller le raisonnement des agents, suivre les coûts et déboguer les sessions en production

Figure 10 : Exemple de tableau de bord de relecture de session d'AgentOps.ai.

AgentOps capture les traces de raisonnement, les appels d'outils/API, l'état de la session, le comportement de mise en cache et les indicateurs de coût des agents déployés.

fonctionnalités de surveillance d'AgentOps

Relecture de session pour le débogage en production
Privilégiez l'analyse du comportement des agents en direct plutôt que l'évaluation hors ligne.

Idéal pour : Les équipes qui gèrent des agents en production et qui ont besoin d'une visibilité opérationnelle.

Groupe de réflexion

Cas d'utilisation : Déterminer, grâce à une évaluation détaillée et une analyse des erreurs, quelle invite, quel ensemble de données ou quel modèle est le plus performant.

Figure 11 : Tableau de bord de l'agent de support client de Braintrust.

Braintrust évalue les invites, les ensembles de données et les modèles par rapport aux résultats attendus, en suivant la latence, le coût, les erreurs d'outils et les indicateurs d'exécution.

fonctionnalités de surveillance du groupe de réflexion

Évaluez les ensembles de données de test avec des entrées et des sorties attendues, puis comparez les invites ou les modèles côte à côte en utilisant des variables comme {{input}}, {{expected}} et {{metadata}}.
Analyse détaillée des indicateurs, y compris la qualité d'exécution des outils

Idéal pour : Les équipes qui évaluent les modèles et les invites avant leur déploiement.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Suivre

AgentNeo

Cas d'utilisation : Débogage des interactions multi-agents, suivi de l'utilisation des outils et évaluation des flux de travail de coordination

AgentNeo assure le suivi des communications entre agents, de l'utilisation des outils, des graphiques d'exécution, ainsi que des coûts et de la latence par agent via un SDK Python.

fonctionnalités de surveillance d'AgentNeo

Logiciel libre et exécutable localement
Tableau de bord local interactif (localhost:3000) pour la surveillance en temps réel des flux de travail multi-agents.
Intégration à l'aide de décorateurs (par exemple, @tracer.trace_agent, @tracer.trace_tool)

Idéal pour : Les équipes d'ingénierie qui expérimentent avec des systèmes multi-agents.

laminaire

Cas d'utilisation : Suivre les performances à travers différents frameworks et modèles LLM.

Figure 12 : Exemple de tableau de bord Traces de Laminar.

Laminar suit les durées d'exécution, les coûts, l'utilisation des jetons et les percentiles de latence à travers les frameworks et les modèles LLM.

caractéristiques de surveillance laminaire

analyse de performance indépendante du cadre
Inspection de portée à grain fin.

Idéal pour : l'analyse comparative des performances de différentes architectures hétérogènes.

Hélicone

Cas d'utilisation : Suivre les flux de travail des agents en plusieurs étapes et analyser les modèles de session utilisateur.

Figure 12 : Image montrant 3 mois de changements dans les requêtes, les coûts, les erreurs et la latence.

Helicone enregistre les volumes de requêtes, les coûts, les erreurs, les tendances de latence et les flux de travail des agents au niveau de la session.

fonctionnalités de surveillance d'Helicone

visibilité du parcours utilisateur
Analyse des tendances historiques.

Idéal pour : Les équipes produit chargées de surveiller les habitudes d'utilisation et le comportement des utilisateurs.

Coval

Cas d'utilisation : simuler des milliers de conversations entre agents, tester les interactions vocales/par chat et valider le comportement avant le déploiement.

Figure 13 : Tableau de bord d'évaluation de Coval montrant les pourcentages d'objectifs atteints, d'identité vérifiée, de répétition correcte, de clarté de l'agent et d'informations incorrectes.

Coval simule des milliers de conversations pour mesurer l'achèvement des tâches, leur exactitude et l'efficacité des appels d'outils.

fonctionnalités de surveillance Coval

Tests d'agents basés sur la simulation
Détection automatique de régression
Assistance vocale et textuelle par agent.

Idéal pour : la validation avant déploiement et la détection des régressions.

Datadog

Cas d'utilisation : Observabilité de l'infrastructure et des applications grâce à la corrélation des signaux LLM.

Datadog collecte les métriques d'infrastructure (CPU, mémoire, réseau), les données de performance des applications (latence, taux d'erreur, débit) et les journaux. Pour les applications LLM, il peut intégrer l'utilisation des jetons, le coût par requête, la latence du modèle et les signaux liés à la sécurité, tels que les tentatives d'injection de requêtes.

fonctionnalités de surveillance de Datadog

Observabilité étendue à l'échelle du système, couvrant l'infrastructure, les applications et les charges de travail d'IA
Vaste écosystème d'intégration (plus de 900 intégrations) permettant la corrélation entre le comportement de l'IA et l'état de l'infrastructure

Idéal pour : Les organisations qui souhaitent corréler le comportement LLM avec l'infrastructure sous-jacente et les performances des applications plutôt que d'inspecter le raisonnement ou les invites des agents

Prométhée

Cas d'utilisation : surveiller les performances du système, suivre les indicateurs de performance des applications et configurer des alertes en cas de problèmes d'infrastructure.

Prometheus est un système de surveillance open source qui collecte des métriques de séries temporelles à partir de points de terminaison HTTP à intervalles réguliers afin de suivre les métriques d'infrastructure, d'application, de base de données, de conteneur et les métriques métier personnalisées.

fonctionnalités de surveillance de Prometheus

Collecte de métriques de séries temporelles par extraction de données
PromQL pour les conditions d'interrogation, d'agrégation et d'alerte
Écosystème d'exportation (par exemple, Node Exporter) pour une couverture système étendue

Idéal pour : la surveillance des infrastructures et des applications avec alertes basées sur des règles.

Grafana

Cas d'utilisation : Visualiser les indicateurs, créer des tableaux de bord et acheminer les alertes à travers les données LLM, des agents et de l'infrastructure.

Figure 14 : Tableau de bord des traces montrant l'évolution du taux de requêtes, du nombre total de jetons d'utilisation, du coût d'utilisation moyen et du coût d'utilisation total.

Grafana est une plateforme de visualisation et d'analyse open source qui s'intègre à des sources de données telles que Prometheus, OpenTelemetry et Datadog pour fournir des tableaux de bord d'observabilité unifiés.

fonctionnalités de surveillance de Grafana

Tableaux de bord regroupant les métriques, les journaux et les traces
Corrélation intersystème pour les signaux LLM, d'agent et d'infrastructure
Gestion des alertes et des notifications.

Idéal pour : la visualisation centralisée des données observables et la réponse aux incidents.

Tutoriel : Observabilité de LangChain avec Langfuse

Nous avons construit un pipeline LangChain en plusieurs étapes comportant trois phases :

analyse de questions
génération de réponses
vérification des réponses

Après avoir configuré le pipeline, nous l'avons connecté à Langfuse pour surveiller et suivre son exécution en temps réel. Cela nous a permis d'explorer comment Langfuse nous aide à recueillir des informations détaillées sur les performances, les coûts et le comportement des applications d'IA.

Voici ce que nous avons observé avec Langfuse :

Vue d'ensemble du tableau de bord

Figure 15 : Tableaux de bord des coûts, de la gestion de l'utilisation et de la latence de Langfuse.

Langfuse nous a fourni plusieurs tableaux de bord qui nous donnent une visibilité sur différents aspects des performances du pipeline :

Tableau de bord des coûts : Ce tableau de bord suit les dépenses liées à tous les appels d’API, avec des ventilations détaillées par modèle et par période.
Gestion de l'utilisation : Elle surveille les indicateurs d'exécution, tels que le nombre d'observations et l'allocation des ressources, nous aidant ainsi à suivre l'utilisation des ressources pendant l'exécution.
Tableau de bord de latence : Ce tableau de bord nous a permis d’analyser les temps de réponse, de détecter les goulots d’étranglement et de visualiser les tendances de performance.

Métriques d'utilisation

Figure 16 : Image montrant les métriques d'utilisation de Langfuse, y compris le nombre total de traces, le nombre total d'observations et le nombre total de scores (numériques et catégoriels).

Le tableau de bord des indicateurs d'utilisation nous a fourni les informations suivantes sur les performances du système :

Nombre total de traces : Nous avons suivi huit traces, chacune représentant un cycle complet de question-réponse dans le pipeline.
Nombre total d'observations : En moyenne, chaque trace comportait 16 observations, reflétant la nature multi-étapes du processus.

De plus, Langfuse nous permet de suivre les modèles d'utilisation , l'allocation des ressources et les périodes de pointe au cours des 7 derniers jours, ce qui nous aide à comprendre quand le système est le plus actif et comment les ressources sont réparties dans le temps.

Inspection des traces

Figure 17 : Tableau de bord des traces de Langfuse montrant les niveaux d'entrée, de sortie, d'observabilité, de latence et de jetons.

En analysant une trace individuelle, nous avons pu voir des informations d'exécution détaillées :

Lignes de trace : Chaque ligne représente une exécution complète du pipeline avec un ID de trace unique.
Métriques de latence : Le temps d'exécution a varié, allant de 0,00 s à 34,08 s.
Nombre de jetons : Le tableau de bord a permis de suivre l'utilisation des jetons d'entrée/sortie, ce qui contribue à la gestion des coûts et à l'efficacité.
Filtrage de l'environnement : Nous pourrions filtrer les traces en fonction des environnements de déploiement (par exemple, développement, production).

Détails de la trace individuelle

Figure 18 : Architecture de chaîne séquentielle de Langfuse.

Nous avons ensuite analysé la trace plus en détail afin de comprendre la défaillance de l'exécution :

Architecture de chaîne séquentielle : La trace affichait un flux visuel montrant chaque étape, commençant par SequentialChain → LLMChain → ChatOpenAI , avec une structure hiérarchique.
Suivi des entrées/sorties : La question initiale, « Quels sont les avantages de l'utilisation de Langfuse pour l'observabilité des agents d'IA ? », a été suivie à chaque étape, ainsi que les sorties respectives produites par l'IA à chaque étape.
Analyse des jetons : Nous avons observé que 1 203 jetons ont été utilisés en entrée et 1 516 jetons en sortie, ce qui a des implications en termes de coûts liés à l'utilisation des jetons et contribue à optimiser la gestion des ressources.
Données de synchronisation : La latence totale pour la trace complète était de 34,08 s , répartie comme suit pour chaque composant :
- Chaîne séquentielle → 14,02 s
- LLMChain → 10,25 s
- ChatOpenAI → 9,81s
Informations sur le modèle : Langfuse a confirmé l'utilisation du modèle Anthropic Claude-Sonnet-4 , avec des détails sur les réglages spécifiques, y compris la configuration de la température.
Sortie formatée : Des vues d’aperçu et JSON ont été fournies pour le débogage, donnant un aperçu de la réponse du modèle sous une forme lisible par l’homme et dans un format lisible par la machine.

Analyse automatisée

Figure 19 : Exemple d'évaluations automatisées Langfuse.

Langfuse a également fourni des évaluations automatisées de nos réponses :

Évaluation de la qualité : Le système a évalué la structure, la cohérence et l'exhaustivité des réponses, soulignant les sections bien organisées mais suggérant que les réponses pourraient être plus concises.
Suggestions d'amélioration : Le rapport a identifié des sections redondantes, suggérant des pistes d'amélioration du libellé, et a regroupé les points connexes afin de rendre la réponse plus transparente et plus efficace.
Analyse des performances : Le système a fourni des informations sur l'utilisation des jetons et la pertinence des réponses, ce qui nous a permis d'optimiser l'efficacité tout en garantissant que les résultats restent utiles et pertinents.
Commentaires structurés : Les commentaires ont été organisés en catégories, ce qui nous a permis d'aborder de manière ciblée les points à améliorer.

Analyse des utilisateurs

Figure 20 : L'image montre l'activité anonymisée des utilisateurs, montrant les premières et dernières interactions de chaque utilisateur, les volumes d'événements, la consommation de jetons et les coûts associés pour aider à analyser l'engagement, l'utilisation des ressources et l'allocation du budget.

Langfuse enregistre les interactions détaillées entre les utilisateurs et l'agent d'IA :

Chronologie de l'activité utilisateur : Affiche la première et la dernière interaction de chaque utilisateur, permettant ainsi de distinguer les utilisateurs actifs des utilisateurs inactifs. On peut voir quand les utilisateurs ont interagi avec le système pour la première et la dernière fois.
Suivi du volume d'événements : Permet de suivre le nombre d'événements déclenchés par chaque utilisateur. Par exemple, certains utilisateurs ont généré plus de 2 000 événements, ce qui témoigne de leur niveau d'engagement avec le système.
Analyse de la consommation de jetons : Surveille le nombre total de jetons consommés par chaque utilisateur. La consommation de jetons a varié de 6 590 à 357 000, fournissant ainsi des informations sur l’utilisation des ressources.
Attribution des coûts : Elle détaille les coûts associés à chaque utilisateur, facilitant ainsi le suivi des dépenses et l'optimisation de l'allocation budgétaire pour l'utilisation des ressources.
Identification de l'utilisateur : Utilise des identifiants utilisateur anonymisés pour préserver la confidentialité tout en suivant les interactions individuelles des utilisateurs, facilitant ainsi l'analyse de l'utilisation sans compromettre la confidentialité des utilisateurs.

Figure 21 : Un exemple de la vue de session, montrant l'ensemble du flux de conversation ainsi que le code Python exécuté, corrélant les entrées de l'utilisateur avec les sorties du système et affichant les métadonnées de session pour donner une image complète de la façon dont l'interaction a été traitée.

La vue session nous permet de suivre les détails précis des interactions des utilisateurs :

Déroulement complet de la conversation : Affiche l’intégralité de l’interaction question-réponse, permettant de suivre facilement la conversation du début à la fin.
Visibilité de l'implémentation : Affiche le code Python réellement utilisé pendant la session, offrant un aperçu de l'implémentation technique.
Corrélation entrée/sortie : Relie les questions de l'utilisateur aux réponses correspondantes du système, ce qui nous aide à résoudre les problèmes et à identifier où des difficultés ont pu survenir dans la conversation.
Métadonnées de session : Incluent des détails techniques tels que la durée, le contexte utilisateur et les données d’implémentation spécifiques, offrant une vue d’ensemble de l’exécution de la session.

Quand ne pas utiliser les outils d'observabilité

Phase de développement initiale : Si vous êtes encore en train de valider l’adéquation produit-marché ou de mettre en place vos premiers flux de travail d’agents, l’accent doit être mis sur les fonctionnalités essentielles plutôt que sur une observabilité étendue.
Goulots d'étranglement de l'API : Si vos principaux problèmes concernent les coûts, la latence ou la mise en cache de l'API, la priorité immédiate devrait être l'optimisation de ces domaines, et non le suivi des indicateurs au niveau du système.
Optimisation du modèle : Si les améliorations sont principalement dues à la sélection du modèle, à son réglage fin ou à une ingénierie rapide, les outils d’observabilité de la dérive et du biais ne sont peut-être pas encore nécessaires.

Quand utiliser les outils d'observabilité

Production à grande échelle : Lorsque vous travaillez avec plusieurs modèles, agents ou chaînes, les outils d’observabilité sont essentiels pour surveiller les performances et garantir la santé du système.
Applications d'entreprise ou destinées aux clients : Pour les applications où la fiabilité, la sécurité et la conformité sont non négociables, les outils d'observabilité offrent la visibilité et le contrôle nécessaires.
Surveillance continue : Lorsque vous devez surveiller la dérive, le biais, les performances et les problèmes de sécurité au fil du temps, ce qui ne peut pas être facilement capturé avec des scripts de base ou des vérifications manuelles, les outils d’observabilité sont essentiels.
Scénarios à haut risque : Dans les environnements où le coût d'une défaillance (par exemple, hallucinations, résultats non sécuritaires) est important, l'observabilité permet de minimiser les risques et de détecter les problèmes au plus tôt.

Méthodologie de référence

Pour évaluer la surcharge de performance des plateformes d'observabilité dans les applications LLM de production, nous avons développé une approche d'évaluation comparative systématique utilisant un flux de travail agentiel réel.

Application de test

Nous avons construit un système de planification de voyages multi-agents séquentiel utilisant LangChain qui traite les demandes de voyage en langage naturel en cinq étapes :

Agent d'analyse syntaxique : extrait les données structurées (origine, destination, dates, durée) des données saisies par l'utilisateur.
Agent de recherche de vols : Récupère les vols disponibles via l'API Amadeus
Agent météo : Récupère les prévisions météo de destination via l'API Météo
Agent de recommandation d'activités : Suggère des activités en fonction des conditions météorologiques
Agent de planification de voyages : Synthétise toutes les informations en un itinéraire complet

Le système utilise Claude 4 Haiku via OpenRouter pour tous les appels LLM et intègre des API externes pour les données en temps réel.

Conception de référence

Établissement d'une base de référence : Nous avons d'abord mesuré les performances de l'application sans aucun instrument d'observabilité, en exécutant 100 requêtes identiques afin d'établir une base de référence pour la comparaison.

Intégration de la plateforme : Nous avons ensuite intégré cinq plateformes d'observabilité de premier plan (LangSmith, Laminar, AgentOps, Langfuse) une à une, en instrumentant les mêmes points de traçage sur toutes les plateformes pour plus de cohérence.

Exécution séquentielle : chaque plateforme a été testée indépendamment en exécutant les 100 requêtes consécutivement avant de passer à la plateforme suivante. Cette approche minimise la variabilité due à des facteurs externes tels que les conditions du réseau ou les limites de débit de l’API.

Environnement contrôlé : Tous les tests ont été exécutés sur la même infrastructure serveur avec des ensembles de requêtes identiques afin de garantir une comparaison équitable. Pour isoler la surcharge due aux variations de latence induites par le LLM, nous avons configuré le modèle avec une température nulle et des invites structurées afin de minimiser la variabilité des réponses entre les exécutions.

Métriques collectées

Pour chaque plateforme, nous avons mesuré la latence moyenne et calculé la surcharge comme la latence supplémentaire introduite par rapport à la valeur de référence : ((Platform Latency - Base Latency) / Base Latency) × 100

FAQ

L'observabilité est la capacité à comprendre le fonctionnement interne d'un agent d'IA en examinant des signaux externes tels que les journaux, les métriques et les traces.

Pour les agents d'IA, cela implique de surveiller les actions, l'utilisation des outils, les interactions avec les modèles et les réponses afin de résoudre les problèmes et d'améliorer les performances.

L'observabilité des agents est cruciale pour suivre et améliorer les performances de l'IA en permettant :

Comprendre les compromis : Cela permet de mesurer des indicateurs clés comme la précision et le coût, facilitant ainsi la recherche d'un équilibre entre performance et utilisation des ressources.

Mesure de la latence : Le suivi de la latence en temps réel offre une visibilité sur les temps de réponse, contribuant ainsi à optimiser les performances des agents.

Détection des entrées malveillantes : l’observabilité permet d’identifier les langages nuisibles et les injections de messages, ce qui permet une intervention rapide pour prévenir les problèmes.

Suivi des retours utilisateurs : En observant les interactions et les retours des utilisateurs, l’observabilité fournit des données précieuses pour l’amélioration continue et le réglage précis des agents.

Les principaux éléments comprennent :

– Suivi des actions : Surveillance de chaque étape effectuée par l'agent.
– Utilisation des outils : Observation des outils et des ressources utilisés par l'agent.
– Mesure de la latence : Surveillance des temps de réponse pour optimiser les performances.
– Évaluations : Évaluation du comportement des agents et des performances du modèle.
– Détection des entrées malveillantes : Identification des invites ou attaques nuisibles.

Liens de référence

Model Usage & Cost Tracking for LLM applications (open source) - Langfuse

Cem Dilmegani

Analyste principal

Suivre

Cem est analyste principal chez AIMultiple depuis 2017. AIMultiple informe chaque mois des centaines de milliers d'entreprises (selon similarWeb), dont 55 % des entreprises du classement Fortune 500. Les travaux de Cem ont été cités par des publications internationales de premier plan telles que Business Insider, Forbes et le Washington Post, ainsi que par des entreprises mondiales comme Deloitte et HPE, des ONG comme le Forum économique mondial et des organisations supranationales comme la Commission européenne. Vous trouverez d'autres entreprises et ressources réputées ayant fait référence à AIMultiple. Tout au long de sa carrière, Cem a exercé les fonctions de consultant, d'acheteur et d'entrepreneur dans le secteur des technologies. Il a conseillé des entreprises sur leurs décisions technologiques chez McKinsey & Company et Altman Solon pendant plus de dix ans. Il a également publié un rapport McKinsey sur la numérisation. Il a dirigé la stratégie technologique et les achats d'un opérateur télécom, sous la responsabilité directe du PDG. Il a également piloté la croissance commerciale de la société de deep tech Hypatos, qui a atteint un chiffre d'affaires annuel récurrent à sept chiffres et une valorisation à neuf chiffres en seulement deux ans. Les travaux de Cem chez Hypatos ont été présentés dans des publications technologiques de référence telles que TechCrunch et Business Insider. Cem intervient régulièrement lors de conférences internationales sur les technologies. Diplômé en génie informatique de l'université de Bogazici, il est également titulaire d'un MBA de la Columbia Business School.

Voir le profil complet

Soyez le premier à commenter

Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.

15 outils d'observabilité des agents IA en 2026 : AgentOps et Langfuse

Analyse comparative de la surcharge des outils de surveillance d'agents

Raisons potentielles des différences de performance

1. Profondeur d'instrumentation sur le chemin d'exécution

2. Amplification d'événements à travers des pipelines multi-étapes

3. Surcharge d'évaluation et de validation en ligne

4. Fréquence de sérialisation et de persistance

5. Intégration étroite avec le cadre d'agents

plateformes d'observabilité des agents d'IA

Niveau 1 : LLM à granularité fine et observabilité des prompts/sorties

Niveau 2 : Observabilité du flux de travail, du modèle et de l'évaluation

Niveau 3 : Observabilité du cycle de vie et des opérations des agents

Niveau 4 : Surveillance du système et de l’infrastructure (non native à l’agent)

Plateformes de développement et d'orchestration d'agents :

Déploiement, éditions gratuites et tarification

Poids et biais (Tissage W&B)

fonctionnalités de surveillance Weave

capacités d'évaluation

Langfuse

fonctionnalités de surveillance Langfuse

Fonctionnalités de niveau entreprise :

Galilée

fonctionnalités de surveillance de Galileo

IA des garde-fous

Fonctionnalités de surveillance par IA de Guardrails

LangSmith

fonctionnalités de surveillance LangSmith

Langtrace IA

Fonctionnalités de surveillance IA de Langtrace

Arize (Phoenix)

fonctionnalités de surveillance de Phoenix

Agenta

fonctionnalités de surveillance d'Agenta

AgentOps.ai

fonctionnalités de surveillance d'AgentOps

Groupe de réflexion

fonctionnalités de surveillance du groupe de réflexion

AgentNeo

fonctionnalités de surveillance d'AgentNeo

laminaire

caractéristiques de surveillance laminaire

Hélicone

fonctionnalités de surveillance d'Helicone

Coval

fonctionnalités de surveillance Coval

Datadog

fonctionnalités de surveillance de Datadog

Prométhée

fonctionnalités de surveillance de Prometheus

Grafana

fonctionnalités de surveillance de Grafana

Tutoriel : Observabilité de LangChain avec Langfuse

Vue d'ensemble du tableau de bord

Métriques d'utilisation

Inspection des traces

Détails de la trace individuelle

Analyse automatisée

Analyse des utilisateurs

Quand ne pas utiliser les outils d'observabilité

Quand utiliser les outils d'observabilité

Méthodologie de référence

Application de test

Conception de référence

Métriques collectées

FAQ

Qu'est-ce que l'observabilité ?

Pourquoi l'observabilité des agents est-elle essentielle pour l'IA ?

Quels sont les éléments clés de l'observabilité des agents ?

Liens de référence

Soyez le premier à commenter

À lire ensuite

Agents d'utilisation informatique : analyse comparative et architecture

Recherche d'agents en 2026 : 8 API de recherche de référence pour les agents

L'IA agentique dans la gestion des services informatiques : 10 cas d'utilisation et exemples

Création d'agents d'IA personnels + 18 plateformes et outils pour agents

Création d'agents d'IA à l'aide de modèles composables

Les 14 meilleurs agents d'IA comptable