What is observability?

Observability is the ability to understand an AI agent's internal workings by examining external signals such as logs, metrics, and traces. For AI agents, this involves monitoring actions, tool usage, model interactions, and responses to troubleshoot and enhance performance.

What makes agent observability essential for AI?

Agent observability is crucial for tracking and improving AI performance by enabling:Understanding trade-offs: It helps measure key metrics like accuracy and cost, making it easier to strike a balance between performance and resource usage.Measuring latency: Real-time latency tracking offers insights into response times, helping optimize agent performance.Detecting malicious inputs: Observability helps identify harmful language and prompt injections, allowing for prompt intervention to prevent issues.User feedback monitoring: By observing user interactions and feedback, observability provides valuable data for continuous improvement and fine-tuning of agents.

What are the key components of agent observability?

Key components include:- Tracking actions: Monitoring each step taken by the agent. - Tool usage: Observing the tools and resources the agent uses.- Latency measurement: Monitoring response times to optimize performance.- Evaluations: Assessing agent behavior and model performance.- Malicious input detection: Identifying harmful prompts or attacks.

KI-Agent Agentische KI-Frameworks

15 Tools zur Beobachtbarkeit von KI-Agenten im Jahr 2026: AgentOps & Langfuse

Cem Dilmegani

aktualisiert am Jan 29, 2026

Siehe unsere ethischen Normen

Tools zur Überwachung von KI-Agenten, wie beispielsweise Langfuse und Arize, helfen dabei, detaillierte Traces (eine Aufzeichnung der Ausführung eines Programms oder einer Transaktion) zu sammeln und bieten Dashboards zur Echtzeitverfolgung von Metriken .

Viele Agenten-Frameworks , wie beispielsweise LangChain, nutzen den OpenTelemetry-Standard, um Metadaten mit der agentenbasierten Überwachung auszutauschen. Darüber hinaus bieten viele Observability-Tools benutzerdefinierte Instrumentierung für mehr Flexibilität.

Wir testeten 15 Observability-Plattformen für LLM-Anwendungen und KI-Agenten. Jede Plattform wurde praktisch implementiert, indem Workflows eingerichtet, Integrationen konfiguriert und Testszenarien ausgeführt wurden. Wir führten Benchmarks mit vier Observability-Tools durch, um zu messen, ob sie in Produktionspipelines zusätzlichen Aufwand verursachen. Außerdem demonstrierten wir ein LangChain-Observability-Tutorial mit Langfuse .

Overhead-Benchmark für Agentenüberwachungstools

Wir haben jede Observability-Plattform in unser Multiagenten-Reiseplanungssystem integriert und 100 identische Abfragen ausgeführt, um deren Leistungsmehraufwand im Vergleich zu einer Baseline ohne Instrumentierung zu messen. Lesen Sie mehr über unsere Benchmark-Methodik.

LangSmith erwies sich als außergewöhnlich effizient bei praktisch keinem messbaren Mehraufwand und ist daher ideal für leistungskritische Produktionsumgebungen geeignet.
Laminar erzeugte nur einen minimalen Overhead von 5 % und eignet sich daher hervorragend für Produktionsumgebungen, in denen Leistung von entscheidender Bedeutung ist.
AgentOps und Langfuse wiesen einen moderaten Overhead von 12 % bzw. 15 % auf, was einen angemessenen Kompromiss zwischen den Observability-Funktionen und den Auswirkungen auf die Performance darstellt. Diese Plattformen gewährleisten weiterhin eine akzeptable Latenz für die meisten Produktionsanwendungsfälle.

Mögliche Gründe für Leistungsunterschiede

Unsere Benchmark-Ergebnisse zeigen, dass Latenzunterschiede vor allem durch die Instrumentierungstiefe und die Einbindung in den Ausführungspfad bedingt sind, insbesondere in Multiagenten-Workflows. Tools mit tiefergehender, schrittweiser Beobachtbarkeit wiesen einen höheren Overhead auf, während weniger umfangreiche Tracing-Ansätze näher am Basiswert blieben.

1. Instrumentierungstiefe auf dem Ausführungspfad

Observability-Tools erweitern den Ausführungsablauf des Agenten um Logik, um Traces und Metadaten zu erfassen. Wird diese Logik synchron während der Anfragebearbeitung ausgeführt, erhöht sich die End-to-End-Latenz direkt, da der Agent diese zusätzlichen Aufgaben vor der Antwortabgabe erledigen muss.

Zum Beispiel:

LangSmith verursachte praktisch keinen messbaren Mehraufwand (~0%), was auf geringen synchronen Arbeitsaufwand hindeutet.
Die detailliertere Instrumentierung auf Stufenebene bei Langfuse führte zu einem höheren Aufwand (~15%).

2. Ereignisverstärkung in mehrstufigen Pipelines

In Multiagentensystemen löst eine einzelne Benutzeranfrage mehrere Agentenaktionen aus. Wenn ein Tool in jedem Schritt detaillierte Daten aufzeichnet, wächst die Gesamtzahl der Ereignisse schnell an, was den Aufwand für die Verarbeitung und Protokollierung mit zunehmender Komplexität des Workflows erhöht.

In den Benchmark-Ergebnissen:

Langfuse und AgentOps verursachten einen deutlich höheren Aufwand (15 % bzw. 12 %) in unserem mehrstufigen Reiseplanungsprozess.
LangSmith und Laminar erzeugten weniger Ereignisse pro Agentenschritt.

3. Aufwand für Inline-Evaluierung und -Validierung

Manche Plattformen führen während der Ausführung des Agenten zusätzliche Prüfungen oder Überwachungen durch. Obwohl jede einzelne Prüfung ressourcenschonend ist, führt ihre wiederholte Anwendung über alle Agentenschritte hinweg zu messbaren Verzögerungen.

Zum Beispiel:

Die Lebenszyklusüberwachung von AgentOps ging mit einem Mehraufwand von 12 % einher.
Bei Laminar gab es keine Hinweise darauf, dass die Inline-Evaluierung die Ausführung beeinflusste; der Wert blieb bei etwa 5 %.

4. Serialisierungs- und Persistenzfrequenz

Um detaillierte Observability-Daten zu erfassen, müssen Traces serialisiert und in Speichern oder externen Backends abgelegt werden. Je detaillierter die Traces sind, desto häufiger geschieht dies, was den I/O-Overhead jeder Anfrage erhöht.

In unserem Benchmark:

Die detaillierte Eingabeaufforderungs-, Ausgabe- und Tokenverfolgung von Langfuse führte zum höchsten Overhead (~15 %).
Die leichteren Spurenartefakte von LangSmith blieben nahe am Ausgangswert.

5. Enge Integration mit dem Agenten-Framework

Wie eng ein Tool in das Agenten-Framework integriert ist, beeinflusst die Performance. Eine engere Integration reduziert Übersetzungs- und Orchestrierungsschritte, während generischere SDKs zusätzliche Verarbeitungsebenen hinzufügen.

Zum Beispiel:

Die enge Abstimmung von LangSmith mit der Agentenausführung korrelierte mit einem Overhead von ~0 %.
AgentOps und Langfuse zeigten eine höhere Latenz, was mit stärker entkoppelten Integrationspfaden übereinstimmt.

KI-Agenten-Beobachtungsplattformen

Tier 1: Feingranulare LLM- und prompte/Ausgabe-Beobachtbarkeit

Die in diesen Spalten aufgeführten Funktionen sind beispielhaft dafür, was die einzelnen Tools durch Integrationen oder Anpassungen überwachen können. Sie sind nicht auf eine einzelne Plattform beschränkt.

Stufe 2: Workflow-, Modell- und Evaluierungs-Observabilität

Tier 3: Beobachtbarkeit des Agentenlebenszyklus und des Betriebs

Stufe 4: System- und Infrastrukturüberwachung (nicht agentenbasiert)

Datadog (mit seinem LLM Observability-Modul) und Prometheus (über Exporter) werden zunehmend zusammen mit Langfuse/LangSmith eingesetzt.

Plattformen für Agentenentwicklung und -orchestrierung :

Tools wie Flowise , Langflow , SuperAGI und CrewAI ermöglichen das Erstellen, Orchestrieren und Optimieren von Agenten-Workflows mit No-Code-/Low-Code-Schnittstellen.

Kostenlose Editionen und Preise für die Bereitstellung

Die kostenlosen Versionen unterscheiden sich hinsichtlich ihrer Nutzungslimits (z. B. Beobachtungen, Traces, Token oder Arbeitseinheiten). Die angegebenen Preise gelten in der Regel für einen Basistarif, der Einschränkungen hinsichtlich Funktionen, Nutzern oder Nutzungslimits aufweisen kann.

Gewichte & Schrägen (W&B-Webart)

Anwendungsfall: Fehlerbehebung in Multiagentensystemen durch Nachverfolgen der Fehlerfortpflanzung über Agentenaufrufe hinweg.

Abbildung 1: Traces-Dashboard von Weights & Biases Weave.

Weights & Biases Weave zeichnet strukturierte Ausführungsprotokolle für Multiagentensysteme auf und erhält dabei die Eltern-Kind-Beziehungen zwischen Agentenaufrufen. Eingaben, Ausgaben, Zwischenzustände, Latenz und Tokenverbrauch werden pro Agent und pro Protokoll erfasst.

Webüberwachungsfunktionen

Hierarchische Agentenverfolgung anstelle flacher Anforderungsprotokolle
Kosten- und Latenzzuordnung auf Agentenebene
Native Unterstützung für Bewertungsalgorithmen, die direkt auf Spuren angewendet werden.

Evaluierungsmöglichkeiten

Weave bietet außerdem integrierte Bewertungsfunktionen, darunter:

HallucinationFreeScorer zur Erkennung von Halluzinationen,
SummarizationScorer zur Bewertung der Zusammenfassungsqualität
EmbeddingSimilarityScorer für semantische Ähnlichkeit,
ValidJSONScorer und ValidXMLScorer zur Formatvalidierung,
PydanticScorer für Schema-Konformität,
OpenAIModerationScorer für Inhaltssicherheit,
RAGAS-Scorer wie ContextEntityRecallScorer,
ContextRelevancyScorer zur Evaluierung von RAG-Systemen.

Am besten geeignet für: Teams, die mehrstufige oder Multi-Agent-Workflows ausführen und eine Ursachenanalyse auf Trace-Ebene benötigen, anstatt nur oberflächliche Metriken zu erfassen.

Langfuse

Anwendungsfälle: LLM-Interaktionen verfolgen, Prompt-Versionen verwalten und die Modellleistung mit Benutzersitzungen überwachen.

Abbildung 2: Beispiel eines Langfuse-Dashboards mit Trace-Details. ¹

Langfuse bietet umfassende Einblicke in die Prompt-Ebene und erfasst Prompts, Antworten, Kosten und Ausführungsspuren, um das Debuggen, Überwachen und Optimieren von LLM-Anwendungen zu erleichtern.

Langfuse ist jedoch möglicherweise nicht für Teams geeignet, die Git-basierte Workflows für Code- und Prompt-Management bevorzugen , da sein externes Prompt-Management-System möglicherweise nicht das gleiche Maß an Versionskontrolle und Zusammenarbeit bietet.

Langfuse-Überwachungsfunktionen

Einblick in die rasche Entwicklung und Nutzungsmuster
Sitzungsbasierte Analyse, geeignet für benutzerorientierte Anwendungen
Praktisches Metadaten- und Tagging-Modell zum Filtern und Überprüfen

Funktionen der Enterprise-Klasse:

Zu diesen Merkmalen gehören unter anderem:

Protokollierungsstufen : Passen Sie die Ausführlichkeit der Protokolle an, um detailliertere Einblicke zu erhalten.
Multimodalität : Unterstützt Text , Bilder , Audio und andere Formate für multimodale LLM-Anwendungen.
Veröffentlichungen & Versionierung : Verfolgen Sie den Versionsverlauf und sehen Sie, wie sich neue Versionen auf die Leistung des Modells auswirken.
Trace-URLs : Greifen Sie über eindeutige URLs auf detaillierte Traces zu, um diese genauer zu untersuchen und zu debuggen.
Agentengraphen : Visualisieren Sie Agenteninteraktionen und -abhängigkeiten, um das Agentenverhalten besser zu verstehen.
Stichprobenziehung : Repräsentative Daten aus Interaktionen sammeln, um sie zu analysieren, ohne das System zu überlasten.
Token- und Kostenverfolgung : Verfolgen Sie den Tokenverbrauch und die Kosten für jeden Modellaufruf, um ein effizientes Ressourcenmanagement zu gewährleisten.
Maskierung : Schützen Sie sensible Daten, indem Sie sie in Spuren maskieren, um Datenschutz und Compliance zu gewährleisten.

Am besten geeignet für: Teams, die Eingabeaufforderungen iterativ verbessern und die Nutzung in der Produktion überwachen, insbesondere dort, wo Benutzersitzungen von Bedeutung sind.

Galileo

Anwendungsfälle: Kosten/Latenz überwachen, Ausgabequalität bewerten, unsichere Antworten blockieren und umsetzbare Korrekturen bereitstellen.

Abbildung 3: Diagramme zur Qualität der Werkzeugauswahl, Kontextkonformität, Zusammenstellung der Agentenaktionen und Zeit bis zum ersten Token.

Galileo erfasst Kosten-, Latenz- und Ausgabequalitätskennzahlen und führt gleichzeitig Echtzeit-Sicherheits- und Compliance-Prüfungen durch.

Die Plattform kombiniert traditionelle Beobachtbarkeit (Latenz, Kosten, Leistung) mit KI-gestütztem Debugging und Evaluation (Halluzinationserkennung, faktische Korrektheit, Kohärenz, Kontextbezogenheit).

Galileo-Überwachungsfunktionen

Identifizierung von Fehlerursachen jenseits oberflächlicher Fehler (z. B. Halluzinationen, die zu ungültigen Werkzeugeingaben führen)
Präskriptives Feedback wie beispielsweise Vorschläge für sofortige Änderungen oder wenige Ergänzungen
Enge Verknüpfung zwischen Auswertungsergebnissen und empfohlenen Korrekturen.

Am besten geeignet für: Organisationen, die Wert auf Ausgabequalität, Sicherheit und schnelle Iterationszyklen mit gezielter Fehlerbehebung legen.

Leitplanken-KI

Anwendungsfälle: Schädliche Ausgaben verhindern, LLM-Antworten validieren und die Einhaltung von Sicherheitsrichtlinien sicherstellen.

Abbildung 4: Dashboard zum Verhalten der Wachen, das die Unterschiede in der Dauer der Wachvorgänge und bei den Wachausfällen zeigt.

Guardrails validiert LLM-Ein- und Ausgaben anhand konfigurierbarer Regeln, darunter Toxizität, Voreingenommenheit, Offenlegung personenbezogener Daten, Erkennung von Halluzinationen und Formatkonformität.

Leitplanken-KI-Überwachungsfunktionen

Deterministische Validierung mittels RAIL-Spezifikationen
Eingabeschutzmechanismen für die sofortige Injektion und Jailbreak-Erkennung
Automatische Wiederholungsversuche bei Validierungsfehlern.

Am besten geeignet für
Teams, die strenge Sicherheits-, Compliance- oder Formatierungsgarantien durchsetzen müssen, bevor Antworten zurückgegeben werden.

LangSmith

Anwendungsfälle: Agentenlogik und Tool-Aufruf-Debugging (LangChain-zentriert)

Abbildung 5: LangSmith-Dashboard mit Traces, einschließlich ihrer Namen, Eingaben, Startzeiten und Latenzen.

LangSmith erfasst vollständige Logikabläufe für LangChain-basierte Agenten, einschließlich Eingabeaufforderungen, abgerufenem Kontext, Werkzeugauswahllogik, Werkzeugeingaben/-ausgaben, Fehlern und Ausnahmen.

LangSmith-Überwachungsfunktionen

Schrittweise Überprüfung der Entscheidungspfade des Agenten
Wiedergabe und direkter Vergleich von Eingabeaufforderungen, Modellen oder Werkzeugen durchführen.
Enge Integration mit LangChain über Callbacks.

Am besten geeignet für
Teams, die mit LangChain arbeiten und fehlerhafte Argumentationsmuster oder Toolaufrufe detailliert debuggen müssen.

Langtrace AI

Anwendungsfälle: Identifizierung von Kosten- und Latenzengpässen in LLM-Apps

Abbildung 6: Langtrace AI Trace-Dashboard.

Langtrace verfolgt Tokenanzahl, Ausführungsdauer, API-Kosten und Anfrageparameter über LLM-Pipelines hinweg mithilfe von OpenTelemetry-kompatiblen Traces.

Langtrace KI-Überwachungsfunktionen

OpenTelemetry-Ausrichtung zur Integration mit bestehenden Backends
Einblick in Kosten- und Latenzfaktoren pro Schritt
Leichtgewichtige Testumgebung mit Prompt-Versionierung.

Am besten geeignet für: Teams, die Leistung und Ausgaben in LLM-Workflows optimieren, anstatt die Qualität der Ergebnisse zu bewerten.

Arize (Phoenix)

Anwendungsfälle: Überwachung von Modellabweichungen, Erkennung von Verzerrungen und Bewertung von LLM-Ausgaben mit umfassenden Bewertungssystemen

Abbildung 7: Arize Phoenix Driftmonitor-Dashboard.

Phoenix konzentriert sich auf Verhaltensdrift, die Erkennung von Verzerrungen und die Bewertung von Relevanz, Toxizität und Genauigkeit durch LLM als Richter.

Allerdings ist der Integrationsaufwand im Vergleich zu Lightweight-Proxys höher und die Versionsverwaltung per Prompt ist nicht so sauber wie bei spezialisierten Tools.

Phoenix-Überwachungsfunktionen

Open-Source-Kern mit optionalen Unternehmenserweiterungen
Interaktiver Spielplatz für Entwicklungsanregungen
Drifterkennung zur Verfolgung von Verhaltensänderungen im Zeitverlauf
Bias-Prüfungen zur Identifizierung von Antwortverzerrungen,
LLM als Richterbewertung hinsichtlich Genauigkeit, Toxizität und Relevanz.

Am besten geeignet für: Teams, die das langfristige Modellverhalten und das Regressionsrisiko überwachen, anstatt Iterationen zu beschleunigen.

Agenta

Anwendungsfälle: Herausfinden, welche Eingabeaufforderung auf welchem Modell am besten funktioniert

Abbildung 8: Bild mit verschiedenen Prompt-Alternativen von Agenta.

Agenta vergleicht Modellreaktionen hinsichtlich Kosten, Latenz und Ausgabequalität unter Verwendung gemeinsamer Eingaben und kontrolliertem Kontext.

Abbildung 9: Beispielausgabe von Agenta.

Agenta-Überwachungsfunktionen

Vergleich der Modelle
Entscheidungsunterstützung in der Vorproduktionsphase.

Am besten geeignet für: Frühphasenbewertung und Modellauswahl.

AgentOps.ai

Anwendungsfälle : Agentenentscheidungen überwachen, Kosten verfolgen und Sitzungen im Produktivbetrieb debuggen

Abbildung 10: Beispiel eines Session-Replay-Dashboards von AgentOps.ai.

AgentOps erfasst Logikabläufe, Tool-/API-Aufrufe, Sitzungsstatus, Caching-Verhalten und Kostenmetriken für bereitgestellte Agenten.

AgentOps-Überwachungsfunktionen

Sitzungswiedergabe für das Debugging in der Produktion
Fokus auf das Verhalten der Agenten in Echtzeit statt auf Offline-Auswertung.

Am besten geeignet für: Teams, die Agenten im Produktivbetrieb einsetzen und einen hohen Bedarf an operativer Transparenz haben.

Braintrust

Anwendungsfälle : Ermittlung der optimalen Eingabeaufforderung, des besten Datensatzes oder des besten Modells durch detaillierte Auswertung und Fehleranalyse

Abbildung 11: Dashboard für Kundendienstmitarbeiter von Braintrust.

Braintrust wertet Eingabeaufforderungen, Datensätze und Modelle anhand der erwarteten Ergebnisse aus und erfasst dabei Latenz, Kosten, Werkzeugfehler und Ausführungsmetriken.

Braintrust-Überwachungsfunktionen

Evaluieren Sie Testdatensätze mit Eingaben und erwarteten Ausgaben und vergleichen Sie dann Eingabeaufforderungen oder Modelle nebeneinander, indem Sie Variablen wie {{input}}, {{expected}} und {{metadata}} verwenden.
Aufschlüsselung der Kennzahlen einschließlich der Qualität der Werkzeugausführung

Am besten geeignet für: Teams, die Modelle und Anregungen vor der Einführung vergleichen.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Folgen auf

AgentNeo

Anwendungsfälle : Debugging von Interaktionen mehrerer Agenten, Nachverfolgung der Werkzeugnutzung und Bewertung von Koordinationsabläufen

AgentNeo erfasst die Agentenkommunikation, die Werkzeugnutzung, Ausführungsdiagramme sowie die Kosten und Latenz pro Agent über ein Python SDK.

AgentNeo-Überwachungsfunktionen

Open-Source und lokal ausführbar
Interaktives lokales Dashboard (localhost:3000) zur Echtzeitüberwachung von Multi-Agenten-Workflows.
Integration mittels Dekoratoren (z. B. @tracer.trace_agent, @tracer.trace_tool)

Am besten geeignet für: Ingenieurteams, die mit Multiagentensystemen experimentieren.

Laminar

Anwendungsfall : Leistungsvergleich über verschiedene LLM-Frameworks und -Modelle hinweg.

Abbildung 12: Beispiel eines Traces-Dashboards aus Laminar.

Laminar verfolgt Ausführungsspannen, Kosten, Token-Nutzung und Latenz-Perzentile über LLM-Frameworks und -Modelle hinweg.

Laminar-Monitoring-Funktionen

Framework-unabhängige Leistungsanalyse
Feinkörnige Spannweiteninspektion.

Am besten geeignet für: Vergleichende Leistungsanalyse heterogener Systemarchitekturen.

Helikone

Anwendungsfälle: Verfolgung mehrstufiger Agenten-Workflows und Analyse von Benutzersitzungsmustern.

Abbildung 12: Bild, das die Veränderungen bei Anfragen, Kosten, Fehlern und Latenz über 3 Monate zeigt.

Helicone erfasst Anfragevolumen, Kosten, Fehler, Latenztrends und Agenten-Workflows auf Sitzungsebene.

Helicone-Überwachungsfunktionen

Sichtbarkeit der Nutzerreise
Historische Trendanalyse.

Am besten geeignet für: Produktteams, die Nutzungsmuster und das Verhalten der Nutzer überwachen.

Coval

Anwendungsfälle: Simulation von Tausenden von Agentengesprächen, Testen von Sprach-/Chat-Interaktionen und Validierung des Verhaltens vor der Bereitstellung.

Abbildung 13: Covals Auswertungs-Dashboard mit Angabe der Prozentsätze für erreichte Ziele, verifizierte Identität, korrekte Wiederholungen, Klarheit der Agenten und fehlerhafte Informationen.

Coval simuliert Tausende von Konversationen, um die Aufgabenerfüllung, die Korrektheit und die Effektivität des Tool-Aufrufs zu messen.

Coval-Überwachungsfunktionen

Simulationsbasierte Agententests
Automatische Regressionserkennung
Telefonischer und textbasierter Support.

Am besten geeignet für: Validierung vor der Bereitstellung und Regressionserkennung.

Datadog

Anwendungsfälle : Beobachtbarkeit von Infrastruktur und Anwendungen mit LLM-Signalkorrelation.

Datadog erfasst Infrastrukturmetriken (CPU, Speicher, Netzwerk), Anwendungsleistungsdaten (Latenz, Fehlerraten, Durchsatz) und Protokolle. Für LLM-Anwendungen kann es Token-Nutzung, Kosten pro Anfrage, Modelllatenz und sicherheitsrelevante Signale wie z. B. Prompt-Injection-Versuche erfassen.

Datadog-Überwachungsfunktionen

Umfassende, systemweite Beobachtbarkeit von Infrastruktur, Anwendungen und KI-Workloads.
Großes Integrationsökosystem (über 900 Integrationen) ermöglicht die Korrelation zwischen KI-Verhalten und Infrastrukturzustand

Am besten geeignet für: Organisationen, die das Verhalten von LLM mit der zugrunde liegenden Infrastruktur und der Anwendungsleistung korrelieren möchten, anstatt die Argumentation der Agenten zu untersuchen oder Eingabeaufforderungen zu erstellen.

Prometheus

Anwendungsfälle: Überwachung der Systemleistung, Verfolgung von Anwendungsmetriken und Einrichtung von Warnmeldungen bei Infrastrukturproblemen.

Prometheus ist ein Open-Source-Überwachungssystem, das in regelmäßigen Abständen Zeitreihenmetriken von HTTP-Endpunkten erfasst, um Infrastruktur-, Anwendungs-, Datenbank-, Container- und benutzerdefinierte Geschäftsmetriken zu verfolgen.

Prometheus-Überwachungsfunktionen

Erfassung von Zeitreihenmetriken mittels Pull-basiertem Scraping
PromQL für Abfragen, Aggregationen und Alarmbedingungen
Exporter-Ökosystem (z. B. Node Exporter) für eine breite Systemabdeckung

Am besten geeignet für: Infrastruktur- und Anwendungsüberwachung mit regelbasierter Alarmierung.

Grafana

Anwendungsfälle : Visualisierung von Kennzahlen, Erstellung von Dashboards und Weiterleitung von Warnmeldungen über LLM-, Agenten- und Infrastrukturdaten hinweg.

Abbildung 14: Traces-Dashboard mit Darstellung der Veränderung der Anforderungsrate, der gesamten Nutzungstoken, der durchschnittlichen Nutzungskosten und der gesamten Nutzungskosten.

Grafana ist eine Open-Source-Visualisierungs- und Analyseplattform, die sich mit Datenquellen wie Prometheus, OpenTelemetry und Datadog integriert, um einheitliche Observability-Dashboards bereitzustellen.

Grafana-Überwachungsfunktionen

Dashboards mit Metriken, Protokollen und Traces
Systemübergreifende Korrelation für LLM-, Agenten- und Infrastruktursignale
Alarmweiterleitung und Benachrichtigungsmanagement.

Am besten geeignet für: Zentralisierte Visualisierung der Beobachtbarkeit und Reaktion auf Vorfälle.

Tutorial: LangChain-Observability mit Langfuse

Wir haben eine mehrstufige LangChain-Pipeline mit drei Phasen erstellt:

Fragenanalyse
Antwortgenerierung
Antwortüberprüfung

Nach der Einrichtung der Pipeline haben wir sie mit Langfuse verbunden, um die Ausführung in Echtzeit zu überwachen und zu verfolgen. Dadurch konnten wir untersuchen, wie Langfuse uns dabei hilft, detaillierte Einblicke in die Leistung, die Kosten und das Verhalten von KI-Anwendungen zu gewinnen.

Folgendes haben wir mithilfe von Langfuse beobachtet:

Dashboard-Übersicht

Abbildung 15: Langfuse-Dashboards für Kosten, Nutzungsmanagement und Latenz.

Langfuse stellte uns mehrere Dashboards zur Verfügung, die uns Einblick in verschiedene Aspekte der Pipeline-Performance geben:

Kosten-Dashboard : Hier werden die Ausgaben für alle API-Aufrufe erfasst, mit detaillierten Aufschlüsselungen nach Modell und Zeitraum.
Nutzungsmanagement : Es überwacht Ausführungsmetriken wie Beobachtungsanzahl und Ressourcenzuweisung und hilft uns so, nachzuverfolgen, wie Ressourcen während der Ausführung genutzt werden.
Latenz-Dashboard : Dieses Dashboard half uns, Antwortzeiten zu analysieren, Engpässe zu erkennen und Leistungstrends zu visualisieren.

Nutzungsmetriken

Abbildung 16: Bild, das die Nutzungsmetriken von Langfuse zeigt, einschließlich der Gesamtzahl der Traces, der Gesamtzahl der Beobachtungen und der Gesamtzahl der Scores (sowohl numerisch als auch kategorisch).

Das Dashboard mit den Nutzungsmetriken lieferte uns folgende Erkenntnisse über die Leistung des Systems:

Gesamtzahl der Traces : Wir haben acht Traces verfolgt, die jeweils einen vollständigen Frage-Antwort-Zyklus in der Pipeline darstellen.
Gesamtzahl der Beobachtungen: Im Durchschnitt wies jede Spur 16 Beobachtungen auf, was den mehrstufigen Charakter des Prozesses widerspiegelt.

Darüber hinaus ermöglicht uns Langfuse , Nutzungsmuster , Ressourcenzuweisung und Spitzenzeiten der letzten 7 Tage zu verfolgen, was uns hilft zu verstehen, wann das System am aktivsten ist und wie die Ressourcen über die Zeit verteilt sind.

Spureninspektion

Abbildung 17: Das Traces-Dashboard von Langfuse zeigt Eingabe, Ausgabe, Observability-Level, Latenz und Tokens an.

Bei der detaillierten Analyse einer einzelnen Ablaufverfolgung konnten wir detaillierte Ausführungsinformationen einsehen:

Trace-Zeilen : Jede Zeile repräsentiert eine vollständige Pipeline-Ausführung mit einer eindeutigen Trace-ID.
Latenzmetriken : Die Ausführungszeit variierte zwischen 0,00 s und 34,08 s.
Token-Zählung : Das Dashboard erfasste die Verwendung von Input-/Output-Token, was beim Kosten- und Effizienzmanagement hilfreich ist.
Umgebungsfilterung : Wir könnten Traces basierend auf Bereitstellungsumgebungen filtern (z. B. Entwicklung, Produktion).

Details zur individuellen Spur

Abbildung 18: Die sequentielle Kettenarchitektur von Langfuse.

Wir haben den Ablauf anschließend genauer untersucht, um die Ausführungsstörung zu verstehen:

Sequenzielle Kettenarchitektur : Die Ablaufverfolgung zeigte einen visuellen Fluss, der jeden Schritt ab SequentialChain → LLMChain → ChatOpenAI mit hierarchischer Struktur darstellte.
Input-/Output-Tracking : Die ursprüngliche Frage „Welche Vorteile bietet die Verwendung von Langfuse für die Beobachtbarkeit von KI-Agenten?“ wurde in jeder Phase verfolgt, zusammen mit den jeweiligen Ausgaben, die die KI in jedem Schritt erzeugte.
Token-Analyse : Wir haben festgestellt, dass 1.203 Token für den Input und 1.516 Token für den Output verwendet wurden. Dies hat Auswirkungen auf die Kosten im Zusammenhang mit der Token-Nutzung und hilft, das Ressourcenmanagement zu optimieren.
Zeitdaten : Die Gesamtlatenz für die gesamte Ablaufverfolgung betrug 34,08 Sekunden , aufgeschlüsselt nach den einzelnen Komponenten:
- SequentialChain → 14,02s
- LLMChain → 10,25s
- ChatOpenAI → 9,81s
Modellinformationen : Langfuse bestätigte die Verwendung des Modells Anthropic Claude-Sonnet-4 und gab Einzelheiten zu den spezifischen Einstellungen, einschließlich der Temperaturkonfiguration, bekannt.
Formatierte Ausgabe : Sowohl eine Vorschau- als auch eine JSON- Ansicht wurden zur Fehlersuche bereitgestellt, die Einblicke in die Antwort des Modells in menschenlesbarer und maschinenlesbarer Form ermöglichten.

Automatisierte Analyse

Abbildung 19: Beispiel für automatisierte Auswertungen mit Langfuse.

Langfuse lieferte außerdem automatisierte Auswertungen unserer Antworten:

Qualitätsbewertung : Das System bewertete die Struktur, Kohärenz und Vollständigkeit der Antworten, wobei gut organisierte Abschnitte hervorgehoben, aber auch angedeutet wurde, dass die Antworten prägnanter sein könnten.
Verbesserungsvorschläge : Es wurden Abschnitte mit Redundanzen identifiziert, Vorschläge zur Verbesserung der Formulierung unterbreitet und verwandte Punkte zusammengefasst, um die Antwort transparenter und effizienter zu gestalten.
Einblicke in die Leistung : Das System gab Feedback zur Token-Nutzung und zur Relevanz der Antworten, was uns half, die Effizienz zu optimieren und gleichzeitig sicherzustellen, dass die Ausgabe hilfreich und themenbezogen bleibt.
Strukturiertes Feedback : Das Feedback wurde in Kategorien unterteilt, sodass wir gezielt auf bestimmte Verbesserungsbereiche eingehen konnten.

Nutzeranalyse

Abbildung 20: Das Bild zeigt anonymisierte Benutzeraktivitäten, die die erste und letzte Interaktion jedes Benutzers, das Ereignisvolumen, den Tokenverbrauch und die damit verbundenen Kosten darstellen, um die Analyse von Engagement, Ressourcennutzung und Budgetverteilung zu erleichtern.

Langfuse erfasst detaillierte Interaktionen zwischen Benutzern und dem KI-Agenten:

Zeitleiste der Benutzeraktivitäten : Zeigt die erste und letzte Interaktion jedes Benutzers an und hilft so, aktive von inaktiven Benutzern zu unterscheiden. Wir können sehen, wann Benutzer zum ersten und letzten Mal mit dem System interagiert haben.
Ereignisvolumenverfolgung : Erfasst die Anzahl der von jedem Benutzer ausgelösten Ereignisse. Beispielsweise generierten einige Benutzer über 2.000 Ereignisse, was ihre hohe Interaktionsrate mit dem System verdeutlicht.
Analyse des Tokenverbrauchs : Überwacht die Gesamtzahl der von jedem Nutzer verbrauchten Token. Der Tokenverbrauch lag zwischen 6.590 und 357.000 Token und liefert somit Einblicke in die Ressourcennutzung.
Kostenzuordnung : Die Kosten werden jedem einzelnen Benutzer einzeln aufgeschlüsselt, wodurch die Ausgaben leichter nachverfolgt und die Budgetzuweisung für den Ressourceneinsatz optimiert werden kann.
Benutzeridentifizierung : Verwendet anonymisierte Benutzer-IDs, um die Privatsphäre zu wahren und gleichzeitig die Interaktionen einzelner Benutzer zu verfolgen. Dies hilft bei der Nutzungsanalyse, ohne die Vertraulichkeit der Benutzerdaten zu beeinträchtigen.

Abbildung 21: Ein Beispiel der Sitzungsansicht, die den gesamten Gesprächsablauf zusammen mit dem ausgeführten Python-Code zeigt, Benutzereingaben mit Systemausgaben korreliert und Sitzungsmetadaten anzeigt, um ein vollständiges Bild davon zu vermitteln, wie die Interaktion verarbeitet wurde.

Die Sitzungsansicht ermöglicht es uns, detaillierte Informationen über die Interaktionen der Benutzer zu verfolgen:

Vollständiger Gesprächsverlauf : Zeigt die gesamte Frage-Antwort-Interaktion und ermöglicht so ein einfaches Verfolgen des gesamten Gesprächs von Anfang bis Ende.
Transparenz der Implementierung : Zeigt den während der Sitzung verwendeten tatsächlichen Python-Code an und ermöglicht so einen Einblick in die technische Umsetzung.
Input/Output-Korrelation : Verknüpft Benutzerfragen mit den entsprechenden Systemantworten und hilft uns so bei der Fehlersuche und der Identifizierung von Stellen, an denen Probleme im Gespräch aufgetreten sein könnten.
Sitzungsmetadaten : Umfassen technische Details wie Zeitangaben, Benutzerkontext und spezifische Implementierungsdaten und bieten so einen umfassenden Überblick über die Ausführung der Sitzung.

Wann man keine Observability-Tools verwenden sollte

Frühe Entwicklungsphase : Wenn Sie noch die Produkt-Markt-Passung validieren oder Ihre ersten Agenten-Workflows entwickeln, sollte der Fokus auf der Kernfunktionalität und nicht auf umfassender Beobachtbarkeit liegen.
API-Engpässe : Wenn Ihre Hauptprobleme API-Kosten, Latenz oder Caching sind, sollte die Optimierung dieser Bereiche oberste Priorität haben und nicht die Überwachung von Systemmetriken.
Modelloptimierung : Wenn Verbesserungen hauptsächlich durch Modellauswahl, Feinabstimmung oder schnelles Engineering erzielt werden, sind Beobachtbarkeitswerkzeuge für Drift und Bias möglicherweise noch nicht erforderlich.

Wann sollte man Observability-Tools einsetzen?

Produktion im großen Maßstab : Wenn Sie mit mehreren Modellen, Agenten oder Ketten arbeiten, sind Observability-Tools unerlässlich, um die Leistung zu überwachen und die Systemintegrität sicherzustellen.
Unternehmens- oder kundenorientierte Anwendungen : Für Anwendungen, bei denen Zuverlässigkeit, Sicherheit und Compliance unerlässlich sind, bieten Observability-Tools die notwendige Transparenz und Kontrolle.
Kontinuierliche Überwachung : Wenn Sie Drift, systematische Abweichungen, Leistungs- und Sicherheitsprobleme im Laufe der Zeit überwachen müssen, die sich nicht ohne Weiteres mit einfachen Skripten oder manuellen Kontrollen erfassen lassen, sind Observability-Tools unerlässlich.
Hochrisikoszenarien : In Umgebungen, in denen die Kosten eines Fehlers (z. B. Halluzinationen, unsichere Ergebnisse) erheblich sind, stellt die Beobachtbarkeit sicher, dass Risiken minimiert und Probleme frühzeitig erkannt werden.

Benchmark-Methodik

Um den Leistungsaufwand von Observability-Plattformen in produktiven LLM-Anwendungen zu bewerten, haben wir einen systematischen Benchmarking-Ansatz unter Verwendung eines realen agentenbasierten Workflows entwickelt.

Testanwendung

Wir haben mit LangChain ein sequenzielles Multiagenten-Reiseplanungssystem entwickelt, das Reiseanfragen in natürlicher Sprache in fünf Phasen verarbeitet:

Parser-Agent : Extrahiert strukturierte Daten (Herkunft, Ziel, Datum, Dauer) aus der Benutzereingabe.
Flugsuche-Agent : Ruft verfügbare Flüge über die Amadeus-API ab.
Wetterbericht-Agent : Ruft Wettervorhersagen für das Zielland mithilfe der WeatherAPI ab.
Aktivitätsempfehlungsagent : Schlägt Aktivitäten basierend auf den Wetterbedingungen vor
Reiseplaner : Fasst alle Ergebnisse zu einem umfassenden Reiseplan zusammen

Das System verwendet Claude 4 Haiku über OpenRouter für alle LLM-Aufrufe und integriert externe APIs für Echtzeitdaten.

Benchmark-Design

Festlegung der Ausgangslage: Zunächst haben wir die Leistung der Anwendung ohne jegliche Überwachungsinstrumentierung gemessen, indem wir 100 identische Abfragen ausgeführt haben, um eine Vergleichsbasis zu schaffen.

Plattformintegration: Anschließend integrierten wir nacheinander fünf führende Observability-Plattformen (LangSmith, Laminar, AgentOps, Langfuse) und instrumentierten dabei auf allen Plattformen die gleichen Tracing-Punkte, um Konsistenz zu gewährleisten.

Sequenzielle Ausführung: Jede Plattform wurde unabhängig getestet, indem alle 100 Abfragen nacheinander ausgeführt wurden, bevor zur nächsten Plattform gewechselt wurde. Dieser Ansatz minimiert die Variabilität durch externe Faktoren wie Netzwerkbedingungen oder API-Ratenbegrenzungen.

Kontrollierte Umgebung: Alle Tests wurden auf derselben Serverinfrastruktur mit identischen Abfragesätzen durchgeführt, um einen fairen Vergleich zu gewährleisten. Um den durch LLM verursachten Overhead aufgrund von Latenzschwankungen zu isolieren, wurde das Modell mit einer Temperatur von 0 und strukturierten Eingabeaufforderungen konfiguriert, um die Antwortvariabilität zwischen den Testläufen zu minimieren.

Gesammelte Kennzahlen

Für jede Plattform haben wir die durchschnittliche Latenz gemessen und den Overhead als die im Vergleich zur Basislinie zusätzlich auftretende Latenz berechnet: ((Platform Latency - Base Latency) / Base Latency) × 100

FAQs

Observability ist die Fähigkeit, die internen Funktionsweisen eines KI-Agenten zu verstehen, indem externe Signale wie Protokolle, Metriken und Traces untersucht werden.

Für KI-Agenten beinhaltet dies die Überwachung von Aktionen, Werkzeugnutzung, Modellinteraktionen und Reaktionen, um Fehler zu beheben und die Leistung zu verbessern.

Die Beobachtbarkeit von Agenten ist entscheidend für die Verfolgung und Verbesserung der KI-Leistung, indem sie Folgendes ermöglicht:

Abwägung von Kompromissen : Es hilft dabei, wichtige Kennzahlen wie Genauigkeit und Kosten zu messen und erleichtert so das Finden eines Gleichgewichts zwischen Leistung und Ressourcennutzung.

Latenzmessung : Die Echtzeit-Latenzverfolgung bietet Einblicke in die Reaktionszeiten und hilft so, die Leistung der Agenten zu optimieren.

Erkennung schädlicher Eingaben : Die Beobachtbarkeit hilft, schädliche Sprache und Prompt-Injections zu identifizieren und ermöglicht so ein schnelles Eingreifen zur Verhinderung von Problemen.

Überwachung des Nutzerfeedbacks : Durch die Beobachtung von Nutzerinteraktionen und -feedback liefert die Beobachtbarkeit wertvolle Daten zur kontinuierlichen Verbesserung und Feinabstimmung der Agenten.

Zu den wichtigsten Komponenten gehören:

– Nachverfolgung von Aktionen : Überwachung jedes einzelnen Schrittes des Agenten.
– Werkzeugnutzung : Beobachtung der vom Agenten verwendeten Werkzeuge und Ressourcen.
– Latenzmessung : Überwachung der Reaktionszeiten zur Leistungsoptimierung.
– Evaluierungen : Beurteilung des Agentenverhaltens und der Modellleistung.
– Erkennung von bösartigen Eingaben : Identifizierung schädlicher Aufforderungen oder Angriffe.

Referenzlinks

Model Usage & Cost Tracking for LLM applications (open source) - Langfuse

Cem Dilmegani

Leitender Analyst

Folgen auf

Cem ist seit 2017 leitender Analyst bei AIMultiple. AIMultiple informiert monatlich Hunderttausende von Unternehmen (laut similarWeb), darunter 55 % der Fortune 500. Cems Arbeit wurde von führenden globalen Publikationen wie Business Insider, Forbes und der Washington Post, von globalen Unternehmen wie Deloitte und HPE sowie von NGOs wie dem Weltwirtschaftsforum und supranationalen Organisationen wie der Europäischen Kommission zitiert. Weitere namhafte Unternehmen und Ressourcen, die AIMultiple referenziert haben, finden Sie hier. Im Laufe seiner Karriere war Cem als Technologieberater, Technologieeinkäufer und Technologieunternehmer tätig. Über ein Jahrzehnt lang beriet er Unternehmen bei McKinsey & Company und Altman Solon in ihren Technologieentscheidungen. Er veröffentlichte außerdem einen McKinsey-Bericht zur Digitalisierung. Bei einem Telekommunikationsunternehmen leitete er die Technologiestrategie und -beschaffung und berichtete direkt an den CEO. Darüber hinaus verantwortete er das kommerzielle Wachstum des Deep-Tech-Unternehmens Hypatos, das innerhalb von zwei Jahren von null auf einen siebenstelligen jährlichen wiederkehrenden Umsatz und eine neunstellige Unternehmensbewertung kam. Cems Arbeit bei Hypatos wurde von führenden Technologiepublikationen wie TechCrunch und Business Insider gewürdigt. Er ist ein gefragter Redner auf internationalen Technologiekonferenzen. Cem absolvierte sein Studium der Informatik an der Bogazici-Universität und besitzt einen MBA der Columbia Business School.

Vollständiges Profil anzeigen

Seien Sie der Erste, der kommentiert

Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.

Als nächstes lesen

KI-AgentenApr 27

Computer Use Agents: Benchmark & Architektur

Cem Dilmegani

Agentisches WebMai 25

Agentensuche im Jahr 2026: Benchmark 8 Such-APIs für Agenten

15 Tools zur Beobachtbarkeit von KI-Agenten im Jahr 2026: AgentOps & Langfuse

Overhead-Benchmark für Agentenüberwachungstools

Mögliche Gründe für Leistungsunterschiede

1. Instrumentierungstiefe auf dem Ausführungspfad

2. Ereignisverstärkung in mehrstufigen Pipelines

3. Aufwand für Inline-Evaluierung und -Validierung

4. Serialisierungs- und Persistenzfrequenz

5. Enge Integration mit dem Agenten-Framework

KI-Agenten-Beobachtungsplattformen

Tier 1: Feingranulare LLM- und prompte/Ausgabe-Beobachtbarkeit

Stufe 2: Workflow-, Modell- und Evaluierungs-Observabilität

Tier 3: Beobachtbarkeit des Agentenlebenszyklus und des Betriebs

Stufe 4: System- und Infrastrukturüberwachung (nicht agentenbasiert)

Plattformen für Agentenentwicklung und -orchestrierung :

Kostenlose Editionen und Preise für die Bereitstellung

Gewichte & Schrägen (W&B-Webart)

Webüberwachungsfunktionen

Evaluierungsmöglichkeiten

Langfuse

Langfuse-Überwachungsfunktionen

Funktionen der Enterprise-Klasse:

Galileo

Galileo-Überwachungsfunktionen

Leitplanken-KI

Leitplanken-KI-Überwachungsfunktionen

LangSmith

LangSmith-Überwachungsfunktionen

Langtrace AI

Langtrace KI-Überwachungsfunktionen

Arize (Phoenix)

Phoenix-Überwachungsfunktionen

Agenta

Agenta-Überwachungsfunktionen

AgentOps.ai

AgentOps-Überwachungsfunktionen

Braintrust

Braintrust-Überwachungsfunktionen

AgentNeo

AgentNeo-Überwachungsfunktionen

Laminar

Laminar-Monitoring-Funktionen

Helikone

Helicone-Überwachungsfunktionen

Coval

Coval-Überwachungsfunktionen

Datadog

Datadog-Überwachungsfunktionen

Prometheus

Prometheus-Überwachungsfunktionen

Grafana

Grafana-Überwachungsfunktionen

Tutorial: LangChain-Observability mit Langfuse

Dashboard-Übersicht

Nutzungsmetriken

Spureninspektion

Details zur individuellen Spur

Automatisierte Analyse

Nutzeranalyse

Wann man keine Observability-Tools verwenden sollte

Wann sollte man Observability-Tools einsetzen?

Benchmark-Methodik

Testanwendung

Benchmark-Design

Gesammelte Kennzahlen

FAQs

Was ist Beobachtbarkeit?

Warum ist die Beobachtbarkeit von Agenten für KI unerlässlich?

Was sind die wichtigsten Komponenten der Agentenbeobachtbarkeit?

Referenzlinks

Seien Sie der Erste, der kommentiert

Als nächstes lesen

Computer Use Agents: Benchmark & Architektur

Agentensuche im Jahr 2026: Benchmark 8 Such-APIs für Agenten

Agentische KI im ITSM: 10 Anwendungsfälle und Beispiele

Entwicklung persönlicher KI-Agenten + 18 Agentenplattformen und -tools

KI-Agenten mit zusammensetzbaren Mustern erstellen

Die 9 besten KI-Agenten im Rechnungswesen in 2026