What is observability?

Observability is the ability to understand an AI agent's internal workings by examining external signals such as logs, metrics, and traces. For AI agents, this involves monitoring actions, tool usage, model interactions, and responses to troubleshoot and enhance performance.

What makes agent observability essential for AI?

Agent observability is crucial for tracking and improving AI performance by enabling:Understanding trade-offs: It helps measure key metrics like accuracy and cost, making it easier to strike a balance between performance and resource usage.Measuring latency: Real-time latency tracking offers insights into response times, helping optimize agent performance.Detecting malicious inputs: Observability helps identify harmful language and prompt injections, allowing for prompt intervention to prevent issues.User feedback monitoring: By observing user interactions and feedback, observability provides valuable data for continuous improvement and fine-tuning of agents.

What are the key components of agent observability?

Key components include:- Tracking actions: Monitoring each step taken by the agent. - Tool usage: Observing the tools and resources the agent uses.- Latency measurement: Monitoring response times to optimize performance.- Evaluations: Assessing agent behavior and model performance.- Malicious input detection: Identifying harmful prompts or attacks.

Agente IA Framework di intelligenza artificiale agentiva

15 strumenti per l'osservabilità degli agenti IA nel 2026: AgentOps e Langfuse

Cem Dilmegani

aggiornato il Gen 29, 2026

Guarda il nostro norme etiche

Gli strumenti di osservabilità degli agenti di intelligenza artificiale, come Langfuse e Arize, aiutano a raccogliere tracce dettagliate (una registrazione dell'esecuzione di un programma o di una transazione) e forniscono dashboard per monitorare le metriche in tempo reale .

Molti framework per agenti , come LangChain, utilizzano lo standard OpenTelemetry per condividere i metadati con il monitoraggio tramite agenti. Inoltre, molti strumenti di osservabilità offrono strumentazione personalizzata per una maggiore flessibilità.

Abbiamo testato 15 piattaforme di osservabilità per applicazioni LLM e agenti di intelligenza artificiale. Ogni piattaforma è stata implementata concretamente attraverso la configurazione di flussi di lavoro, integrazioni ed esecuzione di scenari di test. Abbiamo effettuato un benchmark di 4 strumenti di osservabilità per valutare se introducessero overhead nelle pipeline di produzione. Abbiamo inoltre presentato un tutorial sull'osservabilità di LangChain utilizzando Langfuse .

benchmark dei costi generali degli strumenti di monitoraggio degli agenti

Abbiamo integrato ciascuna piattaforma di osservabilità nel nostro sistema di pianificazione viaggi multi-agente ed eseguito 100 query identiche per misurare il sovraccarico prestazionale rispetto a una configurazione di riferimento senza strumentazione. Leggi la nostra metodologia di benchmarking.

LangSmith ha dimostrato un'efficienza eccezionale con costi generali praticamente nulli, risultando ideale per ambienti di produzione in cui le prestazioni sono cruciali.
Laminar ha introdotto un overhead minimo del 5%, risultando quindi altamente adatto agli ambienti di produzione in cui le prestazioni sono fondamentali.
AgentOps e Langfuse hanno mostrato un overhead moderato, rispettivamente del 12% e del 15%, rappresentando un compromesso ragionevole tra funzionalità di osservabilità e impatto sulle prestazioni. Queste piattaforme mantengono comunque una latenza accettabile per la maggior parte dei casi d'uso in produzione.

Possibili ragioni alla base delle differenze di rendimento

I nostri risultati di benchmark indicano che le differenze di latenza sono determinate dalla profondità della strumentazione e dal coinvolgimento nel percorso di esecuzione, in particolare nei flussi di lavoro multi-agente. Gli strumenti che offrono un'osservabilità più approfondita a livello di singolo passaggio hanno mostrato un overhead maggiore, mentre gli approcci di tracciamento più leggeri sono rimasti più vicini al valore di riferimento.

1. Profondità di strumentazione sul percorso di esecuzione

Gli strumenti di osservabilità aggiungono logica al flusso di esecuzione dell'agente per acquisire tracce e metadati. Quando questa logica viene eseguita in modo sincrono durante la gestione delle richieste, aumenta direttamente la latenza end-to-end perché l'agente deve completare questo lavoro aggiuntivo prima di restituire una risposta.

Per esempio:

LangSmith non ha aggiunto praticamente alcun overhead misurabile (~0%), indicando poco lavoro sincrono,
La strumentazione a più livelli di dettaglio di Langfuse ha contribuito a un costo maggiore (~15%).

2. Amplificazione degli eventi attraverso pipeline a più fasi

Nei sistemi multi-agente, una singola richiesta dell'utente innesca azioni da parte di più agenti. Quando uno strumento registra dati dettagliati a ogni passaggio, il numero totale di eventi cresce rapidamente, aumentando il carico di elaborazione e di gestione delle tracce man mano che il flusso di lavoro si fa più complesso.

Nei risultati del benchmark:

Langfuse e AgentOps hanno generato un sovraccarico notevolmente maggiore (15% e 12%) nel nostro flusso di lavoro di pianificazione dei viaggi in più fasi.
LangSmith e Laminar hanno emesso un numero inferiore di eventi per ogni passo dell'agente.

3. Costi aggiuntivi di valutazione e convalida in linea

Alcune piattaforme eseguono controlli o monitoraggi aggiuntivi durante l'esecuzione dell'agente. Sebbene ogni controllo sia di lieve entità, la loro ripetuta applicazione a tutte le fasi dell'agente introduce una latenza misurabile.

Ad esempio:

Il monitoraggio a livello di ciclo di vita di AgentOps ha coinciso con un sovraccarico del 12%
Laminar non ha mostrato alcuna evidenza di valutazione in linea che influenzasse l'esecuzione, rimanendo a circa il 5%.

4. Frequenza di serializzazione e persistenza

L'acquisizione di dati di osservabilità dettagliati richiede la serializzazione delle tracce e la loro scrittura su storage o backend esterni. Un livello di dettaglio delle tracce più elevato aumenta la frequenza di questa operazione, incrementando il sovraccarico di I/O per ogni richiesta.

Nel nostro benchmark:

La tracciatura dettagliata di prompt, output e token di Langfuse ha comportato il sovraccarico più elevato (~15%)
Gli artefatti di traccia più leggeri di LangSmith sono rimasti vicini al valore di riferimento.

5. Stretta integrazione con il framework degli agenti

Il grado di integrazione di uno strumento con il framework dell'agente influisce sulle prestazioni. Integrazioni più strette riducono le fasi di traduzione e orchestrazione, mentre gli SDK più generici aggiungono ulteriori livelli di elaborazione.

Per esempio:

Lo stretto allineamento di LangSmith con l'esecuzione dell'agente è correlato a un overhead pari a circa lo 0%.
AgentOps e Langfuse hanno mostrato un impatto maggiore sulla latenza, in linea con percorsi di integrazione più disaccoppiati.

piattaforme di osservabilità degli agenti di intelligenza artificiale

Livello 1: LLM dettagliato e osservabilità di prompt/output

* Le funzionalità elencate in queste colonne sono esempi illustrativi di ciò che ogni strumento può monitorare se esteso tramite integrazioni o personalizzazioni. Queste funzionalità non sono esclusive di una singola piattaforma.

Livello 2: Osservabilità del flusso di lavoro, del modello e della valutazione

Livello 3: Osservabilità del ciclo di vita e delle operazioni dell'agente

Livello 4: Monitoraggio di sistemi e infrastrutture (non nativo dell'agente)

Datadog (con il suo modulo di osservabilità LLM) e Prometheus (tramite gli esportatori) vengono sempre più utilizzati insieme a Langfuse/LangSmith.

Piattaforme per lo sviluppo e l'orchestrazione di agenti :

Strumenti come Flowise , Langflow , SuperAGI e CrewAI consentono di creare, orchestrare e ottimizzare i flussi di lavoro degli agenti con interfacce no-code/low-code.

Edizioni gratuite per la distribuzione e prezzi

Le edizioni gratuite variano in base ai limiti di utilizzo (ad esempio, osservazioni, tracce, token o unità di lavoro). I prezzi di partenza si riferiscono in genere a un piano base, che può prevedere restrizioni su funzionalità, utenti o limiti di utilizzo.

Pesi e diagonali (tessitura W&B)

Caso d'uso: Debugging dei guasti nei sistemi multi-agente tracciando la propagazione degli errori tra le chiamate degli agenti.

Figura 1: Dashboard delle tracce da Weights & Biases Weave.

Weights & Biases Weave registra tracce di esecuzione strutturate per sistemi multi-agente, preservando le relazioni padre-figlio tra le chiamate degli agenti. Input, output, stati intermedi, latenza e utilizzo dei token vengono acquisiti per ciascun agente e per ciascuna traccia.

Funzionalità di monitoraggio della tessitura

Tracciamento gerarchico degli agenti anziché registri di richieste semplici.
Attribuzione dei costi e della latenza a livello di agente
Supporto nativo per i valutatori di punteggio applicato direttamente alle tracce.

Capacità di valutazione

Weave offre anche strumenti di valutazione integrati, tra cui:

Correttore gratuito per l'individuazione delle allucinazioni,
RiassuntoScorer per la valutazione della qualità del riassunto,
EmbeddingSimilarityScorer per la similarità semantica,
ValidJSONScorer e ValidXMLScorer per la convalida del formato,
PydanticScorer per la conformità dello schema,
OpenAIModerationScorer per la sicurezza dei contenuti,
I punteggi RAGAS come ContextEntityRecallScorer,
Strumento di valutazione ContextRelevancyScorer per il sistema RAG.

Ideale per: team che gestiscono flussi di lavoro a più fasi o con più agenti e che necessitano di un'analisi approfondita delle cause principali, piuttosto che di semplici metriche superficiali.

Langfuse

Casi d'uso: tracciare le interazioni LLM, gestire le versioni dei prompt e monitorare le prestazioni del modello con le sessioni utente.

Figura 2: Esempio di dashboard di Langfuse che mostra i dettagli della traccia. ¹

Langfuse offre una visibilità approfondita sul livello di prompt, acquisendo prompt, risposte, costi e tracce di esecuzione per facilitare il debug, il monitoraggio e l'ottimizzazione delle applicazioni LLM.

Tuttavia, Langfuse potrebbe non essere adatto ai team che preferiscono flussi di lavoro basati su Git per la gestione del codice e dei prompt, poiché il suo sistema esterno di gestione dei prompt potrebbe non offrire lo stesso livello di controllo della versione e di collaborazione.

Caratteristiche di monitoraggio di Langfuse

Visibilità sull'evoluzione e sui modelli di utilizzo dei prompt
Analisi basata sulle sessioni, adatta ad applicazioni rivolte agli utenti.
Modello pratico di metadati e tag per il filtraggio e la revisione

Funzionalità di livello aziendale:

Alcune di queste caratteristiche includono:

Livelli di log : Regola il livello di dettaglio dei log per ottenere informazioni più precise.
Multimodalità : supporta testo , immagini , audio e altri formati per applicazioni LLM multimodali.
Versioni e rilasci : tieni traccia della cronologia delle versioni e scopri come i nuovi rilasci influiscono sulle prestazioni del modello.
URL di tracciamento : accedi a tracce dettagliate tramite URL univoci per ulteriori analisi e debug.
Grafi degli agenti : visualizza le interazioni e le dipendenze tra gli agenti per una migliore comprensione del loro comportamento.
Campionamento : raccogliere dati rappresentativi dalle interazioni per analizzarli senza sovraccaricare il sistema.
Monitoraggio dei token e dei costi : traccia l'utilizzo dei token e i costi per ogni chiamata del modello, garantendo una gestione efficiente delle risorse.
Mascheramento : Proteggi i dati sensibili mascherandoli nelle tracce, garantendo privacy e conformità.

Ideale per: team che lavorano su prompt e monitorano l'utilizzo in produzione, soprattutto laddove le sessioni utente sono importanti.

Galileo

Casi d'uso: monitorare costi/latenza, valutare la qualità dell'output, bloccare risposte non sicure e fornire soluzioni concrete.

Figura 3: Grafici che mostrano la qualità della selezione degli strumenti, l'aderenza al contesto, la compilazione delle azioni dell'agente e il tempo necessario per ottenere il primo token.

Galileo tiene traccia dei parametri relativi a costi, latenza e qualità dell'output, applicando al contempo controlli di sicurezza e conformità in tempo reale.

La piattaforma combina l'osservabilità tradizionale (latenza, costi, prestazioni) con il debug e la valutazione basati sull'intelligenza artificiale (rilevamento di allucinazioni, correttezza fattuale, coerenza, aderenza al contesto).

Funzionalità di monitoraggio Galileo

Identificazione delle modalità di guasto al di là degli errori superficiali (ad esempio, allucinazioni che portano a input errati degli strumenti)
Feedback prescrittivo, come suggerimenti per modifiche al prompt o aggiunte di pochi scatti.
Stretto collegamento tra i risultati della valutazione e le soluzioni raccomandate.

Ideale per: Organizzazioni che danno priorità alla qualità dell'output, alla sicurezza e a cicli di iterazione rapidi con interventi correttivi guidati.

Guardrails IA

Casi d'uso: Prevenire emissioni dannose, convalidare le risposte LLM e garantire la conformità alle politiche di sicurezza

Figura 4: Dashboard del comportamento delle guardie che mostra le differenze nella durata del servizio di guardia e nei guasti delle guardie.

Guardrails convalida gli input e gli output di LLM rispetto a regole configurabili, tra cui tossicità, pregiudizi, esposizione di dati personali, segnalazioni di anomalie e conformità al formato.

Funzionalità di monitoraggio AI dei guardrail

Validazione deterministica tramite specifiche RAIL
Protezioni per l'inserimento immediato e il rilevamento del jailbreak
Tentativi automatici in caso di errore di convalida.

Ideale per
Team che devono far rispettare rigide garanzie di sicurezza, conformità o formattazione prima di restituire le risposte.

LangSmith

Casi d'uso: ragionamento degli agenti e debug delle chiamate agli strumenti (incentrato su LangChain)

Figura 5: Dashboard di LangSmith che mostra le tracce, inclusi i loro nomi, gli input, gli orari di inizio e le latenze.

LangSmith acquisisce tracce complete del ragionamento per gli agenti basati su LangChain, inclusi i prompt, il contesto recuperato, la logica di selezione degli strumenti, gli input/output degli strumenti, gli errori e le eccezioni.

Funzionalità di monitoraggio LangSmith

Analisi dettagliata dei percorsi decisionali degli agenti
Esegui la riproduzione e il confronto affiancato tra prompt, modelli o strumenti
Stretta integrazione con LangChain tramite callback.

Ideale per
Team che utilizzano LangChain e che necessitano di eseguire il debug di ragionamenti errati o di un'invocazione degli strumenti in modo dettagliato.

Langtrace AI

Casi d'uso: identificazione dei colli di bottiglia in termini di costi e latenza nelle applicazioni LLM

Figura 6: Dashboard di tracciamento AI di Langtrace.

Langtrace tiene traccia del numero di token, della durata dell'esecuzione, dei costi delle API e dei parametri delle richieste nelle pipeline LLM utilizzando tracce compatibili con OpenTelemetry.

Funzionalità di monitoraggio AI di Langtrace

Allineamento di OpenTelemetry per l'integrazione con i backend esistenti
Visibilità dei fattori che influenzano costi e latenza per ogni fase
Ambiente di test e versioning leggero per le richieste di conferma.

Ideale per: team che desiderano ottimizzare le prestazioni e la spesa nei flussi di lavoro LLM, piuttosto che valutare la qualità dei risultati.

Arize (Fenice)

Casi d'uso: monitorare la deriva del modello, rilevare i bias e valutare gli output dei modelli lineari logici (LLM) con sistemi di punteggio completi.

Figura 7: Dashboard del monitor di deriva Arize Phoenix.

Phoenix si concentra sulla deriva comportamentale, sul rilevamento dei bias e sulla valutazione di rilevanza, tossicità e accuratezza da parte del modello LLM come giudice.

Tuttavia, presenta un overhead di integrazione maggiore rispetto ai proxy leggeri e non gestisce il versionamento dei prompt in modo altrettanto efficiente quanto gli strumenti dedicati.

Funzionalità di monitoraggio di Phoenix

Nucleo open-source con estensioni aziendali opzionali
Area di sviluppo interattiva per la creazione di prompt.
Rilevamento della deriva per il monitoraggio dei cambiamenti comportamentali nel tempo
Controlli di distorsione per identificare le distorsioni di risposta,
Valutazione da parte del modello LLM in qualità di giudice per accuratezza, tossicità e rilevanza.

Ideale per: team che monitorano il comportamento a lungo termine dei modelli e il rischio di regressione, piuttosto che per iterazioni immediate.

Agente

Casi d'uso: Individuare quale prompt funziona meglio su quale modello

Figura 8: Immagine che mostra diverse alternative di prompt da Agenta.

Agenta confronta le risposte dei modelli in termini di costi, latenza e qualità dell'output, utilizzando input condivisi e un contesto controllato.

Figura 9: Esempio di output da Agenta.

Funzionalità di monitoraggio di Agenta

Valutazione comparativa dei modelli
Supporto alle decisioni in fase di pre-produzione.

Ideale per: Valutazione preliminare e selezione del modello.

AgentOps.ai

Casi d'uso : monitorare il ragionamento degli agenti, tenere traccia dei costi ed eseguire il debug delle sessioni in produzione.

Figura 10: Esempio di dashboard di riproduzione della sessione da AgentOps.ai.

AgentOps acquisisce tracce di ragionamento, chiamate a strumenti/API, stato della sessione, comportamento della cache e metriche di costo per gli agenti distribuiti.

Funzionalità di monitoraggio di AgentOps

Riproduzione della sessione per il debug in produzione
Concentrati sul comportamento degli agenti in tempo reale piuttosto che sulla valutazione offline.

Ideale per: team che gestiscono agenti in produzione e necessitano di visibilità operativa.

Braintrust

Casi d'uso : Individuare quale prompt, set di dati o modello offre prestazioni migliori, con valutazione dettagliata e analisi degli errori.

Figura 11: Dashboard dell'agente di assistenza clienti di Braintrust.

Braintrust valuta i prompt, i set di dati e i modelli rispetto ai risultati attesi, monitorando la latenza, i costi, gli errori degli strumenti e le metriche di esecuzione.

Funzionalità di monitoraggio del Braintrust

Valuta i set di dati di test con input e output attesi, quindi confronta i prompt o i modelli fianco a fianco utilizzando variabili come {{input}}, {{expected}} e {{metadata}}.
Analisi dettagliate delle metriche, inclusa la qualità di esecuzione degli strumenti.

Ideale per: team che desiderano confrontare modelli e ricevere suggerimenti prima del lancio.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Segui

Agente Neo

Casi d'uso : Debug delle interazioni multi-agente, tracciamento dell'utilizzo degli strumenti e valutazione dei flussi di lavoro di coordinamento.

AgentNeo traccia la comunicazione tra gli agenti, l'utilizzo degli strumenti, i grafici di esecuzione, i costi per agente e la latenza tramite un SDK Python.

Funzionalità di monitoraggio di AgentNeo

Open source ed eseguibile localmente
Dashboard locale interattiva (localhost:3000) per il monitoraggio in tempo reale dei flussi di lavoro multi-agente.
Integrazione tramite decoratori (ad esempio, @tracer.trace_agent, @tracer.trace_tool)

Ideale per: team di ingegneri che sperimentano sistemi multi-agente.

Laminare

Caso d'uso : Monitorare le prestazioni in diversi framework e modelli LLM.

Figura 12: Esempio di dashboard delle tracce da Laminar.

Laminar tiene traccia degli intervalli di esecuzione, dei costi, dell'utilizzo dei token e dei percentili di latenza in tutti i framework e modelli LLM.

Caratteristiche di monitoraggio laminare

Analisi delle prestazioni indipendente dal framework
Ispezione dettagliata della campata.

Ideale per: Analisi comparativa delle prestazioni tra stack eterogenei.

Elicone

Casi d'uso: tracciare i flussi di lavoro degli agenti in più fasi e analizzare i modelli delle sessioni utente.

Figura 12: Immagine che mostra le variazioni di richieste, costi, errori e latenza negli ultimi 3 mesi.

Helicone acquisisce i volumi delle richieste, i costi, gli errori, le tendenze di latenza e i flussi di lavoro degli agenti a livello di sessione.

Caratteristiche di monitoraggio dell'elicottero

visibilità del percorso utente
Analisi delle tendenze storiche.

Ideale per: team di prodotto che monitorano i modelli di utilizzo e il comportamento a livello di singolo utente.

Coval

Casi d'uso: simulare migliaia di conversazioni tra agenti, testare le interazioni vocali/di chat e convalidare il comportamento prima della distribuzione.

Figura 13: Dashboard di valutazione di Coval che mostra le percentuali di obiettivi raggiunti, identità verificata, ripetizione corretta, chiarezza dell'agente e informazioni errate.

Coval simula migliaia di conversazioni per misurare il completamento delle attività, la correttezza e l'efficacia delle chiamate agli strumenti.

Caratteristiche di monitoraggio Coval

test di agenti basati sulla simulazione
Rilevamento automatico della regressione
Assistenza tramite operatore vocale e testuale.

Ideale per: convalida pre-implementazione e rilevamento di regressioni.

Datadog

Casi d'uso : Osservabilità di infrastrutture e applicazioni tramite correlazione di segnali LLM.

Datadog raccoglie metriche dell'infrastruttura (CPU, memoria, rete), dati sulle prestazioni delle applicazioni (latenza, tassi di errore, throughput) e log. Per le applicazioni LLM, può acquisire dati sull'utilizzo dei token, sul costo per richiesta, sulla latenza del modello e su segnali relativi alla sicurezza, come i tentativi di iniezione di prompt.

Funzionalità di monitoraggio di Datadog

Ampia osservabilità a livello di sistema su infrastrutture, applicazioni e carichi di lavoro di intelligenza artificiale.
Un vasto ecosistema di integrazione (oltre 900 integrazioni) che consente di correlare il comportamento dell'IA e lo stato di salute dell'infrastruttura.

Ideale per: Organizzazioni che desiderano correlare il comportamento di LLM con le prestazioni dell'infrastruttura e dell'applicazione sottostanti piuttosto che esaminare il ragionamento dell'agente o i prompt

Prometeo

Casi d'uso: monitorare le prestazioni del sistema, tenere traccia delle metriche delle applicazioni e impostare avvisi per problemi di infrastruttura.

Prometheus è un sistema di monitoraggio open-source che raccoglie metriche di serie temporali dagli endpoint HTTP a intervalli regolari per tracciare metriche relative a infrastruttura, applicazioni, database, container e metriche aziendali personalizzate.

Funzionalità di monitoraggio di Prometheus

Raccolta di metriche di serie temporali tramite scraping basato su richieste
PromQL per interrogazioni, aggregazioni e condizioni di avviso
Ecosistema di esportatori (ad esempio, Node Exporter) per un'ampia copertura del sistema.

Ideale per: Monitoraggio di infrastrutture e applicazioni con avvisi basati su regole.

Grafana

Casi d'uso : Visualizzare metriche, creare dashboard e instradare avvisi tra dati LLM, agenti e infrastruttura.

Figura 14: Dashboard delle tracce che mostra la variazione del tasso di richiesta, dei token di utilizzo totali, del costo medio di utilizzo e del costo totale di utilizzo.

Grafana è una piattaforma open-source di visualizzazione e analisi che si integra con fonti di dati come Prometheus, OpenTelemetry e Datadog per fornire dashboard di osservabilità unificate.

Funzionalità di monitoraggio di Grafana

Dashboard che analizzano metriche, log e tracce.
Correlazione intersistemica per segnali LLM, agenti e infrastrutture.
Gestione dell'instradamento degli avvisi e delle notifiche.

Ideale per: Visualizzazione centralizzata dell'osservabilità e risposta agli incidenti.

Tutorial: Osservabilità di LangChain con Langfuse

Abbiamo creato una pipeline LangChain a più fasi, suddivisa in tre stadi:

analisi della domanda
generazione di risposte
elaborazione della risposta

Dopo aver configurato la pipeline, l'abbiamo collegata a Langfuse per monitorare e tracciare l'esecuzione in tempo reale. In questo modo, abbiamo potuto esplorare come Langfuse ci aiuta a raccogliere informazioni dettagliate sulle prestazioni, i costi e il comportamento delle applicazioni di intelligenza artificiale.

Ecco cosa abbiamo osservato tramite Langfuse:

Panoramica del pannello di controllo

Figura 15: Dashboard di Langfuse relative a costi, gestione dell'utilizzo e latenza.

Langfuse ci ha fornito diverse dashboard che ci offrono visibilità su vari aspetti delle prestazioni della pipeline:

Dashboard dei costi : questa sezione tiene traccia della spesa per tutte le chiamate API, con riepiloghi dettagliati per modello e periodo di tempo.
Gestione dell'utilizzo : monitora le metriche di esecuzione, come il numero di osservazioni e l'allocazione delle risorse, aiutandoci a tenere traccia di come vengono utilizzate le risorse durante l'esecuzione.
Dashboard della latenza : questa dashboard ci ha aiutato ad analizzare i tempi di risposta, individuare i colli di bottiglia e visualizzare le tendenze delle prestazioni.

Metriche di utilizzo

Figura 16: Immagine che mostra le metriche di utilizzo di Langfuse, tra cui il numero totale di tracce, il numero totale di osservazioni e il numero totale di punteggi (sia numerici che categorici).

Il pannello di controllo delle metriche di utilizzo ci ha fornito le seguenti informazioni sulle prestazioni del sistema:

Numero totale di tracce : abbiamo tracciato otto tracce, ognuna delle quali rappresenta un ciclo completo di domanda e risposta nella pipeline.
Numero totale di osservazioni: In media, ogni traccia presentava 16 osservazioni, a testimonianza della natura a più fasi del processo.

Inoltre, Langfuse ci consente di monitorare i modelli di utilizzo , l'allocazione delle risorse e i picchi di attività negli ultimi 7 giorni, aiutandoci a capire quando il sistema è più attivo e come le risorse sono distribuite nel tempo.

Ispezione delle tracce

Figura 17: Dashboard delle tracce di Langfuse che mostra input, output, livelli di osservabilità, latenza e token.

Analizzando nel dettaglio una singola traccia, siamo stati in grado di visualizzare informazioni dettagliate sull'esecuzione:

Righe di traccia : ogni riga rappresenta un'esecuzione completa della pipeline con un ID di traccia univoco.
Metriche di latenza : il tempo di esecuzione è variato, da 0,00 s a 34,08 s.
Conteggio dei token : la dashboard tiene traccia dell'utilizzo dei token in entrata e in uscita, il che aiuta nella gestione dei costi e dell'efficienza.
Filtro ambientale : potremmo filtrare le tracce in base agli ambienti di distribuzione (ad esempio, sviluppo, produzione).

Dettagli individuali della traccia

Figura 18: Architettura a catena sequenziale di Langfuse.

Abbiamo ulteriormente analizzato la traccia in modo più dettagliato per comprendere il problema di esecuzione:

Architettura della catena sequenziale : la traccia mostrava un flusso visivo che illustrava ogni passaggio, a partire da SequentialChain → LLMChain → ChatOpenAI , con una struttura gerarchica.
Tracciamento input/output : la domanda originale, "Quali sono i vantaggi dell'utilizzo di Langfuse per l'osservabilità degli agenti di IA?", è stata tracciata in ogni fase, insieme ai rispettivi output prodotti dall'IA in ogni passaggio.
Analisi dei token : abbiamo osservato che 1.203 token sono stati utilizzati per l'input e 1.516 token per l'output, il che ha implicazioni sui costi relativi all'utilizzo dei token e contribuisce a ottimizzare la gestione delle risorse.
Dati di temporizzazione : La latenza totale per la traccia completa è stata di 34,08 s , suddivisa per ciascun componente:
- SequentialChain → 14,02 secondi
- LLMChain → 10,25 secondi
- ChatOpenAI → 9,81 secondi
Informazioni sul modello : Langfuse ha confermato l'utilizzo del modello Anthropic Claude-Sonnet-4 , fornendo dettagli sulle impostazioni specifiche, inclusa la configurazione della temperatura.
Output formattato : per il debug erano disponibili sia la visualizzazione Anteprima che quella JSON , che fornivano informazioni sulla risposta del modello in un formato leggibile dall'uomo e in un formato leggibile dalla macchina.

Analisi automatizzata

Figura 19: Esempio di valutazioni automatizzate di Langfuse.

Langfuse ha inoltre fornito valutazioni automatizzate delle nostre risposte:

Valutazione della qualità : Il sistema ha valutato la struttura, la coerenza e la completezza delle risposte, evidenziando le sezioni ben organizzate ma suggerendo che le risposte potrebbero essere più concise.
Suggerimenti per il miglioramento : sono state individuate sezioni ridondanti, suggerendo dove la formulazione potesse essere migliorata, e i punti correlati sono stati raggruppati per rendere la risposta più trasparente ed efficace.
Analisi delle prestazioni : il sistema ha fornito feedback sull'utilizzo dei token e sulla pertinenza delle risposte, aiutandoci a ottimizzare l'efficienza e garantendo al contempo che l'output rimanga utile e pertinente all'argomento.
Feedback strutturato : Il feedback è stato organizzato in categorie, consentendoci di affrontare aree specifiche di miglioramento in modo mirato.

Analisi degli utenti

Figura 20: L'immagine mostra l'attività anonima degli utenti, indicando la prima e l'ultima interazione di ciascun utente, il volume degli eventi, il consumo di token e i costi associati, al fine di analizzare il coinvolgimento, l'utilizzo delle risorse e l'allocazione del budget.

Langfuse traccia le interazioni dettagliate tra gli utenti e l'agente di intelligenza artificiale:

Cronologia delle attività utente : mostra la prima e l'ultima interazione di ciascun utente, aiutando a distinguere gli utenti attivi da quelli inattivi. Possiamo vedere quando gli utenti hanno interagito con il sistema per la prima e l'ultima volta.
Monitoraggio del volume degli eventi : tiene traccia del numero di eventi generati da ciascun utente. Ad esempio, alcuni utenti hanno generato oltre 2.000 eventi, a dimostrazione del loro livello di coinvolgimento con il sistema.
Analisi del consumo di token : monitora il numero totale di token consumati da ciascun utente. L'utilizzo dei token è variato da 6.590 a 357.000 token, fornendo informazioni sull'utilizzo delle risorse.
Attribuzione dei costi : scompone i costi associati a ciascun utente, semplificando il monitoraggio delle spese e l'ottimizzazione dell'allocazione del budget per l'utilizzo delle risorse.
Identificazione dell'utente : utilizza ID utente anonimizzati per tutelare la privacy, monitorando al contempo le interazioni dei singoli utenti e facilitando l'analisi dell'utilizzo senza compromettere la riservatezza degli stessi.

Figura 21: Un esempio della visualizzazione della sessione, che mostra l'intero flusso della conversazione insieme al codice Python eseguito, correlando gli input dell'utente con gli output del sistema e visualizzando i metadati della sessione per fornire un quadro completo di come è stata elaborata l'interazione.

La visualizzazione della sessione ci consente di tracciare i dettagli più specifici delle interazioni dell'utente:

Flusso completo della conversazione : mostra l'intera interazione domanda-risposta, facilitando il monitoraggio dell'intera conversazione dall'inizio alla fine.
Visibilità dell'implementazione : mostra il codice Python effettivamente utilizzato durante la sessione, fornendo informazioni dettagliate sull'implementazione tecnica.
Correlazione input/output : collega le domande dell'utente alle corrispondenti risposte del sistema, aiutandoci a risolvere i problemi e a identificare dove potrebbero essersi verificati degli errori nella conversazione.
Metadati della sessione : includono dettagli tecnici come tempi, contesto utente e dati di implementazione specifici, offrendo una visione completa dell'esecuzione della sessione.

Quando non utilizzare gli strumenti di osservabilità

Fase iniziale di sviluppo : se stai ancora validando l'adattamento prodotto-mercato o creando i primi flussi di lavoro degli agenti, l'attenzione dovrebbe essere rivolta alle funzionalità principali piuttosto che a un'osservabilità estesa.
Colli di bottiglia delle API : se i problemi principali riguardano i costi delle API, la latenza o la cache, la priorità immediata dovrebbe essere l'ottimizzazione di queste aree, non il monitoraggio delle metriche a livello di sistema.
Ottimizzazione del modello : se i miglioramenti sono principalmente guidati dalla selezione del modello, dalla messa a punto o dall'ingegneria proattiva, gli strumenti di osservabilità per la deriva e la distorsione potrebbero non essere ancora necessari.

Quando utilizzare gli strumenti di osservabilità

Produzione su larga scala : quando si opera su più modelli, agenti o catene, gli strumenti di osservabilità sono essenziali per monitorare le prestazioni e garantire l'integrità del sistema.
Applicazioni aziendali o rivolte ai clienti : per le applicazioni in cui affidabilità, sicurezza e conformità non sono negoziabili, gli strumenti di osservabilità forniscono la visibilità e il controllo necessari.
Monitoraggio continuo : quando è necessario monitorare nel tempo derive, bias, prestazioni e problemi di sicurezza, che non possono essere facilmente rilevati con script di base o controlli manuali, gli strumenti di osservabilità sono fondamentali.
Scenari ad alto rischio : in ambienti in cui il costo di un fallimento (ad esempio, allucinazioni, risultati non sicuri) è significativo, l'osservabilità garantisce che i rischi siano ridotti al minimo e che i problemi vengano rilevati tempestivamente.

Metodologia di benchmarking

Per valutare il sovraccarico prestazionale delle piattaforme di osservabilità nelle applicazioni LLM di produzione, abbiamo sviluppato un approccio di benchmarking sistematico utilizzando un flusso di lavoro agentico reale.

Applicazione di prova

Abbiamo creato un sistema sequenziale di pianificazione viaggi multi-agente utilizzando LangChain, che elabora le richieste di viaggio in linguaggio naturale attraverso cinque fasi:

Agente di analisi : estrae dati strutturati (origine, destinazione, date, durata) dall'input dell'utente.
Agente di ricerca voli : recupera i voli disponibili tramite l'API di Amadeus
Agente di segnalazione meteo : recupera le previsioni meteo della destinazione utilizzando WeatherAPI
Agente di raccomandazione attività : suggerisce attività in base alle condizioni meteorologiche
Agente di pianificazione viaggi : sintetizza tutte le informazioni in un itinerario completo

Il sistema utilizza Claude 4 Haiku tramite OpenRouter per tutte le chiamate LLM e integra API esterne per i dati in tempo reale.

Progettazione di riferimento

Definizione del valore di riferimento: abbiamo innanzitutto misurato le prestazioni dell'applicazione senza alcuno strumento di osservabilità, eseguendo 100 query identiche per stabilire un valore di riferimento per il confronto.

Integrazione delle piattaforme: abbiamo quindi integrato, una alla volta, cinque piattaforme di osservabilità leader del settore (LangSmith, Laminar, AgentOps, Langfuse), strumentando gli stessi punti di tracciamento su tutte le piattaforme per garantire la coerenza.

Esecuzione sequenziale: ciascuna piattaforma è stata testata in modo indipendente eseguendo tutte le 100 query consecutivamente prima di passare alla piattaforma successiva. Questo approccio riduce al minimo la variabilità dovuta a fattori esterni come le condizioni di rete o i limiti di frequenza delle API.

Ambiente controllato: tutti i test sono stati eseguiti sulla stessa infrastruttura server con set di query identici per garantire un confronto equo. Per isolare l'overhead dovuto alle variazioni di latenza indotte da LLM, abbiamo configurato il modello con temperature=0 e prompt strutturati per ridurre al minimo la variabilità delle risposte tra le diverse esecuzioni.

Metriche raccolte

Per ciascuna piattaforma, abbiamo misurato la latenza media e calcolato l'overhead come la latenza aggiuntiva introdotta rispetto alla linea di base: ((Platform Latency - Base Latency) / Base Latency) × 100

FAQ

L'osservabilità è la capacità di comprendere il funzionamento interno di un agente di intelligenza artificiale esaminando segnali esterni come log, metriche e tracce.

Per gli agenti di intelligenza artificiale, ciò implica il monitoraggio delle azioni, dell'utilizzo degli strumenti, delle interazioni con i modelli e delle risposte, al fine di individuare e risolvere i problemi e migliorare le prestazioni.

L'osservabilità dell'agente è fondamentale per monitorare e migliorare le prestazioni dell'IA, consentendo:

Comprendere i compromessi : aiuta a misurare parametri chiave come accuratezza e costi, facilitando il raggiungimento di un equilibrio tra prestazioni e utilizzo delle risorse.

Misurazione della latenza : il monitoraggio della latenza in tempo reale offre informazioni sui tempi di risposta, contribuendo a ottimizzare le prestazioni degli agenti.

Rilevamento di input dannosi : l'osservabilità aiuta a identificare il linguaggio dannoso e le iniezioni di prompt, consentendo un intervento tempestivo per prevenire problemi.

Monitoraggio del feedback degli utenti : osservando le interazioni e il feedback degli utenti, l'osservabilità fornisce dati preziosi per il miglioramento continuo e la messa a punto degli agenti.

I componenti chiave includono:

– Tracciamento delle azioni : Monitoraggio di ogni passaggio effettuato dall'agente.
– Utilizzo degli strumenti : Osservazione degli strumenti e delle risorse utilizzati dall'agente.
– Misurazione della latenza : monitoraggio dei tempi di risposta per ottimizzare le prestazioni.
– Valutazioni : Valutazione del comportamento dell'agente e delle prestazioni del modello.
– Rilevamento di input dannosi : identificazione di richieste o attacchi nocivi.

Collegamenti di riferimento

Model Usage & Cost Tracking for LLM applications (open source) - Langfuse

Cem Dilmegani

Analista principale

Segui

Cem è analista principale presso AIMultiple dal 2017. AIMultiple fornisce informazioni a centinaia di migliaia di aziende (secondo SimilarWeb), tra cui il 55% delle aziende Fortune 500, ogni mese. Il lavoro di Cem è stato citato da importanti pubblicazioni globali come Business Insider, Forbes, Washington Post, società globali come Deloitte e HPE, ONG come il World Economic Forum e organizzazioni sovranazionali come la Commissione Europea. È possibile consultare l'elenco di altre aziende e risorse autorevoli che hanno citato AIMultiple. Nel corso della sua carriera, Cem ha lavorato come consulente tecnologico, responsabile acquisti tecnologici e imprenditore nel settore tecnologico. Ha fornito consulenza alle aziende sulle loro decisioni tecnologiche presso McKinsey & Company e Altman Solon per oltre un decennio. Ha anche pubblicato un report di McKinsey sulla digitalizzazione. Ha guidato la strategia tecnologica e gli acquisti di un'azienda di telecomunicazioni, riportando direttamente al CEO. Ha inoltre guidato la crescita commerciale dell'azienda deep tech Hypatos, che ha raggiunto un fatturato annuo ricorrente a 7 cifre e una valutazione a 9 cifre partendo da zero in soli 2 anni. Il lavoro di Cem in Hypatos è stato oggetto di articoli su importanti pubblicazioni tecnologiche come TechCrunch e Business Insider. Cem partecipa regolarmente come relatore a conferenze internazionali di settore. Si è laureato in ingegneria informatica presso l'Università di Bogazici e ha conseguito un MBA presso la Columbia Business School.

Visualizza il profilo completo

Sii il primo a commentare

Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori.

Prossimo da leggere

Agenti di intelligenza artificialeApr 27

Agenti di utilizzo del computer: benchmark e architettura

Cem Dilmegani

Rete agenteMag 25

Agentic Search nel 2026: benchmark 8 API di ricerca per agenti

15 strumenti per l'osservabilità degli agenti IA nel 2026: AgentOps e Langfuse

benchmark dei costi generali degli strumenti di monitoraggio degli agenti

Possibili ragioni alla base delle differenze di rendimento

1. Profondità di strumentazione sul percorso di esecuzione

2. Amplificazione degli eventi attraverso pipeline a più fasi

3. Costi aggiuntivi di valutazione e convalida in linea

4. Frequenza di serializzazione e persistenza

5. Stretta integrazione con il framework degli agenti

piattaforme di osservabilità degli agenti di intelligenza artificiale

Livello 1: LLM dettagliato e osservabilità di prompt/output

Livello 2: Osservabilità del flusso di lavoro, del modello e della valutazione

Livello 3: Osservabilità del ciclo di vita e delle operazioni dell'agente

Livello 4: Monitoraggio di sistemi e infrastrutture (non nativo dell'agente)

Piattaforme per lo sviluppo e l'orchestrazione di agenti :

Edizioni gratuite per la distribuzione e prezzi

Pesi e diagonali (tessitura W&B)

Funzionalità di monitoraggio della tessitura

Capacità di valutazione

Langfuse

Caratteristiche di monitoraggio di Langfuse

Funzionalità di livello aziendale:

Galileo

Funzionalità di monitoraggio Galileo

Guardrails IA

Funzionalità di monitoraggio AI dei guardrail

LangSmith

Funzionalità di monitoraggio LangSmith

Langtrace AI

Funzionalità di monitoraggio AI di Langtrace

Arize (Fenice)

Funzionalità di monitoraggio di Phoenix

Agente

Funzionalità di monitoraggio di Agenta

AgentOps.ai

Funzionalità di monitoraggio di AgentOps

Braintrust

Funzionalità di monitoraggio del Braintrust

Agente Neo

Funzionalità di monitoraggio di AgentNeo

Laminare

Caratteristiche di monitoraggio laminare

Elicone

Caratteristiche di monitoraggio dell'elicottero

Coval

Caratteristiche di monitoraggio Coval

Datadog

Funzionalità di monitoraggio di Datadog

Prometeo

Funzionalità di monitoraggio di Prometheus

Grafana

Funzionalità di monitoraggio di Grafana

Tutorial: Osservabilità di LangChain con Langfuse

Panoramica del pannello di controllo

Metriche di utilizzo

Ispezione delle tracce

Dettagli individuali della traccia

Analisi automatizzata

Analisi degli utenti

Quando non utilizzare gli strumenti di osservabilità

Quando utilizzare gli strumenti di osservabilità

Metodologia di benchmarking

Applicazione di prova

Progettazione di riferimento

Metriche raccolte

FAQ

Che cos'è l'osservabilità?

Perché l'osservabilità degli agenti è essenziale per l'intelligenza artificiale?

Quali sono le componenti chiave dell'osservabilità degli agenti?

Collegamenti di riferimento

Sii il primo a commentare

Prossimo da leggere

Agenti di utilizzo del computer: benchmark e architettura

Agentic Search nel 2026: benchmark 8 API di ricerca per agenti

Intelligenza artificiale agentiva nell'ITSM: 10 casi d'uso ed esempi

Creazione di agenti IA personali + 18 piattaforme e strumenti per agenti

Creazione di agenti di intelligenza artificiale con modelli componibili

I 14 migliori agenti IA per la contabilità