15 strumenti per l'osservabilità degli agenti IA nel 2026: AgentOps e Langfuse
Gli strumenti di osservabilità degli agenti di intelligenza artificiale, come Langfuse e Arize, aiutano a raccogliere tracce dettagliate (una registrazione dell'esecuzione di un programma o di una transazione) e forniscono dashboard per monitorare le metriche in tempo reale .
Molti framework per agenti , come LangChain, utilizzano lo standard OpenTelemetry per condividere i metadati con il monitoraggio tramite agenti. Inoltre, molti strumenti di osservabilità offrono strumentazione personalizzata per una maggiore flessibilità.
Abbiamo testato 15 piattaforme di osservabilità per applicazioni LLM e agenti di intelligenza artificiale. Ogni piattaforma è stata implementata concretamente attraverso la configurazione di flussi di lavoro, integrazioni ed esecuzione di scenari di test. Abbiamo effettuato un benchmark di 4 strumenti di osservabilità per valutare se introducessero overhead nelle pipeline di produzione. Abbiamo inoltre presentato un tutorial sull'osservabilità di LangChain utilizzando Langfuse .
benchmark dei costi generali degli strumenti di monitoraggio degli agenti
Abbiamo integrato ciascuna piattaforma di osservabilità nel nostro sistema di pianificazione viaggi multi-agente ed eseguito 100 query identiche per misurare il sovraccarico prestazionale rispetto a una configurazione di riferimento senza strumentazione. Leggi la nostra metodologia di benchmarking.
- LangSmith ha dimostrato un'efficienza eccezionale con costi generali praticamente nulli, risultando ideale per ambienti di produzione in cui le prestazioni sono cruciali.
- Laminar ha introdotto un overhead minimo del 5%, risultando quindi altamente adatto agli ambienti di produzione in cui le prestazioni sono fondamentali.
- AgentOps e Langfuse hanno mostrato un overhead moderato, rispettivamente del 12% e del 15%, rappresentando un compromesso ragionevole tra funzionalità di osservabilità e impatto sulle prestazioni. Queste piattaforme mantengono comunque una latenza accettabile per la maggior parte dei casi d'uso in produzione.
Possibili ragioni alla base delle differenze di rendimento
I nostri risultati di benchmark indicano che le differenze di latenza sono determinate dalla profondità della strumentazione e dal coinvolgimento nel percorso di esecuzione, in particolare nei flussi di lavoro multi-agente. Gli strumenti che offrono un'osservabilità più approfondita a livello di singolo passaggio hanno mostrato un overhead maggiore, mentre gli approcci di tracciamento più leggeri sono rimasti più vicini al valore di riferimento.
1. Profondità di strumentazione sul percorso di esecuzione
Gli strumenti di osservabilità aggiungono logica al flusso di esecuzione dell'agente per acquisire tracce e metadati. Quando questa logica viene eseguita in modo sincrono durante la gestione delle richieste, aumenta direttamente la latenza end-to-end perché l'agente deve completare questo lavoro aggiuntivo prima di restituire una risposta.
Per esempio:
- LangSmith non ha aggiunto praticamente alcun overhead misurabile (~0%), indicando poco lavoro sincrono,
- La strumentazione a più livelli di dettaglio di Langfuse ha contribuito a un costo maggiore (~15%).
2. Amplificazione degli eventi attraverso pipeline a più fasi
Nei sistemi multi-agente, una singola richiesta dell'utente innesca azioni da parte di più agenti. Quando uno strumento registra dati dettagliati a ogni passaggio, il numero totale di eventi cresce rapidamente, aumentando il carico di elaborazione e di gestione delle tracce man mano che il flusso di lavoro si fa più complesso.
Nei risultati del benchmark:
- Langfuse e AgentOps hanno generato un sovraccarico notevolmente maggiore (15% e 12%) nel nostro flusso di lavoro di pianificazione dei viaggi in più fasi.
- LangSmith e Laminar hanno emesso un numero inferiore di eventi per ogni passo dell'agente.
3. Costi aggiuntivi di valutazione e convalida in linea
Alcune piattaforme eseguono controlli o monitoraggi aggiuntivi durante l'esecuzione dell'agente. Sebbene ogni controllo sia di lieve entità, la loro ripetuta applicazione a tutte le fasi dell'agente introduce una latenza misurabile.
Ad esempio:
- Il monitoraggio a livello di ciclo di vita di AgentOps ha coinciso con un sovraccarico del 12%
- Laminar non ha mostrato alcuna evidenza di valutazione in linea che influenzasse l'esecuzione, rimanendo a circa il 5%.
4. Frequenza di serializzazione e persistenza
L'acquisizione di dati di osservabilità dettagliati richiede la serializzazione delle tracce e la loro scrittura su storage o backend esterni. Un livello di dettaglio delle tracce più elevato aumenta la frequenza di questa operazione, incrementando il sovraccarico di I/O per ogni richiesta.
Nel nostro benchmark:
- La tracciatura dettagliata di prompt, output e token di Langfuse ha comportato il sovraccarico più elevato (~15%)
- Gli artefatti di traccia più leggeri di LangSmith sono rimasti vicini al valore di riferimento.
5. Stretta integrazione con il framework degli agenti
Il grado di integrazione di uno strumento con il framework dell'agente influisce sulle prestazioni. Integrazioni più strette riducono le fasi di traduzione e orchestrazione, mentre gli SDK più generici aggiungono ulteriori livelli di elaborazione.
Per esempio:
- Lo stretto allineamento di LangSmith con l'esecuzione dell'agente è correlato a un overhead pari a circa lo 0%.
- AgentOps e Langfuse hanno mostrato un impatto maggiore sulla latenza, in linea con percorsi di integrazione più disaccoppiati.
piattaforme di osservabilità degli agenti di intelligenza artificiale
Livello 1: LLM dettagliato e osservabilità di prompt/output
* Le funzionalità elencate in queste colonne sono esempi illustrativi di ciò che ogni strumento può monitorare se esteso tramite integrazioni o personalizzazioni. Queste funzionalità non sono esclusive di una singola piattaforma.
Livello 2: Osservabilità del flusso di lavoro, del modello e della valutazione
Livello 3: Osservabilità del ciclo di vita e delle operazioni dell'agente
Livello 4: Monitoraggio di sistemi e infrastrutture (non nativo dell'agente)
Datadog (con il suo modulo di osservabilità LLM) e Prometheus (tramite gli esportatori) vengono sempre più utilizzati insieme a Langfuse/LangSmith.
Piattaforme per lo sviluppo e l'orchestrazione di agenti :
- Strumenti come Flowise , Langflow , SuperAGI e CrewAI consentono di creare, orchestrare e ottimizzare i flussi di lavoro degli agenti con interfacce no-code/low-code.
Edizioni gratuite per la distribuzione e prezzi
Le edizioni gratuite variano in base ai limiti di utilizzo (ad esempio, osservazioni, tracce, token o unità di lavoro). I prezzi di partenza si riferiscono in genere a un piano base, che può prevedere restrizioni su funzionalità, utenti o limiti di utilizzo.
Pesi e diagonali (tessitura W&B)
Caso d'uso: Debugging dei guasti nei sistemi multi-agente tracciando la propagazione degli errori tra le chiamate degli agenti.
Figura 1: Dashboard delle tracce da Weights & Biases Weave.
Weights & Biases Weave registra tracce di esecuzione strutturate per sistemi multi-agente, preservando le relazioni padre-figlio tra le chiamate degli agenti. Input, output, stati intermedi, latenza e utilizzo dei token vengono acquisiti per ciascun agente e per ciascuna traccia.
Funzionalità di monitoraggio della tessitura
- Tracciamento gerarchico degli agenti anziché registri di richieste semplici.
- Attribuzione dei costi e della latenza a livello di agente
- Supporto nativo per i valutatori di punteggio applicato direttamente alle tracce.
Capacità di valutazione
Weave offre anche strumenti di valutazione integrati, tra cui:
- Correttore gratuito per l'individuazione delle allucinazioni,
- RiassuntoScorer per la valutazione della qualità del riassunto,
- EmbeddingSimilarityScorer per la similarità semantica,
- ValidJSONScorer e ValidXMLScorer per la convalida del formato,
- PydanticScorer per la conformità dello schema,
- OpenAIModerationScorer per la sicurezza dei contenuti,
- I punteggi RAGAS come ContextEntityRecallScorer,
- Strumento di valutazione ContextRelevancyScorer per il sistema RAG.
Ideale per: team che gestiscono flussi di lavoro a più fasi o con più agenti e che necessitano di un'analisi approfondita delle cause principali, piuttosto che di semplici metriche superficiali.
Langfuse
Casi d'uso: tracciare le interazioni LLM, gestire le versioni dei prompt e monitorare le prestazioni del modello con le sessioni utente.
Figura 2: Esempio di dashboard di Langfuse che mostra i dettagli della traccia. 1
Langfuse offre una visibilità approfondita sul livello di prompt, acquisendo prompt, risposte, costi e tracce di esecuzione per facilitare il debug, il monitoraggio e l'ottimizzazione delle applicazioni LLM.
Tuttavia, Langfuse potrebbe non essere adatto ai team che preferiscono flussi di lavoro basati su Git per la gestione del codice e dei prompt, poiché il suo sistema esterno di gestione dei prompt potrebbe non offrire lo stesso livello di controllo della versione e di collaborazione.
Caratteristiche di monitoraggio di Langfuse
- Visibilità sull'evoluzione e sui modelli di utilizzo dei prompt
- Analisi basata sulle sessioni, adatta ad applicazioni rivolte agli utenti.
- Modello pratico di metadati e tag per il filtraggio e la revisione
Funzionalità di livello aziendale:
Alcune di queste caratteristiche includono:
- Livelli di log : Regola il livello di dettaglio dei log per ottenere informazioni più precise.
- Multimodalità : supporta testo , immagini , audio e altri formati per applicazioni LLM multimodali.
- Versioni e rilasci : tieni traccia della cronologia delle versioni e scopri come i nuovi rilasci influiscono sulle prestazioni del modello.
- URL di tracciamento : accedi a tracce dettagliate tramite URL univoci per ulteriori analisi e debug.
- Grafi degli agenti : visualizza le interazioni e le dipendenze tra gli agenti per una migliore comprensione del loro comportamento.
- Campionamento : raccogliere dati rappresentativi dalle interazioni per analizzarli senza sovraccaricare il sistema.
- Monitoraggio dei token e dei costi : traccia l'utilizzo dei token e i costi per ogni chiamata del modello, garantendo una gestione efficiente delle risorse.
- Mascheramento : Proteggi i dati sensibili mascherandoli nelle tracce, garantendo privacy e conformità.
Ideale per: team che lavorano su prompt e monitorano l'utilizzo in produzione, soprattutto laddove le sessioni utente sono importanti.
Galileo
Casi d'uso: monitorare costi/latenza, valutare la qualità dell'output, bloccare risposte non sicure e fornire soluzioni concrete.
Figura 3: Grafici che mostrano la qualità della selezione degli strumenti, l'aderenza al contesto, la compilazione delle azioni dell'agente e il tempo necessario per ottenere il primo token.
Galileo tiene traccia dei parametri relativi a costi, latenza e qualità dell'output, applicando al contempo controlli di sicurezza e conformità in tempo reale.
La piattaforma combina l'osservabilità tradizionale (latenza, costi, prestazioni) con il debug e la valutazione basati sull'intelligenza artificiale (rilevamento di allucinazioni, correttezza fattuale, coerenza, aderenza al contesto).
Funzionalità di monitoraggio Galileo
- Identificazione delle modalità di guasto al di là degli errori superficiali (ad esempio, allucinazioni che portano a input errati degli strumenti)
- Feedback prescrittivo, come suggerimenti per modifiche al prompt o aggiunte di pochi scatti.
- Stretto collegamento tra i risultati della valutazione e le soluzioni raccomandate.
Ideale per: Organizzazioni che danno priorità alla qualità dell'output, alla sicurezza e a cicli di iterazione rapidi con interventi correttivi guidati.
Guardrails IA
Casi d'uso: Prevenire emissioni dannose, convalidare le risposte LLM e garantire la conformità alle politiche di sicurezza
Figura 4: Dashboard del comportamento delle guardie che mostra le differenze nella durata del servizio di guardia e nei guasti delle guardie.
Guardrails convalida gli input e gli output di LLM rispetto a regole configurabili, tra cui tossicità, pregiudizi, esposizione di dati personali, segnalazioni di anomalie e conformità al formato.
Funzionalità di monitoraggio AI dei guardrail
- Validazione deterministica tramite specifiche RAIL
- Protezioni per l'inserimento immediato e il rilevamento del jailbreak
- Tentativi automatici in caso di errore di convalida.
Ideale per
Team che devono far rispettare rigide garanzie di sicurezza, conformità o formattazione prima di restituire le risposte.
LangSmith
Casi d'uso: ragionamento degli agenti e debug delle chiamate agli strumenti (incentrato su LangChain)
Figura 5: Dashboard di LangSmith che mostra le tracce, inclusi i loro nomi, gli input, gli orari di inizio e le latenze.
LangSmith acquisisce tracce complete del ragionamento per gli agenti basati su LangChain, inclusi i prompt, il contesto recuperato, la logica di selezione degli strumenti, gli input/output degli strumenti, gli errori e le eccezioni.
Funzionalità di monitoraggio LangSmith
- Analisi dettagliata dei percorsi decisionali degli agenti
- Esegui la riproduzione e il confronto affiancato tra prompt, modelli o strumenti
- Stretta integrazione con LangChain tramite callback.
Ideale per
Team che utilizzano LangChain e che necessitano di eseguire il debug di ragionamenti errati o di un'invocazione degli strumenti in modo dettagliato.
Langtrace AI
Casi d'uso: identificazione dei colli di bottiglia in termini di costi e latenza nelle applicazioni LLM
Figura 6: Dashboard di tracciamento AI di Langtrace.
Langtrace tiene traccia del numero di token, della durata dell'esecuzione, dei costi delle API e dei parametri delle richieste nelle pipeline LLM utilizzando tracce compatibili con OpenTelemetry.
Funzionalità di monitoraggio AI di Langtrace
- Allineamento di OpenTelemetry per l'integrazione con i backend esistenti
- Visibilità dei fattori che influenzano costi e latenza per ogni fase
- Ambiente di test e versioning leggero per le richieste di conferma.
Ideale per: team che desiderano ottimizzare le prestazioni e la spesa nei flussi di lavoro LLM, piuttosto che valutare la qualità dei risultati.
Arize (Fenice)
Casi d'uso: monitorare la deriva del modello, rilevare i bias e valutare gli output dei modelli lineari logici (LLM) con sistemi di punteggio completi.
Figura 7: Dashboard del monitor di deriva Arize Phoenix.
Phoenix si concentra sulla deriva comportamentale, sul rilevamento dei bias e sulla valutazione di rilevanza, tossicità e accuratezza da parte del modello LLM come giudice.
Tuttavia, presenta un overhead di integrazione maggiore rispetto ai proxy leggeri e non gestisce il versionamento dei prompt in modo altrettanto efficiente quanto gli strumenti dedicati.
Funzionalità di monitoraggio di Phoenix
- Nucleo open-source con estensioni aziendali opzionali
- Area di sviluppo interattiva per la creazione di prompt.
- Rilevamento della deriva per il monitoraggio dei cambiamenti comportamentali nel tempo
- Controlli di distorsione per identificare le distorsioni di risposta,
- Valutazione da parte del modello LLM in qualità di giudice per accuratezza, tossicità e rilevanza.
Ideale per: team che monitorano il comportamento a lungo termine dei modelli e il rischio di regressione, piuttosto che per iterazioni immediate.
Agente
Casi d'uso: Individuare quale prompt funziona meglio su quale modello
Figura 8: Immagine che mostra diverse alternative di prompt da Agenta.
Agenta confronta le risposte dei modelli in termini di costi, latenza e qualità dell'output, utilizzando input condivisi e un contesto controllato.
Figura 9: Esempio di output da Agenta.
Funzionalità di monitoraggio di Agenta
- Valutazione comparativa dei modelli
- Supporto alle decisioni in fase di pre-produzione.
Ideale per: Valutazione preliminare e selezione del modello.
AgentOps.ai
Casi d'uso : monitorare il ragionamento degli agenti, tenere traccia dei costi ed eseguire il debug delle sessioni in produzione.
Figura 10: Esempio di dashboard di riproduzione della sessione da AgentOps.ai.
AgentOps acquisisce tracce di ragionamento, chiamate a strumenti/API, stato della sessione, comportamento della cache e metriche di costo per gli agenti distribuiti.
Funzionalità di monitoraggio di AgentOps
- Riproduzione della sessione per il debug in produzione
- Concentrati sul comportamento degli agenti in tempo reale piuttosto che sulla valutazione offline.
Ideale per: team che gestiscono agenti in produzione e necessitano di visibilità operativa.
Braintrust
Casi d'uso : Individuare quale prompt, set di dati o modello offre prestazioni migliori, con valutazione dettagliata e analisi degli errori.
Figura 11: Dashboard dell'agente di assistenza clienti di Braintrust.
Braintrust valuta i prompt, i set di dati e i modelli rispetto ai risultati attesi, monitorando la latenza, i costi, gli errori degli strumenti e le metriche di esecuzione.
Funzionalità di monitoraggio del Braintrust
- Valuta i set di dati di test con input e output attesi, quindi confronta i prompt o i modelli fianco a fianco utilizzando variabili come
{{input}},{{expected}}e{{metadata}}. - Analisi dettagliate delle metriche, inclusa la qualità di esecuzione degli strumenti.
Ideale per: team che desiderano confrontare modelli e ricevere suggerimenti prima del lancio.
Agente Neo
Casi d'uso : Debug delle interazioni multi-agente, tracciamento dell'utilizzo degli strumenti e valutazione dei flussi di lavoro di coordinamento.
AgentNeo traccia la comunicazione tra gli agenti, l'utilizzo degli strumenti, i grafici di esecuzione, i costi per agente e la latenza tramite un SDK Python.
Funzionalità di monitoraggio di AgentNeo
- Open source ed eseguibile localmente
- Dashboard locale interattiva (
localhost:3000) per il monitoraggio in tempo reale dei flussi di lavoro multi-agente. - Integrazione tramite decoratori (ad esempio,
@tracer.trace_agent,@tracer.trace_tool)
Ideale per: team di ingegneri che sperimentano sistemi multi-agente.
Laminare
Caso d'uso : Monitorare le prestazioni in diversi framework e modelli LLM.
Figura 12: Esempio di dashboard delle tracce da Laminar.
Laminar tiene traccia degli intervalli di esecuzione, dei costi, dell'utilizzo dei token e dei percentili di latenza in tutti i framework e modelli LLM.
Caratteristiche di monitoraggio laminare
- Analisi delle prestazioni indipendente dal framework
- Ispezione dettagliata della campata.
Ideale per: Analisi comparativa delle prestazioni tra stack eterogenei.
Elicone
Casi d'uso: tracciare i flussi di lavoro degli agenti in più fasi e analizzare i modelli delle sessioni utente.
Figura 12: Immagine che mostra le variazioni di richieste, costi, errori e latenza negli ultimi 3 mesi.
Helicone acquisisce i volumi delle richieste, i costi, gli errori, le tendenze di latenza e i flussi di lavoro degli agenti a livello di sessione.
Caratteristiche di monitoraggio dell'elicottero
- visibilità del percorso utente
- Analisi delle tendenze storiche.
Ideale per: team di prodotto che monitorano i modelli di utilizzo e il comportamento a livello di singolo utente.
Coval
Casi d'uso: simulare migliaia di conversazioni tra agenti, testare le interazioni vocali/di chat e convalidare il comportamento prima della distribuzione.
Figura 13: Dashboard di valutazione di Coval che mostra le percentuali di obiettivi raggiunti, identità verificata, ripetizione corretta, chiarezza dell'agente e informazioni errate.
Coval simula migliaia di conversazioni per misurare il completamento delle attività, la correttezza e l'efficacia delle chiamate agli strumenti.
Caratteristiche di monitoraggio Coval
- test di agenti basati sulla simulazione
- Rilevamento automatico della regressione
- Assistenza tramite operatore vocale e testuale.
Ideale per: convalida pre-implementazione e rilevamento di regressioni.
Datadog
Casi d'uso : Osservabilità di infrastrutture e applicazioni tramite correlazione di segnali LLM.
Datadog raccoglie metriche dell'infrastruttura (CPU, memoria, rete), dati sulle prestazioni delle applicazioni (latenza, tassi di errore, throughput) e log. Per le applicazioni LLM, può acquisire dati sull'utilizzo dei token, sul costo per richiesta, sulla latenza del modello e su segnali relativi alla sicurezza, come i tentativi di iniezione di prompt.
Funzionalità di monitoraggio di Datadog
- Ampia osservabilità a livello di sistema su infrastrutture, applicazioni e carichi di lavoro di intelligenza artificiale.
- Un vasto ecosistema di integrazione (oltre 900 integrazioni) che consente di correlare il comportamento dell'IA e lo stato di salute dell'infrastruttura.
Ideale per: Organizzazioni che desiderano correlare il comportamento di LLM con le prestazioni dell'infrastruttura e dell'applicazione sottostanti piuttosto che esaminare il ragionamento dell'agente o i prompt
Prometeo
Casi d'uso: monitorare le prestazioni del sistema, tenere traccia delle metriche delle applicazioni e impostare avvisi per problemi di infrastruttura.
Prometheus è un sistema di monitoraggio open-source che raccoglie metriche di serie temporali dagli endpoint HTTP a intervalli regolari per tracciare metriche relative a infrastruttura, applicazioni, database, container e metriche aziendali personalizzate.
Funzionalità di monitoraggio di Prometheus
- Raccolta di metriche di serie temporali tramite scraping basato su richieste
- PromQL per interrogazioni, aggregazioni e condizioni di avviso
- Ecosistema di esportatori (ad esempio, Node Exporter) per un'ampia copertura del sistema.
Ideale per: Monitoraggio di infrastrutture e applicazioni con avvisi basati su regole.
Grafana
Casi d'uso : Visualizzare metriche, creare dashboard e instradare avvisi tra dati LLM, agenti e infrastruttura.
Figura 14: Dashboard delle tracce che mostra la variazione del tasso di richiesta, dei token di utilizzo totali, del costo medio di utilizzo e del costo totale di utilizzo.
Grafana è una piattaforma open-source di visualizzazione e analisi che si integra con fonti di dati come Prometheus, OpenTelemetry e Datadog per fornire dashboard di osservabilità unificate.
Funzionalità di monitoraggio di Grafana
- Dashboard che analizzano metriche, log e tracce.
- Correlazione intersistemica per segnali LLM, agenti e infrastrutture.
- Gestione dell'instradamento degli avvisi e delle notifiche.
Ideale per: Visualizzazione centralizzata dell'osservabilità e risposta agli incidenti.
Tutorial: Osservabilità di LangChain con Langfuse
Abbiamo creato una pipeline LangChain a più fasi, suddivisa in tre stadi:
- analisi della domanda
- generazione di risposte
- elaborazione della risposta
Dopo aver configurato la pipeline, l'abbiamo collegata a Langfuse per monitorare e tracciare l'esecuzione in tempo reale. In questo modo, abbiamo potuto esplorare come Langfuse ci aiuta a raccogliere informazioni dettagliate sulle prestazioni, i costi e il comportamento delle applicazioni di intelligenza artificiale.
Ecco cosa abbiamo osservato tramite Langfuse:
Panoramica del pannello di controllo
Figura 15: Dashboard di Langfuse relative a costi, gestione dell'utilizzo e latenza.
Langfuse ci ha fornito diverse dashboard che ci offrono visibilità su vari aspetti delle prestazioni della pipeline:
- Dashboard dei costi : questa sezione tiene traccia della spesa per tutte le chiamate API, con riepiloghi dettagliati per modello e periodo di tempo.
- Gestione dell'utilizzo : monitora le metriche di esecuzione, come il numero di osservazioni e l'allocazione delle risorse, aiutandoci a tenere traccia di come vengono utilizzate le risorse durante l'esecuzione.
- Dashboard della latenza : questa dashboard ci ha aiutato ad analizzare i tempi di risposta, individuare i colli di bottiglia e visualizzare le tendenze delle prestazioni.
Metriche di utilizzo
Figura 16: Immagine che mostra le metriche di utilizzo di Langfuse, tra cui il numero totale di tracce, il numero totale di osservazioni e il numero totale di punteggi (sia numerici che categorici).
Il pannello di controllo delle metriche di utilizzo ci ha fornito le seguenti informazioni sulle prestazioni del sistema:
- Numero totale di tracce : abbiamo tracciato otto tracce, ognuna delle quali rappresenta un ciclo completo di domanda e risposta nella pipeline.
- Numero totale di osservazioni: In media, ogni traccia presentava 16 osservazioni, a testimonianza della natura a più fasi del processo.
Inoltre, Langfuse ci consente di monitorare i modelli di utilizzo , l'allocazione delle risorse e i picchi di attività negli ultimi 7 giorni, aiutandoci a capire quando il sistema è più attivo e come le risorse sono distribuite nel tempo.
Ispezione delle tracce
Figura 17: Dashboard delle tracce di Langfuse che mostra input, output, livelli di osservabilità, latenza e token.
Analizzando nel dettaglio una singola traccia, siamo stati in grado di visualizzare informazioni dettagliate sull'esecuzione:
- Righe di traccia : ogni riga rappresenta un'esecuzione completa della pipeline con un ID di traccia univoco.
- Metriche di latenza : il tempo di esecuzione è variato, da 0,00 s a 34,08 s.
- Conteggio dei token : la dashboard tiene traccia dell'utilizzo dei token in entrata e in uscita, il che aiuta nella gestione dei costi e dell'efficienza.
- Filtro ambientale : potremmo filtrare le tracce in base agli ambienti di distribuzione (ad esempio, sviluppo, produzione).
Dettagli individuali della traccia
Figura 18: Architettura a catena sequenziale di Langfuse.
Abbiamo ulteriormente analizzato la traccia in modo più dettagliato per comprendere il problema di esecuzione:
- Architettura della catena sequenziale : la traccia mostrava un flusso visivo che illustrava ogni passaggio, a partire da SequentialChain → LLMChain → ChatOpenAI , con una struttura gerarchica.
- Tracciamento input/output : la domanda originale, "Quali sono i vantaggi dell'utilizzo di Langfuse per l'osservabilità degli agenti di IA?", è stata tracciata in ogni fase, insieme ai rispettivi output prodotti dall'IA in ogni passaggio.
- Analisi dei token : abbiamo osservato che 1.203 token sono stati utilizzati per l'input e 1.516 token per l'output, il che ha implicazioni sui costi relativi all'utilizzo dei token e contribuisce a ottimizzare la gestione delle risorse.
- Dati di temporizzazione : La latenza totale per la traccia completa è stata di 34,08 s , suddivisa per ciascun componente:
- SequentialChain → 14,02 secondi
- LLMChain → 10,25 secondi
- ChatOpenAI → 9,81 secondi
- Informazioni sul modello : Langfuse ha confermato l'utilizzo del modello Anthropic Claude-Sonnet-4 , fornendo dettagli sulle impostazioni specifiche, inclusa la configurazione della temperatura.
- Output formattato : per il debug erano disponibili sia la visualizzazione Anteprima che quella JSON , che fornivano informazioni sulla risposta del modello in un formato leggibile dall'uomo e in un formato leggibile dalla macchina.
Analisi automatizzata
Figura 19: Esempio di valutazioni automatizzate di Langfuse.
Langfuse ha inoltre fornito valutazioni automatizzate delle nostre risposte:
- Valutazione della qualità : Il sistema ha valutato la struttura, la coerenza e la completezza delle risposte, evidenziando le sezioni ben organizzate ma suggerendo che le risposte potrebbero essere più concise.
- Suggerimenti per il miglioramento : sono state individuate sezioni ridondanti, suggerendo dove la formulazione potesse essere migliorata, e i punti correlati sono stati raggruppati per rendere la risposta più trasparente ed efficace.
- Analisi delle prestazioni : il sistema ha fornito feedback sull'utilizzo dei token e sulla pertinenza delle risposte, aiutandoci a ottimizzare l'efficienza e garantendo al contempo che l'output rimanga utile e pertinente all'argomento.
- Feedback strutturato : Il feedback è stato organizzato in categorie, consentendoci di affrontare aree specifiche di miglioramento in modo mirato.
Analisi degli utenti
Figura 20: L'immagine mostra l'attività anonima degli utenti, indicando la prima e l'ultima interazione di ciascun utente, il volume degli eventi, il consumo di token e i costi associati, al fine di analizzare il coinvolgimento, l'utilizzo delle risorse e l'allocazione del budget.
Langfuse traccia le interazioni dettagliate tra gli utenti e l'agente di intelligenza artificiale:
- Cronologia delle attività utente : mostra la prima e l'ultima interazione di ciascun utente, aiutando a distinguere gli utenti attivi da quelli inattivi. Possiamo vedere quando gli utenti hanno interagito con il sistema per la prima e l'ultima volta.
- Monitoraggio del volume degli eventi : tiene traccia del numero di eventi generati da ciascun utente. Ad esempio, alcuni utenti hanno generato oltre 2.000 eventi, a dimostrazione del loro livello di coinvolgimento con il sistema.
- Analisi del consumo di token : monitora il numero totale di token consumati da ciascun utente. L'utilizzo dei token è variato da 6.590 a 357.000 token, fornendo informazioni sull'utilizzo delle risorse.
- Attribuzione dei costi : scompone i costi associati a ciascun utente, semplificando il monitoraggio delle spese e l'ottimizzazione dell'allocazione del budget per l'utilizzo delle risorse.
- Identificazione dell'utente : utilizza ID utente anonimizzati per tutelare la privacy, monitorando al contempo le interazioni dei singoli utenti e facilitando l'analisi dell'utilizzo senza compromettere la riservatezza degli stessi.
Figura 21: Un esempio della visualizzazione della sessione, che mostra l'intero flusso della conversazione insieme al codice Python eseguito, correlando gli input dell'utente con gli output del sistema e visualizzando i metadati della sessione per fornire un quadro completo di come è stata elaborata l'interazione.
La visualizzazione della sessione ci consente di tracciare i dettagli più specifici delle interazioni dell'utente:
- Flusso completo della conversazione : mostra l'intera interazione domanda-risposta, facilitando il monitoraggio dell'intera conversazione dall'inizio alla fine.
- Visibilità dell'implementazione : mostra il codice Python effettivamente utilizzato durante la sessione, fornendo informazioni dettagliate sull'implementazione tecnica.
- Correlazione input/output : collega le domande dell'utente alle corrispondenti risposte del sistema, aiutandoci a risolvere i problemi e a identificare dove potrebbero essersi verificati degli errori nella conversazione.
- Metadati della sessione : includono dettagli tecnici come tempi, contesto utente e dati di implementazione specifici, offrendo una visione completa dell'esecuzione della sessione.
Quando non utilizzare gli strumenti di osservabilità
- Fase iniziale di sviluppo : se stai ancora validando l'adattamento prodotto-mercato o creando i primi flussi di lavoro degli agenti, l'attenzione dovrebbe essere rivolta alle funzionalità principali piuttosto che a un'osservabilità estesa.
- Colli di bottiglia delle API : se i problemi principali riguardano i costi delle API, la latenza o la cache, la priorità immediata dovrebbe essere l'ottimizzazione di queste aree, non il monitoraggio delle metriche a livello di sistema.
- Ottimizzazione del modello : se i miglioramenti sono principalmente guidati dalla selezione del modello, dalla messa a punto o dall'ingegneria proattiva, gli strumenti di osservabilità per la deriva e la distorsione potrebbero non essere ancora necessari.
Quando utilizzare gli strumenti di osservabilità
- Produzione su larga scala : quando si opera su più modelli, agenti o catene, gli strumenti di osservabilità sono essenziali per monitorare le prestazioni e garantire l'integrità del sistema.
- Applicazioni aziendali o rivolte ai clienti : per le applicazioni in cui affidabilità, sicurezza e conformità non sono negoziabili, gli strumenti di osservabilità forniscono la visibilità e il controllo necessari.
- Monitoraggio continuo : quando è necessario monitorare nel tempo derive, bias, prestazioni e problemi di sicurezza, che non possono essere facilmente rilevati con script di base o controlli manuali, gli strumenti di osservabilità sono fondamentali.
- Scenari ad alto rischio : in ambienti in cui il costo di un fallimento (ad esempio, allucinazioni, risultati non sicuri) è significativo, l'osservabilità garantisce che i rischi siano ridotti al minimo e che i problemi vengano rilevati tempestivamente.
Metodologia di benchmarking
Per valutare il sovraccarico prestazionale delle piattaforme di osservabilità nelle applicazioni LLM di produzione, abbiamo sviluppato un approccio di benchmarking sistematico utilizzando un flusso di lavoro agentico reale.
Applicazione di prova
Abbiamo creato un sistema sequenziale di pianificazione viaggi multi-agente utilizzando LangChain, che elabora le richieste di viaggio in linguaggio naturale attraverso cinque fasi:
- Agente di analisi : estrae dati strutturati (origine, destinazione, date, durata) dall'input dell'utente.
- Agente di ricerca voli : recupera i voli disponibili tramite l'API di Amadeus
- Agente di segnalazione meteo : recupera le previsioni meteo della destinazione utilizzando WeatherAPI
- Agente di raccomandazione attività : suggerisce attività in base alle condizioni meteorologiche
- Agente di pianificazione viaggi : sintetizza tutte le informazioni in un itinerario completo
Il sistema utilizza Claude 4 Haiku tramite OpenRouter per tutte le chiamate LLM e integra API esterne per i dati in tempo reale.
Progettazione di riferimento
Definizione del valore di riferimento: abbiamo innanzitutto misurato le prestazioni dell'applicazione senza alcuno strumento di osservabilità, eseguendo 100 query identiche per stabilire un valore di riferimento per il confronto.
Integrazione delle piattaforme: abbiamo quindi integrato, una alla volta, cinque piattaforme di osservabilità leader del settore (LangSmith, Laminar, AgentOps, Langfuse), strumentando gli stessi punti di tracciamento su tutte le piattaforme per garantire la coerenza.
Esecuzione sequenziale: ciascuna piattaforma è stata testata in modo indipendente eseguendo tutte le 100 query consecutivamente prima di passare alla piattaforma successiva. Questo approccio riduce al minimo la variabilità dovuta a fattori esterni come le condizioni di rete o i limiti di frequenza delle API.
Ambiente controllato: tutti i test sono stati eseguiti sulla stessa infrastruttura server con set di query identici per garantire un confronto equo. Per isolare l'overhead dovuto alle variazioni di latenza indotte da LLM, abbiamo configurato il modello con temperature=0 e prompt strutturati per ridurre al minimo la variabilità delle risposte tra le diverse esecuzioni.
Metriche raccolte
Per ciascuna piattaforma, abbiamo misurato la latenza media e calcolato l'overhead come la latenza aggiuntiva introdotta rispetto alla linea di base: ((Platform Latency - Base Latency) / Base Latency) × 100
FAQ
L'osservabilità è la capacità di comprendere il funzionamento interno di un agente di intelligenza artificiale esaminando segnali esterni come log, metriche e tracce.
Per gli agenti di intelligenza artificiale, ciò implica il monitoraggio delle azioni, dell'utilizzo degli strumenti, delle interazioni con i modelli e delle risposte, al fine di individuare e risolvere i problemi e migliorare le prestazioni.
L'osservabilità dell'agente è fondamentale per monitorare e migliorare le prestazioni dell'IA, consentendo:
Comprendere i compromessi : aiuta a misurare parametri chiave come accuratezza e costi, facilitando il raggiungimento di un equilibrio tra prestazioni e utilizzo delle risorse.
Misurazione della latenza : il monitoraggio della latenza in tempo reale offre informazioni sui tempi di risposta, contribuendo a ottimizzare le prestazioni degli agenti.
Rilevamento di input dannosi : l'osservabilità aiuta a identificare il linguaggio dannoso e le iniezioni di prompt, consentendo un intervento tempestivo per prevenire problemi.
Monitoraggio del feedback degli utenti : osservando le interazioni e il feedback degli utenti, l'osservabilità fornisce dati preziosi per il miglioramento continuo e la messa a punto degli agenti.
I componenti chiave includono:
– Tracciamento delle azioni : Monitoraggio di ogni passaggio effettuato dall'agente.
– Utilizzo degli strumenti : Osservazione degli strumenti e delle risorse utilizzati dall'agente.
– Misurazione della latenza : monitoraggio dei tempi di risposta per ottimizzare le prestazioni.
– Valutazioni : Valutazione del comportamento dell'agente e delle prestazioni del modello.
– Rilevamento di input dannosi : identificazione di richieste o attacchi nocivi.
Sii il primo a commentare
Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori.