La valutazione dei LLM richiede strumenti in grado di valutare il ragionamento multi-turno, le prestazioni di produzione e l'utilizzo degli strumenti. Abbiamo dedicato 2 giorni alla revisione dei framework di valutazione dei LLM più diffusi, che forniscono metriche strutturate, log e tracce per identificare come e quando un modello si discosta dal comportamento previsto. Nello specifico, abbiamo:
- È stato verificato se gli strumenti di valutazione LLM supportano l'analisi del tracciamento del comportamento degli agenti e il monitoraggio della produzione .
- Strumenti raggruppati in base all'obiettivo di valutazione funzionale .
- Sono state confrontate le capacità di valutazione , dai test a turno singolo alle valutazioni multi-turno in condizioni reali.
panorama di valutazione LLM
Categoria funzionale | Utensili | Scopo primario |
|---|---|---|
OpenAI Evals, DeepEval, MLflow (LLM Eval), RAGAS, TruLens, Deepchecks, Inspect AI | Valutare gli output di LLM utilizzando metriche di qualità, accuratezza e coerenza. | |
Promptfoo, Humanloop, Opik | Progettare, testare e ottimizzare i prompt per ottenere risultati migliori dal modello. | |
LangChain Valutazioni, LangSmith, LlamaIndex Valutazione | Valutare LLM all'interno di ecosistemi specifici come LangChain o LlamaIndex. | |
Arize Phoenix, Langfuse, Langtrace AI, Lunary | Monitoraggio e analisi continui delle prestazioni del modello in produzione. |
LLM capacità di valutazione
Spiegazione delle capacità di valutazione:
- Gateway AI (accesso multi-modello): capacità della piattaforma di valutare più modelli di base tramite un'interfaccia API unificata.
- Valutazioni a turno singolo: Misurano le prestazioni del modello su singoli prompt per metriche quali accuratezza, veridicità o coerenza.
- Valutazioni a più turni: supporta la valutazione di scambi a più fasi o conversazionali per testare il ragionamento contestuale e la memoria.
- Valutazioni offline: Le valutazioni offline vengono utilizzate per verificare i risultati dell'applicazione LLM prima del rilascio in produzione. Utilizzare le valutazioni offline per i controlli CI/CD dell'applicazione LLM.
- Metriche personalizzate LLM: consentono di definire metriche di valutazione specifiche per dominio o per attività, oltre ai metodi di punteggio preimpostati.
Capacità di monitoraggio del comportamento degli agenti e degli strumenti
Gli strumenti di valutazione possono aiutare a individuare comportamenti dell'agente non allineati, soprattutto ampliando il concetto di "valutazione" (non solo la richiesta o la risposta, ma anche il comportamento dell'agente nel tempo, l'utilizzo degli strumenti, gli effetti collaterali).
Anthropic suggerisce che valutare come si comporta un modello, e non solo cosa dice, potrebbe diventare una dimensione cruciale di fiducia e sicurezza nei sistemi di intelligenza artificiale di prossima generazione. 1
- Se sei interessato al monitoraggio della produzione e alla valutazione a livello di sistema, puoi passare direttamente alla sezione relativa ai framework di osservabilità con funzionalità di valutazione .
- Per saperne di più, consulta il documento LLM relativo alle piattaforme di osservabilità e valutazione .
- Se stai utilizzando RAG o agenti di completamento delle attività, abbiamo una guida separata sulla valutazione degli agenti .
Framework di valutazione principali LLM
OpenAI Valutazione s
OpenAI Evals è un framework di valutazione open-source sviluppato da OpenAI per valutare sistematicamente le prestazioni di grandi modelli linguistici (LLM).
Si tratta di un'infrastruttura di valutazione generica che consente agli utenti di misurare la qualità dei modelli in un'ampia varietà di attività: dalla generazione di testo e dal ragionamento alla generazione di output strutturati come codice o SQL.
Ecco un esempio di pipeline di valutazione realizzata con OpenAI Evals, progettata per valutare la capacità di un modello di generare query SQL sintatticamente corrette. La valutazione utilizza dati sintetici generati con GPT-4 e una configurazione YAML personalizzata per registrare la valutazione all'interno del framework:
Valutazione approfondita
Si tratta di un framework incentrato su Python, spesso descritto come "pytest per LLMs". Si distingue per l'ampio set di metriche basate sulla ricerca e per la capacità di testare pipeline complete o componenti isolati.
Ecco un esempio di valutazione di una traccia, che rappresenta una singola esecuzione di un'applicazione LLM. L'esecuzione di valutazioni sulle tracce consente una valutazione end-to-end del comportamento del modello, simile alle valutazioni a singolo turno condotte durante lo sviluppo:
Fonte: ConfidentAI 3
MLflow (LLM Eval)
Estende MLflow alla valutazione LLM. Il suo punto di forza principale è il tracciamento degli esperimenti e il confronto affiancato tra esecuzioni e release.
Ecco un esempio della visualizzazione comparativa delle valutazioni di MLflow, che mostra i risultati affiancati di più esecuzioni. In questo caso, la metrica del punteggio di concisione è migliorata del 33%, mentre la copertura dei concetti è diminuita dell'11%.
Fonte: MLflow 4
Raga
RAGAS (Retrieval-Augmented Generation Assessment Suite) è un framework di valutazione open-source specificamente progettato per misurare le prestazioni delle applicazioni Retrieval-Augmented Generation (RAG) e agentiche LLM. Fornisce un ambiente di sperimentazione leggero, simile all'utilizzo di pandas per l'analisi rapida dei dati.
RAGAS valuta l'efficacia con cui un sistema recupera e integra il contesto rilevante nelle risposte generate. Lo fa attraverso una serie di metriche supportate dalla ricerca, tra cui:
- Fedeltà : quanto accuratamente la risposta generata riflette il contesto recuperato.
- Rilevanza contestuale : quanto sono pertinenti i documenti recuperati alla query.
- Pertinenza della risposta : quanto è pertinente la risposta generata alla domanda dell'utente.
- Richiamo contestuale e precisione contestuale : quanto completamente e precisamente vengono recuperate le informazioni rilevanti.
Questi parametri si combinano per produrre un punteggio RAG complessivo, che quantifica sia la qualità del recupero che quella della generazione. Oltre a RAG, RAGAS ora supporta parametri per flussi di lavoro agentici, utilizzo di strumenti, valutazione SQL e persino attività multimodali tramite estensioni come Multimodal Faithfulness e Noise Sensitivity .
RAGAS introduce anche nuove metriche nel tempo, disponibili nel repository GitHub RAGAS qui .
Ecco un'analisi della distribuzione dei punteggi effettuata da RAGAS:
Fonte: RAGAS 5
TruLens
TruLens è una libreria open-source progettata per l'analisi qualitativa degli output di LLM. Funziona iniettando funzioni di feedback che vengono eseguite dopo ogni chiamata del modello per valutare la risposta. È particolarmente adatta per l'analisi del ragionamento e la valutazione qualitativa, non solo per l'accuratezza.
Oltre ai test di accuratezza, TruLens supporta la valutazione etica e comportamentale:
Controlli approfonditi (LLM)
Deepchecks (LLM) è un framework di valutazione open-source originariamente creato per la validazione di modelli ML, ora esteso per modelli linguistici di grandi dimensioni (LLM) e applicazioni RAG. Offre moduli specificamente pensati per valutare pipeline di recupero basate su LLM.
Deepchecks (LLM) si distingue per la sua attenzione alle metriche di valutazione e alle pipeline di automazione:
- Agente in veste di giudice
- RAG valutazione
- LLM quadro di valutazione
- Pipeline CI/CD
Ecco un esempio di caso d'uso di domande e risposte in cui il modello risponde a una domanda medica sul dolore correlato alla GVHD.
Fonte: Deepchecks 6
Ispeziona l'IA
Inspect AI è un framework di valutazione open-source LLM sviluppato con particolare attenzione alle valutazioni di livello di ricerca. Supporta la valutazione sia a livello di modello che a livello di agente, consentendo agli utenti di valutare non solo gli output del modello in un singolo passaggio, ma anche il comportamento dell'agente in più fasi, le catene di ragionamento e l'esecuzione del compito nel tempo.
Il framework è semplice da configurare in ambienti isolati come container Docker o macchine virtuali, il che lo rende adatto a valutare in modo sicuro i flussi di lavoro basati su agenti senza esporre il sistema host. Inspect fornisce un modello chiaro di definizione ed esecuzione delle attività, consentendo agli utenti di definire rapidamente le attività di valutazione, controllare le dimensioni del campione (ad esempio, per gli standard statistici in stile CI) e integrare le valutazioni in pipeline automatizzate.
Inspect fornisce inoltre registri di valutazione dettagliati passo passo, inclusi latenza e utilizzo dei token per ogni passaggio, insieme a un report sulle azioni e le chiamate agli strumenti. Questo livello di granularità semplifica la diagnosi di dove e perché un modello o un agente si discosta dal comportamento previsto.
Un altro aspetto positivo di Inspect AI è che è progettato per la valutazione offline, privilegiando la correttezza, la trasparenza e la riproducibilità rispetto alle funzionalità di telemetria in tempo reale.
Test e ottimizzazione rapidi
Promptfoo
Promptfoo è un toolkit open-source per la progettazione, il test e la valutazione dei prompt. Consente di eseguire test A/B di prompt e output utilizzando semplici configurazioni YAML o da riga di comando e supporta valutazioni in cui LLM è il giudice.
Il toolkit è progettato per una sperimentazione leggera, non richiede configurazioni cloud né dipendenze da SDK ed è ampiamente utilizzato dagli sviluppatori per iterazioni rapide e test di robustezza automatizzati (come l'iniezione di prompt o i controlli di tossicità). Ideale per integrare la valutazione dei prompt nei flussi di lavoro di sviluppo quotidiani.
Ciclo umano
Humanloop è una piattaforma di valutazione e ottimizzazione dei prompt incentrata sul feedback umano. Consente ai team di raccogliere e analizzare i giudizi umani sugli output di LLM, contribuendo a migliorare la qualità dei prompt, l'allineamento del modello e l'affidabilità.
Opik (di Comet)
Opik è una piattaforma open-source di valutazione e monitoraggio LLM sviluppata da Comet. Fornisce strumenti per tracciare, valutare e monitorare le applicazioni LLM durante tutto il loro ciclo di vita di sviluppo e produzione.
Opik registra tracce complete e intervalli di flussi di lavoro di prompt, supporta metriche automatizzate (incluse quelle complesse come la correttezza fattuale tramite LLM-as-a-judge) e consente il confronto delle prestazioni tra versioni di prompt o modelli.
La sua peculiarità risiede nella combinazione di valutazione tempestiva con gestione e osservabilità degli esperimenti, colmando il divario tra test e monitoraggio della produzione.
Valutazione specifica del quadro di riferimento
LangChain Valutazioni
LangChain Evals è uno strumento di valutazione specifico per il framework per i flussi di lavoro LangChain. Fornisce una serie di modelli di valutazione e metriche integrati, pensati per valutare le prestazioni delle applicazioni LangChain, in particolare quelle che coinvolgono catene complesse di LLM.
LangSmith
LangSmith è una piattaforma di valutazione e osservabilità sviluppata dal team LangChain. Fornisce strumenti per la registrazione e l'analisi delle interazioni LLM, con funzionalità di valutazione specializzate per attività quali il rilevamento di distorsioni e i test di sicurezza.
Si tratta di un servizio gestito (ospitato) piuttosto che di uno strumento completamente open-source, che offre supporto a livello aziendale per applicazioni basate su LangChain.
Valutazione di LlamaIndex
LlamaIndex Eval è un toolkit di valutazione integrato nel framework LlamaIndex (precedentemente GPT Index), per la valutazione di pipeline RAG costruite su LlamaIndex. Include un valutatore di correttezza che confronta le risposte generate con le risposte di riferimento per una data query e può anche utilizzare GPT-5 come giudice per valutare la qualità della risposta in modo indipendente dal riferimento.
La sua funzionalità è simile a quella di RAGAS, ma è integrata nativamente nel flusso di lavoro di LlamaIndex, consentendo agli sviluppatori di valutare la qualità del recupero e della generazione senza introdurre dipendenze esterne.
LLM framework di osservabilità con capacità di valutazione
Arize Phoenix
Phoenix, sviluppato da Arize AI (un'azienda specializzata nell'osservabilità del machine learning), è un toolkit open-source per l'analisi e la risoluzione dei problemi relativi al comportamento di LLM negli ambienti di produzione. A differenza dei framework di valutazione tradizionali, Phoenix si concentra sull'osservabilità e sull'analisi esplorativa piuttosto che su metriche predefinite.
Phoenix può essere utilizzato per monitorare i sistemi RAG o LLM distribuiti, e quindi passare a framework come RAGAS o Giskard per una valutazione più approfondita a livello di metriche dei problemi identificati.
Langfuse
Langfuse si concentra principalmente sul monitoraggio dei sistemi LLM (Large Language Model) e RAG (Retrieval-Augmented Generation). Aiuta i team a tracciare e analizzare le prestazioni dei modelli in ambienti di produzione in tempo reale.
Sebbene possa valutare le prestazioni del modello attraverso diverse metriche, il suo punto di forza principale risiede nel fornire osservabilità su come si comportano le pipeline LLM e RAG durante il funzionamento. Ciò include il monitoraggio delle prestazioni attraverso gli output LLM, la qualità del recupero e la deriva del modello, garantendo che i modelli continuino a soddisfare gli standard di qualità mentre interagiscono con set di dati dinamici o cambiano nel tempo.
Langtrace AI
Langtrace AI è specializzata nella valutazione di applicazioni LLM acquisendo tracce dettagliate e metriche di performance. Offre strumenti per il monitoraggio di aspetti chiave come l'utilizzo dei token, la latenza, l'accuratezza e i costi, fornendo una visione completa del comportamento e delle prestazioni del modello.
Lunare
Lunary è specializzata nel fornire una profonda osservabilità delle interazioni LLM, consentendo agli sviluppatori di monitorare e valutare il comportamento del modello in ambienti di produzione in tempo reale.
LLM metriche di valutazione
Le metriche di valutazione LLM si sono evolute dai tradizionali punteggi statistici agli approcci basati su modelli e ora LLM-come-giudice, ecco una breve spiegazione per ciascuno:
- Valutatori statistici (basati su riferimento): metriche come accuratezza, precisione, richiamo, F1, BLEU e ROUGE misurano la sovrapposizione con una risposta di riferimento. Funzionano bene per compiti strutturati (ad esempio, classificazione, riassunto) ma hanno difficoltà con output aperti.
- Valutatori basati su modelli (senza riferimenti): metriche come Supert, BLANC, SummaC o QAFactEval valutano la qualità del testo, la veridicità o la coerenza logica senza riferimenti esatti.
- Valutatori basati su LLM (LLM-come-giudice): Le valutazioni utilizzano un altro modello (ad esempio, GPT-5 ) per valutare la qualità della risposta nel contesto.
Per maggiori informazioni, consultare: Valutazioni Agentic: Come valutiamo le candidature LLM?
Perché le valutazioni LLM sono difficili
Valutare i LLM è tutt'altro che semplice. Oltre al fatto che i criteri di qualità variano a seconda del caso d'uso, il processo di valutazione stesso è fondamentalmente diverso dai tradizionali test del software o dalla valutazione predittiva dell'apprendimento automatico.
Una difficoltà fondamentale è il non determinismo: LLMs generano output probabilistici, quindi lo stesso input può produrre risposte diverse ogni volta, rendendo più difficile misurare la coerenza e la riproducibilità.
Fonte immagine: AIworld 7
Sebbene la natura probabilistica di LLMs consenta risposte creative e diversificate , rende anche più difficile il test; è necessario determinare se una gamma di output soddisfa ancora le aspettative, piuttosto che verificare l'esistenza di un'unica risposta corretta.
Non esiste un'unica verità assoluta: i sistemi LLM spesso affrontano compiti aperti come la scrittura, la sintesi o la conversazione. In questi casi, possono esistere molte risposte valide. Valutare tali sistemi richiede la misurazione della somiglianza semantica, del tono, dello stile o dell'accuratezza fattuale, non solo la corrispondenza con il testo di riferimento.
Spazio di input diversificato: le applicazioni LLM si trovano ad affrontare una vasta gamma di input; ad esempio, un bot di assistenza clienti può gestire domande relative a resi, fatturazione o sicurezza dell'account. Una valutazione efficace richiede set di test basati su scenari che catturino questa diversità.
Anche i test offline ben progettati possono fallire in un ambiente di produzione reale, dove gli utenti introducono richieste impreviste e casi limite. Ciò evidenzia la necessità di una valutazione e di un'osservabilità continue in ambiente di produzione per garantire una qualità costante del modello nel tempo.
Rischi unici nella valutazione LLM
Lavorare con sistemi probabilistici che seguono istruzioni introduce rischi nuovi e complessi che la valutazione tradizionale dell'IA raramente prende in considerazione:
- Allucinazioni: il modello potrebbe generare informazioni false o fuorvianti, ad esempio inventando prodotti, citando fonti inesistenti o fornendo consigli medici o legali errati.
- Violazioni del sistema: gli utenti malintenzionati possono sfruttare i prompt per aggirare i vincoli di sicurezza , inducendo il modello a produrre contenuti dannosi, di parte o non consentiti.
- Perdite di dati: un LLM potrebbe rivelare involontariamente informazioni sensibili o proprietarie dai suoi dati di addestramento o dai sistemi connessi.
Per mitigare questi problemi, i team necessitano di flussi di lavoro di valutazione solidi che vadano oltre le metriche di accuratezza:
- Sottoporre i modelli a stress test con input avversari e casi limite per individuare le vulnerabilità.
- Eseguire test di red teaming e valutazioni di sicurezza per verificare la resistenza del modello a tentativi di accesso non autorizzati.
- Monitorare costantemente le interazioni in tempo reale per rilevare problemi emergenti come derive, fughe di dati sensibili o output non sicuri in produzione.
LLM metodi di valutazione
I metodi di valutazione LLM aiutano a misurare le prestazioni di un modello linguistico in compiti come il ragionamento, la sintesi e il dialogo. Le metriche statistiche (ad esempio, BLEU, ROUGE) si aggiungono agli approcci LLM-come-giudice, in cui un altro modello valuta la qualità, la sicurezza e l'accuratezza fattuale. Esistono anche metodi di valutazione basati su test agentici e comportamentali che monitorano il modo in cui i modelli agiscono nel tempo e utilizzano gli strumenti.
Per una panoramica più approfondita degli approcci principali e delle relative sfide, consulta il nostro articolo completo sui metodi di valutazione LLM .
Sii il primo a commentare
Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori.