Strumenti di valutazione RAG: pesi e pregiudizi vs Ragas vs DeepEval

con

aggiornato il Mar 23, 2026

Quando una pipeline RAG recupera il contesto sbagliato, l'LLM genera con sicurezza la risposta errata. I valutatori di rilevanza del contesto rappresentano la principale difesa.

Abbiamo confrontato le prestazioni di cinque strumenti su 1.460 domande e oltre 14.600 contesti valutati in condizioni identiche: stesso modello di giudice (GPT-4o), configurazioni predefinite e nessun prompt personalizzato. In condizioni standard, WandB, TruLens e Ragas si sono rivelati i migliori. Sotto pressione avversaria (negazioni difficili con scambio di entità), WandB ha ottenuto i risultati migliori.

Risultati del benchmark degli strumenti di valutazione RAG

Loading Chart

I primi tre (WandB, TruLens, Ragas) sono statisticamente a pari merito per quanto riguarda l'accuratezza Top-1 (intervallo di confidenza al 95% sovrapposto tra il 94,0% e il 98,0%).

Per comprendere nel dettaglio la nostra valutazione e i nostri parametri di riferimento, consultare la metodologia di benchmarking per gli strumenti di valutazione RAG.

Spiegazione delle metriche

Precisione Top-1 : Lo strumento è in grado di assegnare il punteggio di rilevanza più alto al contesto di riferimento? Questo parametro misura la sicurezza contro il recupero di dati da parte di malintenzionati, una modalità di errore comune negli ambienti di produzione.

NDCG@5 (guadagno cumulativo scontato normalizzato) : dati cinque contesti a diversi livelli di rilevanza (4, 3, 2, 1, 0), lo strumento li classifica nell'ordine corretto? A differenza dell'accuratezza binaria, l'NDCG premia gli strumenti che assegnano punteggi proporzionalmente più alti ai contesti più rilevanti.

Coefficiente di correlazione di Spearman (ρ) : quanto bene il punteggio di uno strumento si correla con l'ordine di rilevanza reale? Uno strumento perfetto produrrebbe un valore di ρ = 1,0.

MRR (rango reciproco medio) : media di 1/rango per il contesto di riferimento. Se uno strumento classifica il contesto di riferimento al primo posto, MRR = 1,0; al secondo, MRR = 0,5; al terzo, MRR = 0,33. Penalizza gli strumenti che relegano il contesto corretto al di sotto di quelli meno rilevanti.

Principali risultati

WandB eccelle nell'identificazione, TruLens nella classificazione : WandB ha la più alta accuratezza Top-1 (94,5%) ma i valori più bassi di NDCG@5 (0,910) e Spearman ρ (0,669). TruLens eccelle in NDCG@5 (0,932), Spearman ρ (0,750) e MRR (0,594). La differenza risiede nel sistema di punteggio: il punteggio binario di WandB è semplice ma approssimativo; la scala a 4 punti di TruLens ha una risoluzione maggiore ma è più soggetta a inversioni.
TruLens vanta il più alto tasso di discriminazione : nel distinguere un contesto corretto da una versione quasi identica con entità invertite, TruLens indovina la direzione nel 35,5% dei casi con solo l'8,4% di inversioni (rapporto 4,2:1). Nessun altro strumento raggiunge questo risultato.
Nessuno strumento distingue i contesti fattualmente errati da quelli fattualmente corretti : tutti e cinque gli strumenti attribuiscono punteggi più alti alle negazioni categoriche rispetto ai contesti parziali, invertendo il corretto ordine di rilevanza. Un brano con le entità corrette ma la risposta sbagliata ottiene costantemente un punteggio superiore rispetto a un brano con l'argomento corretto ma senza risposta. Ciò è coerente con l'ipotesi che la rilevanza del contesto misuri la coerenza tematica, non l'accuratezza fattuale.
DeepEval sottovaluta i contesti ottimali : la decomposizione delle dichiarazioni di DeepEval produce classifiche competitive (NDCG@5 = 0,923) ma assegna ai contesti ottimali un punteggio medio di 0,46 rispetto a 0,82-0,91 per altri strumenti. Questo lo rende inaffidabile per identificare il singolo contesto migliore.
La scala ternaria di UpTrain limita la capacità discriminatoria : tre valori di output (0, 0,5, 1,0) non possono rappresentare cinque livelli di rilevanza. UpTrain mostra il peggior rapporto di discriminazione (1,4:1) e la più bassa accuratezza di classificazione (27,6% di ordinamento perfetto).

Discriminazione: negativo dorato vs. negativo duro

Con quale frequenza lo strumento assegna un punteggio più alto al contesto aureo rispetto al negativo rigido con scambio di entità?

Vittoria = punteggio golden nettamente superiore. Pareggio = punteggio uguale. Sconfitta = punteggio nettamente superiore.

WandB ha il minor numero di sconfitte (4,8%) ma anche il minor numero di vittorie (15,5%): il suo punteggio binario produce pareggi nell'80% dei casi. Quando differenzia, indovina quasi sempre la direzione. L'accuratezza Top-1 rigorosa di WandB (il valore massimo unico è quello aureo) è solo dell'8,3%, rispetto al 25,3% di TruLens; il suo argmax Top-1 è elevato perché il contesto aureo si trova all'indice 0 e beneficia della risoluzione dei pareggi.

Qualità della classificazione

Acc. a coppie = % di tutte le 10 coppie di contesto per campione classificate correttamente. Acc. Top-2 = il contesto con il punteggio più alto è quello ideale o parziale. Acc. a 5 vie = classificazione monotona perfetta su tutti e 5 i livelli.

WandB è in testa su tutte e tre le metriche perché il suo punteggio binario crea una naturale suddivisione a due livelli (rilevante vs. irrilevante) che elimina gli errori di ordinamento all'interno di ciascun livello. Nota: l'accuratezza a coppie considera i pareggi come corretti (s[i] >= s[j]), il che avvantaggia gli strumenti binari. NDCG@5 e Spearman ρ (mostrato nel grafico sopra) penalizzano i pareggi e classificano TruLens al primo posto.

Punteggi medi per livello di rilevanza

Nessuno strumento ordina correttamente Parziale > Negativo duro.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Segui

Come ogni strumento valuta la rilevanza del contesto

Tutti e cinque gli strumenti utilizzano GPT-4o come giudice di base, ma impiegano strategie di valutazione diverse.

WandB Weave: prompt LLM binario

WandB invia un singolo prompt al modello LLM chiedendogli di valutare la rilevanza "su una scala da 0 a 1". Tuttavia, il suo schema di risposta interno definisce il punteggio come un numero intero , quindi il modello può restituire solo 0 o 1 .

Una chiamata LLM, una decisione binaria. WandB risponde in modo chiaro alla domanda "è questo il contesto giusto?" (massima accuratezza Top-1), ma non può esprimere gradi di rilevanza: un contesto parziale e una risposta negativa categorica ottengono entrambi lo stesso punteggio.

Valori di output: 0, 1

TruLens: scala Likert a 4 punti

TruLens propone l'LLM come "valutatore di PERTINENZA" con criteri espliciti per una scala da 0 a 3 :

0: Irrilevante per la query
1: Pertinente ad alcune delle domande
2: Pertinente alla maggior parte della query
3: Pertinente all'intera query

Il punteggio grezzo viene normalizzato tra 0,0 e 1,0 dividendo per 3. Questo fornisce a TruLens quattro livelli di output distinti, offrendo una granularità sufficiente a distinguere i contesti parziali dalle negazioni categoriche, pur mantenendo la richiesta semplice.

Valori di output: 0,0, 0,33, 0,67, 1,0

Ragas: media a due giudici

Ragas sottopone ogni valutazione a due questionari indipendenti , ciascuno con una formulazione diversa degli stessi criteri (0 = irrilevante, 1 = parzialmente rilevante, 2 = pienamente rilevante). Il punteggio finale è la media dei due giudici, normalizzata in un intervallo compreso tra 0,0 e 1,0.

Grazie alla media di due scale a 3 punti, Ragas produce cinque possibili valori , un numero di valori di output superiore a quello di qualsiasi altro strumento testato. Il design a doppio giudice offre inoltre una resistenza intrinseca alla sensibilità immediata.

Valori di output: 0,0, 0,25, 0,5, 0,75, 1,0

UpTrain: Classificazione ternaria (A/B/C)

UpTrain inquadra la rilevanza come una classificazione a scelta multipla :

A (1.0): Il contesto può rispondere completamente alla domanda
B (0,5): Il contesto può fornire alcune risposte rilevanti ma non può rispondere completamente
C (0.0): Il contesto non contiene informazioni per rispondere alla query

Il modello ternario può distinguere ciò che è "parzialmente rilevante" da ciò che è "irrilevante", ma non può separare ciò che è "ingannevole" da ciò che è "tangenzialmente correlato"; entrambi possono rientrare nella stessa categoria.

Valori di output: 0,0, 0,5, 1,0

DeepEval: Decomposizione delle affermazioni (G-Eval)

Anziché richiedere un singolo punteggio di pertinenza, DeepEval scompone il contesto in singole affermazioni , quindi chiede al modello LLM di valutare ciascuna affermazione come "sì" (pertinente) o "no" (irrilevante) rispetto alla query. Il punteggio finale è il rapporto tra le affermazioni pertinenti e il numero totale di affermazioni.

Il risultato è un punteggio continuo (ad esempio, 7 su 10 affermazioni pertinenti = 0,70). Tuttavia, l'approccio è rigoroso: anche un contesto altamente pertinente viene penalizzato se contiene frasi fuori tema. I contesti ottimali a volte includono dettagli contestuali che la scomposizione contrassegna come "irrilevanti", abbassando il punteggio al di sotto di quello di un hard negative più breve e mirato. Questo spiega l'accuratezza Top-1 del 78,1% di DeepEval.

Valori di output: Continui (0,0–1,0)

Metodologia di riferimento per gli strumenti di valutazione RAG

Progettazione di dataset avversari

Ogni query ha cinque contesti a un livello di rilevanza distinto :

Set di dati

Uniamo due fonti:

HaluEval (480 campioni): Domande di cultura generale che spaziano da musica, cinema, sport, storia, geografia e altro ancora. Negazioni rigide, contesti parziali e negazioni morbide vengono generate da Claude.

HotPotQA (530 esempi): Domande di ragionamento multi-passaggio che richiedono la sintesi di informazioni provenienti da più documenti.

Totale: 1.010 campioni , ciascuno con 5 contesti = 5.050 valutazioni di contesto per strumento . Tutti i campioni hanno superato il filtraggio automatico delle fughe di informazioni (489 campioni rimossi durante la generazione a causa di fughe di risposte).

Protocollo cross-model

Per eliminare il bias di auto-preferenza (in cui un valutatore LLM preferisce il testo generato da se stesso), abbiamo utilizzato Claude Sonnet 4.5 per la generazione del contesto avversariale e GPT-4o come giudice per tutti gli strumenti. Entrambi sono stati chiamati tramite OpenRouter con temperatura=0.

Le trappole avversarie

La trappola multi-hop (Confusione di relazione)

Spesso le domande richiedono di tracciare una catena di relazioni (ad esempio, A è imparentato con B, che è imparentato con C). Le risposte negative rigide semplificano la domanda, interrompendo la catena.

Domanda ID 89 : "Chi pubblica la serie di videogiochi di cui Retro City Rampage è una parodia?" Risposta corretta : Rockstar Games

La trappola del distrattore di entità

Spesso i sistemi di recupero dati individuano la posizione o il soggetto corretti, ma restituiscono metadati relativi all'evento o all'attributo sbagliato.

Domanda ID 90 : "...Il Bridge Inn è la sede di quale concorso annuale di bugie, che si tiene in Cumbria, Inghilterra?" Risposta corretta : World's Biggest Liar

La trappola della rilevanza parziale

Un contesto con l'argomento e le entità giuste, ma nessuna risposta.

Domanda ID 9 : "Chi ha scritto il testo di Portofino con un collaboratore in 'Fiddler on the Roof'?" Risposta corretta : Richard Ney

TruLens e DeepEval assegnano correttamente un punteggio più alto ai contesti parziali rispetto alle negazioni esatte in questi specifici campioni, sebbene questo schema non si mantenga sull'intero set di dati.

Quale strumento dovresti usare?

Conclusione

La granularità del punteggio è il principale compromesso. Gli strumenti binari (WandB) vincono nell'identificazione perché ogni parità viene automaticamente considerata a loro favore; gli strumenti multipunto (TruLens, Ragas) vincono nella classificazione perché possono esprimere diversi gradi di rilevanza.

La rilevanza del contesto funziona come un primo filtro: tutti gli strumenti separano i contesti rilevanti da quelli irrilevanti in oltre il 91% dei casi (accuratezza a coppie). Tuttavia, nessuno di essi verifica l'accuratezza fattuale. Un brano con le entità corrette ma la risposta errata ottiene un punteggio elevato in tutti gli strumenti testati. Per la correttezza fattuale, è necessario abbinare le metriche di fedeltà alla risposta.

Limitazioni

Modello a giudice singolo : tutte le valutazioni utilizzano GPT-4o come giudice. I risultati potrebbero differire con altri modelli.
Rilevanza contestuale soltanto : questo benchmark valuta solo il punteggio di rilevanza contestuale, non la fedeltà della risposta o altre metriche RAG.
Configurazioni predefinite : gli strumenti sono stati valutati nella configurazione predefinita. Le prestazioni possono migliorare con una personalizzazione dei prompt.
Esecuzione singola con convenzione di spareggio : il benchmark è stato eseguito una sola volta con temperatura=0. L'accuratezza Top-1 utilizza argmax (il primo indice vince in caso di parità), il che avvantaggia gli strumenti con alti tassi di parità (WandB: 86%). Riportiamo l'accuratezza Top-1 rigorosa insieme ad argmax ove pertinente.
Set di dati solo avversariale : tutti i negativi difficili utilizzano lo scambio di entità. I risultati riflettono le prestazioni in condizioni avversariali; gli strumenti potrebbero avere prestazioni diverse in contesti recuperati naturalmente.

Per approfondire

Esplora altri parametri di riferimento RAG, come ad esempio:

Cem Dilmegani

Analista principale

Segui

Cem è analista principale presso AIMultiple dal 2017. AIMultiple fornisce informazioni a centinaia di migliaia di aziende (secondo SimilarWeb), tra cui il 55% delle aziende Fortune 500, ogni mese. Il lavoro di Cem è stato citato da importanti pubblicazioni globali come Business Insider, Forbes, Washington Post, società globali come Deloitte e HPE, ONG come il World Economic Forum e organizzazioni sovranazionali come la Commissione Europea. È possibile consultare l'elenco di altre aziende e risorse autorevoli che hanno citato AIMultiple. Nel corso della sua carriera, Cem ha lavorato come consulente tecnologico, responsabile acquisti tecnologici e imprenditore nel settore tecnologico. Ha fornito consulenza alle aziende sulle loro decisioni tecnologiche presso McKinsey & Company e Altman Solon per oltre un decennio. Ha anche pubblicato un report di McKinsey sulla digitalizzazione. Ha guidato la strategia tecnologica e gli acquisti di un'azienda di telecomunicazioni, riportando direttamente al CEO. Ha inoltre guidato la crescita commerciale dell'azienda deep tech Hypatos, che ha raggiunto un fatturato annuo ricorrente a 7 cifre e una valutazione a 9 cifre partendo da zero in soli 2 anni. Il lavoro di Cem in Hypatos è stato oggetto di articoli su importanti pubblicazioni tecnologiche come TechCrunch e Business Insider. Cem partecipa regolarmente come relatore a conferenze internazionali di settore. Si è laureato in ingegneria informatica presso l'Università di Bogazici e ha conseguito un MBA presso la Columbia Business School.

Visualizza il profilo completo

Ricercato da

Ekrem Sarı

Ricercatore di intelligenza artificiale

Segui

Ekrem è un ricercatore di intelligenza artificiale presso AIMultiple, specializzato in automazione intelligente, GPU, agenti di intelligenza artificiale e framework RAG.

Visualizza il profilo completo