Strumenti di intelligenza artificiale per il rilevamento delle allucinazioni: W&B Weave e Comet
Abbiamo confrontato le prestazioni di tre strumenti per il rilevamento delle allucinazioni: Weights & Biases (W&B) Weave HallucinationFree Scorer, Arize Phoenix HallucinationEvaluator e Comet Opik Hallucination Metric, su 100 casi di test.
Ciascuno strumento è stato valutato in termini di accuratezza, precisione, richiamo e latenza, al fine di fornire un confronto equo delle loro prestazioni nel mondo reale.
Strumenti di riferimento per il rilevamento delle allucinazioni tramite intelligenza artificiale
Abbiamo testato 100 risposte (50 corrette, 50 frutto di allucinazioni) tratte da scenari di domande e risposte fattuali, confrontandole con il loro contesto di origine.
Confronto tra accuratezza e latenza
W&B Weave e Arize Phoenix hanno raggiunto un'accuratezza pressoché identica, rispettivamente del 91% e del 90%, identificando correttamente 90 casi di test su 100. Entrambi gli strumenti hanno dimostrato prestazioni affidabili sull'intero set di dati. Comet Opik si è attestato al 72% di accuratezza, classificando correttamente solo 72 test su 100, un divario significativo dovuto al suo approccio conservativo.
In termini di velocità, Arize Phoenix si è aggiudicato il primo posto con 2 secondi per test, risultando quindi adatto alle applicazioni in tempo reale. W&B Weave ha elaborato i test in 4 secondi, un tempo ragionevole per la maggior parte dei casi d'uso in produzione. Comet Opik è risultato notevolmente più lento, con 8,5 secondi per test, il che suggerisce tempi di elaborazione incoerenti che potrebbero influire sull'esperienza utente nelle applicazioni sensibili alla latenza.
Punteggio F1, precisione e richiamo
I punteggi F1 (media armonica di precisione e richiamo) hanno confermato questi andamenti: W&B Weave con il 90,5% e Phoenix con l'89,4% hanno entrambi ottenuto prestazioni solide ed equilibrate. In confronto, il 61,1% di Opik rifletteva il compromesso tra precisione perfetta e richiamo debole. L'assenza di falsi positivi di Opik è stata ottenuta a costo di 28 falsi negativi, rendendolo adatto solo a scenari in cui i falsi allarmi sono più costosi delle mancate rilevazioni.
La capacità di individuare le allucinazioni reali ha rivelato strategie distinte. W&B Weave si è classificato al primo posto con l'86% di capacità di individuare le allucinazioni, rilevandone 43 su 50 e mancandone solo 7. Phoenix lo ha seguito a ruota con l'84%, rilevando 42 allucinazioni e mancandone 8. La capacità di individuare le allucinazioni reali di Comet Opik è risultata sostanzialmente inferiore, pari al 44%, individuandone solo 22 e mancandone 28; più della metà delle allucinazioni reali non è stata rilevata.
La precisione (affidabilità degli avvisi) ha mostrato una variazione significativa. Comet Opik ha raggiunto una precisione perfetta del 100% con zero falsi positivi: quando segnalava qualcosa come allucinazione, era sempre corretto. Sia Phoenix (95,5%) che Weave (95,6%) hanno mostrato una precisione quasi identica, producendo ciascuno solo 2 falsi positivi su 50 risposte legittime, dimostrando un'elevata affidabilità senza essere eccessivamente conservativi.
Fattori che potrebbero influenzare le differenze di prestazione
Le differenze di prestazioni osservate sono probabilmente determinate dalla filosofia di progettazione, dalla selezione della soglia e dall'interpretazione della messa a terra.
Differenze nella strategia di rilevamento e negli obiettivi di ottimizzazione
- Gli strumenti sembrano essere ottimizzati per diversi compromessi in termini di errori, piuttosto che per lo stesso obiettivo.
- W&B Weave e Arize Phoenix puntano a prestazioni equilibrate, mantenendo un'elevata precisione e al contempo catturando la maggior parte delle allucinazioni.
- Comet Opik adotta una strategia estremamente prudente, dando priorità all'assenza di falsi positivi, anche a costo di non rilevare numerose allucinazioni.
- Questa scelta strategica spiega direttamente la precisione impeccabile di Opik e il suo richiamo notevolmente inferiore.
Compromessi tra precisione e richiamo intrinseci alla progettazione degli strumenti
- L'assenza di falsi positivi di Comet Opik indica una soglia decisionale rigorosa, che segnala le allucinazioni solo quando il livello di confidenza è molto elevato.
- W&B Weave e Phoenix utilizzano soglie meno restrittive, consentendo alcuni falsi positivi in cambio di una sensibilità molto più elevata.
- Queste differenze di soglia possono portare a:
- Precisione simile tra Weave e Phoenix.
- Ampie discrepanze nel richiamo dei dati tra Opik e gli altri due strumenti
- Differenze corrispondenti nel punteggio F1 e nell'accuratezza complessiva
Variazioni nell'implementazione del modello LLM come giudice
- Sebbene tutti e tre gli strumenti utilizzino un approccio in cui il modello LLM funge da giudice, le loro implementazioni differiscono.
- W&B Weave pone l'accento sul ragionamento logico, che può migliorare la sensibilità alle affermazioni sottili e prive di fondamento.
- Arize Phoenix integra output basati su etichette con punteggi di affidabilità, supportando giudizi più sfumati.
- Comet Opik si concentra su decisioni binarie ad alta affidabilità, il che riduce i falsi allarmi ma limita la sensibilità alle allucinazioni borderline.
Differenze di latenza determinate dalla profondità di valutazione
- La latenza ridotta di Arize Phoenix suggerisce una pipeline di valutazione più leggera e snella, adatta all'utilizzo in tempo reale.
- La latenza moderata di W&B Weave è compatibile con un ragionamento più ricco e una registrazione delle tracce più accurata.
- La latenza più elevata e meno costante di Comet Opik riflette probabilmente processi di ragionamento o verifica interni più complessi, a conferma della sua progettazione conservativa.
Strumenti di intelligenza artificiale per il rilevamento delle allucinazioni
W&B Weave's HallucinationFree Scorer
Figura 1: Dashboard delle tracce di W&B Weave.
Lo strumento HallucinationFree Scorer di Weights & Biases (W&B) Weave è uno strumento di valutazione integrato che verifica se gli output di LLM contengono allucinazioni confrontandoli con il contesto fornito. Lo strumento utilizza un approccio in cui LLM funge da giudice per determinare se la risposta generata rimane ancorata al materiale di partenza.
Il sistema di valutazione riceve due input: il contesto (materiale di origine) e l'output (risposta generata dal modello linguistico). Utilizza quindi un modello linguistico per analizzare se l'output introduce informazioni non presenti nel contesto. Il risultato include un flag booleano "presenza di allucinazione" e una motivazione che spiega la decisione.
Caratteristiche principali:
- Ragionamento a catena di pensiero : ogni valutazione include una spiegazione del motivo per cui l'output è stato contrassegnato come allucinazione o meno.
- Classificazione binaria : restituisce decisioni chiare vero/falso con prove a supporto.
- Integrazione con il sistema di tracciamento Weave : i risultati vengono registrati automaticamente nella dashboard di Weave per la visualizzazione.
- Modello personalizzabile : supporta diversi giudici LLM, tra cui OpenAI, Anthropic e altri fornitori.
Valutatore delle allucinazioni di Arize Phoenix
HallucinationEvaluator di Arize Phoenix è una metrica integrata che rileva le allucinazioni negli output di LLM verificando se le risposte sono basate sul materiale di riferimento fornito. Il valutatore utilizza un approccio in cui LLM funge da giudice per valutare la coerenza fattuale tra il contesto e il contenuto generato.
Il sistema di valutazione riceve tre input: la query dell'utente (input), il testo di riferimento (contesto) e la risposta del modello (output). Analizza se la risposta contiene informazioni che non possono essere desunte dal contesto, restituendo un risultato etichettato ("fattuale" o "allucinatorio") insieme a una spiegazione e a un punteggio di affidabilità.
Caratteristiche principali:
- Prestazioni bilanciate : fornisce risultati sia in termini di precisione che di richiamo.
- Output basato su etichette : restituisce etichette categoriali ("fattuale" o "allucinatorio") anziché solo punteggi numerici.
- Spiegazioni dettagliate : Fornisce le motivazioni per ogni decisione di valutazione
La metrica delle allucinazioni della cometa Opik
La metrica delle allucinazioni di Comet Opik è un valutatore integrato che valuta se gli output di LLM contengono informazioni inventate o non supportate. La metrica utilizza una metodologia in cui LLM funge da giudice per verificare che le risposte generate rimangano fedeli al contesto fornito.
La metrica accetta tre input: la query dell'utente (input), il materiale di origine (contesto) e la risposta del modello (output). Valuta se l'output introduce affermazioni non supportate dal contesto.
Il risultato include un punteggio binario (0 per nessuna allucinazione, 1 per allucinazione rilevata) e una motivazione dettagliata che spiega la valutazione.
Caratteristiche principali:
- Spiegazioni dettagliate : ogni valutazione fornisce una motivazione completa sul perché il contenuto è stato segnalato o approvato.
- Analisi a tre input : considera la query, il contesto e la risposta insieme per la valutazione
- Tracciamento degli esperimenti : i risultati vengono registrati automaticamente nel sistema di tracciamento degli esperimenti di Opik.
- Approccio conservativo : progettato per ridurre al minimo i falsi positivi segnalando solo le allucinazioni ad alta probabilità.
Che cos'è l'allucinazione da intelligenza artificiale?
Le allucinazioni sono casi in cui i sistemi di intelligenza artificiale generano contenuti che appaiono coerenti ma non corrispondono alla realtà. Nell'ambito della ricerca sui modelli linguistici su larga scala, le allucinazioni rappresentano una sfida fondamentale, poiché l'IA generativa spesso risponde con sicurezza anche quando i dati di addestramento sottostanti non supportano l'affermazione. Un'indagine sulle allucinazioni nell'IA rileva che queste si verificano quando i modelli si basano su conoscenze linguistiche pregresse anziché su dati di riferimento verificabili derivanti dal contesto fornito. 1
Fonti del settore evidenziano come le "allucinazioni" legate all'IA si manifestino in diversi ambiti, come le applicazioni sanitarie , i servizi legali , la ricerca aziendale e l'assistenza clienti . In tali contesti, le allucinazioni minano la fiducia degli utenti, soprattutto quando decisioni cruciali dipendono da risultati IA corretti.
Il riconoscimento e l'individuazione delle allucinazioni sono quindi diventati elementi centrali nello sviluppo dell'IA moderna, sia per proteggere gli utenti finali sia per garantire la sicurezza dell'implementazione di applicazioni di IA che si basano su modelli di vita quotidiana (LLM).
Fonti e tassonomia delle allucinazioni
Le allucinazioni possono derivare da comportamenti interni al modello, come l'eccessivo affidamento su schemi statistici, lacune nei dati di addestramento e la natura probabilistica della generazione di sequenze.
Secondo un articolo sul rilevamento e la mitigazione delle allucinazioni, i modelli mentali di vita quotidiana (LLM) possono produrre inesattezze fattuali anche quando appaiono sicuri, perché le probabili continuazioni vengono inferite anziché basate su prove verificabili. 2
Altre allucinazioni derivano da fallimenti contestuali, tra cui fallimenti di recupero nei sistemi di generazione aumentata dal recupero (RAG ), suggerimenti ambigui o radicamento incompleto. Si ipotizza inoltre che i modelli multimodali presentino allucinazioni a causa di confusioni di oggetti, incongruenze temporali o dettagli di scena inventati.
Rilevamento delle allucinazioni nei flussi di lavoro agentici
I flussi di lavoro degli agenti a più fasi introducono rischi di allucinazione unici, diversi dalle interazioni LLM a turno singolo. Quando un agente opera autonomamente attraverso più fasi, un'allucinazione in una fase iniziale può propagarsi attraverso le decisioni successive, le chiamate agli strumenti e gli output.
Principali sfide nel rilevamento delle allucinazioni agentive:
- Propagazione dell'errore: un dato inventato nella fase di pianificazione può influenzare la selezione degli strumenti, il recupero dei dati e le risposte finali.
- Allucinazioni da chiamata di strumenti: gli agenti possono richiamare strumenti con parametri errati o interpretare erroneamente gli output degli strumenti
- Corruzione statale: le informazioni allucinatorie immagazzinate nella memoria dell'agente influenzano i successivi passaggi di ragionamento.
- Complessità dell'attribuzione: identificare quale passaggio ha introdotto l'allucinazione richiede una tracciabilità completa.
Metodi di rilevamento per sistemi agenti:
- Verifica a livello di passaggio: convalida di ogni output intermedio prima che l'agente proceda all'azione successiva.
- Validazione dell'output dello strumento: verifica incrociata delle risposte dello strumento rispetto ai formati previsti e ai vincoli noti.
- Analisi della traiettoria: Esaminare l'intera sequenza di decisioni dell'agente per identificare i punti in cui il ragionamento si è discostato dalle informazioni concrete.
- Verifiche di coerenza tra le diverse fasi: confronto delle affermazioni fatte in fasi diverse per individuare contraddizioni
HallucinationFree Scorer di W&B Weave e HallucinationEvaluator di Arize Phoenix possono essere applicati a ogni fase dell'agente, mentre le loro dashboard integrate mostrano la traccia completa dell'esecuzione per l'analisi delle cause principali.
Prevenzione delle allucinazioni in tempo reale
Rilevare le allucinazioni dopo la loro generazione fornisce informazioni preziose, ma non impedisce che i risultati problematici raggiungano gli utenti. I sistemi di prevenzione in tempo reale intervengono prima che la risposta venga erogata.
Meccanismi di prevenzione:
- Misure di controllo dell'output: filtri che analizzano il contenuto generato in base a criteri di veridicità prima di restituirlo all'utente.
- Soglie di confidenza: Block segnalare o contrassegnare le risposte quando la confidenza interna del modello scende al di sotto dei livelli accettabili.
- Fasi di convalida del recupero: verifica che le affermazioni generate siano supportate dai documenti recuperati prima di finalizzare la risposta.
- Strategie di ripiego: restituire una risposta predefinita sicura o inoltrare la richiesta alle code di revisione quando il rischio di allucinazioni è elevato.
Funzionalità degli strumenti per la prevenzione in tempo reale:
- W&B Weave integra la valutazione delle allucinazioni nei flussi di lavoro di produzione, consentendo controlli automatizzati prima che vengano fornite le risposte.
- Arize Phoenix offre un monitoraggio in tempo reale con funzionalità di allerta che segnalano gli output ad alto rischio per una revisione immediata.
- Comet Opik offre il monitoraggio degli esperimenti con valutazione automatizzata, consentendo ai team di impostare dei parametri di qualità che bloccano le risposte che superano le soglie di allucinazione.
Approcci al rilevamento delle allucinazioni
Esistono sei approcci principali utilizzati per individuare le allucinazioni:
1. Metodi basati sulla coerenza
I metodi basati sulla coerenza valutano una risposta confrontandola con diverse generazioni alternative.
Un approccio campiona più risposte e le confronta utilizzando misure di similarità semantica, sovrapposizione di n-grammi o verifica domanda-risposta.
Quando le risposte si contraddicono a vicenda o contengono incongruenze logiche, aumenta la probabilità di allucinazioni.
Un'altra tecnica utilizza l'entropia semantica, che raggruppa le risposte in base al significato piuttosto che alla formulazione. Questo metodo stima l'incertezza a livello concettuale. Un'entropia elevata indica una conoscenza instabile, rendendo questo uno degli strumenti di intelligenza artificiale più efficaci per il rilevamento delle allucinazioni e l'identificazione delle confabulazioni.
Le raccomandazioni del settore seguono schemi simili:
- Genera diverse risposte interne e segnala le incongruenze.
- Avvisa i revisori umani quando il livello di affidabilità varia in base a diverse metriche.
- Utilizza gli avvisi in tempo reale quando la variabilità delle risposte indica incertezza.
I sistemi basati sulla coerenza sono particolarmente preziosi quando le organizzazioni devono individuare tempestivamente le anomalie nelle applicazioni rivolte agli utenti.
2. Rilevamento basato su probabilità e confidenza
Molti sistemi analizzano le convinzioni interne del modello riguardo al proprio output. Vengono comunemente utilizzate probabilità a livello di token, valori di entropia, curve di calibrazione e stime di confidenza basate sul margine. I segmenti a bassa confidenza spesso correlano con tassi di allucinazione più elevati.
Sebbene l'entropia grezza possa essere fuorviante a causa della variabilità della formulazione, i segnali di confidenza rimangono utili, soprattutto se combinati con indicatori basati sulla coerenza. Questi valori supportano anche il rilevamento delle allucinazioni in tempo reale, dove le risposte dell'IA vengono monitorate continuamente.
Molti strumenti espongono questi punteggi tramite plugin che:
- Segnala risposte incerte generate dall'IA
- Dare priorità alla revisione degli esperti
- Supporto per il monitoraggio in tempo reale della deriva di confidenza nella produzione
3. Rilevamento basato su riferimenti o contesto
La valutazione basata su riferimenti confronta l'output del modello con il contesto fornito o con fonti esterne, il che è essenziale per i sistemi RAG . Le tecniche tipiche includono:
- Modelli di implicazione che verificano se i documenti recuperati supportano la risposta.
- Metodi di allineamento e di verifica che convalidano le prove a supporto.
- Indicatori di veridicità che misurano se le affermazioni corrispondono al testo di supporto.
Nota: la generazione aumentata tramite recupero deve verificare la fondatezza delle affermazioni. Problemi come la mancanza di prove, un recupero inadeguato al di fuori del dominio di riferimento e fonti obsolete o errate sono spesso le cause principali di risposte non supportate. Questi metodi supportano direttamente l'accuratezza fattuale garantendo che le affermazioni siano collegate a dati verificabili.
4. Verifica potenziata dal recupero
La verifica potenziata dal recupero enfatizza il controllo dinamico. Ogni affermazione generata viene valutata rispetto a un indice di ricerca, un archivio vettoriale o una base di conoscenza strutturata come un grafo della conoscenza. Se un'affermazione non è supportata da prove, il sistema può:
- Rifiutalo
- Rivedilo
- Rigeneralo con un radicamento esplicito
I sistemi più avanzati estendono questa funzionalità al tracciamento a livello di flusso di lavoro, identificando la fase esatta in cui compare per la prima volta un'affermazione infondata. Ciò consente alle organizzazioni di monitorare i tassi di allucinazione, identificare i modelli di allucinazione e mantenere la trasparenza lungo i flussi di ragionamento a più fasi.
5. Metodi basati su regole e vincolati al dominio
I metodi basati su regole impongono vincoli specifici del dominio e includono:
- Validatori di citazioni legali
- protezioni della terminologia medica
- Controlli basati su modelli per numeri o date inventati
Tali vincoli riducono le allucinazioni nei settori regolamentati e migliorano l'affidabilità per casi d'uso specializzati. Si raccomanda di affiancare a questi segnali basati su regole il giudizio umano, soprattutto nelle decisioni ad alto rischio in cui non è tollerabile la presenza di informazioni errate.
6. Rilevamento multimodale delle allucinazioni
Le allucinazioni si osservano anche al di là del testo. Alcuni esempi includono:
- Allucinazioni oggettuali nelle didascalie delle immagini.
- Descrizioni degli eventi errate nel video.
- Attributi falsi nelle annotazioni audio.
Il rilevamento multimodale spesso utilizza verifiche di coerenza intermodale, ancoraggio visivo e set di dati come POPE, MHalDetect e FactVC. Questi metodi stanno diventando sempre più rilevanti man mano che le organizzazioni sperimentanoagenti di intelligenza artificiale multimodali.
Tecniche e algoritmi di intelligenza artificiale per il rilevamento delle allucinazioni
Rilevamento a livello di token
I metodi a livello di token individuano i luoghi esatti in cui si manifestano le allucinazioni. Alcuni esempi includono:
- Set di dati che etichettano i token allucinatori utilizzando annotazioni umane e perturbazioni contestuali, consentendo ai modelli di classificazione di contrassegnare intervalli errati.
- Confronti basati sulla probabilità che analizzano la divergenza tra le probabilità a priori e a posteriori dei token, dato il contesto fornito.
- Metodi di etichettatura delle sequenze che segnalano intervalli sospetti.
Queste tecniche consentono un'ispezione dettagliata degli output dell'IA, il che è utile per le applicazioni che prevedono la creazione di contenuti di lunga durata.
Rilevamento a livello di frase
I metodi a livello di frase valutano la veridicità di intere affermazioni. Alcuni esempi includono:
- Verifiche di coerenza interna basate sul campionamento, in cui le frasi vengono confrontate tra più generazioni per rilevare instabilità.
- L'entropia semantica viene utilizzata per identificare l'incertezza concettuale senza richiedere dati etichettati.
- Classificatori basati sull'implicazione logica che rilevano affermazioni non supportate o contraddittorie.
Questi approcci sono comuni negli strumenti di rilevamento delle allucinazioni che determinano se una risposta generata debba essere accettata, rivista o ricontrollata.
Rilevamento a livello di flusso di lavoro
Il rilevamento a livello di flusso di lavoro monitora le pipeline a più fasi in cui le allucinazioni possono emergere gradualmente. I meccanismi comuni includono:
- Grafici di provenienza
- Verifiche di implicazione a livello di passaggio
- Validazione del ragionamento intermedio
- Tracciamento delle dipendenze per attività multi-hop
Questi sistemi aiutano le organizzazioni a mantenere un monitoraggio continuo, garantire un miglioramento continuo e implementare il rilevamento in tempo reale lungo complesse catene di ragionamento.
Rilevamento delle allucinazioni per la generazione aumentata del recupero
La generazione aumentata tramite recupero combina il ragionamento LLM con documenti esterni. Molte allucinazioni hanno origine in questo contesto perché il modello può inventare informazioni quando il recupero è debole o ambiguo.
Sfide alla generazione aumentata
- Documenti recuperati mancanti o irrilevanti
- Eccessivo affidamento sulle informazioni a priori del modello interno
- Errata interpretazione del contesto
- Fonti obsolete o di bassa qualità
Questi problemi vengono spesso identificati come le cause principali di risposte prive di fondamento.
Metodi utilizzati nel rilevamento delle allucinazioni RAG
Il rilevamento efficace negli ambienti RAG si avvale di diversi meccanismi:
- Modelli di inferenza contesto-risposta che verificano le connessioni logiche tra il testo recuperato e le risposte generate.
- Verifiche di classificazione e similarità per garantire che le risposte dipendano da prove pertinenti.
- Cicli di verifica iterativi che affinano le risposte quando le prove sono insufficienti.
- Tecniche di ancoraggio che associano ogni affermazione a un passaggio o a un nodo del grafo della conoscenza.
I team spesso si affidano al monitoraggio in tempo reale per rilevare deviazioni nel recupero delle informazioni, monitorare i modelli di allucinazione e garantire che le risposte rimangano collegate al contesto fornito.
Rilevamento multimodale delle allucinazioni
Il rilevamento multimodale ha acquisito importanza man mano che sempre più modelli di intelligenza artificiale integrano immagini ,video e audio. Vengono utilizzati diversi meccanismi:
- Modelli che verificano la presenza o l'assenza di oggetti nelle immagini.
- Sistemi che verificano se le didascalie dei video corrispondono alle azioni raffigurate.
- Valutazione dei sottotitoli audio che ne verifica la corrispondenza con la sorgente sonora.
Set di dati come POPE, MHalDetect e FactVC supportano le valutazioni di coerenza fattuale in contesti multimodali. Questi metodi rafforzano la supervisione quando gli agenti di intelligenza artificiale operano con diverse tipologie di input.
Modelli industriali e migliori pratiche
Le organizzazioni che adottano le migliori pratiche descritte di seguito in genere riscontrano una diminuzione dei tassi di allucinazioni grazie al miglioramento del recupero delle informazioni, a una migliore strutturazione dei suggerimenti e all'integrazione di dati più accurati:
- Combinazione di metodi quali verifiche di coerenza, calcolo della probabilità e convalida dell'implicazione.
- Integrazione di dashboard di monitoraggio in tempo reale per tracciare il comportamento del sistema nel tempo.
- Migliorare i prompt e verificare la risposta iniziale attraverso l'ingegneria dei prompt.
- Ricorrere alla revisione di esperti quando la creazione di contenuti ha implicazioni legali, mediche o finanziarie .
- Esecuzione di controlli automatizzati nei sistemi CI/CD per mantenere la qualità durante lo sviluppo dell'IA.
- Implementazione di plugin di monitoraggio agenti progettati per osservare gli agenti di intelligenza artificiale e rilevare anomalie.
Direzioni future della ricerca
Si prevede che diversi ambiti guideranno la prossima fase di sviluppo:
1. Stima dell'incertezza a livello di significato
La valutazione a livello semantico sta guadagnando attenzione perché rileva l'instabilità concettuale in modo più affidabile rispetto alla probabilità a livello superficiale. I metodi futuri potrebbero includere i seguenti elementi per migliorare la sensibilità del rilevamento delle allucinazioni:
- Informazione reciproca.
- Accordo tra modelli.
- Varianza semantica a livello di cluster
2. Supervisione scalabile tramite ragionamento comparativo
Gli approcci multi-agente, come il dibattito tra modelli o il controinterrogatorio, possono aiutare a individuare fallimenti sottili che i singoli modelli non riescono a rilevare.
3. Quadri multimodali unificati
Con la crescente diffusione dei modelli multimodali, si rende necessario un approccio di rilevamento unificato per affrontare il problema delle allucinazioni in immagini, audio e video.
4. Rilevamento basato sul flusso di lavoro
La tracciabilità a livello di sistema consente di identificare le fasi intermedie errate e supporta il miglioramento continuo all'interno di pipeline più ampie.
5. Set di dati di valutazione più solidi
Per il ragionamento a più fasi, i compiti avversari e gli scenari a lungo termine, sono necessari set di dati più complessi che consentano ai sistemi di fallire meno frequentemente a causa del semplice riconoscimento di pattern.
Metodologia di benchmarking
Il test di riferimento ha utilizzato un set di dati controllato composto da 50 elementi di conoscenza tratti da scenari di domande e risposte fattuali. Ogni elemento includeva un contesto di origine, una domanda, una risposta corretta basata su tale contesto e una risposta fittizia contenente informazioni inventate. Ad esempio, un test chiedeva informazioni sulla sede centrale del Gruppo Oberoi, dove la risposta corretta "Delhi" veniva confrontata con la risposta fittizia "Mumbai".
Ogni elemento di conoscenza ha generato due casi di test: uno utilizzando la risposta corretta (aspettativa: nessuna allucinazione) e uno utilizzando la risposta allucinatoria (aspettativa: allucinazione rilevata). Ciò ha creato una suddivisione bilanciata 50/50 per un totale di 100 casi di test. Tutti e tre gli strumenti hanno elaborato gli stessi casi di test in sequenza, ricevendo ciascuno input identici (contesto, domanda e output).
Abbiamo misurato la latenza per ogni caso di test individualmente per garantire un confronto equo, evitando le insidie dell'elaborazione parallela o della valutazione in batch che potrebbero falsare i risultati. Le etichette di riferimento sono state verificate manualmente per garantire l'accuratezza nel calcolo dei veri positivi, falsi positivi, veri negativi e falsi negativi.
Sii il primo a commentare
Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori.