Contattaci
Nessun risultato trovato.

Allucinazione AI: confronta i migliori LLM come GPT-5.2

Cem Dilmegani
Cem Dilmegani
aggiornato il Apr 20, 2026
Guarda il nostro norme etiche

I modelli di intelligenza artificiale possono generare risposte che sembrano plausibili ma sono errate o fuorvianti, fenomeno noto come "allucinazioni da IA". Il 77% delle aziende è preoccupato per le allucinazioni da IA. 1

Abbiamo confrontato 37 diversi LLM con 60 domande per misurare i loro tassi di allucinazione:

Risultati del benchmark sull'allucinazione tramite IA

Loading Chart

Il nostro benchmark ha rivelato che anche i modelli più recenti presentano tassi di allucinazione superiori al 15% quando viene loro chiesto di analizzare delle affermazioni. Leggi la metodologia del benchmark per scoprire come abbiamo misurato questi tassi.

Analisi del tasso di allucinazioni: costi vs. contesto

Per garantire un confronto equo dei costi tra i modelli, normalizziamo i prezzi utilizzando una metrica unificata che riflette i modelli di utilizzo reali. Poiché la maggior parte dei token nei carichi di lavoro pratici proviene dagli input piuttosto che dagli output, calcoliamo il costo del modello come 0,75 × prezzo del token di input + 0,25 × prezzo del token di output .

Ciò impedisce che i modelli con output artificialmente economici o input sproporzionatamente costosi appaiano ingannevolmente efficienti, consentendo di valutare ogni modello su una scala coerente e comparabile.

Il grafico rivela schemi distinti quando si confrontano i tassi di allucinazione con la dimensione della finestra contestuale. In linea con i dati precedenti relativi al costo, esiste una correlazione lineare scarsa o nulla tra capacità contestuale e accuratezza.

Il contesto ampio non garantisce l'accuratezza

Contrariamente all'ipotesi che input più grandi portino a un ragionamento migliore, emerge una relazione mista. I modelli progettati per finestre di contesto enormi (oltre 1 milione di token) non raggiungono costantemente tassi di allucinazione inferiori rispetto alle loro controparti più piccole. Come dimostrato dai dati, si riscontrano modelli altamente affidabili sia in contesti brevi che lunghi, così come modelli con prestazioni inferiori.

Ciò suggerisce che una finestra di contesto di grandi dimensioni non garantisce automaticamente una maggiore coerenza fattuale. In definitiva, le specifiche tecniche come la dimensione del contesto non sono indicatori definitivi di affidabilità; le prestazioni dipendono maggiormente dall'architettura specifica del modello e dalla qualità dell'addestramento piuttosto che dalla sola capacità.

Che cosa sono le allucinazioni da intelligenza artificiale?

Le allucinazioni si verificano quando un LLM produce informazioni che sembrano reali ma sono completamente inventate o fattualmente inaccurate. A differenza dei semplici errori, le allucinazioni sono particolarmente problematiche poiché vengono presentate con la stessa sicurezza delle informazioni accurate, rendendo difficile per gli utenti riconoscerle senza una conferma esterna.

Gli effetti delle allucinazioni LLM

Le allucinazioni legate all'IA colpiscono molti settori, poiché le organizzazioni dipendono dagli strumenti di IA generativa per produrre testi , analizzare dati e supportare i processi decisionali. Le possibili conseguenze variano, ma alcuni rischi si presentano con regolarità:

danno alla reputazione

Se un modello produce informazioni imprecise, narrazioni false o risultati fuorvianti, gli utenti potrebbero perdere fiducia nel sistema e nell'organizzazione che lo implementa. Ricostruire la fiducia dopo che informazioni errate hanno raggiunto clienti, team interni o il pubblico può rivelarsi una sfida.

Ad esempio , una recente analisi di GPTZero 2 hanno scoperto che decine di articoli accettati a NeurIPS 2025 includevano citazioni generate dall'IA che non erano state individuate durante la revisione paritaria. Dopo aver analizzato più di 4.000 articoli accettati, l'azienda ha trovato centinaia di riferimenti errati in almeno 50 articoli, che andavano da citazioni completamente false a versioni alterate di citazioni reali.

Alcuni errori riguardavano autori, titoli, riviste o link inventati, mentre altri modificavano in modo sottile citazioni reali alterando i nomi degli autori o i titoli degli articoli. GPTZero afferma che tutte le citazioni segnalate sono state successivamente verificate da esperti umani.

NeurIPS ha riconosciuto il crescente utilizzo di modelli linguistici complessi nella redazione di articoli scientifici e ha affermato di monitorare la questione, sottolineando che riferimenti errati non invalidano automaticamente i risultati di un articolo. Ciononostante, GPTZero ha definito i risultati allarmanti, dato che gli articoli erano stati formalmente accettati e pubblicati in una conferenza altamente selettiva.

I risultati evidenziano come l'impennata delle proposte, oltre 21.000 nel 2025, renda difficile una revisione approfondita e sollevi preoccupazioni in merito all'integrità della ricerca, alla riproducibilità e ai rischi derivanti dall'affidarsi a citazioni generate dall'intelligenza artificiale nelle pubblicazioni accademiche. 3

In settori regolamentati come la sanità , la finanza e il diritto , i contenuti generati dall'intelligenza artificiale che includono errori fattuali possono portare a violazioni delle normative. Quando i contenuti generati vengono utilizzati senza verifica, interpretazioni errate di dati o politiche possono comportare sanzioni, danni ai clienti o contenziosi.

Ad esempio, le false citazioni di casi giudiziarie generate dall'intelligenza artificiale sono diventate un problema serio e crescente per i tribunali. Solo nel 2025, i giudici di tutto il mondo hanno emesso centinaia di sentenze riguardanti le allucinazioni generate dall'IA negli atti giudiziari, rappresentando circa il 90% di tutti i casi noti di questo problema fino ad oggi.

Secondo i giudici, questi errori comportano uno spreco di tempo e risorse preziose, costringendo i tribunali a indagare su casi inesistenti anziché concentrarsi sul merito delle controversie. Sia gli avvocati che i giudici stessi sono stati colti in flagrante a fare affidamento su risultati errati dell'intelligenza artificiale, il che ha portato ad avvertimenti, ordinanze permanenti e sanzioni sempre più severe.

Con la crescente consapevolezza dei limiti dell'IA, i tribunali stanno diventando meno tolleranti nei confronti delle scuse, considerando le citazioni frutto di allucinazioni come una condotta scorretta piuttosto che come semplice ignoranza. Sebbene i ricercatori che monitorano la questione segnalino una rapida crescita di tali casi, molti ritengono che l'IA possa essere ampiamente vantaggiosa per il lavoro legale, a condizione che il suo utilizzo sia trasparente, attentamente verificato e trattato come uno strumento di bozza piuttosto che come una fonte di verità giuridica. 4

Inefficienza operativa

Quando gli utenti non possono fare affidamento su testi o output generati dall'IA, devono ricontrollare manualmente i risultati. Ciò comporta un dispendio di tempo e riduce il valore dell'intelligenza artificiale generativa. Anziché agevolare i flussi di lavoro, le allucinazioni possono creare colli di bottiglia che richiedono una revisione umana per identificare le informazioni errate.

Ad esempio, durante un test di rapporti di polizia redatti dall'intelligenza artificiale nello Utah, l'audio di sottofondo di un film Disney ha indotto il sistema ad affermare erroneamente che un agente di polizia si era trasformato in una rana. L'incidente si è verificato durante un progetto pilota di dicembre di strumenti di intelligenza artificiale come Draft One di Axon, che convertono l'audio delle telecamere indossabili in rapporti scritti per far risparmiare tempo agli agenti.

Sebbene i funzionari affermino che questi strumenti possano far risparmiare diverse ore a settimana sulla burocrazia, l'episodio ha messo in luce preoccupazioni più profonde in merito all'accuratezza e alla supervisione. Persino i rapporti di prova di routine hanno richiesto correzioni, e i critici avvertono che l'intelligenza artificiale può interpretare erroneamente i suoni, attenuare le incertezze o introdurre errori sottili che in seguito entrano a far parte dei documenti ufficiali. 5

Cause delle allucinazioni da IA

Comprendere perché si verificano le allucinazioni è fondamentale per progettare tecniche di mitigazione delle allucinazioni e per decidere quando fidarsi dei contenuti generati dall'intelligenza artificiale.

Limitazioni dei dati di addestramento

I modelli linguistici di grandi dimensioni vengono addestrati su enormi quantità di dati internet, documenti e altri testi. Le limitazioni in questi dati di addestramento possono portare ad allucinazioni:

  • La mancanza di dati di addestramento sufficienti in aree specializzate può lasciare lacune nella conoscenza. Quando al modello viene chiesto di generare testo in tali ambiti, potrebbe colmare le informazioni mancanti con dati inventati piuttosto che ammettere l'incertezza.
  • Pagine web di bassa qualità, notizie false o contenuti fuorvianti nel set di dati di addestramento possono distorcere il modello, favorendo narrazioni false ed errori fattuali.
  • Dati fattuali obsoleti possono indurre il modello a produrre informazioni errate su argomenti che sono cambiati dopo il periodo di addestramento.
  • Le distorsioni nei dati di addestramento possono alterare il modo in cui i modelli di intelligenza artificiale descrivono persone, eventi o possibili risultati.

Questi problemi non sono esclusivi della generazione di testo. Problemi simili si verificano neimodelli di visione artificiale addestrati su set di dati distorti o incompleti, sebbene le allucinazioni assumano forme diverse, come ad esempio le classificazioni errate .

Limiti di conoscenza e aggiornamenti continui

Le prime generazioni di modelli di intelligenza artificiale avevano una data limite precisa per la conoscenza e non avevano accesso a dati esterni in tempo reale. Quando gli utenti chiedevano informazioni su eventi recenti, il modello spesso generava comunque dei risultati, aumentando il rischio di allucinazioni.

I moderni sistemi di intelligenza artificiale combinano sempre più spesso dati di addestramento statici con il recupero di informazioni da una base di conoscenza in tempo reale o da altre fonti esterne. Di conseguenza:

  • Il limite di conoscenza rimane un fattore rilevante per alcuni modelli, soprattutto per le implementazioni offline.
  • In molti contesti aziendali, la generazione potenziata dal recupero riduce l'impatto delle interruzioni estraendo dati fattuali recenti da fonti di dati interne o esterne.
  • Le allucinazioni legate alla recentezza ora spesso riflettono un recupero mancante o non allineato, e non solo l'età dei parametri del modello.

Eccessiva sicurezza e previsione della parola successiva

Un modello linguistico genera testo token per token, prevedendo la parola successiva in base al contesto di input e ai token precedenti. Il modello è ottimizzato per produrre continuazioni fluide e probabili, non risposte corrette garantite. Ciò comporta diversi effetti:

  • Il modello potrebbe dare priorità a una spiegazione fluida piuttosto che ammettere di non conoscere la risposta corretta.
  • Potrebbe selezionare uno schema informativo plausibile ma falso se tale schema compare frequentemente nei dati di addestramento.
  • Il modello può generalizzare eccessivamente a partire da schemi presenti nei dati e generare contenuti che appaiono specifici ma non sono basati su fonti fattuali.

Dal punto di vista dell'utente, lo stile del testo generato dall'IA rende difficile capire che la risposta potrebbe essere errata.

Interpretazione errata delle istruzioni e istruzioni vaghe

Le allucinazioni possono anche derivare dal modo in cui vengono formulate le richieste di input:

  • Le richieste vaghe concedono al modello troppa libertà, portando a risultati inaspettati o a risposte che non corrispondono all'intento dell'utente.
  • Domande eccessivamente generiche inducono il modello a generare risultati che vanno oltre le conoscenze presenti nei suoi parametri o nei documenti recuperati.
  • Una formulazione ambigua può indurre il modello a scegliere un'interpretazione e a produrre con sicurezza informazioni inaccurate basandosi su tale interpretazione.

Istruzioni più precise e vincoli espliciti spesso riducono questi effetti, ma non li eliminano.

Strategie per ridurre le allucinazioni causate dall'IA

Le tecniche di mitigazione delle allucinazioni in genere combinano scelte architetturali, approcci di formazione e progettazione a livello di sistema, piuttosto che una singola soluzione.

Strumenti di intelligenza artificiale per il rilevamento delle allucinazioni

Gli strumenti di rilevamento delle allucinazioni basati sull'IA valutano se il contesto o i dati di riferimento forniti supportano gli output generati dall'IA. Questi strumenti utilizzano più comunemente metodi LLM-as-a-judge insieme a tecniche come l'analisi di coerenza, il punteggio di confidenza e la verifica basata sull'implicazione.

Abbiamo effettuato un benchmark su 100 casi di test bilanciati di domande e risposte fattuali per confrontare gli strumenti di rilevamento delle allucinazioni basati sull'IA. W&B Weave e Arize Phoenix hanno mostrato prestazioni complessive simili, rispettivamente al 91% e al 90%, mentre Comet Opik ha raggiunto un'accuratezza del 72% grazie a una strategia di rilevamento più conservativa. Per saperne di più sui risultati, leggi l' articolo sugli strumenti di rilevamento delle allucinazioni basati sull'IA .

Generazione potenziata dal recupero

La generazione potenziata dal recupero collega i modelli di IA generativa a una base di conoscenza esterna. Quando un utente invia una query:

  • Il sistema recupera documenti o dati pertinenti da fonti selezionate, come database interni, letteratura specifica del settore o pagine web selezionate.
  • Questi passaggi recuperati vengono trasmessi al modello linguistico come contesto aggiuntivo.
  • Il modello genera risultati che si prevede siano più vicini ai dati reali recuperati, piuttosto che basarsi esclusivamente suiparametri appresi.

I recenti progetti di generazione con recupero aumentato estendono questo schema tramite:

  • Recupero a più fasi, in cui il sistema recupera le informazioni, le riassume e poi le recupera nuovamente se mancano delle informazioni.
  • Recupero strutturato, in cui gli strumenti di intelligenza artificiale interrogano API, database SQL o grafi della conoscenza anziché limitarsi a documenti non strutturati.
  • Il monitoraggio della qualità del recupero, che verifica se il contesto recuperato supporta effettivamente la risposta, può segnalare potenziali casi di allucinazione.

Il metodo RAG non garantisce l'accuratezza fattuale, ma di solito riduce le allucinazioni, soprattutto quando la base di conoscenze è curata con attenzione e aggiornata regolarmente.

Ad esempio , un nuovo articolo presenta REFIND, un metodo potenziato dal recupero per rilevare sequenze di parole generate in modo inaccurato in grandi output di modelli linguistici, misurando la sensibilità di ogni token generato alle prove esterne.

Utilizzando una nuova metrica chiamata Context Sensitivity Ratio (CSR), REFIND confronta le probabilità dei token con e senza documenti recuperati, segnalando i token che cambiano in modo significativo come probabili allucinazioni.

Valutato sul dataset multilingue SemEval-2025 Mu-SHROOM, l'approccio contribuisce a superare i metodi di riferimento esistenti, soprattutto nelle lingue con poche risorse. I risultati mostrano che basare il rilevamento delle allucinazioni su prove recuperate consente un'identificazione più precisa, affidabile e scalabile degli errori fattuali nel testo generato da LLM. 6

Progettazione rapida nei sistemi moderni

L'ingegneria dei prompt si è evoluta con il miglioramento dei modelli di intelligenza artificiale generativa. Non si tratta più solo di formulazioni accattivanti. Nei sistemi attuali, la progettazione dei prompt si concentra su:

  • Definire chiaramente il compito, gli input e i vincoli, specificando cosa si considera corretto e cosa deve essere lasciato senza risposta.
  • Indicare al modello di rispondere "Non lo so" o di richiedere maggiori informazioni quando l'input fornito è incompleto.
  • Incoraggiare il modello a fare esplicito riferimento al contesto citato, anziché inventare dettagli non presenti nei dati forniti.
  • Allineare le istruzioni relative ai ruoli, gli strumenti e le impostazioni di recupero in modo che il modello sappia quando utilizzare fonti esterne e quando affidarsi ai propri parametri.

Suggerimenti ben formulati migliorano la qualità dei risultati dell'IA, ma ora fanno parte di un sistema più ampio che include recupero, strumenti e verifica.

Metodi esterni di verifica e controllo dei fatti

La verifica dei contenuti generati dall'IA rispetto a dati fattuali affidabili rimane una strategia fondamentale. La verifica può avvenire in diversi modi:

  • Recupero e confronto automatizzati: il sistema utilizza la generazione potenziata dal recupero per estrarre i documenti, quindi verifica se tali documenti supportano le affermazioni chiave presenti nel contenuto generato.
  • Verifica incrociata tra modelli: un modello linguistico genera una risposta, e un altro modello o una configurazione diversa la esamina per individuare eventuali errori fattuali.
  • Verifica basata su strumenti: i modelli di IA utilizzano strumenti di IA specializzati, come interpreti di codice, calcolatrici o API di dominio, per verificare valori numerici, date o output strutturati.
  • Revisione umana: esperti in materia esaminano i testi più critici generati dall'IA prima che vengano utilizzati in produzione o pubblicati.

I sistemi moderni spesso combinano questi approcci, utilizzando controlli automatici per la maggior parte dei contenuti e segnalando i casi sospetti per una revisione umana.

Approcci agentici per ridurre le allucinazioni

Recenti studi sull'intelligenza artificiale hanno introdotto i sistemi agentici , in cui un modello è in grado di pianificare, richiamare strumenti e compiere più passaggi anziché rispondere in un'unica soluzione. Questo cambia il modo in cui si manifestano le allucinazioni e come possono essere ridotte.

I sistemi di modelli linguistici agentivi possono:

  • Suddividi un problema in sottoproblemi e risolvili passo dopo passo.
  • Stabilisci quando sono necessari ulteriori dati ed effettua un recupero aggiuntivo da una base di conoscenza o da fonti esterne.
  • Per verificare i risultati intermedi, è possibile utilizzare strumenti specifici del settore, come API di ricerca, database o calcolatrici.
  • Rivalutare la propria bozza di risposta e rivedere le parti che sono in contraddizione con le prove raccolte.

Ad esempio, invece di generare immediatamente una risposta lunga, l'agente di intelligenza artificiale potrebbe:

  1. Recupera i documenti pertinenti.
  2. Riassumere e confrontare diverse fonti.
  3. Individuare contraddizioni o dati mancanti.
  4. Se l'attività non è ben definita, poni ulteriori domande all'utente.
  5. Solo allora genera la risposta finale.

Questa struttura a più fasi rende le allucinazioni più visibili e fornisce ulteriori punti in cui è possibile effettuare dei controlli.

Stima dell'incertezza e punteggi di confidenza

Un altro ambito di ricerca attivo è la stima della probabilità che un output di IA contenga errori fattuali. La stima dell'incertezza può essere utilizzata sia durante che dopo la generazione. Alcuni approcci includono:

  • I punteggi di affidabilità a livello di token indicano quanto il modello sia sicuro di ogni parola o frase. Le regioni con bassa affidabilità potrebbero essere segnalate per una revisione.
  • Verifiche di coerenza, in cui il modello risponde alla stessa domanda in diversi modi o con diverse opzioni di risposta, e il sistema misura quanto siano stabili le risposte.
  • Verifiche di sufficienza del contesto, in cui un modello separato valuta se i documenti recuperati contengono informazioni sufficienti per rispondere alla domanda.
  • Valutazione del rischio pre-generazionale, in cui il sistema prevede se un determinato input è suscettibile di indurre allucinazioni in una specifica configurazione del modello.

Questi metodi non eliminano le allucinazioni, ma aiutano le organizzazioni a identificare i risultati ad alto rischio e a indirizzarli verso flussi di verifica più rigorosi o verso revisori umani.

Comunicare l'incertezza agli utenti

Comunicare l'incertezza agli utenti è fondamentale quando i sistemi di intelligenza artificiale incontrano delle limitazioni. Alcune pratiche efficaci sono:

  1. L'uso di un linguaggio volutamente incerto contribuisce a definire aspettative appropriate e a ridurre la diffusione di informazioni fuorvianti e inaccurate.
  2. Integrando indicatori fattualmente errati, i modelli possono segnalare quando non sono sicuri delle proprie risposte. Questa trasparenza, raccomandata in recenti pubblicazioni di revisione tecnologica, impedisce agli utenti di accettare i contenuti generati dall'IA senza riserve.
  3. Evidenziare specifici elementi testuali che hanno influenzato la risposta del modello aiuta gli utenti a comprendere il ragionamento alla base dei risultati incerti, mentre la visualizzazione dei livelli di affidabilità consente una valutazione più precisa.
  4. Quando si affrontano problemi complessi, presentare più fonti incoraggia gli utenti a verificare autonomamente le affermazioni anziché affidarsi esclusivamente ai risultati dell'IA, che potrebbero contenere delle inesattezze.

Questi approcci, validati attraverso un ampio feedback umano, creano una relazione più onesta tra gli utenti e i modelli di intelligenza artificiale generativa, riconoscendo quando i limiti della base di conoscenza potrebbero portare a potenziali allucinazioni.

Stimare il rischio di allucinazioni prima che si verifichino

L'obiettivo principale della maggior parte delle ricerche attuali sulle allucinazioni è individuare i contenuti falsi dopo che il modello LLM li ha già generati. Strumenti come RefChecker e Hallucination Guard mirano a evidenziare o valutare gli output sospetti, aiutando gli utenti a filtrare o correggere i risultati allucinatori.

Una nuova prospettiva reinterpreta la questione, suggerendo che le allucinazioni siano artefatti di compressione piuttosto che "bug". Durante il funzionamento, i grandi modelli linguistici decomprimono le informazioni che erano state precedentemente compresse nei loro parametri. Analogamente a come un file ZIP danneggiato produce dati inutilizzabili quando viene decompresso, il modello riempie le lacune con contenuti plausibili ma falsi quando il suo "budget informativo" è limitato. 7

I modelli lineari di apprendimento (LLM) ottimizzano l'efficienza nel caso medio, il che può portare a occasionali allucinazioni sistematiche. La legge di decompressione del livello di aspettativa (EDFL) definisce le soglie informative necessarie per prevenire le allucinazioni nei modelli lineari di apprendimento.

Il Calcolatore del rischio di allucinazioni open-source consente la valutazione del rischio pre-generazione, l'impostazione dei limiti di errore, la valutazione del contesto e le garanzie in stile SLA, ognuna delle quali è molto utile nei settori regolamentati. Può essere utilizzato con qualsiasi API compatibile con OpenAI.

metodologia di riferimento per le allucinazioni indotte dall'IA

Il nostro obiettivo è determinare se i modelli siano in grado di elaborare le informazioni aziendali e trarne conclusioni accurate. Questo è un ambito in cui i modelli lineari logici (LLM) possono generare il maggior valore per le imprese, e volevamo comprendere i tassi di allucinazione in questo contesto.

Il nostro test di riferimento valuta i tassi di allucinazioni LLM utilizzando un set di dati di domande derivate da articoli di CNN News.

Abbiamo utilizzato un sistema automatizzato di raccolta dati web per creare il dataset, prelevando gli articoli direttamente dal feed RSS della CNN. Da questi articoli, abbiamo creato 60 domande progettate per testare rigorosamente la capacità di un LLM di recuperare informazioni fattuali e specifiche degli articoli.

Le domande sono state formulate intenzionalmente per:

  • Richiedete valori numerici precisi (percentuali, date, quantità).
  • Tratta argomenti diversi come i prezzi del petrolio, la storia dell'arte, la ricerca scientifica, la finanza e altro ancora.
  • Includi relazioni temporali e dati statistici difficili da intuire.
  • È necessario estrarre le informazioni con precisione dal testo fornito, anziché basarsi su un ragionamento generalizzato.
  • Semplifica la verifica controllando se la risposta corrisponde alla figura dell'articolo originale.

Valutazione tramite un sistema di verifica dei fatti a tre fasi

Dopo l'invio delle domande a ciascun LLM tramite chiamate API, le risposte vengono valutate utilizzando una pipeline di verifica dei fatti in due fasi:

  1. Controllo statico di corrispondenza esatta: il sistema esegue innanzitutto un rapido confronto tra la risposta del LLM e il valore reale estratto dall'articolo. Se i valori corrispondono esattamente, la risposta viene contrassegnata come corretta.
  2. LLM come giudice per la validazione semantica: se non viene trovata una corrispondenza esatta, un ulteriore passaggio di valutazione utilizza un modello LLM come giudice per determinare se la risposta è semanticamente equivalente alla verità di base.
    Ciò tiene conto delle variazioni di formattazione o di formulazione, come ad esempio
    • “26 milioni” contro “26.000.000”
    • “n/d”, “non disponibile” o “non fornito”
    • Lievi differenze di formulazione che mantengono lo stesso significato.
  3. Controllo finale: anche il LLM-come-giudice potrebbe avere delle allucinazioni. Per risolvere questo problema, abbiamo creato un altro LLM-come-giudice per controllare gli output contrassegnati come "falliti" dal primo LLM-come-giudice, per verificare se si trattasse effettivamente di errori o se il nostro LLM-come-giudice avesse avuto delle allucinazioni. Se una qualsiasi risposta veniva contrassegnata come sospetta da quel LLM-come-giudice, la controllavamo e la valutavamo manualmente per assicurarci che non ci fossero errori durante le valutazioni.

La risposta viene classificata come allucinazione solo se non supera né il controllo di corrispondenza esatta, né la valutazione di equivalenza semantica, né il controllo finale.

Esempio

Richiesta: "Rispondi alla domanda utilizzando solo le informazioni presenti nell'articolo fornito. Non arrotondare le risposte. Rispondi solo con una parola o un numero, oppure con 'non specificato'."

Articolo: Gli scienziati identificano l'ingrediente segreto nei dipinti di Leonardo da Vinci 8

Domanda: In quale secolo la pittura a olio si diffuse nell'Europa settentrionale?
Verità reale: non fornita.

L'articolo non fornisce queste informazioni; si limita a fare riferimento al Medioevo. Pertanto, qualsiasi risposta diversa da "non fornito" indica che il modello non sta seguendo l'articolo e sta generando informazioni inventate o ipotizzate, con conseguente allucinazione.

FAQ

Gli strumenti di intelligenza artificiale possono generare informazioni false o risultati fuorvianti. Per evitare di essere ingannati dall'IA, gli utenti possono ricontrollare le risposte e porre domande più dirette. Queste informazioni fattualmente errate nei testi generati dall'IA possono portare a conseguenze indesiderate, soprattutto in ambiti come la scrittura scientifica e la ricerca giuridica.

Diverse pubblicazioni hanno individuato varie cause delle allucinazioni nell'IA. Quando i sistemi di intelligenza artificiale generativa, come i grandi modelli linguistici, producono risultati fattualmente errati, ciò è spesso dovuto a dati di addestramento insufficienti o all'utilizzo di dati fattuali obsoleti. La ricerca dimostra che i metodi precedenti per la creazione di sistemi di basi di conoscenza non impedivano adeguatamente ai modelli di generare allucinazioni di riferimenti o di produrre informazioni inaccurate durante l'elaborazione dei dati internet per risolvere problemi complessi.

I contenuti generati dall'intelligenza artificiale spesso non vengono verificati con fonti esterne, il che porta a risultati fuorvianti. I modelli generativi faticano con argomenti al di fuori del loro corpus di addestramento e possono inventare fatti che sembrano plausibili ma che non superano la verifica degli esperti.

Sebbene utili in ambiti come la ricerca giuridica, i sistemi di intelligenza artificiale possono produrre imprecisioni, soprattutto per argomenti poco trattati o in caso di attacchi avversari.

I modelli possono confondere la correlazione con la causalità, e persino i risultati accurati possono includere inesattezze, evidenziando la necessità di verificare i fatti confrontandoli con fonti attendibili. Questo problema persiste a causa di standard di revisione inadeguati per il modo in cui i modelli elaborano i dati.

Ulteriori letture

Cem Dilmegani
Cem Dilmegani
Analista principale
Cem è analista principale presso AIMultiple dal 2017. AIMultiple fornisce informazioni a centinaia di migliaia di aziende (secondo SimilarWeb), tra cui il 55% delle aziende Fortune 500, ogni mese. Il lavoro di Cem è stato citato da importanti pubblicazioni globali come Business Insider, Forbes, Washington Post, società globali come Deloitte e HPE, ONG come il World Economic Forum e organizzazioni sovranazionali come la Commissione Europea. È possibile consultare l'elenco di altre aziende e risorse autorevoli che hanno citato AIMultiple. Nel corso della sua carriera, Cem ha lavorato come consulente tecnologico, responsabile acquisti tecnologici e imprenditore nel settore tecnologico. Ha fornito consulenza alle aziende sulle loro decisioni tecnologiche presso McKinsey & Company e Altman Solon per oltre un decennio. Ha anche pubblicato un report di McKinsey sulla digitalizzazione. Ha guidato la strategia tecnologica e gli acquisti di un'azienda di telecomunicazioni, riportando direttamente al CEO. Ha inoltre guidato la crescita commerciale dell'azienda deep tech Hypatos, che ha raggiunto un fatturato annuo ricorrente a 7 cifre e una valutazione a 9 cifre partendo da zero in soli 2 anni. Il lavoro di Cem in Hypatos è stato oggetto di articoli su importanti pubblicazioni tecnologiche come TechCrunch e Business Insider. Cem partecipa regolarmente come relatore a conferenze internazionali di settore. Si è laureato in ingegneria informatica presso l'Università di Bogazici e ha conseguito un MBA presso la Columbia Business School.
Visualizza il profilo completo

Commenti 4

Condividi i tuoi pensieri

Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori.

0/450
Abraham
Abraham
Aug 25, 2025 at 11:57

This article is updated in June while the GPT 5 is announced in August. How did you test GPT 5 in AI Hallucination Rates figure

Aleyna Daldal
Aleyna Daldal
Sep 05, 2025 at 08:46

Hi! Thanks for your comment. We use WordPress for our articles, which allows us to update graphs and tables independently of the main text. This means that even if the article text shows an earlier update date, we can still add the latest results to the figures without altering the written sections.

Rui
Rui
Aug 08, 2025 at 20:31

Hi Cem, I've been using this article as a reference of severity of hallucination. Is it possible to refresh the report with the newly released GPT-5? Thanks!

Aleyna Daldal
Aleyna Daldal
Sep 05, 2025 at 08:48

Hi Rui, Thanks a lot for your interest and for using our article as a reference. We’ve already refreshed the report with GPT-5 results, so you’ll find the latest updates included in the article.

Tim
Tim
Jul 19, 2025 at 10:13

Is there any chance that you might add Claude Sonnet/Opus 4 as well as Gemini 2.5 Pro?

Aleyna Daldal
Aleyna Daldal
Sep 05, 2025 at 08:48

Hi Tim, Thank you for your support and suggestion. Claude Sonnet/Opus 4 and Gemini 2.5 Pro have already been added to the article, so you can now see them included in the comparisons.

Joon
Joon
Feb 28, 2025 at 16:29

Hi, thank you for interesting benchmark! I was wondering Grok3's hallucination rate, both in Think mode and without. Are you planning to add these?

Cem Dilmegani
Cem Dilmegani
Mar 17, 2025 at 02:52

Hi Joon and thank you for your comment, Yes, we are waiting for API access.