RAG (Retrieval-Augmented Generation) migliora le risposte LLM aggiungendo fonti di dati esterne. Abbiamo confrontato diversi modelli di embedding e testato separatamente varie dimensioni dei blocchi per determinare quali combinazioni funzionano meglio per i sistemi RAG.
Esplora i principali framework e strumenti RAG , scopri cos'è RAG, come funziona, i suoi vantaggi e il suo ruolo nel panorama attuale dei master in giurisprudenza (LLM).
Risultati del benchmark RAG
Incorporazione di modelli
Le prestazioni dei sistemi RAG dipendono fortemente dalla qualità dei modelli di embedding, poiché questi influenzano direttamente l'accuratezza e l'efficacia del sistema nel recuperare le informazioni rilevanti.
Per valutare ciò, abbiamo analizzato le prestazioni di 4 modelli di embedding:
Questi risultati dimostrano che Mistral Embed ha raggiunto la massima accuratezza nel nostro benchmark, sottolineando l'importanza di selezionare il modello di embedding corretto per i sistemi RAG.
Gli embedding influiscono direttamente sia sulla pertinenza delle informazioni recuperate sia sull'accuratezza delle risposte generate. Per comprendere il nostro processo di valutazione, consultare la nostra metodologia di embedding.
Per la nostra analisi comparativa dettagliata che confronta l'accuratezza e il costo dei principali fornitori come OpenAI, Gemini e Cohere, consulta il nostro benchmark completo dei modelli di embedding .
dimensione del pezzo
Nei sistemi RAG, la dimensione dei blocchi determina la grandezza dei segmenti di testo quando vengono suddivisi per l'elaborazione. Questi segmenti vengono quindi convertiti in vettori tramite modelli di embedding e memorizzati in un database vettoriale . Quando viene posta una domanda, il modello recupera i segmenti più rilevanti dal database vettoriale e genera una risposta basata su queste informazioni.
Scegliere la giusta combinazione di dimensione dei blocchi e modello di embedding è essenziale per bilanciare la precisione del recupero e l'efficienza complessiva del sistema:
I risultati del benchmark mostrano il ruolo della dimensione dei blocchi nei sistemi RAG. La dimensione dei blocchi influisce direttamente sulla segmentazione del testo e sulla qualità delle informazioni recuperate, richiedendo un equilibrio per garantire che il sistema funzioni in modo efficiente e accurato.
I risultati indicano che una dimensione del blocco di 512 token offre le migliori prestazioni, bilanciando precisione ed efficienza nel recupero.
Nel benchmark della dimensione dei blocchi, abbiamo utilizzato:
- Modello di incorporamento: OpenAI text-embedding-3-small
- Database vettoriale: Pinecone.
Metodologia di riferimento per la dimensione dei blocchi RAG
Questo studio è stato specificamente progettato per valutare le prestazioni dei sistemi di Retrieval-Augmented Generation (RAG). Per testare la capacità di RAG di recuperare e generare informazioni accurate e pertinenti da un database vettoriale, abbiamo preparato un dataset basato su articoli di CNN News e formulato delle domande. I test si sono concentrati sull'esame dell'impatto di parametri critici come la dimensione dei chunk e i modelli di embedding.
- Gli articoli di CNN News sono stati caricati in un database vettoriale. Questo database è servito come fonte di conoscenza per il modello LLM, garantendo che le risposte generate dal modello fossero basate esclusivamente sui dati forniti.
- Ciascuna risposta generata dal modello LLM è stata confrontata con i dati di riferimento presenti negli articoli di origine. Questo confronto è stato eseguito automaticamente utilizzando un sistema di valutazione dell'accuratezza, con un tasso di accuratezza calcolato in base alla corrispondenza esatta tra le risposte e i dati degli articoli.
RAG vs. Finestra di contesto
RAG recupera dati esterni per le query, mentre le finestre di contesto elaborano quantità fisse di testo. Con l'espansione delle finestre di contesto fino a milioni di token, alcuni si chiedono se RAG sarà ancora necessario, tuttavia i nostri risultati dimostrano che continua a offrire chiari vantaggi in termini di accuratezza.
Abbiamo confrontato il metodo RAG con un approccio basato su una finestra di contesto lunga:
Per la finestra di contesto:
Abbiamo utilizzato la lunghezza del contesto nativo di Llama 4 Scout.
Per RAG:
- LLM: Llama 4 Scout
- Database vettoriale: Pinecone
- Modello di incorporamento : OpenAI text-embedding-3-large
- Dimensione del blocco: 512
RAG vs finestra di contesto: possibili ragioni alla base delle differenze di prestazioni
Precisione
RAG ha raggiunto una maggiore accuratezza perché agisce come un filtro rigoroso, rimuovendo il 99% del testo irrilevante prima che il modello LLM lo elabori. Questo approccio di attenzione discriminativa e rigida obbliga il modello a concentrarsi esclusivamente sui fatti rilevanti, riducendo il rumore e garantendo di fatto un'elevata accuratezza.
Distrazione dell'attenzione
Le finestre di contesto lunghe hanno mostrato prestazioni scarse a causa del fenomeno "perso nel mezzo", per cui l'attenzione del modello LLM si diluisce naturalmente su documenti lunghi. Il modello fatica a dare priorità a un singolo fatto rilevante quando è sepolto all'interno di decine di migliaia di token di testo non correlato.
Perché RAG rimane efficace
I sistemi RAG sfruttano basi di conoscenza esterne, come i database vettoriali, per recuperare le informazioni più rilevanti per una determinata query. Segmentando i dati in blocchi e incorporandoli, Llama 4 è stato in grado di concentrarsi su dati di alta qualità e contestualmente rilevanti, anziché elaborare un intero contesto di grandi dimensioni.
Questo evita l'eccesso di dati irrilevanti che spesso sovraccaricano i modelli in scenari a lungo termine. RAG aiuta il modello a mantenere la chiarezza e a fornire risposte più accurate concentrandosi su input più piccoli e mirati.
In contesti di lunga durata, i modelli spesso faticano a elaborare e dare priorità alle informazioni in modo efficace, con conseguente calo delle prestazioni. 1
Le finestre di contesto lunghe possono sostituire RAG?
Le finestre di contesto lunghe possono elaborare grandi insiemi di dati in un'unica operazione. Tuttavia, i loro svantaggi pratici, come il calo delle prestazioni e l'inefficienza computazionale, rendono RAG un'opzione più affidabile per le attività che richiedono un'elevata precisione.
I sistemi RAG affrontano queste sfide regolando parametri come la dimensione dei blocchi e l'embedding dei modelli, raggiungendo un equilibrio tra efficienza ed efficacia. Le finestre di contesto forniscono una visione limitata dell'input, mentre RAG recupera informazioni esterne rilevanti per migliorare la qualità della risposta. Questo rende RAG più adatto a compiti che richiedono conoscenze aggiornate o specifiche del dominio che vanno oltre i dati di addestramento interni del modello.
Sebbene le finestre di contesto possano funzionare per attività più semplici entro il limite di token del modello, RAG è più efficace quando è necessaria una conoscenza esterna.
Metodologia per il benchmark RAG vs. finestra di contesto
Abbiamo valutato le prestazioni di Llama 4 Scout utilizzando due approcci: RAG e una finestra di contesto lunga. Per RAG, abbiamo integrato Llama 4 Scout con Pinecone come database vettoriale, utilizzando il modello text-embedding-3-large di OpenAI per gli embedding e una dimensione del blocco di 512.
Per l'approccio basato sulla finestra di contesto, ci siamo affidati esclusivamente alla lunghezza del contesto nativo di Llama 4 Scout, senza ricorrere a informazioni esterne. Entrambi i metodi sono stati valutati utilizzando il dataset precedentemente menzionato , con l'accuratezza calcolata come percentuale di risposte corrette a una serie di query.
Perché RAG è importante oggi?
L'importanza della Generazione Aumentata dal Recupero (RAG, Retrieval-Augmented Generation) è cresciuta negli ultimi anni a causa della crescente necessità di sistemi di intelligenza artificiale in grado di fornire risposte accurate, trasparenti e contestualmente rilevanti. Tuttavia, i leader aziendali potrebbero non conoscere il termine, poiché la RAG è un'area emergente di recente (vedi figura sotto).
Poiché aziende e sviluppatori cercano di superare i limiti dei tradizionali modelli linguistici di grandi dimensioni (LLM), come la conoscenza obsoleta, la mancanza di trasparenza e i risultati illusori, RAG si è affermato come una soluzione fondamentale.
Quali sono i modelli e gli strumenti RAG disponibili?
I modelli e gli strumenti di generazione aumentata per il recupero (RAG, Retrieval-Augmented Generation) possono essere suddivisi in tre categorie:
- Modelli LLM con funzionalità RAG integrate per migliorare la precisione delle risposte accedendo a conoscenze esterne.
- Librerie e framework RAG applicabili ai LLM per implementazioni personalizzate.
- Componenti , come framework di integrazione, database vettoriali e modelli di recupero, che possono essere combinati tra loro o con modelli linguistici di grandi dimensioni (LLM) per costruire sistemi RAG.
LLM con funzionalità RAG integrate
Diversi LLM ora includono funzionalità RAG native per migliorarne l'accuratezza e la pertinenza, recuperando conoscenze esterne.
- Meta AI : Il modello RAG di Meta AI integra recupero e generazione all'interno di un unico framework, utilizzando Dense Passage Retrieval (DPR) per il processo di recupero e BART per la generazione. Questo modello è disponibile su Hugging Face per attività ad alta intensità di conoscenza.
- Claude di Anthropic : include un'API di citazioni per modelli come Claude 3.5 Sonnet e Haiku, che consente il riferimento alle fonti.
- SuperRAG 2.0 di Mistral : questo modello offre il recupero con integrazione in Mistral 8x7B v1.
- Cohere's Command R : Ottimizzato per RAG con supporto multilingue e citazioni, accessibile tramite API o pesi del modello Hugging Face.
- Gemini Embedding : modello di embedding Gemini per RAG di Google.
- Mistral Embed : Il modello di embedding di Mistral completa le sue offerte LLM producendo embedding vettoriali densi ottimizzati per attività RAG.
- OpenAI Embedding : OpenAI offre vari modelli di embedding, come Embedding-3-Large, Embedding-3-Small e text-embedding-ada-002, ciascuno adatto a diversi casi d'uso in attività di elaborazione del linguaggio naturale come la generazione aumentata dal recupero.
Biblioteche e framework RAG
Questi strumenti permettono agli sviluppatori di aggiungere funzionalità RAG ai LLM esistenti, offrendo flessibilità e scalabilità.
- Haystack : un framework completo sviluppato da Deepset per la creazione di pipeline RAG, focalizzato sulla ricerca di documenti e sulla risposta a domande.
- LlamaIndex : specializzata nell'acquisizione e nell'indicizzazione dei dati, potenzia i LLM con sistemi di recupero.
- Weaviate : un database vettoriale con funzionalità RAG, che supporta flussi di lavoro di ricerca e recupero scalabili.
- DSPY : Un framework di programmazione dichiarativa per l'ottimizzazione di RAG in modelli linguistici di grandi dimensioni.
- Pathway : Un framework per l'implementazione su larga scala di RAG con connettività dati.
- Azure Apprendimento automatico : fornisce funzionalità RAG tramite Azure AI Studio e pipeline di apprendimento automatico.
- IBM watsonx.ai : Fornisce framework per lo sviluppo di applicazioni che facilitano l'implementazione di RAG con modelli linguistici di grandi dimensioni.
Per un confronto e un'analisi più dettagliati, consultare il nostro benchmark dei framework RAG .
Framework di integrazione per RAG
I framework di integrazione semplificano lo sviluppo di applicazioni sensibili al contesto e dotate di capacità di ragionamento, basate su LLM. Offrono componenti modulari e catene preconfigurate, adattate a esigenze specifiche, pur consentendo la personalizzazione.
- LangChain : un framework per la creazione di applicazioni sensibili al contesto, comunemente utilizzato con RAG e LLM.
- Dust : Facilita la creazione di assistenti AI personalizzati con ricerca semantica e supporto RAG, migliorando le applicazioni LLM.
Gli utenti possono abbinare questi framework a database vettoriali per implementare completamente RAG , aumentando la profondità contestuale degli output LLM.
Database vettoriali per RAG
I database vettoriali (VD) gestiscono dati multidimensionali, come sintomi dei pazienti, risultati di analisi del sangue, comportamenti e parametri di salute, il che li rende fondamentali per i sistemi RAG.
- Deep Lake : un data lake ottimizzato per i modelli lineari labirintici (LLM), che supporta l'archiviazione vettoriale e l'integrazione con strumenti come LlamaIndex.
- Pinecone : Un servizio di database vettoriale gestito per configurazioni RAG.
- Weaviate : combina l'archiviazione vettoriale con funzionalità RAG-ready per il recupero.
- Milvus : un database vettoriale open-source per casi d'uso di intelligenza artificiale .
- Qdrant : un motore di ricerca vettoriale per la ricerca di similarità.
- Zep Vector Store : una piattaforma open-source che supporta un archivio di documenti vettoriali, dove è possibile caricare, incorporare e cercare documenti per RAG.
Altri modelli di recupero che supportano RAG
Poiché RAG sfrutta tecniche di sequenza-a-sequenza e di recupero come DPR, gli sviluppatori possono combinare questi modelli con LLM per abilitare la generazione aumentata dal recupero.
- BART con Recupero : Integra la potenza generativa di BART con meccanismi di recupero per RAG.
- BM25 : Un algoritmo di recupero tradizionale basato sulla frequenza dei termini, ampiamente utilizzato per la sua semplicità.
- Modello ColBERT : basato su BERT (Bidirectional Encoder Representations from Transformers) e progettato per combinare il recupero denso con il recupero sparso tradizionale.
- Modello DPR (Dense Passage Retrieval) : un modello utilizzato per attività di recupero di informazioni, in particolare nell'ambito dei sistemi di risposta a domande (QA) e di ricerca.
Che cos'è la generazione aumentata tramite recupero?
Nel 2020, la ricerca Meta ha introdotto i modelli RAG per manipolare la conoscenza in modo preciso. Lewis e colleghi si riferiscono a RAG come a un approccio di fine-tuning di uso generale che può combinare modelli di generazione di memoria parametrica pre-addestrati con una memoria non parametrica.
In parole semplici, la generazione aumentata tramite recupero (RAG, Retrieval-augmented Generation) è un approccio di elaborazione del linguaggio naturale (NLP) che combina elementi di modelli di recupero e di generazione per migliorare la qualità e la pertinenza dei contenuti generati. Si tratta di un approccio ibrido che sfrutta i punti di forza di entrambe le tecniche per superare i limiti dei metodi puramente generativi o puramente basati sul recupero. Ecco un breve video su RAG:
Come funzionano i modelli RAG?
Il sistema RAG opera in due fasi: recupero e generazione dei contenuti.
Nella fase di recupero :
Gli algoritmi ricercano e recuperano attivamente frammenti di informazioni pertinenti in base alla richiesta o alla domanda dell'utente, utilizzando tecniche come BM25. Queste informazioni recuperate costituiscono la base per generare risposte coerenti e contestualmente rilevanti.
- In contesti di dominio aperto per i consumatori, queste informazioni possono essere reperite da documenti indicizzati su Internet. In contesti aziendali a dominio chiuso, in genere si utilizza un insieme più ristretto di fonti per migliorare la sicurezza e l'affidabilità delle informazioni interne. Ad esempio, il sistema RAG può cercare:
- Fattori contestuali attuali, come gli aggiornamenti meteo in tempo reale e la posizione precisa dell'utente.
- Dettagli incentrati sull'utente, i suoi ordini precedenti sul sito web, le sue interazioni con il sito web e lo stato attuale del suo account.
- Dati fattuali rilevanti in recuperato documenti che sono privati o sono stati aggiornati dopo il percorso formativo LLM.
Nella fase di generazione dei contenuti :
- Dopo aver recuperato gli embedding pertinenti, entra in gioco un modello linguistico generativo, come ad esempio un modello basato su transformer come GPT. Questo modello utilizza il contesto recuperato per generare risposte in linguaggio naturale. Il testo generato può essere ulteriormente condizionato o perfezionato in base al contenuto recuperato per garantire che sia coerente con il contesto e contestualmente accurato. Il sistema può includere link o riferimenti alle fonti consultate a scopo di trasparenza e verifica.
I modelli LLM di RAG utilizzano due sistemi per ottenere dati esterni:
- Database vettoriale: i database vettoriali aiutano a trovare documenti pertinenti tramite ricerche di similarità. Possono funzionare in modo indipendente o essere integrati nell'applicazione LLM.
- Archivi di caratteristiche: si tratta di sistemi o piattaforme per gestire e archiviare le caratteristiche dei dati strutturati utilizzati nelle applicazioni di apprendimento automatico e intelligenza artificiale. Forniscono dati organizzati e accessibili per i processi di addestramento e inferenza nei modelli di apprendimento automatico come i modelli lineari lineari (LLM).
Che cos'è la generazione potenziata dal recupero nei modelli linguistici di grandi dimensioni?
I modelli RAG generano soluzioni in grado di affrontare le sfide poste dai modelli linguistici di grandi dimensioni (LLM). Questi problemi principali includono:
- Accesso e manipolazione della conoscenza limitati: i modelli lineari basati su logica (LLM) faticano a mantenere aggiornata la loro conoscenza del mondo, poiché gli aggiornamenti del loro set di dati di addestramento sono impraticabili. Inoltre, presentano limitazioni nella manipolazione precisa della conoscenza. Questa limitazione influisce sulle loro prestazioni in compiti ad alta intensità di conoscenza, spesso facendoli rimanere indietro rispetto alle architetture specifiche per il compito. Ad esempio, i modelli lineari basati su logica mancano di conoscenze specifiche del dominio, poiché sono addestrati per compiti generalizzati.
- Mancanza di trasparenza: i LLM faticano a fornire informazioni trasparenti su come prendono le decisioni. È difficile risalire al come e al perché giungono a determinate conclusioni o risposte, per questo sono spesso considerati delle "scatole nere".
- Allucinazioni nelle risposte: i modelli linguistici possono rispondere a domande che sembrano accurate o coerenti, ma che in realtà sono completamente inventate o inaccurate. Affrontare e ridurre le allucinazioni è una sfida cruciale per migliorare l'affidabilità e la credibilità dei contenuti generati dai modelli linguistici.
Quali sono i diversi tipi di RAG?
RAG speculativo
Il metodo RAG speculativo sfrutta un modello linguistico (LM) più piccolo e specializzato per generare in parallelo diverse risposte da differenti sottoinsiemi di documenti, mentre un modello linguistico più ampio e generalista verifica e seleziona la risposta migliore. Questo approccio a doppio sistema migliora la precisione riducendo al contempo la latenza, risultando ideale per applicazioni ad alta produttività in cui velocità e accuratezza sono fondamentali.
Recupero-Aumento della messa a punto (RAFT)
RAFT combina RAG con la messa a punto supervisionata per migliorare le prestazioni specifiche del dominio. Si può pensare a questo processo come alla preparazione di un esame a libro aperto: invece di affidarsi a documenti esterni al momento della query (RAG) o di memorizzare tutto (messa a punto), RAFT addestra il modello a "studiare" i documenti in anticipo.
Come funziona:
- I dati di addestramento includono domande, documenti "oracolo" (contenenti la risposta) e documenti "distraenti" (rumore irrilevante).
- Il modello impara a identificare le informazioni rilevanti ignorando i distrattori.
- Le risposte basate su un ragionamento sequenziale migliorano la qualità del ragionamento.
Considerazioni: Ricerche recenti suggeriscono che RAFT offre i miglioramenti più significativi sui modelli LLM più datati. I modelli più recenti potrebbero mostrare miglioramenti più modesti, in quanto dispongono di migliori meccanismi di recupero integrati.
Architetture RAG avanzate
Il panorama RAG si è evoluto oltre i tipi standard "Contestuale" e "Speculativo", evolvendo in architetture sofisticate progettate per il ragionamento complesso. Il modello di base "recupera e poi genera" viene sostituito da cicli in cui il modello dialoga attivamente con chi recupera le informazioni.
RAG basato su grafi (GraphRAG)
GraphRAG va oltre il semplice recupero di frammenti di testo. Costruisce un grafo della conoscenza in cui documenti ed entità sono nodi, consentendo al sistema di recuperare "sottografi" o percorsi di ragionamento anziché frammenti isolati.
- Come funziona: anziché classificare i passaggi in modo isolato, il sistema identifica le relazioni (archi) tra le entità. Può percorrere queste connessioni per rispondere a domande che richiedono più passaggi (ad esempio, "Qual è la relazione tra l'amministratore delegato dell'azienda A e il fornitore dell'azienda B?").
- Consapevolezza della struttura: sistemi come G-RETRIEVER costruiscono sottografi connessi minimi che codificano contesti multi-hop prima ancora che l'LLM veda il prompt, migliorando la fedeltà e riducendo le allucinazioni.
- Ideale per: Attività di ragionamento complesse in cui le relazioni tra i punti dati sono più importanti della corrispondenza delle parole chiave.
RAG ibrido e contestuale
- RAG contestuale: migliora il recupero standard pre-elaborando i blocchi con "incorporamenti contestuali" o riepiloghi che spiegano perché un blocco è rilevante, riducendo gli errori di recupero.
- Recupero ibrido : combina il recupero denso (vettori semantici) con il recupero sparso (parole chiave BM25). Il recupero denso cattura il significato semantico, mentre BM25 individua le corrispondenze esatte delle parole chiave che la ricerca semantica potrebbe non rilevare. Questa combinazione è ora considerata una best practice per ridurre al minimo gli errori di recupero.
RAG agente
Le pipeline agentiche utilizzano un controller LLM per orchestrare più strumenti e banchi di memoria. L'agente può pianificare un flusso di lavoro (ad esempio, "Recupera i dati finanziari", poi "Usa lo strumento calcolatrice", poi "Riepiloga").
- Orchestrazione: a differenza del modello RAG lineare, un sistema agentico utilizza token di pianificazione (PENSIERO, AZIONE, OSSERVAZIONE) per decidere dinamicamente la sua prossima mossa.
- Utilizzo degli strumenti: consente di sostituire gli strumenti a caldo (ad esempio, passando da un indice vettoriale denso a una query di database SQL) a seconda delle intenzioni dell'utente.
RAG iterativo e attivo
Questi sistemi trattano il recupero delle informazioni come un ciclo conversazionale piuttosto che come un'azione isolata. Il modello determina quando recuperare le informazioni e cosa conservare.
- RAG attivo (FLARE): Meccanismi come FLARE (Forward-Looking Active REtrieval) monitorano l'affidabilità del modello durante la generazione. Se il modello genera token a bassa affidabilità, si ferma per formulare una query di ricerca e recuperare nuovi dati, anziché generare informazioni errate. Questo è particolarmente efficace per la generazione di testi lunghi, dove le esigenze informative si evolvono nel corso del testo.
- Self-RAG: Il modello genera "token di riflessione" (ad esempio,
Retrieve,ISREL,ISSUP,ISUSE) per criticare il contenuto recuperato. Valuta se i passaggi sono pertinenti, se il contenuto generato è supportato da prove e l'utilità complessiva della risposta, decidendo se mantenere, perfezionare o scartare le prove prima di generare la risposta finale. - Perfezionamento ciclico: architetture come Chain-of-Note obbligano il LLM a scrivere note concise sui documenti recuperati per valutarne l'affidabilità prima di sintetizzare una risposta.
Come valutare i sistemi RAG
La valutazione di RAG è più complessa rispetto ai test LLM standard perché richiede la valutazione di due componenti distinte: il Retriever (trovare i dati corretti) e il Generator (sintetizzare la risposta in modo accurato). La comunità di ricerca si è allontanata dalle semplici metriche superficiali (come BLEU o ROUGE) per orientarsi verso framework di valutazione semantica e algoritmica che misurano tre pilastri fondamentali: rilevanza del contesto , fedeltà e rilevanza della risposta .
Matrice di valutazione RAG
1. Metriche a livello di componente
Per diagnosticare i problemi di prestazioni, è necessario valutare separatamente le fasi di recupero e di generazione.
Metriche di recupero (Fase di ricerca)
Se il sistema di recupero fallisce, il generatore non ha alcuna possibilità. I parametri chiave includono:
- Precision@k e Recall@k: la precisione misura quanti dei documenti recuperati sono effettivamente pertinenti, mentre il richiamo misura se il sistema ha trovato tutti i documenti pertinenti disponibili nel database.
- Rango reciproco medio (MRR): questo parametro è fondamentale per i sistemi RAG, dove l'LLM presta maggiore attenzione ai primi blocchi di dati. L'MRR valuta la posizione in cui si trova il primo documento rilevante all'interno della lista.
- Guadagno cumulativo scontato normalizzato (nDCG): a differenza delle metriche binarie successo/fallimento, l'nDCG tiene conto della rilevanza graduata, premiando i sistemi che posizionano i documenti più utili nella parte superiore della finestra di contesto.
Metriche di generazione (La fase di risposta)
- Fedeltà (o fondamento): Misura se la risposta generata deriva esclusivamente dal contesto recuperato. Questa è la metrica principale per rilevare le allucinazioni; se il modello aggiunge informazioni non presenti nella fonte, la fedeltà diminuisce.
- Pertinenza della risposta: valuta se la risposta affronta effettivamente la domanda dell'utente, assicurandosi che il modello non si limiti a riassumere il contesto senza rispondere alla domanda specifica.
- Rifiuto negativo: una metrica di sicurezza critica che verifica la capacità del sistema di dire "Non lo so" quando il contesto recuperato non contiene la risposta, anziché illudersi con una falsità plausibile.
2. Framework di valutazione automatizzata
Affidarsi esclusivamente alla valutazione umana è lento e costoso. Lo standard del settore si è spostato verso framework "LLM come giudice", in cui un modello solido valuta gli output della pipeline RAG.
- RAGAS (Reference-Free Evaluation): RAGAS sfrutta modelli linguistici interni per valutare la qualità delle risposte senza la necessità di risposte "standard aureo" etichettate da esseri umani. Fornisce un set completo di metriche, tra cui precisione del contesto, richiamo del contesto, fedeltà e pertinenza della risposta. RAGAS è altamente efficiente e scalabile dal punto di vista operativo, sebbene possa essere sensibile alle specifiche richieste utilizzate per la valutazione.
- ARES (Automated RAG Evaluation System): ARES affina i giudici LM leggeri utilizzando dati di addestramento sintetici per valutare la rilevanza del contesto, la fedeltà della risposta e la pertinenza della risposta. Utilizza l'inferenza basata sulla previsione (PPI) con un piccolo set (~150+) di punti dati annotati da esseri umani per generare intervalli di confidenza. Sebbene ARES offra una maggiore precisione e rimanga efficace anche in caso di cambiamenti di dominio, richiede una configurazione più complessa rispetto a RAGAS.
3. Benchmarking avanzato
Oltre alla precisione di base, i benchmark avanzati testano specifiche modalità di guasto:
- Robustezza al rumore: il modello è in grado di filtrare i documenti irrilevanti inseriti nella finestra di contesto?
- Integrazione delle informazioni: il modello è in grado di sintetizzare una risposta che richieda la combinazione di indizi provenienti da più documenti distinti (ragionamento multi-hop)?
- Robustezza controfattuale: il modello è in grado di identificare e correggere gli errori quando le informazioni recuperate sono in conflitto con la sua conoscenza parametrica interna (o viceversa)?
Quali sono i vantaggi della generazione aumentata tramite recupero delle informazioni?
Le formulazioni RAG possono essere applicate a diverse applicazioni di elaborazione del linguaggio naturale (NLP), tra cui chatbot, sistemi di risposta a domande e generazione di contenuti, dove il recupero corretto delle informazioni e la generazione del linguaggio naturale sono fondamentali. I principali vantaggi offerti da RAG includono:
Maggiore pertinenza e accuratezza
Gli strumenti e i modelli di intelligenza artificiale generale, come ChatGPT, hanno il potenziale per automatizzare le attività di elaborazione del linguaggio naturale (NLP) ad alta intensità di conoscenza, che rappresentano circa il 70% del tempo dei dipendenti. 3 Tuttavia, circa il 67% dei leader aziendali e degli analisti ritiene che i contenuti generati dall'IA siano distorti o inaccurati, riducendo il tasso di adozione dei LLM. 4
Grazie all'integrazione di un componente di recupero delle informazioni, i modelli RAG possono accedere a fonti di conoscenza esterne, garantendo che il testo generato sia basato su informazioni accurate e aggiornate. Ciò si traduce in risposte più pertinenti e precise dal punto di vista contestuale, riducendo le incertezze nella risposta alle domande e nella generazione di contenuti.
Coerenza contestuale
I modelli basati sul recupero di informazioni forniscono un contesto per il processo di generazione, facilitando la creazione di testi coerenti e contestualmente appropriati. Ciò si traduce in risposte più coese e comprensibili, poiché il componente di generazione può basarsi sulle informazioni recuperate.
Gestione delle query di dominio aperto
I modelli RAG eccellono nel rispondere a domande a dominio aperto, in cui le informazioni richieste potrebbero non essere presenti nei dati di addestramento. Il componente di recupero può estrarre informazioni pertinenti da una vasta base di conoscenza, consentendo al modello di fornire risposte o generare contenuti su vari argomenti.
Distorsione generazionale ridotta
L'integrazione del recupero di informazioni può contribuire a mitigare alcuni bias intrinseci nei modelli puramente generativi. Sfruttando le informazioni esistenti provenienti da una vasta gamma di fonti, i modelli RAG possono generare risposte meno distorte e più oggettive.
Calcolo efficiente
I modelli basati sul recupero di informazioni possono essere computazionalmente efficienti per compiti in cui la base di conoscenza è disponibile e strutturata. Invece di generare risposte da zero, possono recuperare e adattare le informazioni esistenti, riducendo il costo computazionale.
Capacità multimodali
I modelli RAG possono essere estesi per funzionare con diverse modalità, come testo e immagini. Ciò consente loro di generare testo contestualmente rilevante per contenuti testuali e visivi, aprendo la strada ad applicazioni nella generazione di didascalie per immagini, nella sintesi di contenuti e altro ancora.
Personalizzazione e messa a punto
I modelli RAG possono essere personalizzati per specifici domini o casi d'uso. Questa adattabilità li rende adatti a diverse applicazioni, tra cui chatbot specifici per un determinato dominio, assistenza clienti e sistemi di recupero delle informazioni.
Collaborazione uomo-intelligenza artificiale
I modelli RAG possono aiutare gli esseri umani nelle attività di recupero delle informazioni riassumendo e presentando rapidamente le informazioni rilevanti da una base di conoscenza, riducendo il tempo e lo sforzo richiesti per la ricerca manuale.
Ottimizzazione vs. Generazione aumentata tramite recupero
In genere, un modello di base può acquisire nuove conoscenze attraverso due metodi principali:
- Messa a punto: questo processo richiede la regolazione dei modelli pre-addestrati in base a un set di dati di addestramento e ai pesi del modello.
- RAG: Questo metodo introduce la conoscenza attraverso input di modello o inserisce informazioni in una finestra di contesto.
La messa a punto fine è stata una pratica comune. Tuttavia, non è consigliabile per migliorare il ricordo dei fatti, bensì per perfezionarne le prestazioni in compiti specifici. Ecco un confronto completo tra i due approcci:
Dichiarazioni di non responsabilità
RAG è un campo emergente, motivo per cui esistono poche fonti in grado di classificare questi strumenti e framework. Pertanto, AIMultiple si è basata sulle dichiarazioni pubbliche dei fornitori per tale classificazione. AIMultiple migliorerà questo elenco di fornitori e la relativa classificazione man mano che il mercato crescerà.
I modelli e le librerie RAG elencati sopra sono ordinati alfabeticamente in questa pagina poiché AIMultiple al momento non ha accesso a metriche più pertinenti per classificare queste aziende.
Gli elenchi dei fornitori non sono esaustivi.
Per approfondire
Scopri gli ultimi sviluppi su LLM e LLMOps consultando:
- Confronto tra oltre 10 strumenti LLMOps: un benchmark completo dei fornitori.
- Confronto tra i migliori 20+ strumenti di governance dell'IA: un benchmark dei fornitori.
- Modelli di embedding: OpenAI vs Gemini vs Cohere
- RAG ibrido: miglioramento della precisione del RAG
Sii il primo a commentare
Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori.