RAG Benchmarks: modelli di embedding, database vettoriali, RAG agentico
RAG migliora l'affidabilità di LLM con fonti di dati esterne. Abbiamo testato l'intera pipeline di RAG: i principali modelli di embedding, i migliori database vettoriali e i più recenti framework agentici, tutti valutati in base alle loro prestazioni nel mondo reale.
Esplora RAG Benchmarks: modelli di embedding, database vettoriali, RAG agentico
RAG Strumenti di osservabilità - Benchmark
Abbiamo eseguito un benchmark di quattro piattaforme di osservabilità RAG su una pipeline LangGraph a 7 nodi, considerando tre dimensioni pratiche: overhead di latenza, sforzo di integrazione e compromessi tra piattaforme. Metriche dell'overhead di latenza Spiegazione delle metriche: La media è la latenza media su 150 chiamate graph.invoke() misurate. Le valutazioni di LLM-judge vengono eseguite dopo l'arresto del timer. La mediana è la latenza al 50° percentile.
Framework RAG: LangChain vs LangGraph vs LlamaIndex
Abbiamo eseguito un benchmark su 5 framework RAG: LangChain, LangGraph, LlamaIndex, Haystack e DSPy, costruendo lo stesso flusso di lavoro RAG agentico con componenti standardizzati: modelli identici (GPT-4.1-mini), embedding (BGE-small), retriever (Qdrant) e strumenti (ricerca web Tavily). Questo isola il vero overhead e l'efficienza dei token di ciascun framework.
Modelli di embedding multimodali: Apple vs Meta vs OpenAI
I modelli di embedding multimodale eccellono nell'identificazione degli oggetti ma faticano a gestire le relazioni. I modelli attuali hanno difficoltà a distinguere "telefono su una mappa" da "mappa su un telefono". Abbiamo eseguito un benchmark su 7 modelli leader su MS-COCO e Winoground per misurare questa specifica limitazione. Per garantire un confronto equo, abbiamo valutato ogni modello in condizioni identiche utilizzando l'hardware NVIDIA A40 e una precisione bfloat16.
Benchmark di Reranker: confronto tra gli 8 migliori modelli
Abbiamo confrontato 8 modelli di riordinamento su circa 145.000 recensioni Amazon in inglese per misurare quanto una fase di riordinamento migliori il recupero denso. Abbiamo recuperato i primi 100 candidati con multilingual-e5-base, li abbiamo riordinati con ciascun modello e abbiamo valutato i primi 10 risultati rispetto a 300 query, ognuna delle quali faceva riferimento a dettagli concreti dalla recensione di origine.
RAG ibrido: miglioramento della precisione RAG
Dense vector search is excellent at capturing semantic intent, but it often struggles with queries that demand high keyword accuracy. To quantify this gap, we benchmarked a standard dense-only retriever against a hybrid RAG system that incorporates SPLADE sparse vectors.
Modelli di embedding: OpenAI vs Gemini vs Cohere
L'efficacia di qualsiasi sistema di generazione aumentata tramite recupero (RAG) dipende dalla precisione del suo recuperatore. Abbiamo confrontato 11 modelli di embedding di testo leader, inclusi quelli di OpenAI, Gemini, Cohere, Snowflake, AWS, Mistral e Voyage AI, utilizzando circa 500.000 recensioni di Amazon. Abbiamo valutato la capacità di ciascun modello di recuperare e classificare prima la risposta corretta.
Benchmark dei modelli di embedding open source per RAG
Abbiamo confrontato le prestazioni di 14 modelli di embedding open source, self-hosted su un singolo H100, su oltre 500 query di recupero curate manualmente, che spaziano da contratti legali, note tecniche di assistenza clienti e abstract medici. NVIDIA Llama-Embed-Nemotron-8B è il migliore in termini di accuratezza. Per quanto riguarda i costi, EmbeddingGemma-300m di Google risulta circa 4 volte più economico di Nemotron, a scapito di una leggera perdita di accuratezza.
I 10 migliori modelli di embedding multilingue per RAG
Abbiamo testato 10 modelli di embedding multilingue su circa 606.000 recensioni di Amazon in 6 lingue (tedesco, inglese, spagnolo, francese, giapponese, cinese). Abbiamo generato 1.800 query (300 per lingua), ognuna delle quali faceva riferimento a dettagli concreti della recensione di origine.
Confronto tra RAG grafico e RAG vettoriale
Vector RAG recupera i documenti in base alla similarità semantica. Graph RAG aggiunge un grafo della conoscenza, estrae entità e relazioni dai documenti, le memorizza in un database a grafo e utilizza l'attraversamento del grafo insieme alla ricerca vettoriale in fase di interrogazione. Abbiamo effettuato un benchmark per verificare se questo livello aggiuntivo migliora il recupero e l'accuratezza delle risposte su 3.
Strumenti di valutazione RAG: pesi e pregiudizi vs Ragas vs DeepEval
Quando una pipeline RAG recupera il contesto sbagliato, l'LLM genera con sicurezza la risposta errata. I punteggi di rilevanza del contesto sono la principale difesa. Abbiamo confrontato cinque strumenti su 1.460 domande e oltre 14.600 contesti valutati in condizioni identiche: stesso modello di valutazione (GPT-4o), configurazioni predefinite e nessun prompt personalizzato.