Contattaci
Nessun risultato trovato.

RAG Benchmarks: modelli di embedding, database vettoriali, RAG agentico

RAG migliora l'affidabilità di LLM con fonti di dati esterne. Abbiamo testato l'intera pipeline di RAG: i principali modelli di embedding, i migliori database vettoriali e i più recenti framework agentici, tutti valutati in base alle loro prestazioni nel mondo reale.

Esplora RAG Benchmarks: modelli di embedding, database vettoriali, RAG agentico

Oltre 20 framework RAG per agenti

STRACCIOMag 8

Agentic RAG migliora il RAG tradizionale potenziando le prestazioni di LLM e consentendo una maggiore specializzazione. Abbiamo condotto un benchmark per valutarne le prestazioni nel routing tra più database e nella generazione di query. Scopri i framework e le librerie di agentic RAG, le principali differenze rispetto al RAG standard, i vantaggi e le sfide per sbloccarne il pieno potenziale.

Per saperne di più
STRACCIOMag 1

Modelli di embedding: OpenAI vs Gemini vs Cohere

L'efficacia di qualsiasi sistema di generazione aumentata tramite recupero (RAG) dipende dalla precisione del suo recuperatore. Abbiamo confrontato 11 modelli di embedding di testo leader, inclusi quelli di OpenAI, Gemini, Cohere, Snowflake, AWS, Mistral e Voyage AI, utilizzando circa 500.000 recensioni di Amazon. Abbiamo valutato la capacità di ciascun modello di recuperare e classificare prima la risposta corretta.

STRACCIOApr 26

Benchmark dei modelli di embedding open source per RAG

Abbiamo confrontato le prestazioni di 14 modelli di embedding open source, self-hosted su un singolo H100, su oltre 500 query di recupero curate manualmente, che spaziano da contratti legali, note tecniche di assistenza clienti e abstract medici. NVIDIA Llama-Embed-Nemotron-8B è il migliore in termini di accuratezza. Per quanto riguarda i costi, EmbeddingGemma-300m di Google risulta circa 4 volte più economico di Nemotron, a scapito di una leggera perdita di accuratezza.

STRACCIOApr 16

RAG ibrido: miglioramento della precisione del RAG

La ricerca vettoriale densa è eccellente nel catturare l'intento semantico, ma spesso ha difficoltà con le query che richiedono un'elevata precisione delle parole chiave. Per quantificare questo divario, abbiamo confrontato un retriever standard basato esclusivamente su vettori densi con un sistema RAG ibrido che incorpora vettori sparsi SPLADE.

STRACCIOApr 15

Benchmark di Reranker: confronto tra gli 8 migliori modelli

Abbiamo confrontato 8 modelli di riordinamento su circa 145.000 recensioni Amazon in inglese per misurare quanto una fase di riordinamento migliori il recupero denso. Abbiamo recuperato i primi 100 candidati con multilingual-e5-base, li abbiamo riordinati con ciascun modello e abbiamo valutato i primi 10 risultati rispetto a 300 query, ognuna delle quali faceva riferimento a dettagli concreti dalla recensione di origine.

STRACCIOApr 15

Modelli di embedding multimodali: Apple vs Meta vs OpenAI

I modelli di embedding multimodale eccellono nell'identificazione degli oggetti ma faticano a gestire le relazioni. I modelli attuali hanno difficoltà a distinguere "telefono su una mappa" da "mappa su un telefono". Abbiamo eseguito un benchmark su 7 modelli leader su MS-COCO e Winoground per misurare questa specifica limitazione. Per garantire un confronto equo, abbiamo valutato ogni modello in condizioni identiche utilizzando l'hardware NVIDIA A40 e una precisione bfloat16.

STRACCIOApr 15

I 10 migliori modelli di embedding multilingue per RAG

Abbiamo testato 10 modelli di embedding multilingue su circa 606.000 recensioni di Amazon in 6 lingue (tedesco, inglese, spagnolo, francese, giapponese, cinese). Abbiamo generato 1.800 query (300 per lingua), ognuna delle quali faceva riferimento a dettagli concreti della recensione di origine.

STRACCIOMar 27

Confronto tra RAG grafico e RAG vettoriale

Vector RAG recupera i documenti in base alla similarità semantica. Graph RAG aggiunge un grafo della conoscenza, estrae entità e relazioni dai documenti, le memorizza in un database a grafo e utilizza l'attraversamento del grafo insieme alla ricerca vettoriale in fase di interrogazione. Abbiamo effettuato un benchmark per verificare se questo livello aggiuntivo migliora il recupero e l'accuratezza delle risposte su 3.

STRACCIOMar 23

RAG Strumenti di osservabilità - Benchmark

Abbiamo eseguito un benchmark di quattro piattaforme di osservabilità RAG su una pipeline LangGraph a 7 nodi, considerando tre dimensioni pratiche: overhead di latenza, sforzo di integrazione e compromessi tra piattaforme. Metriche dell'overhead di latenza Spiegazione delle metriche: La media è la latenza media su 150 chiamate graph.invoke() misurate. Le valutazioni di LLM-judge vengono eseguite dopo l'arresto del timer. La mediana è la latenza al 50° percentile.

STRACCIOMar 23

Strumenti di valutazione RAG: pesi e pregiudizi vs Ragas vs DeepEval

Quando una pipeline RAG recupera il contesto sbagliato, l'LLM genera con sicurezza la risposta errata. I punteggi di rilevanza del contesto sono la principale difesa. Abbiamo confrontato cinque strumenti su 1.460 domande e oltre 14.600 contesti valutati in condizioni identiche: stesso modello di valutazione (GPT-4o), configurazioni predefinite e nessun prompt personalizzato.

STRACCIOFeb 4

I migliori strumenti, framework e librerie RAG

RAG (Retrieval-Augmented Generation) migliora le risposte LLM aggiungendo fonti di dati esterne. Abbiamo confrontato diversi modelli di embedding e testato separatamente varie dimensioni dei chunk per determinare quali combinazioni funzionano meglio per i sistemi RAG. Esplora i principali framework e strumenti RAG, scopri cos'è RAG, come funziona, i suoi vantaggi e il suo ruolo nel panorama LLM odierno.

FAQ