I 10 migliori modelli di embedding multilingue per RAG

aggiornato il Feb 20, 2026

Abbiamo testato 10 modelli di embedding multilingue su circa 606.000 recensioni di Amazon in 6 lingue (tedesco, inglese, spagnolo, francese, giapponese, cinese). Abbiamo generato 1.800 query (300 per lingua), ognuna delle quali faceva riferimento a dettagli specifici della recensione di origine.

I modelli addestrati per la ricerca (separazione tra query e documenti) superano in prestazioni i modelli più grandi addestrati per la similarità testuale generale: e5_base (110 milioni di parametri) supera modelli con un numero di parametri da 5 a 70 volte superiore, mentre LaBSE (471 milioni di parametri), un modello multilingue ampiamente citato, si classifica penultimo.

accuratezza del recupero multilingue

Top-1 indica se la recensione corretta è il primo risultato visualizzato; Top-10 indica se compare in una qualsiasi delle prime dieci posizioni.

Precisione al top-1

Loading Chart

Precisione Top 3

Precisione tra i primi 5

Precisione tra i primi 10

Spiegazione delle metriche

Accuratezza Top-K: se il documento corretto (corrispondenza esatta con product_id) compare tra i primi K risultati. "Il modello è in grado di trovare la recensione tedesca corretta tra circa 130.000 recensioni tedesche quando gli viene posta una domanda in tedesco?"
Top-1/3/5/10: Valori K testati. Top-1 è il più rigoroso (il documento corretto deve essere il primo risultato), Top-10 è il più permissivo.

Per comprendere nel dettaglio la nostra valutazione e le metriche utilizzate, consultare la nostra configurazione di valutazione e la metodologia di benchmarking per i modelli di embedding multilingue.

Corpus : ~606.000 recensioni (min_review_length≥100 caratteri; ZH: ~17.700, DE/EN/ES/FR/JA: ~120–145.000 ciascuna), nessun fallback di similarità coseno, solo corrispondenza esatta product_id. Valutato su NVIDIA H100 PCIe 80GB.

Latenza e throughput

La latenza determina se un modello è adatto alla produzione. I modelli con latenza inferiore a 15 ms possono supportare la ricerca in tempo reale; al di sopra di 25 ms, è necessario il batching o la memorizzazione nella cache.

Principali risultati

1. e5_base è leader in tutte le lingue

e5_base raggiunge una media Top-1 del 16,5% su 6 lingue, superando il modello successivo (e5_small) di 3,8 punti percentuali. Il suo addestramento asimmetrico con prefissi query/passage produce embedding precisi che discriminano bene tra recensioni semanticamente simili nella stessa lingua.

2. I modelli basati su LLM sono competitivi nonostante le loro dimensioni

qwen3_emb_06b (600 milioni di parametri) e llama_embed_nemotron_8b (8 miliardi di parametri) raggiungono entrambi un'accuratezza monolingue superiore al 10%. Il loro massiccio pre-addestramento multilingue sembra costruire rappresentazioni che la messa a punto del recupero non riesce a cancellare completamente, rimanendo competitivi con modelli che hanno una frazione del loro numero di parametri. nemotron raggiunge il 25,8% nella Top-10, il terzo miglior risultato in assoluto.

3. nomic_embed_v1_5 non funziona con le lingue CJK

Nomic raggiunge un'accuratezza dello 0% in cinese e solo del 4% in giapponese, risultando l'unico modello a fallire completamente con intere lingue. Il suo addestramento incentrato sull'inglese, combinato con l'asimmetria dei prefissi search_query/search_document, crea gravi lacune di copertura per le lingue non europee, nonostante funzioni bene per l'inglese (17% Top-1) e il tedesco (9%).

4. LaBSE non riesce a recuperare i dati nonostante la sua reputazione.

LaBSE è stato esplicitamente progettato per la similarità semantica multilingue ed è ampiamente citato in letteratura. In questo benchmark, si classifica penultimo (4,8% Top-1). Il suo addestramento su coppie di traduzioni e inferenza del linguaggio naturale non ha sviluppato la precisione discriminante necessaria per il recupero: distinguere la recensione originale esatta da centinaia di prodotti semanticamente simili nella stessa lingua.

5. La scalatura Top-10 avvantaggia tutti i modelli, ma soprattutto quelli più robusti.

Il passaggio da Top-1 a Top-10 raddoppia il richiamo su tutta la linea. Nemotron mostra la migliore media monolingue Top-10 (25,8%) nonostante si classifichi al 3° posto in Top-1 (12,0%), suggerendo che il suo spazio a 4096 dimensioni ha una buona struttura di vicini più prossimi a K più grande.

6. Spagnolo e francese registrano costantemente prestazioni inferiori alla media.

In tutti i modelli, ES e FR si classificano costantemente al di sotto di DE, EN, JA e ZH. Questo schema si conferma anche per i modelli con addestramento multilingue esplicito, suggerendo una minore rappresentazione nei corpus di pre-addestramento o una discrepanza di dominio per le recensioni dei prodotti.

Come funzionano gli embedding multilingue

Un modello di embedding converte il testo in un vettore ad alta dimensionalità (ad esempio, 384 o 768 numeri) che cattura il significato del testo piuttosto che le singole parole. Due testi semanticamente simili dovrebbero avere vettori vicini in questo spazio, indipendentemente dalla lingua.

Un modello di embedding multilingue gestisce più lingue nello stesso spazio vettoriale. Quando viene utilizzato per il recupero di informazioni, il modello deve trovare il documento corretto tra decine di migliaia di recensioni nella stessa lingua che spesso trattano prodotti e argomenti simili. La sfida consiste nella precisione discriminante: distinguere la recensione originale esatta da centinaia di recensioni semanticamente simili nella stessa categoria.

Configurazione di valutazione multilingue

Circa 606.000 recensioni di prodotti sono indicizzate in Qdrant (solo recensioni con un corpo di almeno 100 caratteri; ZH: circa 17.700, altre lingue: circa 120-145.000 ciascuna). 1.800 query (300 per lingua) vengono generate nativamente da LLM a partire da recensioni che soddisfano la stessa soglia di lunghezza. Ogni query deve fare riferimento a dettagli concreti della recensione di origine (misure, quantità, nomi di marchi, tempistiche); le domande generiche vengono filtrate tramite un punteggio di specificità. Data una query nella lingua X, il compito è trovare la recensione di origine tra le recensioni nella stessa lingua. Qdrant filtra i risultati per lingua. L'accuratezza viene misurata tramite la corrispondenza esatta dell'ID prodotto nei risultati Top-1/3/5/10 senza fallback di similarità coseno.

Esempi di query dal benchmark:

Tedesco (elettronica, OPINIONE):

Francese (farmacia, USO):

Spagnolo (forniture industriali, FATTUALITÀ):

Il modello deve associare ogni query alla sua recensione di origine esatta tramite product_id. Una query sulla perdita di segnale Wi-Fi da un cavo per antenna potrebbe corrispondere semanticamente a migliaia di recensioni di prodotti elettronici che discutono di problemi di connettività; solo una descrive un calo del segnale dal 60% al 20% dopo l'installazione di questo specifico cavo.

Analisi tecnica e raccomandazioni

Modelli simmetrici vs modelli asimmetrici

L'obiettivo dell'addestramento predice in larga misura le prestazioni di recupero:

Perché i modelli asimmetrici offrono le migliori prestazioni: il prefisso query/passaggio addestra il modello a incorporare query e documenti in regioni sistematicamente diverse dello spazio, creando una geometria specifica per il recupero. Questo produce embedding più discriminanti che separano documenti semanticamente simili ma distinti. e5_base raggiunge questo risultato con 110 milioni di parametri perché l'obiettivo di addestramento, non la capacità del modello, determina la precisione del recupero.

Perché i modelli basati su LLM sono competitivi: il pre-addestramento multilingue su larga scala crea una ricca struttura semantica nei pesi del modello. La messa a punto del recupero aggiunge un allineamento specifico per il compito a questa profonda comprensione del linguaggio, con conseguenti prestazioni competitive. Il compromesso è la latenza: i vettori a 4096 dimensioni di Nemotron costano 25 ms per query contro gli 11 ms di e5_base.

Perché LaBSE fallisce nonostante la sua reputazione: LaBSE è stato addestrato su coppie di traduzioni per avvicinare il significato a livello di frase tra le lingue, un compito di similarità. Il recupero è fondamentalmente diverso: richiede di distinguere la recensione esatta della fonte da centinaia di prodotti semanticamente simili nella stessa lingua. L'addestramento per la similarità ottimizza la vicinanza semantica a grana grossa; il recupero richiede una discriminazione a grana fine tra quasi-doppioni.

Quale modello dovresti usare?

Massima precisione: e5_base (16,5% Top-1, latenza 11 ms). Da utilizzare con un filtro lingua.

Miglior compromesso tra latenza e precisione: e5_small (12,7% Top-1, 9,7 ms), quasi veloce come minilm con una precisione migliore.

Miglior recall top-10: nemotron (25,8% Top-10) se puoi permetterti una latenza di 25 ms e memoria GPU per vettori a 4096 dimensioni.

Per i sistemi di produzione sensibili alla latenza: e5_small o minilm a ~10 ms. e5_small è nettamente preferito (12,7% contro 3,8%).

Utilizza sempre un filtro lingua quando sai che la lingua della query e quella del documento corrispondono. Tutti i modelli mostrano un significativo miglioramento dell'accuratezza con la ricerca filtrata per lingua.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Segui

Metodologia dei modelli di embedding multilingue

GPU: NVIDIA H100 PCIe 80GB tramite Runpod
Database vettoriale: Qdrant 1.12.0 (binario locale)
Libreria di integrazione: sentence-transformers 5.2.2
Generazione della query: Claude Sonnet 4.6 tramite OpenRouter. Ogni domanda deve fare riferimento a dettagli specifici dalla sua revisione della fonte; le domande generiche (punteggio di specificità < 4/5) vengono filtrate.
Dataset: Recensioni Amazon multiple (Kaggle) ¹ , train.csv. Circa 606.000 recensioni indicizzate (minimo 100 caratteri; ZH: circa 17.700, altre: circa 120-145.000 ciascuna). 6 lingue: DE, EN, ES, FR, JA, ZH.
Query: 1.800 in totale (300 per lingua, 5 tipologie di domande, generate nativamente in ciascuna lingua).
Formato del documento: "Review Title: {title}\nReview: {body}"
Verità reale: solo corrispondenza esatta dell'ID prodotto. Nessun fallback basato sulla similarità del coseno.
Ricerca: Qdrant ricerca vettoriale con distanza coseno. Top-K = 10. Filtro lingua applicato per la valutazione monolingue.
Incorporamento: normalizzazione L2. Prefissi asimmetrici ove applicabile: "query: " / "passage: " (e5), "search_query: " / "search_document: " (nomic).
Nessuna messa a punto: tutti i modelli sono stati valutati zero-shot con pesi predefiniti.
Latenza: solo inferenza di embedding (singola query). Non include il tempo di ricerca del vettore.

Modelli valutati

Perché i punteggi sono inferiori a quelli di BEIR/MTEB?

I valori di accuratezza assoluta in questo benchmark non devono essere confrontati direttamente con i punteggi riportati su BEIR o MTEB. I due benchmark differiscono in diversi aspetti strutturali:

La metrica della corrispondenza esatta è la differenza strutturale più significativa. Ogni query fa riferimento a dettagli concreti tratti dalla recensione originale (ad esempio, "Quante ore ha impiegato la stampante 3D per stampare il file del gatto dalla scheda SD?"), quindi ogni query ha un target univoco e ben definito, ma la metrica assegna comunque zero punti a una recensione semanticamente rilevante proveniente da un prodotto diverso. Metriche a punteggio parziale come nDCG produrrebbero valori più elevati a parità di risultati di ricerca. Ciò che conta in questo benchmark è la classifica relativa tra i modelli , non i valori assoluti.

Limitazioni

Le tipologie di domande potrebbero non rappresentare le reali richieste degli utenti. Le domande generate da LLM tendono ad essere ben formulate e specifiche. Gli utenti reali, invece, spesso scrivono domande frammentarie o ambigue.
Viene testato solo il recupero denso. I metodi sparsi (BM25), il recupero ibrido e le pipeline di riordinamento non vengono valutati. Questi potrebbero modificare significativamente la classificazione tra i modelli.
300 query per lingua rappresentano un campione di dimensioni moderate. I risultati per lingua presentano intervalli di confidenza ragionevolmente ristretti, ma le posizioni centrali della tabella dovrebbero comunque essere interpretate con cautela.
Non viene effettuata alcuna valutazione della qualità dell'embedding oltre al recupero delle informazioni. La qualità del clustering, l'accuratezza della similarità semantica e altre attività successive non vengono misurate.

Conclusione

I modelli addestrati per la ricerca (con embedding di query e documenti separati) superano costantemente i modelli addestrati per la similarità testuale generale, indipendentemente dalle dimensioni. e5_base (110 milioni di parametri) supera modelli da 5 a 70 volte più grandi. LaBSE (471 milioni di parametri), ampiamente citato per attività multilingue, si classifica penultimo perché il suo addestramento sulla similarità non sviluppa la discriminazione fine richiesta dal recupero delle informazioni.

I modelli basati su LLM (qwen3 con 600 milioni di parametri, nemotron con 8 miliardi di parametri) raggiungono un'accuratezza competitiva grazie al pre-addestramento multilingue approfondito, ma questo si traduce in latenza: nemotron impiega 25 ms per query contro gli 11 ms di e5_base, con un recall Top-10 solo marginalmente migliore. Per la maggior parte dei sistemi di produzione, i modelli più piccoli addestrati tramite ricerca offrono un compromesso migliore.

Per chi si occupa di sviluppare sistemi RAG multilingue, e5_base con filtro lingua è la scelta ideale (16,5% Top-1, latenza di 11 ms e un vantaggio di 3,8 punti percentuali sul secondo classificato).

Per approfondire

Esplora altri parametri di riferimento RAG, come ad esempio:

Collegamenti di riferimento

✏️ Amazon Reviews Multi | Kaggle

Ekrem Sarı

Ricercatore di intelligenza artificiale

Segui

Ekrem è un ricercatore di intelligenza artificiale presso AIMultiple, specializzato in automazione intelligente, GPU, agenti di intelligenza artificiale e framework RAG.

Visualizza il profilo completo

Sii il primo a commentare

Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori.

Prossimo da leggere

STRACCIOMag 20