Contattaci
Nessun risultato trovato.

Modelli di embedding: OpenAI vs Gemini vs Cohere

Ekrem Sarı
Ekrem Sarı
aggiornato il Apr 25, 2026
Guarda il nostro norme etiche

L'efficacia di qualsiasi sistema di generazione aumentata con recupero (RAG) dipende dalla precisione del suo recuperatore.

Abbiamo confrontato le prestazioni di 11 modelli leader di embedding di testo, tra cui quelli di OpenAI, Gemini, Cohere, Snowflake, AWS, Mistral e Voyage AI, utilizzando circa 500.000 recensioni di Amazon. Abbiamo valutato la capacità di ciascun modello di recuperare e classificare la risposta corretta per prima.

Confronto tra modelli di embedding: accuratezza vs prezzo

Loading Chart

Il parametro più importante per valutare il successo di un modello di embedding è la sua accuratezza nell'individuare e classificare per primo il singolo documento corretto. Abbiamo quantificato questo aspetto utilizzando il nostro "punteggio di accuratezza" e lo abbiamo confrontato con il prezzo di ciascun modello. Per comprendere nel dettaglio il nostro approccio di valutazione, consultare la nostra metodologia di benchmarking dei modelli di embedding .

Il grafico a dispersione illustra come i modelli più costosi non garantiscano necessariamente una maggiore precisione. I modelli con le prestazioni migliori offrono il miglior equilibrio tra precisione e costo.

  • Migliore accuratezza complessiva: mistral-embed ha raggiunto l'accuratezza più elevata (77,8%), risultando ideale per scenari in cui l'accuratezza del recupero è prioritaria, anche a costo di un impegno moderato.
  • Prestazioni di fascia media: Voyage-4 offre una precisione del 68,6% a un costo competitivo (0,06 dollari), garantendo un ottimo equilibrio tra prestazioni e prezzo.
  • Opzioni a costo moderato : Snowflake (Funzioni AI Cortex) snowflake-arctic-embed-l-v2.0 (66,6%) offre buone prestazioni di accuratezza a un costo moderato.
  • Alternativa più costosa: gemini-embedding-001 di Google (Vertex AI API) ha raggiunto una precisione maggiore (71,5%) ma con il prezzo più elevato, limitandone l'attrattiva nei progetti sensibili al costo.
  • Modelli costosi con prestazioni inferiori: marchi leader del settore come i modelli OpenAI e Cohere embed-v4.0 di OpenAI hanno ottenuto una precisione inferiore rispetto ad alternative comparabili o a prezzi inferiori.

Per comprendere come abbiamo calcolato il punteggio, consultare la nostra metodologia di accuratezza .

Un modello deve comprendere il significato generale e la pertinenza di una query. Il "Punteggio di Pertinenza" (somiglianza media della query) misura quanto i primi 5 documenti recuperati siano semanticamente allineati alla query dell'utente.

Per comprendere come abbiamo calcolato il punteggio, consultare la nostra metodologia di pertinenza .

  • Leader costanti: i migliori in termini di accuratezza, come mistral-embed e Google (Vertex AI API), sono anche leader in termini di pertinenza, a dimostrazione di una comprensione semantica solida e completa.
  • La "trappola della pertinenza": un dato interessante è che alcuni modelli sono bravi a trovare documenti semanticamente correlati, ma non necessariamente quelli corretti. Ad esempio, il modello OpenAI ha ottenuto un punteggio di pertinenza rispettabile (48,6%), ma ha registrato uno dei punteggi di accuratezza più bassi (39,2%). Ciò indica che identifica l'area informativa generale, ma ha difficoltà a individuare risposte specifiche.

Un punteggio di rilevanza elevato è una condizione necessaria ma non sufficiente per un modello di recupero di alto livello. I modelli migliori eccellono sia nella comprensione generale dell'argomento sia nell'identificazione della risposta corretta con elevata precisione.

Calcolatore dei prezzi dei modelli di embedding

Per aiutarvi a tradurre i nostri risultati in un budget pratico per il vostro progetto, utilizzate il calcolatore interattivo qui sotto per stimare i costi di integrazione in base al numero di token presenti nel vostro set di dati.

Nota : il prezzo di Snowflake varia in base all'edizione e alla regione. Il nostro benchmark è stato condotto utilizzando l'edizione Standard di Snowflake (0,10 $ per milione di token). Prezzi per le altre edizioni: Enterprise (0,15 $), Business Critical (0,20 $).

Comprendere le caratteristiche chiave del modello di embedding

È fondamentale comprendere gli attributi tecnici chiave che definiscono le capacità e i requisiti di risorse di un modello di embedding.

  • Dimensioni di embedding: dimensione del vettore prodotto dal modello. Le dimensioni elencate nella nostra tabella rappresentano la dimensione predefinita o ottimale raccomandata dal fornitore per l'uso generale. Dimensioni maggiori (ad esempio, 3072 per OpenAI) catturano più sfumature semantiche ma richiedono risorse di archiviazione e di calcolo significativamente maggiori. Dimensioni minori (ad esempio, 768 per Google) sono più efficienti. I nostri risultati dimostrano che dimensioni maggiori non migliorano automaticamente l'accuratezza del recupero.
  • Numero massimo di token: lunghezza massima della sequenza di testo elaborabile in un singolo passaggio. Una finestra di contesto più ampia è vantaggiosa per incorporare documenti lunghi senza suddivisione in blocchi. Sebbene il nostro approccio a livello di documento rientri nei limiti di tutti i modelli, questo attributo diventa fondamentale quando si implementano strategie di suddivisione in blocchi a grana fine con segmenti di testo di grandi dimensioni.

Possibili ragioni alla base delle differenze di prestazioni del modello di embedding

1. Approccio architettonico di base

Le scelte progettuali fondamentali influenzano le capacità di ragionamento e semantiche intrinseche del modello, sia che si tratti di un decodificatore basato su LLM o di un codificatore tradizionale come BERT.

  • È confermato che Mistral (mistral-embed) deriva dalla loro architettura LLM piuttosto che da un codificatore BERT standard.
    • Profonda comprensione semantica: a differenza dei modelli precedenti che mappano le parole chiave, l'architettura LLM comprende intrinsecamente la "seguibilità delle istruzioni". Ciò le consente di analizzare la complessa logica della query (vincoli) e di gestire la sintassi informale/rumorosa delle recensioni di Amazon.
  • Snowflake (Arctic-embed) si basa su fondamenta di codificatori open-source standard, ottimizzate su coppie di recupero massive.
    • Base solida: un'architettura tradizionale ottimizzata per la ricerca. Non possiede le capacità di ragionamento approfondito di un LLM, ma offre prestazioni costanti e prevedibili per le ricerche standard.

2. Dati di addestramento e strategia di messa a punto

I metodi specializzati utilizzati durante l'addestramento (ad esempio Hard-Negative Mining o Contrastive Learning) influiscono direttamente sulla capacità del modello di gestire le sfumature e distinguere tra concetti simili.

  • Voyage AI (voyage-4/3.5/3) è stato creato da ricercatori di Stanford specializzati in RAG; i dati di addestramento includono esplicitamente risposte negative "complicate" (A vs non-A).
    • Consapevolezza dei vincoli: il modello è finemente calibrato matematicamente per allontanare nello spazio vettoriale gli elementi "simili ma errati" (come Naturale vs Senza alluminio), prevenendo la "trappola della rilevanza".
  • Cohere (embed-v4.0) è specializzato nella massimizzazione della distanza tra coppie distinte; spesso progettato per funzionare in tandem con un Reranker.
    • Deriva/focalizzazione: i modelli contrastivi spesso richiedono un secondo passaggio di "riordinamento" per gestire il rumore. Da solo (in un singolo passaggio), fatica a mappare la sintassi "rumorosa" della recensione alla sintassi formale della query rispetto ai più recenti embedding basati su LLM.

3. Strategia di rappresentazione vettoriale

L'approccio di OpenAI alla creazione di rappresentazioni vettoriali flessibili introduce un compromesso tra flessibilità della lunghezza del vettore e conservazione dei dettagli semantici.

  • OpenAI (text-embedding-3) , noto anche come apprendimento della rappresentazione Matryoshka, consente il troncamento del vettore e carica in anticipo le informazioni generali.
    • Il compromesso della compressione: l'apprendimento Matrioska costringe il modello a comprimere le "sfumature" per garantire la flessibilità del vettore. Cattura efficacemente l'argomento generale (pertinenza), ma perde i dettagli specifici (accuratezza) necessari per vincoli rigorosi, portando a una classificazione con prestazioni inferiori.

Metodologia di riferimento per l'integrazione dei modelli

Il nostro benchmark fornisce una valutazione equa, trasparente e riproducibile delle prestazioni del modello di embedding per RAG .

Configurazione del test e corpus di dati

  • Corpus di conoscenza: Abbiamo utilizzato un dataset di 494.094 recensioni di utenti reali provenienti dal dataset delle recensioni di Amazon come base di conoscenza. 1
  • Database vettoriale : abbiamo utilizzato Qdrant per ospitare tutte le collezioni vettoriali, configurate esplicitamente per la ricerca di similarità del coseno.
  • Domande di prova: abbiamo selezionato manualmente un set di 100 domande impegnative e reali da un dataset esterno di domande e risposte di Amazon. 2 Queste domande sono state selezionate per testare un ragionamento sofisticato e ciascuna aveva una "migliore risposta" votata dagli utenti, che fungeva da verità di riferimento. Per illustrare la natura di queste domande, il set di test includeva domande complesse e con vincoli multipli, come ad esempio:
    • "Esiste un antitraspirante naturale A&H che contenga un'alternativa sicura all'alluminio e ai parabeni?"
    • Questo tipo di query è particolarmente impegnativo in quanto richiede al modello di comprendere simultaneamente molteplici vincoli (Marca: A&H; Attributo: naturale; Vincolo negativo : senza alluminio/parabeni) e il concetto astratto di trovare un'“alternativa”.

Principi fondamentali della valutazione

  • Collezioni isolate e dimensioni native: Per ogni modello, abbiamo incorporato l'intero corpus in una collezione dedicata e isolata. In linea con i benchmark standard come MTEB, abbiamo valutato ogni modello utilizzando le sue dimensioni di embedding native e ottimali. 3
  • Granularità del recupero: abbiamo eseguito questo benchmark a livello di documento. Abbiamo trattato ogni recensione utente come un singolo documento e l'abbiamo convertita in un singolo vettore. Non è stata applicata alcuna suddivisione in blocchi più fine.
  • Valutazione zero-shot: il test è stato condotto in un framework "zero-shot". Ciò significa che i modelli sono stati valutati su un dataset di nicchia che non avevano visto durante il loro addestramento originale. Non abbiamo effettuato il fine-tuningaddestrato alcun modello sul nostro dataset o sulle nostre query specifiche.

Metriche di valutazione: un approccio a due livelli

Abbiamo utilizzato una valutazione a due livelli per distinguere tra rilevanza semantica generale e accuratezza di recupero precisa. Alla base di entrambe le metriche c'è la similarità del coseno, un metodo standard per misurare la somiglianza tra due vettori nello spazio di embedding.

Metrica 1: La rilevanza (punteggio di "somiglianza media della query")

Questa metrica risponde alla domanda: "Il modello comprende l'argomento generale della query?". Misura l'ampia rilevanza semantica dei primi 5 documenti recuperati rispetto alla query dell'utente.

Calcolo: Per ogni query sono stati eseguiti i seguenti passaggi:

  1. Il testo della query è stato convertito in un vettore utilizzando il modello in fase di test.
  2. È stata effettuata una ricerca per recuperare i 5 documenti migliori.
  3. Abbiamo calcolato la similarità del coseno tra questi due vettori risultanti.
  4. Il punteggio finale per la query è la media di questi cinque valori di similarità.

Metrica 2: L'accuratezza (punteggio di "somiglianza con la realtà")

Questa è la nostra metrica principale e più importante. Risponde alla domanda: "Il modello è in grado di trovare la risposta migliore in assoluto e di presentarla per prima all'utente?"

Calcolo: Per ogni query, abbiamo effettuato un confronto preciso:

  1. È stato identificato il documento con il punteggio più alto restituito dal sistema di recupero.
  2. È stato inoltre identificato il testo di risposta predefinito considerato come "verità assoluta" .
  3. Fondamentalmente, sia il testo del documento di rango 1 che il testo della risposta di riferimento sono stati convertiti in vettori utilizzando lo stesso modello in fase di valutazione.
  4. È stata quindi calcolata la similarità del coseno tra i due vettori risultanti. La similarità dei documenti classificati dal 2° al 5° posto è stata esplicitamente ignorata.

Un punteggio elevato in questa metrica misura direttamente la precisione di un modello e la sua capacità di distinguere le informazioni più utili da un insieme di documenti semanticamente simili.

Schema di misurazione: similarità del coseno

La nostra valutazione utilizza la similarità del coseno, una metrica robusta per misurare la somiglianza tra due vettori.

Anziché misurare la distanza fisica tra i vettori, questa metrica calcola il coseno dell'angolo tra di essi. In sostanza, misura se i vettori puntano nella stessa direzione, fornendo una misura pura dell'orientamento, non dell'intensità. Il punteggio risultante varia da 1 a -1:

  • 1: I vettori sono identici nell'orientamento (massima similarità semantica).
  • 0: I vettori sono ortogonali, il che indica l'assenza di relazione semantica.
  • -1: I vettori puntano in direzioni opposte (significato opposto).

Per il nostro benchmark di embedding, questo ci consente di quantificare in modo affidabile quanto un documento recuperato sia semanticamente simile alla query di un utente o a una risposta reale. Abbiamo utilizzato questo calcolo fondamentale per costruire le nostre due metriche principali.

Limitazioni del benchmark dei modelli di embedding

Sebbene questo benchmark sia stato concepito per essere oggettivo, è importante riconoscerne la portata e i limiti specifici. I seguenti fattori devono essere presi in considerazione nell'interpretazione dei risultati:

  • Specificità del dominio: i risultati sono altamente specifici per il dataset di recensioni di Amazon utilizzato. La gerarchia delle prestazioni di questi modelli potrebbe cambiare se applicati ad altri domini con caratteristiche linguistiche diverse, come testi legali, articoli accademici o codice software. Un modello che eccelle nella comprensione di testi di recensioni informali e basati su opinioni potrebbe non essere la scelta ottimale per un corpus che richiede una profonda comprensione del linguaggio tecnico o formale.
  • Granularità a livello di documento: la nostra metodologia ha valutato i modelli a un livello di granularità "a livello di documento", trattando ogni revisione completa come un singolo vettore. Questo approccio verifica la capacità di un modello di comprendere il contesto generale di un documento. Non misura, tuttavia, le prestazioni in attività di recupero "a grana fine" che richiederebbero la suddivisione dei documenti in blocchi più piccoli (ad esempio, paragrafi o frasi). Le prestazioni di un modello possono variare con una diversa strategia di suddivisione.

Per approfondire

Esplora altri parametri di riferimento RAG, come ad esempio:

Conclusione

In base alla nostra valutazione, mistral-embed ha raggiunto la massima accuratezza (77,8%), risultando la scelta migliore per gli scenari in cui la precisione del recupero è fondamentale, anche a fronte di un costo moderato.

Per implementazioni in cui il costo è un fattore critico, voyage-3.5-lite si rivela la scelta ottimale per i sistemi RAG di produzione, offrendo un eccellente equilibrio tra precisione e costo con prestazioni solide (66,1%) a uno dei prezzi più bassi.

L'API Vertex AI gemini-embedding-001 (Google) offre un'altra opzione ad alta precisione (71,5%), adatta ad applicazioni critiche per la precisione in cui un prezzo maggiorato è accettabile.

Per le organizzazioni all'interno dell'ecosistema Snowflake, Snowflake (Cortex AI Functions) snowflake-arctic-embed-l-v2.0 offre una precisione competitiva (66,6%) a un costo moderato.

Principali risultati relativi alla selezione del modello di embedding:

  • Dimensioni maggiori non garantiscono prestazioni migliori
  • Prezzi elevati non sono necessariamente correlati a una precisione superiore.
  • Il benchmarking specifico del dominio è essenziale per la selezione del modello di integrazione.

FAQ

I modelli di embedding offrono un modo per tradurre il testo in un formato comprensibile alle macchine. Prendono un testo non strutturato e utilizzano una rete neurale per generare degli embedding. L'output è un vettore di numeri che funge da rappresentazione numerica del significato del testo originale. Questo vettore posiziona il testo come un punto all'interno di un concetto matematico ad alta dimensionalità chiamato spazio di embedding, dove i testi con significati simili sono situati vicini tra loro.

Questa è una distinzione fondamentale nell'elaborazione del linguaggio naturale (NLP). Gli embedding di parole tradizionali creano un singolo vettore per una parola, non riuscendo a catturare il contesto. Gli embedding di frasi moderni, utilizzati dai modelli in questo test, sono più avanzati. Creano vettori contestualizzati per intere frasi, comprendendo che il significato di una parola cambia in base al testo circostante. Ciò consente loro di catturare relazioni semantiche molto più sfumate.

I modelli pre-addestrati sono un tipo di modello di apprendimento automatico che è stato addestrato su grandi quantità di dati testuali generici. Tutti i modelli di embedding di alta qualità nel nostro benchmark sono pre-addestrati. Questo addestramento iniziale fornisce loro una comprensione di base del linguaggio e delle relazioni semantiche. Il nostro test misura quindi l'efficacia con cui questa conoscenza pre-addestrata gestisce i dati complessi del nostro dominio specifico senza richiedere dati di addestramento aggiuntivi e personalizzati.

Sebbene il nostro benchmark si sia concentrato sull'elaborazione del linguaggio naturale, gli stessi principi si applicano ad altri tipi di dati. I modelli di machine learning specializzati sono progettati per gestire diverse forme di dati complessi. Ad esempio, i modelli di embedding di immagini vengono creati utilizzando reti neurali convoluzionali per catturare le caratteristiche visive, mentre i modelli di embedding di grafi vengono utilizzati per creare rappresentazioni numeriche dei nodi e delle loro connessioni nei dati di rete. Questa flessibilità è ciò che rende la tecnologia di embedding così potente per un'ampia gamma di sistemi di intelligenza artificiale.

La qualità degli embedding influisce significativamente sull'accuratezza del benchmark. Diversi fattori contribuiscono alla generazione di embedding di alta qualità: Architettura del modello: l'utilizzo di un modello di machine learning potente come un Transformer è fondamentale.
Qualità dei dati: le prestazioni del modello dipendono fortemente dalla qualità dei dati di addestramento originali e dalla pulizia dei dati di input che elabora.
Metodologia: Il nostro utilizzo di un framework "zero-shot" su dati complessi garantisce che stiamo testando la reale capacità del modello di creare embedding robusti e generalizzabili.

Lo spazio di embedding è lo spazio concettuale multidimensionale in cui risiedono tutte le rappresentazioni numeriche (vettori) generate da un modello. In questo spazio, la distanza e la direzione tra i vettori corrispondono alle loro relazioni semantiche. Quando si esegue una ricerca, la query viene convertita in un vettore e inserita in questo stesso spazio di embedding. Il compito del sistema di recupero è quello di trovare i vettori vicini più prossimi, che rappresentano i documenti semanticamente più simili, rendendolo un elemento fondamentale del modo in cui i moderni sistemi di intelligenza artificiale elaborano il linguaggio naturale.

Ekrem Sarı
Ekrem Sarı
Ricercatore di intelligenza artificiale
Ekrem è un ricercatore di intelligenza artificiale presso AIMultiple, specializzato in automazione intelligente, GPU, agenti di intelligenza artificiale e framework RAG.
Visualizza il profilo completo

Sii il primo a commentare

Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori.

0/450