Modelli di embedding multimodali: Apple vs Meta vs OpenAI

con

aggiornato il Mag 20, 2026

I modelli di embedding multimodale eccellono nell'identificazione degli oggetti, ma faticano a gestire le relazioni. I modelli attuali hanno difficoltà a distinguere "telefono su una mappa" da "mappa su un telefono". Abbiamo confrontato 7 modelli leader su MS-COCO e Winoground per misurare questa specifica limitazione.

Per garantire un confronto equo, abbiamo valutato ogni modello in condizioni identiche utilizzando l'hardware NVIDIA A40 e la precisione bfloat16. Questa configurazione deterministica rivela quali modelli comprendono effettivamente la struttura della scena e quali sono semplicemente sofisticati algoritmi di corrispondenza di parole chiave.

Risultati del benchmark dei modelli di embedding multimodali

Loading Chart

Spiegazione delle metriche

T2I R@1 (Text-to-Image recall@1): Data una didascalia, il modello è in grado di classificare l'immagine corretta come numero uno tra 5.000 candidati? Questa è la metrica di recupero più difficile perché non è previsto alcun punteggio parziale per il secondo posto.
I2T R@1 (Image-to-Text recall@1): Data un'immagine, il modello è in grado di classificare una qualsiasi delle cinque didascalie reali come numero uno tra 25.000? I punteggi sono circa 20 punti percentuali superiori rispetto a T2I perché ci sono cinque risposte valide invece di una.
Immagine di Winoground: Date due immagini e due didascalie che differiscono solo nella struttura ("telefono su una mappa" contro "mappa su un telefono"), il modello è in grado di abbinare correttamente entrambe le coppie? La probabilità casuale è del 25%.

Principali risultati

Apple DFN5B-H raggiunge la massima precisione di recupero (50,1% T2I R@1) e il punteggio più alto nel ragionamento compositivo (35,2% su Winoground).
Il ragionamento compositivo rimane scadente in tutti i modelli. Persino la prestazione del 35,2% di Apple supera a malapena il valore di riferimento casuale del 25%.
OpenAI CLIP mostra i segni del tempo, essendo indietro rispetto ai modelli moderni di 10-16 punti percentuali nonostante abbia un'architettura simile.

Nota: i punteggi I2T sono superiori di circa 20 punti percentuali rispetto a T2I a causa di un artefatto del protocollo. Ogni immagine ha cinque didascalie valide, mentre ogni didascalia corrisponde a una sola immagine valida. Per maggiori dettagli, consultare la sezione sulla metodologia .

Come funzionano i modelli di embedding multimodale

Prima di addentrarci nei dettagli dei benchmark, è fondamentale comprendere cosa fanno effettivamente questi modelli e dove presentano dei limiti.

Il meccanismo centrale

Un modello di embedding multimodale converte sia le immagini che il testo in vettori numerici, ovvero elenchi di numeri che occupano lo stesso spazio geometrico. I concetti simili si raggruppano, mentre quelli dissimili risultano più distanti tra loro.

Per effettuare una ricerca, si calcola quale vettore immagine è più vicino al vettore di testo. Ecco perché la ricerca basata sull'embedding è veloce: si confrontano dei numeri, non si "comprende" il significato in senso umano.

Dove si rompe

Osservate cosa succede con didascalie dalla composizione diversa:

I vettori sono quasi identici. Entrambe le didascalie contengono gli stessi concetti: {telefono, mappa, acceso}. Il modello codifica ciò che è presente ma perde il modo in cui le cose sono correlate.

Questo è il problema del "bag-of-words" . Il modello vede gli stessi "ingredienti" e produce embedding simili, anche se le scene sono completamente diverse. In una, il telefono è in alto. Nell'altra, c'è la mappa. La struttura relazionale scompare durante la codifica.

Compiti di valutazione: recupero vs ragionamento

MS-COCO: Trovare un ago in un pagliaio

La configurazione:
Una galleria di 5.000 immagini contiene gruppi di contenuti simili, tra cui centinaia di scene all'aperto, decine di veicoli e numerose aree e strutture di stoccaggio. Ogni immagine ha cinque didascalie diverse scritte da annotatori diversi, per un totale di 25.000 didascalie.

La richiesta: "Una motocicletta parcheggiata sotto una struttura di legno insieme ad altri oggetti."

L'immagine:

La stessa immagine potrebbe anche essere descritta come:

"Motocicletta nera parcheggiata sotto una tettoia all'aperto."
"Motocicletta parcheggiata sotto una tettoia in un cortile recintato."

Ogni didascalia viene testata singolarmente e il modello deve individuare l'immagine corretta a prescindere da come sia formulata.

Il compito:
Trova l'unica immagine specifica che corrisponde. Non una motocicletta qualsiasi, non una struttura in legno qualsiasi, ma esattamente questa scena tra 5.000 possibili candidate.

La metrica: Recall@1
Binario e spietato. Immagine corretta classificata al #1 = Successo. Immagine classificata al #2 = Errore. Nessun punteggio parziale.

Winoground: Capire chi ha fatto cosa a chi

La configurazione:
400 coppie avversarie. Ciascuna contiene 2 immagini e 2 didascalie che differiscono solo nella struttura compositiva.

La domanda:

Didascalia A: "C'è un telefono su una mappa"
Didascalia B: “ C'è una mappa su un telefono ”

Entrambe le didascalie contengono esattamente gli stessi concetti: {telefono, mappa, acceso}. L'unica differenza è quale oggetto si trova sopra quale .

L'immagine:

Il compito:
Abbina entrambe le didascalie alle rispettive immagini contemporaneamente. La didascalia A deve corrispondere all'immagine A (telefono appoggiato sulla mappa) e la didascalia B deve corrispondere all'immagine B (mappa visualizzata sul telefono). Non sono previsti punteggi parziali: rispondere correttamente a una sola domanda equivale a un errore.

Il parametro: punteggio dell'immagine
Binario e spietato. Entrambe le coppie abbinate correttamente = Successo. Una o zero risposte corrette = Mancato. Probabilità casuale del 25%.

Altri esempi da Winoground:

Perché i modelli falliscono nella composizione

I bassi punteggi di Winoground (30-40% contro il 25% di riferimento casuale) indicano che i modelli attuali faticano con questo specifico tipo di ragionamento compositivo. Tuttavia, occorre fare alcune precisazioni:

Dimensioni ridotte del campione : Winoground contiene solo 400 esempi, il che si traduce in intervalli di confidenza di circa ±5 punti percentuali. Questo lo rende utile come indicatore, ma non come prova definitiva delle capacità compositive.
Ambito di applicazione specifico ma diversificato : Winoground testa molteplici tipi di ragionamento composizionale, tra cui relazioni spaziali (sopra/in alto/in basso), scambi agente-paziente (chi fa cosa a chi), associazione di attributi (assegnazione di colore/dimensione), quantificatori (più/meno, conteggio), coordinamento delle azioni (si siede/si alza), ordinamento temporale (prima/dopo), negazione (con/senza) e ambiguità di ambito. Questa diversità rende Winoground un efficace strumento di indagine sulla comprensione composizionale in molteplici fenomeni linguistici.

Analisi tecnica e raccomandazioni per l'implementazione

La qualità dei dati è più importante della scalabilità del modello.

Apple, LAION e MetaCLIP utilizzano tutti la stessa architettura ViT-H/14 (630 milioni di parametri).

Il vantaggio di Apple di +3,8 punti percentuali sembra derivare principalmente dal suo approccio Data Filtering Network (DFN).

Curatela automatizzata: anziché utilizzare semplicemente didascalie sintetiche, Apple ha addestrato un modello didattico per filtrare in modo efficace i dati di addestramento. Il modello ha imparato a identificare e scartare le coppie immagine-testo rumorose dall'enorme quantità di dati presenti sul web.
L'implicazione: in ambito di ricerca di frontiera, i miglioramenti derivano dalla qualità della curatela (la selezione dei dati corretti) piuttosto che dalla semplice sintesi o dalla mera quantità.

La conseguenza è che, in ambito di ricerca all'avanguardia, i miglioramenti derivano da dati migliori, non da architetture più grandi.

Comprendere il livello di prestazione del 50%

MS-COCO è stato progettato con immagini distinte e accuratamente selezionate, in cui ogni didascalia descrive una scena specifica. Sebbene esistano piccole ambiguità (ad esempio, due scene simili di parcheggi), i creatori del dataset hanno scelto intenzionalmente immagini visivamente distinguibili.

L'accuratezza del 50% riflette l'effettiva incapacità dei modelli di classificare l'immagine corretta come prima, e non una penalizzazione ingiusta per la selezione di alternative altrettanto valide.

Perché OpenAI CLIP trails by 10-16pp

Il CLIP-L (2021) del modello OpenAI ottiene un punteggio T2I R@1 del 34,4%, mentre i modelli moderni che utilizzano architetture ViT simili raggiungono il 44-50%. Questo divario di 10-16 punti percentuali riflette tre anni di progressi:

Sebbene i principi architettonici fondamentali siano rimasti simili (trasformatori di visione con apprendimento contrastivo), i modelli moderni hanno raddoppiato le loro dimensioni. Tuttavia, la maggior parte dei miglioramenti prestazionali è derivata da una migliore gestione dei dati e da tecniche di addestramento più avanzate, piuttosto che dalla sola innovazione architetturale.

ColPali: Velocità a scapito della flessibilità architettonica

ColPali rappresenta un approccio architettonico diverso: invece di codificare ogni immagine in un singolo vettore, produce 1.030 embedding di patch utilizzando l'interazione tardiva. Questa scelta progettuale comporta diversi compromessi:

Vantaggi:

Recupero più simmetrico : ColPali mostra un gap di soli 3,9 pp tra I2T (48,8%) e T2I (44,9%), rispetto ai gap di 16-24 pp nei modelli densi. Ciò suggerisce che codifica la struttura dell'immagine in modo più uniforme.
Flessibilità architetturale : l'interazione tardiva consente una corrispondenza precisa tra token di testo e porzioni di immagine, il che può essere vantaggioso per domini specializzati.

Svantaggi:

Sovraccarico di memoria : ogni immagine richiede 1.030 vettori anziché 1, aumentando la dimensione dell'indice di circa 1.000 volte.

Prestazioni complessive inferiori : ColPali si classifica al 4° posto nel nostro benchmark (44,9% T2I), con un distacco di 5,2 punti percentuali dai modelli più densi (contro Apple DFN5B-H al 50,1%).

Costo computazionale : richiede dimensioni del batch 4 volte inferiori (4 contro 32) a causa del sovraccarico di memoria derivante da 1.030 embedding per immagine. Ciò si traduce in un'indicizzazione più lenta e costi di servizio più elevati su larga scala.

Quale modello dovresti usare?

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Segui

Metodologia

Hardware e software

GPU: NVIDIA A40 (48 GB VRAM) tramite RunPod
Precisione: bfloat16
Framework: PyTorch 2.4.0, CUDA 12.1
Librerie: transformers==4.44.0 , datasets==2.20.0

Modelli valutati

Abbiamo utilizzato i seguenti pesi specifici del modello dall'hub Hugging Face. Tutti i modelli sono stati caricati in precisione bfloat16 direttamente da questi repository senza modifiche.

Protocollo Inferenziale

I modelli densi (CLIP/SigLIP) sono stati valutati con una dimensione del batch pari a 32, poiché un singolo vettore per immagine consente un elevato parallelismo. ColPali ha utilizzato una dimensione del batch pari a 4, in quanto i suoi 1.030 embedding di patch per immagine richiedono una quantità di memoria significativamente maggiore.

Protocollo di valutazione

Zero-Shot: Modelli valutati così come sono, utilizzando Hugging Face pesi. Nessuna messa a punto.
Deterministico: Seed casuale fissato a 42. Stesso ordine del dataset per tutti i modelli.
Suddivisioni standard: test yerevann/coco-karpathy (5.000 immagini), validazione facebook/winoground.

Il divario tra I2T e T2I

I punteggi I2T sono costantemente superiori di circa 20 punti percentuali rispetto a quelli T2I a causa della probabilità statistica , non per un errore del modello.

T2I (Text-to-Image): Il modello deve trovare 1 immagine specifica tra 5.000. (Pool di target = 1).
I2T (Image-to-Text): Il modello può abbinare una qualsiasi delle 5 didascalie valide associate a quell'immagine. (Pool di target = 5).

Poiché il compito I2T offre cinque risposte "corrette" distinte per ogni query, il tasso di successo è naturalmente più elevato rispetto alla mappatura uno a uno rigorosa richiesta in T2I.

Limitazioni

dimensione del campione di Winoground

400 campioni producono intervalli di confidenza di circa ±5 pp con una precisione del 35%. I risultati sono indicativi , non definitivi. Esistono benchmark più ampi (ARO, SugarCrepe) ma richiedono infrastrutture diverse.

Solo Zero-Shot

Nessuna ottimizzazione del dominio. Applicazioni in ambito medico, legale o satellitare potrebbero beneficiare di miglioramenti del 5-10% con una formazione specifica per il dominio.

Limitazioni del set di dati:

MS-COCO e Winoground testano aspetti specifici della comprensione multimodale. Le prestazioni in questi benchmark non garantiscono risultati simili in compiti specifici del dominio o in altri test di ragionamento compositivo.

Conclusione

Gli attuali modelli di embedding multimodale sono efficaci nel riconoscimento degli oggetti, ma faticano con il ragionamento compositivo.

Per le ricerche standard ("trova foto di motociclette"), qualsiasi modello top-3 funziona bene. Per le query relazionali ("telefono su una mappa" rispetto a "mappa su un telefono"), aspettati un'accuratezza del 30-40% al massimo.

In base ai nostri risultati e alle attuali tendenze di ricerca, diversi approcci potrebbero migliorare le prestazioni:

Qualità dei dati più che quantità : il vantaggio di +3,8 pp di Apple utilizzando la stessa architettura ViT-H suggerisce che la cura dei dati di addestramento contribuisce in modo significativo, sebbene ciò si basi su un singolo confronto.
Dati di addestramento compositivi : includere negazioni difficili con variazioni relazionali durante l'addestramento potrebbe teoricamente migliorare la sensibilità compositiva, sebbene ciò rimanga in gran parte non testato su larga scala.
Architetture ibride : le pipeline a due fasi (recupero denso → riordinamento a interazione tardiva) combinano velocità e precisione, sebbene il nostro benchmark mostri che non superano ancora i modelli densi in questi compiti.

Finché i paradigmi di formazione non cambieranno, la comprensione della composizione compositiva rimarrà una frontiera aperta.

Per approfondire

Esplora altri parametri di riferimento RAG, come ad esempio:

Cem Dilmegani

Analista principale

Segui

Cem è analista principale presso AIMultiple dal 2017. AIMultiple fornisce informazioni a centinaia di migliaia di aziende (secondo SimilarWeb), tra cui il 55% delle aziende Fortune 500, ogni mese. Il lavoro di Cem è stato citato da importanti pubblicazioni globali come Business Insider, Forbes, Washington Post, società globali come Deloitte e HPE, ONG come il World Economic Forum e organizzazioni sovranazionali come la Commissione Europea. È possibile consultare l'elenco di altre aziende e risorse autorevoli che hanno citato AIMultiple. Nel corso della sua carriera, Cem ha lavorato come consulente tecnologico, responsabile acquisti tecnologici e imprenditore nel settore tecnologico. Ha fornito consulenza alle aziende sulle loro decisioni tecnologiche presso McKinsey & Company e Altman Solon per oltre un decennio. Ha anche pubblicato un report di McKinsey sulla digitalizzazione. Ha guidato la strategia tecnologica e gli acquisti di un'azienda di telecomunicazioni, riportando direttamente al CEO. Ha inoltre guidato la crescita commerciale dell'azienda deep tech Hypatos, che ha raggiunto un fatturato annuo ricorrente a 7 cifre e una valutazione a 9 cifre partendo da zero in soli 2 anni. Il lavoro di Cem in Hypatos è stato oggetto di articoli su importanti pubblicazioni tecnologiche come TechCrunch e Business Insider. Cem partecipa regolarmente come relatore a conferenze internazionali di settore. Si è laureato in ingegneria informatica presso l'Università di Bogazici e ha conseguito un MBA presso la Columbia Business School.

Visualizza il profilo completo

Ricercato da

Ekrem Sarı

Ricercatore di intelligenza artificiale

Segui

Ekrem è un ricercatore di intelligenza artificiale presso AIMultiple, specializzato in automazione intelligente, GPU, agenti di intelligenza artificiale e framework RAG.

Visualizza il profilo completo

Sii il primo a commentare

Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori.

Prossimo da leggere

STRACCIOApr 15

Nazlı Şipi

STRACCIOApr 26

Modelli di embedding multimodali: Apple vs Meta vs OpenAI

Risultati del benchmark dei modelli di embedding multimodali

Spiegazione delle metriche

Principali risultati

Come funzionano i modelli di embedding multimodale

Il meccanismo centrale

Dove si rompe

Compiti di valutazione: recupero vs ragionamento

MS-COCO: Trovare un ago in un pagliaio

Winoground: Capire chi ha fatto cosa a chi

Perché i modelli falliscono nella composizione

Analisi tecnica e raccomandazioni per l'implementazione

La qualità dei dati è più importante della scalabilità del modello.

Comprendere il livello di prestazione del 50%

Perché OpenAI CLIP trails by 10-16pp

ColPali: Velocità a scapito della flessibilità architettonica

Quale modello dovresti usare?

Metodologia

Hardware e software

Modelli valutati

Protocollo Inferenziale

Protocollo di valutazione

Il divario tra I2T e T2I

Limitazioni

dimensione del campione di Winoground

Solo Zero-Shot

Limitazioni del set di dati:

Conclusione

Per approfondire

Sii il primo a commentare

Prossimo da leggere

I 10 migliori modelli di embedding multilingue per RAG

I migliori dataset di YouTube: Bright Data, Oxylabs e Grepsr

Confronto tra modelli di IA multimodale sul ragionamento visivo

Benchmark dei modelli di embedding open source per RAG

Framework RAG: LangChain vs LangGraph vs LlamaIndex

Modelli di grandi dimensioni: casi d'uso ed esempi