I modelli di embedding multimodale eccellono nell'identificazione degli oggetti, ma faticano a gestire le relazioni. I modelli attuali hanno difficoltà a distinguere "telefono su una mappa" da "mappa su un telefono". Abbiamo confrontato 7 modelli leader su MS-COCO e Winoground per misurare questa specifica limitazione.
Per garantire un confronto equo, abbiamo valutato ogni modello in condizioni identiche utilizzando l'hardware NVIDIA A40 e la precisione bfloat16. Questa configurazione deterministica rivela quali modelli comprendono effettivamente la struttura della scena e quali sono semplicemente sofisticati algoritmi di corrispondenza di parole chiave.
Risultati del benchmark dei modelli di embedding multimodale
Spiegazione delle metriche
- T2I R@1 (Text-to-Image recall@1): Data una didascalia, il modello è in grado di classificare l'immagine corretta come numero uno tra 5.000 candidati? Questa è la metrica di recupero più difficile perché non è previsto alcun punteggio parziale per il secondo posto.
- I2T R@1 (Image-to-Text recall@1): Data un'immagine, il modello è in grado di classificare una qualsiasi delle cinque didascalie reali come numero uno tra 25.000? I punteggi sono circa 20 punti percentuali superiori rispetto a T2I perché ci sono cinque risposte valide invece di una.
- Immagine di Winoground: Date due immagini e due didascalie che differiscono solo nella struttura ("telefono su una mappa" contro "mappa su un telefono"), il modello è in grado di abbinare correttamente entrambe le coppie? La probabilità casuale è del 25%.
Principali risultati
- Apple DFN5B-H raggiunge la massima precisione di recupero (50,1% T2I R@1) e il punteggio più alto nel ragionamento compositivo (35,2% su Winoground).
- Il ragionamento compositivo rimane scadente in tutti i modelli. Persino la prestazione del 35,2% di Apple supera a malapena il valore di riferimento casuale del 25%.
- OpenAI CLIP mostra i segni del tempo, essendo in ritardo rispetto ai modelli moderni di 10-16 punti percentuali nonostante abbia un'architettura simile.
Nota: i punteggi I2T sono superiori di circa 20 punti percentuali rispetto a T2I a causa di un artefatto del protocollo. Ogni immagine ha cinque didascalie valide, mentre ogni didascalia corrisponde a una sola immagine valida. Per maggiori dettagli, consultare la sezione sulla metodologia .
Come funzionano i modelli di embedding multimodale
Prima di addentrarci nei dettagli dei benchmark, è fondamentale comprendere cosa fanno effettivamente questi modelli e dove presentano dei limiti.
Il meccanismo centrale
Un modello di embedding multimodale converte sia le immagini che il testo in vettori numerici, ovvero elenchi di numeri che occupano lo stesso spazio geometrico. I concetti simili si raggruppano, mentre quelli dissimili risultano più distanti tra loro.
Per effettuare una ricerca, si calcola quale vettore immagine è più vicino al vettore di testo. Ecco perché la ricerca basata sull'embedding è veloce: si confrontano dei numeri, non si "comprende" il significato in senso umano.
Dove si rompe
Osservate cosa succede con didascalie dalla composizione diversa:
I vettori sono quasi identici. Entrambe le didascalie contengono gli stessi concetti: {telefono, mappa, acceso}. Il modello codifica ciò che è presente ma perde il modo in cui le cose sono correlate.
Questo è il problema del "bag-of-words" . Il modello vede gli stessi "ingredienti" e produce embedding simili, anche se le scene sono completamente diverse. In una, il telefono è in alto. Nell'altra, c'è la mappa. La struttura relazionale scompare durante la codifica.
Compiti di valutazione: recupero vs ragionamento
MS-COCO: Trovare un ago in un pagliaio
La configurazione:
Una galleria di 5.000 immagini contiene gruppi di contenuti simili, tra cui centinaia di scene all'aperto, decine di veicoli e numerose aree e strutture di stoccaggio. Ogni immagine ha cinque didascalie diverse scritte da annotatori diversi, per un totale di 25.000 didascalie.
La richiesta: "Una motocicletta parcheggiata sotto una struttura di legno insieme ad altri oggetti."
L'immagine:
La stessa immagine potrebbe anche essere descritta come:
- "Motocicletta nera parcheggiata sotto una tettoia all'aperto."
- "Motocicletta parcheggiata sotto una tettoia in un cortile recintato."
Ogni didascalia viene testata singolarmente e il modello deve individuare l'immagine corretta a prescindere da come sia formulata.
Il compito:
Trova l'unica immagine specifica che corrisponde. Non una motocicletta qualsiasi, non una struttura in legno qualsiasi, ma esattamente questa scena tra 5.000 possibili candidate.
La metrica: Recall@1
Binario e spietato. Immagine corretta classificata al #1 = Successo. Immagine classificata al #2 = Errore. Nessun punteggio parziale.
Winoground: Capire chi ha fatto cosa a chi
La configurazione:
400 coppie avversarie. Ciascuna contiene 2 immagini e 2 didascalie che differiscono solo nella struttura compositiva.
La domanda:
- Didascalia A: "C'è un telefono su una mappa"
- Didascalia B: “ C'è una mappa su un telefono ”
Entrambe le didascalie contengono esattamente gli stessi concetti: {telefono, mappa, acceso}. L'unica differenza è quale oggetto si trova sopra quale .
L'immagine:
Il compito:
Abbina entrambe le didascalie alle rispettive immagini contemporaneamente. La didascalia A deve corrispondere all'immagine A (telefono appoggiato sulla mappa) e la didascalia B deve corrispondere all'immagine B (mappa visualizzata sul telefono). Non sono previsti punteggi parziali: rispondere correttamente a una sola domanda equivale a un errore.
Il parametro: punteggio dell'immagine
Binario e spietato. Entrambe le coppie abbinate correttamente = Successo. Una o zero risposte corrette = Mancato. Probabilità casuale del 25%.
Altri esempi da Winoground:
Perché i modelli falliscono nella composizione
I bassi punteggi di Winoground (30-40% contro il 25% di riferimento casuale) indicano che i modelli attuali faticano con questo specifico tipo di ragionamento compositivo. Tuttavia, occorre fare alcune precisazioni:
- Dimensioni ridotte del campione : Winoground contiene solo 400 esempi, il che si traduce in intervalli di confidenza di circa ±5 punti percentuali. Questo lo rende utile come indicatore, ma non come prova definitiva delle capacità compositive.
- Ambito di applicazione specifico ma diversificato : Winoground testa molteplici tipi di ragionamento composizionale, tra cui relazioni spaziali (sopra/in alto/in basso), scambi agente-paziente (chi fa cosa a chi), associazione di attributi (assegnazione di colore/dimensione), quantificatori (più/meno, conteggio), coordinamento delle azioni (si siede/si alza), ordinamento temporale (prima/dopo), negazione (con/senza) e ambiguità di ambito. Questa diversità rende Winoground un efficace strumento di indagine sulla comprensione composizionale in molteplici fenomeni linguistici.
Analisi tecnica e raccomandazioni per l'implementazione.
La qualità dei dati è più importante della scalabilità del modello.
Apple, LAION e MetaCLIP utilizzano tutti la stessa architettura ViT-H/14 (630 milioni di parametri).
Il vantaggio di Apple di +3,8 punti percentuali sembra derivare principalmente dal suo approccio Data Filtering Network (DFN).
- Curatela automatizzata: anziché utilizzare semplicemente didascalie sintetiche, Apple ha addestrato un modello didattico per filtrare in modo efficace i dati di addestramento. Il modello ha imparato a identificare e scartare le coppie immagine-testo rumorose dall'enorme quantità di dati presenti sul web.
- L'implicazione: in ambito di ricerca di frontiera, i miglioramenti derivano dalla qualità della curatela (la selezione dei dati corretti) piuttosto che dalla semplice sintesi o dalla mera quantità.
La conseguenza è che, in ambito di ricerca all'avanguardia, i miglioramenti derivano da dati migliori, non da architetture più grandi.
Comprendere il livello di prestazione del 50%
MS-COCO è stato progettato con immagini distinte e accuratamente selezionate, in cui ogni didascalia descrive una scena specifica. Sebbene esistano piccole ambiguità (ad esempio, due scene simili di parcheggi), i creatori del dataset hanno scelto intenzionalmente immagini visivamente distinguibili.
L'accuratezza del 50% riflette l'effettiva incapacità dei modelli di classificare l'immagine corretta come prima, e non una penalizzazione ingiusta per la selezione di alternative altrettanto valide.
Perché OpenAI CLIP trails by 10-16pp
Il CLIP-L (2021) di OpenAI ottiene un punteggio T2I R@1 del 34,4%, mentre i modelli moderni che utilizzano architetture ViT simili raggiungono il 44-50%. Questo divario di 10-16 punti percentuali riflette tre anni di progressi:
Sebbene i principi architettonici fondamentali siano rimasti simili (trasformatori di visione con apprendimento contrastivo), i modelli moderni hanno raddoppiato le loro dimensioni. Tuttavia, la maggior parte dei miglioramenti prestazionali è derivata da una migliore gestione dei dati e da tecniche di addestramento più avanzate, piuttosto che dalla sola innovazione architetturale.
ColPali: Velocità a scapito della flessibilità architettonica
ColPali rappresenta un approccio architettonico diverso: invece di codificare ogni immagine in un singolo vettore, produce 1.030 embedding di patch utilizzando l'interazione tardiva. Questa scelta progettuale comporta diversi compromessi:
Vantaggi:
- Recupero più simmetrico : ColPali mostra un gap di soli 3,9 pp tra I2T (48,8%) e T2I (44,9%), rispetto ai gap di 16-24 pp nei modelli densi. Ciò suggerisce che codifica la struttura dell'immagine in modo più uniforme.
- Flessibilità architetturale : l'interazione tardiva consente una corrispondenza precisa tra token di testo e porzioni di immagine, il che può essere vantaggioso per domini specializzati.
Svantaggi:
- Sovraccarico di memoria : ogni immagine richiede 1.030 vettori anziché 1, aumentando la dimensione dell'indice di circa 1.000 volte.
- Prestazioni complessive inferiori : ColPali si classifica al 4° posto nel nostro benchmark (44,9% T2I), con un distacco di 5,2 punti percentuali dai modelli più densi (contro Apple DFN5B-H al 50,1%).
Costo computazionale : richiede dimensioni del batch 4 volte inferiori (4 contro 32) a causa del sovraccarico di memoria derivante da 1.030 embedding per immagine. Ciò si traduce in un'indicizzazione più lenta e costi di servizio più elevati su larga scala.
Quale modello dovresti usare?
Metodologia
Hardware e software
- GPU: NVIDIA A40 (48 GB VRAM) tramite RunPod
- Precisione: bfloat16
- Framework: PyTorch 2.4.0, CUDA 12.1
- Biblioteche:
transformers==4.44.0,datasets==2.20.0
Modelli valutati
Abbiamo utilizzato i seguenti pesi specifici del modello provenienti da Hugging Face Hub. Tutti i modelli sono stati caricati in formato bfloat16 con precisione direttamente da questi repository, senza alcuna modifica.
Protocollo Inferenziale
I modelli densi (CLIP/SigLIP) sono stati valutati con una dimensione del batch pari a 32, poiché un singolo vettore per immagine consente un elevato parallelismo. ColPali ha utilizzato una dimensione del batch pari a 4, in quanto i suoi 1.030 embedding di patch per immagine richiedono una quantità di memoria significativamente maggiore.
Protocollo di valutazione
- Zero-Shot: Modelli valutati così come sono, utilizzando i pesi di Hugging Face. Nessuna messa a punto.
- Deterministico: Seed casuale fissato a 42. Stesso ordine del dataset per tutti i modelli.
- Suddivisioni standard: test yerevann/coco-karpathy (5.000 immagini), validazione facebook/winoground.
Il divario tra I2T e T2I
I punteggi I2T sono costantemente superiori di circa 20 punti percentuali rispetto a quelli T2I a causa della probabilità statistica , non per un errore del modello.
- T2I (Text-to-Image): Il modello deve trovare 1 immagine specifica tra 5.000. (Pool di target = 1).
- I2T (Image-to-Text): Il modello può abbinare una qualsiasi delle 5 didascalie valide associate a quell'immagine. (Pool di target = 5).
Poiché il compito I2T offre cinque risposte "corrette" distinte per ogni query, il tasso di successo è naturalmente più elevato rispetto alla mappatura uno a uno rigorosa richiesta in T2I.
Limitazioni
dimensione del campione di Winoground
400 campioni producono intervalli di confidenza di circa ±5 pp con una precisione del 35%. I risultati sono indicativi , non definitivi. Esistono benchmark più ampi (ARO, SugarCrepe) ma richiedono infrastrutture diverse.
Solo Zero-Shot
Nessuna ottimizzazione del dominio. Applicazioni in ambito medico, legale o satellitare potrebbero beneficiare di miglioramenti del 5-10% con una formazione specifica per il dominio.
Limitazioni del set di dati:
MS-COCO e Winoground testano aspetti specifici della comprensione multimodale. Le prestazioni in questi benchmark non garantiscono risultati simili in compiti specifici del dominio o in altri test di ragionamento compositivo.
Conclusione
Gli attuali modelli di embedding multimodale sono efficaci nel riconoscimento degli oggetti, ma faticano con il ragionamento compositivo.
Per le ricerche standard ("trova foto di motociclette"), qualsiasi modello top-3 funziona bene. Per le query relazionali ("telefono su una mappa" rispetto a "mappa su un telefono"), aspettati un'accuratezza del 30-40% al massimo.
In base ai nostri risultati e alle attuali tendenze di ricerca, diversi approcci potrebbero migliorare le prestazioni:
- Qualità dei dati più che quantità : il vantaggio di +3,8 pp di Apple utilizzando la stessa architettura ViT-H suggerisce che la cura dei dati di addestramento contribuisce in modo significativo, sebbene ciò si basi su un singolo confronto.
- Dati di addestramento compositivi : includere negazioni difficili con variazioni relazionali durante l'addestramento potrebbe teoricamente migliorare la sensibilità compositiva, sebbene ciò rimanga in gran parte non testato su larga scala.
- Architetture ibride : le pipeline a due fasi (recupero denso → riordinamento a interazione tardiva) combinano velocità e precisione, sebbene il nostro benchmark mostri che non superano ancora i modelli densi in questi compiti.
Finché i paradigmi di formazione non cambieranno, la comprensione della composizione compositiva rimarrà una frontiera aperta.
Per approfondire
Esplora altri parametri di riferimento RAG, come ad esempio:
- Modelli di embedding: OpenAI vs Gemini vs Cohere
- Principale database vettoriale per RAG: Qdrant vs Weaviate vs Pinecone
- Benchmark RAG Agentico: routing multi-database e generazione di query
- 11 modelli di embedding open source per RAG
Sii il primo a commentare
Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori.