Contattaci
Nessun risultato trovato.

Confronto tra modelli di IA multimodale sul ragionamento visivo

Sıla Ermut
Sıla Ermut
aggiornato il Feb 20, 2026
Guarda il nostro norme etiche

Abbiamo confrontato le prestazioni di 15 modelli di intelligenza artificiale multimodale leader nel campo del ragionamento visivo utilizzando 200 domande basate su elementi visivi. La valutazione si è articolata in due fasi: 100 domande sulla comprensione di grafici per testare l'interpretazione della visualizzazione dei dati e 100 domande di logica visiva per valutare il riconoscimento di pattern e il ragionamento spaziale. Ogni domanda è stata eseguita 5 volte per garantire risultati coerenti e affidabili.

Benchmark di ragionamento visivo

Loading Chart

Consulta la nostra metodologia di benchmarking per conoscere le nostre procedure di test.

gemini-3.1-pro-preview e gemini-3-pro-preview guidano la classifica. Sono seguiti da gpt-5.2 , kimi-k2.5 e gpt-5.2-pro , che guidano il gruppo successivo di modelli. Sebbene la maggior parte dei modelli si comporti bene nei compiti basati sui dati, llama-4-maverick presenta ancora delle lacune nel collegare gli input visivi con i passaggi logici.

Logica visiva

La logica visiva richiede il riconoscimento di modelli e il ragionamento spaziale. gemini-3.1-pro-preview è in testa al test di logica visiva, mostrando le prestazioni più elevate nei compiti di ragionamento astratto. Molti modelli mostrano un calo delle prestazioni se confrontati con i risultati nell'analisi dei grafici. llama-4-maverick mostra una limitazione in questi compiti.

Comprensione dei grafici

I modelli dimostrano una maggiore competenza nell'interpretazione dei grafici rispetto alla logica visiva. gemini-3.1-pro-preview ha ottenuto il punteggio più alto nei test di comprensione dei grafici, seguito da vicino da gemini-3-pro-preview e gemini-2.5-pro , mostrando una forte capacità di decodificare dati strutturati e visualizzazioni. claude-opus-4.6 e claude-sonnet-4.6 mostrano risultati più elevati nell'interpretazione dei grafici rispetto ai loro punteggi di logica. I compiti visivi basati sui dati sono più accessibili agli attuali modelli multimodali rispetto al riconoscimento di pattern.

Affidabilità statistica delle prestazioni di ragionamento visivo (IC 95%)

Abbiamo calcolato gli intervalli di confidenza al 95% (IC) tramite 10.000 ricampionamenti bootstrap per definire il margine di errore di ciascun modello, mostrando l'intervallo entro il quale è probabile che rientrino le loro reali prestazioni.

Domande di riferimento sui punti di forza e di debolezza dei programmi LLM.

Domanda del grafico con il tasso di successo LLM più basso

Figura 1: Grafico a barre che mostra i volumi di vendita di Star nell'arco di 12 mesi, con quattro barre raggruppate per ogni mese (dati 1998-2000). Ogni mese presenta barre piene, bianche e a strisce, raggruppate in modo ravvicinato.

Nota: tutti i grafici sono stati ottenuti da Hitbullseye. 1

Domanda: Se le vendite di tre anni consecutivi sono in costante aumento o in costante diminuzione, si parla di trend costante. Quali mesi mostrano un trend in costante aumento per tre anni consecutivi?

Ad esempio, nel giugno 1999, il valore effettivo era inferiore a quello del 1998, indicando una diminuzione, ma il modello lo ha interpretato erroneamente come un aumento costante. La maggior parte dei modelli commette lo stesso errore su questo punto.

Quando quattro barre venivano raggruppate per mese, i modelli avevano difficoltà a collegare le barre agli anni e a percepirne l'altezza relativa. Non riuscivano a distinguere con precisione a quale anno appartenesse ciascuna barra a strisce, a tinta unita o bianca, il che portava a leggere le barre nell'ordine sbagliato o a confonderne le altezze.

Ciò ha rivelato una limitazione fondamentale nel ragionamento visuo-spaziale: i modelli attuali non possedevano la percezione precisa al pixel necessaria per misurare e sequenziare correttamente le barre fittamente raggruppate, il che portava a una sistematica errata identificazione delle tendenze.

Domanda del grafico con il più alto tasso di successo LLM

Figura 2: Grafico a barre che mostra le percentuali di affluenza alle urne nelle elezioni generali indiane dal 1952 al 1998. Una barra per ogni anno elettorale, con un chiaro spazio tra le barre.

Domanda: In quali anni si sono registrate rispettivamente la più alta e la più bassa affluenza alle urne (in percentuale)?

Tutti i modelli hanno risposto correttamente a questa domanda. Questo successo dimostra che i modelli eccellono nell'identificazione semplice del minimo e del massimo, trovando le barre più alte e più basse.

A differenza dei grafici a 4 barre raggruppate, che risultano confusionari, questo grafico presenta una singola barra per anno con spaziatura chiara, rendendo il confronto visivo diretto e immediato. I modelli si comportano bene in compiti puramente osservazionali che non richiedono complesse mappature tra barre e categorie.

Domanda di logica visiva con il più alto tasso di successo LLM

Due griglie 3x3 allineate che mostrano un'operazione di corrispondenza di pattern algebrici. La griglia superiore contiene variabili e le relative operazioni (moltiplicazione, divisione, elevamento a potenza). La griglia inferiore mostra valori numerici con alcune celle riempite (6, 36, 3/4) e due incognite (A, B). Il problema chiede di trovare B-A.

Figura 3: Due griglie 3×3 allineate che mostrano la corrispondenza di modelli algebrici. La griglia superiore contiene variabili e le relative operazioni (moltiplicazione, divisione, elevamento a potenza). La griglia inferiore mostra valori numerici, con alcune celle riempite (6, 36, 3/4) e due incognite (A, B). Il problema chiede di trovare BA.

Il successo è derivato dal chiaro schema matematico visibile nella struttura della tabella (relazioni algebriche come a×b, c×d). La semplice impaginazione a griglia, priva di complessità visiva, ha permesso ai modelli di concentrarsi esclusivamente sull'inferenza numerica e sulla deduzione logica.

I modelli eccellono quando i problemi implicano schemi matematici espliciti che possono essere risolti attraverso un ragionamento passo passo, dimostrando la loro forza nella logica simbolica e nel riconoscimento di schemi quando le distrazioni visive sono minime.

Domanda di logica visiva con il tasso di successo più basso nel LLM

Gioco di riconoscimento di sequenze con cerchi contenenti diversi motivi di linee interne e forme geometriche. Due sequenze di esempio con frecce sono mostrate in alto, seguite da una domanda che chiede di completare la terza sequenza scegliendo tra cinque opzioni a risposta multipla.

Figura 4: Puzzle di riconoscimento di pattern con cerchi contenenti diversi pattern di linee interne e forme geometriche. Due sequenze di esempio con frecce mostrate in alto, seguite da una domanda che chiede di completare la terza sequenza scegliendo tra cinque opzioni a risposta multipla.

La difficoltà deriva dalla necessità di riconoscere modelli visivi astratti, identificando regole di trasformazione geometrica attraverso molteplici esempi.

Ciò richiede un puro ragionamento spaziale per comprendere come le forme ruotano, si trasformano e si relazionano tra loro. I modelli faticano a dedurre regole da sequenze visive quando non è disponibile alcuna guida numerica o testuale esplicita, ma solo schemi spaziali.

Che cos'è il ragionamento visivo?

Il ragionamento visivo è la capacità di un modello di interpretare immagini, collegare elementi visivi e rispondere a domande che richiedono la comprensione di informazioni sia visive che testuali. Questa capacità si estende oltre il semplice riconoscimento di oggetti, includendo compiti come l'analisi di visualizzazioni di dati, l'identificazione di modelli spaziali e la comprensione delle relazioni tra elementi visivi.

Il nostro benchmark ha valutato questa capacità attraverso due percorsi distinti per testare diversi aspetti cognitivi: la comprensione dei grafici, in cui i modelli interpretavano istogrammi, grafici a linee e diagrammi a dispersione per valutare la loro capacità di estrarre informazioni strutturate dalle visualizzazioni dei dati; e la logica visiva, in cui affrontavano enigmi di riconoscimento di pattern e problemi di ragionamento spaziale per misurare il ragionamento astratto senza una guida numerica esplicita. Questa suddivisione riflette la distinzione fondamentale nel modo in cui i modelli elaborano dati espliciti rispetto a pattern impliciti.

I modelli realizzano il ragionamento visivo attraverso diversi approcci architetturali. Ad esempio, il framework Cola coordina più modelli linguistici-visivi, ognuno dei quali fornisce didascalie e risposte plausibili, dopodiché un modello linguistico-visivo centrale valuta queste opzioni e seleziona la risposta più accurata.

Figura 5: Grafico che mostra come Cola sfrutta un modello linguistico coordinativo per il ragionamento visivo. 2

Un altro esempio è il framework CVR-LLM, che migliora il ragionamento convertendo le immagini in descrizioni contestualizzate utilizzando il metodo CaID e selezionando esempi rilevanti con la procedura CVR-ICL. Questo framework tratta le informazioni delle immagini come rappresentazioni testuali, consentendo all'LLM di analizzare le associazioni in modo più efficace in vari tipi di attività multimodali . 3

Come funziona il ragionamento visivo nei LLM

I modelli linguistici logici (LLM) non percepiscono le immagini direttamente. Si affidano a codificatori visivi che convertono le immagini in rappresentazioni strutturate, specifiche per i modelli linguistici. Il codificatore identifica oggetti, texture, relazioni spaziali e schemi visivi. L'LLM combina quindi questa rappresentazione con la query testuale per costruire una catena di ragionamento.

Coordinamento o perfezionamento

Per gli scenari visivi complessi esistono due meccanismi principali: il coordinamento, in cui un LLM integra gli output di più modelli di visione per verificare le interpretazioni; e il perfezionamento, in cui l'LLM migliora iterativamente le descrizioni delle immagini attraverso cicli di feedback che identificano le informazioni mancanti. Entrambi affrontano i limiti dei singoli modelli che non riescono ad analizzare scenari complessi.

Apprendimento contestualizzato per il ragionamento multimodale

Alcuni framework recuperano esempi simili dai dati di addestramento, fornendo al modello modelli per interpretare gli input visivi. Queste dimostrazioni aiutano il modello ad applicare gli schemi di ragionamento appresi a nuovi problemi.

Fornire la spiegazione finale

Il modello LLM produce una risposta supportata da un processo di ragionamento, spiegando come ha interpretato l'immagine, su quali elementi visivi si è basato e quali connessioni logiche ha stabilito.

Ragionamento a catena di pensieri nei compiti visivi

Il ragionamento a catena di pensiero (CoT, Chain-of-Thought) si è affermato come un approccio importante nel ragionamento visivo. Invece di analizzare un'immagine nella sua interezza, i modelli attuali scompongono i problemi visivi in passaggi più piccoli e sequenziali, in modo simile a come gli esseri umani risolvono problemi complessi ragionandoci passo dopo passo.

Visual CoT consente ai modelli di regolare dinamicamente la messa a fuoco su diverse regioni spaziali di un'immagine, superando una limitazione fondamentale dei modelli precedenti che si basavano sull'elaborazione di immagini a granularità fissa. Ad esempio, durante l'analisi di un grafico complesso, il modello potrebbe prima identificare gli assi, poi esaminare i singoli punti dati e infine confrontare le tendenze, anziché cercare di comprendere tutto simultaneamente.

Questo approccio integra l'apprendimento per rinforzo e l'apprendimento per imitazione per allineare i modelli più strettamente ai modelli di ragionamento umano. Ciò rappresenta un cambiamento fondamentale, passando dal riconoscimento passivo di modelli alla risoluzione attiva di problemi visivi, in cui i modelli esplorano attivamente e ragionano su ciò che vedono. 4

Applicazioni aziendali del ragionamento visivo nei LLM

I modelli lineari di apprendimento (LLM) con funzionalità visive possono supportare molteplici scenari aziendali. Queste applicazioni dipendono dalla capacità del modello di analizzare le immagini, collegarle a dati testuali e produrre informazioni affidabili.

Analisi dei documenti e dei contenuti

Le aziende gestiscono diagrammi, disegni tecnici, figure di riviste scientifiche e varie forme di dati visivi. Un modello di ragionamento visivo può:

  • Individua gli elementi mancanti o errati.
  • Individua gli oggetti o i segni nella parte inferiore o negli angoli dei diagrammi.
  • Collega segmenti di testo e immagini per effettuare controlli di qualità.
  • Estrarre informazioni strutturate per successive elaborazioni o reportistica.

Ad esempio, Intuit ha integrato i modelli Doc AI e Gemini di Google Cloud per compilare automaticamente le dichiarazioni dei redditi sui moduli fiscali statunitensi più comuni, migliorando sia la velocità che la precisione nell'elaborazione dei documenti. 5

Controllo qualità e operazioni

Nei settori della produzione e della logistica , i modelli possono ispezionare prodotti o imballaggi. Il ragionamento visivo aiuta a individuare difetti, disallineamenti o schemi anomali. Il modello può confrontare le immagini con un riferimento e generare una spiegazione di cosa è cambiato o cosa manca.

Intel, ad esempio, utilizza sistemi di ispezione visiva basati sull'intelligenza artificiale che consentono un risparmio annuo di 2 milioni di dollari, con i produttori che in genere raggiungono il ritorno sull'investimento entro 6-12 mesi grazie alla riduzione degli scarti e a un minor numero di resi da parte dei clienti. 6

Vendita al dettaglio e commercio elettronico

I modelli analizzano le immagini dei prodotti, identificano gli attributi chiave e li confrontano con i dati del catalogo. Le funzionalità di ricerca visiva consentono ai clienti di caricare immagini per trovare prodotti simili utilizzando la visione artificiale, mentre i motori di raccomandazione delle taglie basati sull'intelligenza artificiale hanno ridotto i tassi di reso del 20-30%. Questi sistemi rilevano anche le incongruenze tra le descrizioni dei prodotti e le immagini. 7

Sicurezza e monitoraggio

Il ragionamento visivo supporta le attività di ispezione di video e immagini analizzando le sequenze di fotogrammi e rilevando schemi insoliti. Cambridge Industries ha implementato un sistema di sicurezza basato sull'intelligenza artificiale per i cantieri edili che ha ridotto i costi di riparazione di emergenza di quasi il 50%. 8

Marketing ed esperienza utente

Il ragionamento visivo aiuta i team a comprendere come gli utenti interagiscono con i contenuti digitali. Un modello può valutare screenshot o elementi grafici e fornire informazioni su layout, posizionamento degli oggetti e potenziali problemi. Ciò è particolarmente rilevante quando si valutano diverse categorie di risorse visive.

Ad esempio, Comeen utilizza Gemini AI per generare sottotitoli multilingue per video aziendali in 40 lingue con un solo clic, eliminando il processo di più giorni e con più fornitori che in precedenza rendeva i contenuti obsoleti prima della pubblicazione. 9

Panorama comparativo: i principali attori e i loro approcci

Chance AI

Chance AI è tra i primi strumenti commerciali basati sulla comprensione visiva. Il suo sistema di ragionamento visivo analizza le immagini attraverso lenti culturali, storiche, funzionali ed estetiche. Invece di assegnare semplici etichette, fornisce approfondimenti strutturati che spiegano perché un oggetto, una figura o una scena siano importanti, come lo stile dell'opera, il simbolismo e il contesto storico, oltre al soggetto.

Il design privilegia l'esperienza utente, consentendo un'esplorazione basata sul significato attraverso le immagini, senza bisogno di query di testo. Questo va oltrela visione artificiale tradizionale, orientandosi verso l'interpretazione, la narrazione e una spiegazione simile a quella umana, risultando particolarmente rilevante per le industrie creative, l'istruzione e il turismo, dove il contesto aggiunge valore oltre il semplice riconoscimento. 10

Meta AI

Il framework UniBench di Meta ha introdotto un approccio unificato alla valutazione del ragionamento visivo combinando oltre cinquanta benchmark per la comprensione spaziale, il ragionamento compositivo e il conteggio. Testando quasi sessanta modelli di linguaggio visivo, Meta ha scoperto che scalare i dati e le dimensioni del modello migliora la percezione ma non il ragionamento, con modelli persino avanzati che falliscono in compiti semplici come il riconoscimento di cifre e il conteggio di oggetti.

Questi risultati hanno cambiato il modo in cui vengono misurati i progressi nel ragionamento visivo, evidenziando la necessità di dati di qualità superiore, obiettivi mirati e un apprendimento strutturato, anziché affidarsi esclusivamente a modelli più ampi. Per le aziende, UniBench offre un modo trasparente per confrontare le prestazioni di ragionamento in attività multimodali prima dell'implementazione. 11

Figura 6: Il grafico mostra le prestazioni mediane di 59 VLM su 53 benchmark, rivelando che, nonostante i progressi, molti modelli hanno ancora prestazioni prossime al livello casuale, in particolare su attività come Winoground, iNaturalist, DSPR e altre (blu: mediana zero-shot; grigio: livello casuale). 12

OpenAI

OpenAI ragionamento visivo avanzato con i modelli o3 e o4-mini, che possono pensare con le immagini integrando la manipolazione delle immagini nel loro ragionamento. Durante l'analisi, ingrandiscono, ritagliano o ruotano le immagini per concentrarsi sui dettagli rilevanti, rispecchiando il modo in cui gli esseri umani regolano l'attenzione visiva quando interpretano diagrammi o disegni.

Testati su diversi parametri di riferimento multimodali, come l'interpretazione di grafici, la risoluzione di problemi visivi e il ragionamento matematico, i modelli hanno mostrato chiari miglioramenti in termini di accuratezza e comprensione contestuale. Tuttavia, i risultati hanno anche evidenziato dei limiti, tra cui ragionamenti incoerenti ed errori percettivi occasionali, sottolineando la continua sfida dell'affidabilità nei sistemi di ragionamento visivo.

Figura 7: Il grafico mostra i risultati di tutti i modelli valutati in condizioni di elevato “sforzo di ragionamento”. 13

Attività di ricerca accademica e aperta

VisuLogic: un benchmark per la valutazione del ragionamento visivo in modelli linguistici multimodali di grandi dimensioni.

Questo articolo presenta VisuLogic , un benchmark per la valutazione delle prestazioni di modelli multimodali in compiti di ragionamento visivo. Esso combina oltre cinquanta dataset che coprono vari tipi di ragionamento, tra cui relazioni spaziali, logica compositiva e conteggio di oggetti.

Gli autori analizzano decine di modelli esistenti e scoprono che l'aumento delle dimensioni o della scala dei dati migliora il riconoscimento delle immagini, ma non il ragionamento. I modelli spesso rilevano schemi senza comprendere le relazioni tra gli oggetti. L'articolo sottolinea che un addestramento specifico per il ragionamento, una migliore qualità dei dati e una valutazione dettagliata sono essenziali per ottenere progressi significativi.

VisuLogic offre un framework unificato che aiuta ricercatori e aziende ad analizzare le capacità di ragionamento anziché basarsi esclusivamente su metriche percettive, rendendolo una risorsa preziosa per la valutazione dei sistemi di ragionamento multimodale. 14

Spiega prima di rispondere: un'indagine sul ragionamento visivo compositivo.

Questa analisi esamina gli approcci attuali al ragionamento visivo compositivo, concentrandosi su come i modelli combinano indizi visivi e testuali per giungere a una risposta corretta. Individua i punti deboli dei metodi esistenti che si basano sul riconoscimento piuttosto che sul ragionamento strutturato.

Gli autori propongono modelli di addestramento che spieghino prima di rispondere, garantendo che ogni processo di ragionamento sia trasparente e interpretabile. Discutono tecniche per allineare le rappresentazioni visive e linguistiche in modo che i modelli possano comprendere meglio diagrammi, figure e associazioni di oggetti.

L'articolo conclude che il ragionamento allineato e spiegabile migliora l'affidabilità e l'interpretabilità nei compiti multimodali. Sottolinea inoltre che il futuro della ricerca sul ragionamento visivo dipende dall'integrazione dell'apprendimento basato sulla spiegazione nella progettazione dei modelli. 15

Sfide nelle capacità di ragionamento visivo LLM

I progressi nel ragionamento visivo comportano anche sfide tecniche ed etiche che devono essere prese in considerazione.

L'affidabilità rimane una preoccupazione fondamentale. Come dimostrato dal nostro benchmark, i modelli faticano con visualizzazioni dense di dati, fallendo nella mappatura delle barre rispetto all'anno e nella percezione dell'altezza relativa in grafici complessi, il che porta a errori sistematici nell'identificazione delle tendenze. Persino i modelli più avanzati falliscono in compiti semplici come il riconoscimento delle cifre e il conteggio degli oggetti, e la scalatura dei dati migliora la percezione ma non il ragionamento.

I pregiudizi e i problemi di interpretazione sono diffusi. I modelli di ragionamento visivo apprendono e riflettono i pregiudizi presenti nei dati di addestramento quando interpretano le immagini. I modelli riflettono presupposti culturali e stereotipi derivanti dai dati di addestramento, inclusi pregiudizi di genere, razza, età e disabilità. Ad esempio, quando si prevede la professione delle persone in un'immagine o si interpretano scenari, questi pregiudizi possono distorcere i risultati.

La spiegabilità è fondamentale per la fiducia. I modelli dovrebbero spiegare in modo trasparente il loro processo di ragionamento, soprattutto in applicazioni ad alto rischio come la sanità, le assunzioni e la giustizia penale, dove risultati distorti possono causare danni.

Metodologia di benchmarking

Tutti i modelli sono stati valutati tramite l'API OpenRouter con parametri standardizzati: la temperatura è stata impostata a 0,8 e il parametro max tokens non è stato impostato per evitare di limitare le capacità di ragionamento. Ai modelli è stato chiesto di rispondere con una sola lettera (AE) senza spiegazioni, sebbene alcuni modelli abbiano comunque fornito un ragionamento dettagliato, che abbiamo analizzato per estrarre le risposte finali. La valutazione è stata eseguita in parallelo su tutti i modelli simultaneamente. Ogni domanda è stata eseguita 5 volte per garantire risultati coerenti e affidabili.

Il test di riferimento consisteva in 200 domande suddivise in due categorie: Comprensione dei grafici (100 domande) relative a grafici a barre, grafici a linee, diagrammi a dispersione e visualizzazioni di dati complesse, e Logica visiva (10 domande) che valutava il riconoscimento di modelli, il ragionamento spaziale e la logica visiva matematica. Tutte le domande erano presentate in formato a scelta multipla con cinque opzioni (AE), richiedendo ai partecipanti di analizzare le immagini e selezionare la risposta corretta.

Questions:

1. Comprensione dei grafici Abbiamo valutato i modelli in base alla loro capacità di estrarre, interpretare e analizzare informazioni da varie visualizzazioni di dati:

  • Grafici a barre : configurazioni orizzontali e verticali, formati impilati e raggruppati
  • Grafici a linee : andamenti di serie singole e multiple, dati di serie temporali
  • Diagrammi a dispersione : analisi di correlazione, identificazione di pattern con assi etichettati
  • Grafici a torta : distribuzioni percentuali e ragionamento proporzionale
  • Visualizzazioni complesse : grafici combinati, grafici a doppio asse e display a pannelli multipli.

2. Logica visiva Abbiamo valutato il ragionamento astratto e l'intelligenza spaziale attraverso:

  • Riconoscimento di modelli : identificazione di sequenze e completamento di modelli visivi
  • Ragionamento spaziale : visualizzazione 3D, reticoli cubici e trasformazioni geometriche
  • Logica matematica : modelli numerici, ragionamento algebrico e combinatoria
  • Pensiero astratto : manipolazione di simboli, deduzione logica e inferenza di regole.

Formato della domanda

  • Formato di risposta : Scelta multipla (A, B, C, D, E)
Sıla Ermut
Sıla Ermut
Analista di settore
Sıla Ermut è un'analista di settore presso AIMultiple, specializzata in email marketing e video di vendita. In precedenza, ha lavorato come reclutatrice in società di project management e consulenza. Sıla ha conseguito un Master in Psicologia Sociale e una laurea in Relazioni Internazionali.
Visualizza il profilo completo
Ricercato da
Nazlı Şipi
Nazlı Şipi
Ricercatore di intelligenza artificiale
Nazlı è un'analista di dati presso AIMultiple. Ha maturato esperienza nell'analisi dei dati in diversi settori, dove si è occupata di trasformare set di dati complessi in informazioni utili.
Visualizza il profilo completo

Sii il primo a commentare

Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori.

0/450