Confronta i modelli di IA multimodali sul ragionamento visivo

Sıla Ermut

con

Nazlı Şipi

aggiornato il 20 feb. 2026

Guarda il nostro norme etiche

Cita Questo Benchmark

Abbiamo sottoposto a benchmark 15 modelli di IA multimodali leader sul ragionamento visivo utilizzando 200 domande basate su immagini. La valutazione è consistita in due tracce: 100 domande di comprensione dei grafici per testare l'interpretazione della visualizzazione dei dati e 100 domande di logica visiva per valutare il riconoscimento dei modelli e il ragionamento spaziale. Ogni domanda è stata eseguita 5 volte per garantire risultati coerenti e affidabili.

Benchmark di ragionamento visivo

Loading Chart

Consulta la nostra metodologia del benchmark per conoscere le nostre procedure di test.

gemini-3.1-pro-preview e gemini-3-pro-preview guidano la classifica. Sono seguiti da gpt-5.2, kimi-k2.5 e gpt-5.2-pro, che guidano il prossimo gruppo di modelli. Sebbene la maggior parte dei modelli si comporti bene nelle attività basate sui dati, rimane un divario per llama-4-maverick nel collegare gli input visivi con i passaggi logici.

Logica visiva

La logica visiva richiede riconoscimento dei modelli e ragionamento spaziale. gemini-3.1-pro-preview guida il test di logica visiva, mostrando le prestazioni più elevate nelle attività di ragionamento astratto. Molti modelli mostrano una diminuzione delle prestazioni rispetto ai risultati dell'analisi dei grafici. llama-4-maverick mostra una limitazione in queste attività.

Comprensione dei grafici

I modelli dimostrano una maggiore competenza nell'interpretazione dei grafici rispetto alla logica visiva. gemini-3.1-pro-preview ha il punteggio più alto nei test di comprensione dei grafici, seguito da vicino da gemini-3-pro-preview e gemini-2.5-pro, mostrando una forte capacità di decodificare dati strutturati e visualizzazioni. claude-opus-4.6 e claude-sonnet-4.6 mostrano risultati più alti nell'interpretazione dei grafici rispetto ai loro punteggi di logica. Le attività visive basate sui dati sono più accessibili ai modelli multimodali attuali rispetto al riconoscimento dei modelli.

Affidabilità statistica delle prestazioni di ragionamento visivo (IC 95%)

Abbiamo calcolato gli Intervalli di Confidenza (IC) al 95% attraverso 10.000 ricampionamenti bootstrap per definire il margine di errore per ogni modello, mostrando l'intervallo entro il quale è probabile che ricada la loro vera prestazione.

Modello	Complessivo (IC 95%)	Logica visiva (IC 95%)	Comprensione dei grafici (IC 95%)
gemini-3.1-pro-preview	71 (65.20, 77.00)	58 (49.20, 66.80)	84 (77.60, 90.60)
gemini-3-pro-preview	69 (62.80-74.70)	55 (46.40-63.80)	82 (75.20-89.20)
gpt-5.2	67 (61.10-73.30)	56 (47.00-64.40)	79 (70.80-86.20)
gpt-5.2-pro	66 (59.60-71.90)	53 (44.20-61.40)	79 (70.80-86.40)
kimi-k2.5	66 (59.80-71.30)	53 (44.60-61.00)	78 (71.00-85.20)
gemini-2.5-pro	63 (56.90-68.90)	46 (37.80-53.80)	80 (72.40-87.00)
claude-opus-4.6	55 (48.50-61.40)	36 (27.80-44.00)	74 (65.60-82.20)
gpt-5.1-codex	53 (47.50-58.70)	33 (26.20-39.60)	73 (66.00-80.60)
claude-sonnet-4.6	52 (45.70-58.10)	31 (23.00-38.60)	73 (65.20-80.80)
qwen3-vl-8b-thinking	50 (44.40-56.00)	34 (26.40-41.00)	67 (58.60-74.20)

Domande del benchmark su dove i LLM eccellono e faticano di più

Domanda sul grafico con il tasso di successo più basso dei LLM

Grafico a barre che mostra i volumi di vendita Star in 12 mesi con quattro barre raggruppate per mese (dati 1998-2000). Ogni mese mostra barre solide, bianche e a righe in un raggruppamento ravvicinato.

Figura 1: Grafico a barre che mostra i volumi di vendita Star in 12 mesi con quattro barre raggruppate per mese (dati 1998-2000). Ogni mese mostra barre solide, bianche e a righe in un raggruppamento ravvicinato.

Nota: Tutti i grafici sono stati ottenuti da Hitbullseye.¹

Domanda: Se le vendite di tre anni consecutivi sono in costante aumento o in costante diminuzione, allora si chiama una tendenza costante. Quali mesi mostrano una tendenza in costante aumento in tre anni consecutivi?

Ad esempio, a giugno 1999, l'effettivo era inferiore rispetto al 1998, mostrando una diminuzione, ma il modello l'ha interpretato erroneamente come in costante aumento. La maggior parte dei modelli commette lo stesso errore su questa domanda.

Quando 4 barre sono raggruppate insieme per mese, i modelli hanno faticato con la mappatura barra-anno e la percezione dell'altezza relativa. Non sono riusciti a distinguere accuratamente quale barra a righe/solida/bianca apparteneva a quale anno, portando a leggere le barre nell'ordine sbagliato o a confondere le loro altezze.

Questo ha rivelato una limitazione fondamentale nel ragionamento visivo-spaziale: i modelli attuali mancavano della percezione precisa al pixel necessaria per misurare e sequenziare correttamente le barre densamente impaccate, portando a un errato identificazione sistematica delle tendenze.

Domanda sul grafico con il tasso di successo più alto dei LLM

Grafico a barre che mostra le percentuali di affluenza alle urne nelle elezioni generali indiane dal 1952 al 1998. Una barra per anno elettorale con spaziatura chiara tra le barre.

Figura 2: Grafico a barre che mostra le percentuali di affluenza alle urne nelle elezioni generali indiane dal 1952 al 1998. Una barra per anno elettorale con spaziatura chiara tra le barre.

Domanda: L'affluenza alle urne più alta e più bassa di sempre (in percentuale) è stata rispettivamente in quali anni?

Tutti i modelli hanno risposto correttamente a questa domanda. Questo successo mostra che i modelli eccellono nell'identificazione semplice min-max, trovando le barre più alte e più basse.

A differenza dei gruppi di 4 barre raggruppate, che sono confusi, questo grafico ha una singola barra per anno con spaziatura chiara, rendendo il confronto visivo diretto semplice. I modelli si comportano bene nelle attività puramente osservative che non richiedono una complessa mappatura barra-categoria.

Domanda di logica visiva con il tasso di successo più alto dei LLM

Due griglie allineate 3x3 che mostrano l'abbinamento di pattern algebrici. La griglia superiore contiene variabili e le loro operazioni (moltiplicazione, divisione, esponenti). La griglia inferiore mostra valori numerici con alcune celle riempite (6, 36, 3/4) e due incognite (A, B). La domanda chiede di trovare B-A.

Figura 3: Due griglie allineate 3×3 che mostrano l'abbinamento di pattern algebrici. La griglia superiore contiene variabili e le loro operazioni (moltiplicazione, divisione, esponenti). La griglia inferiore mostra valori numerici, con alcune celle riempite (6, 36, 3/4) e due incognite (A, B). La domanda chiede di trovare B-A.

Il successo è arrivato dal chiaro pattern matematico visibile nella struttura della tabella (relazioni algebriche come a×b, c×d). Il semplice layout a griglia, senza complessità visiva, ha permesso ai modelli di concentrarsi esclusivamente sull'inferenza numerica e sulla deduzione logica.

I modelli eccellono quando i problemi coinvolgono pattern matematici espliciti che possono essere risolti attraverso un ragionamento passo dopo passo, dimostrando la loro forza nella logica simbolica e nel riconoscimento dei pattern quando le distrazioni visive sono minime.

Domanda di logica visiva con il tasso di successo più basso dei LLM

Puzzle di riconoscimento di pattern con cerchi contenenti diversi pattern di linee interne e forme geometriche. Due sequenze di esempio con frecce mostrate in alto, seguite da una domanda che chiede di completare la terza sequenza da cinque opzioni a scelta multipla.

Figura 4: Puzzle di riconoscimento di pattern con cerchi contenenti diversi pattern di linee interne e forme geometriche. Due sequenze di esempio con frecce mostrate in alto, seguite da una domanda che chiede di completare la terza sequenza da cinque opzioni a scelta multipla.

La difficoltà deriva dalla necessità di riconoscimento di pattern visivi astratti, identificando regole di trasformazione geometrica attraverso molteplici esempi.

Questo richiede un puro ragionamento spaziale per capire come le forme ruotano, si trasformano e si relazionano tra loro. I modelli faticano con l'inferenza delle regole dalle sequenze visive quando non sono disponibili guide numeriche o testuali esplicite, solo pattern spaziali.

Cos'è il ragionamento visivo?

Il ragionamento visivo è la capacità di un modello di interpretare immagini, collegare elementi visivi e rispondere a domande che richiedono la comprensione di informazioni sia visive che testuali. Questa capacità va oltre il semplice riconoscimento degli oggetti fino ad attività come l'analisi delle visualizzazioni dei dati, l'identificazione di pattern spaziali e la comprensione delle relazioni tra elementi visivi.

Il nostro benchmark ha valutato questo attraverso due distinte tracce per testare diversi aspetti cognitivi: comprensione dei grafici, dove i modelli interpretavano istogrammi, grafici a linee e diagrammi a dispersione per valutare la loro capacità di estrarre informazioni strutturate dalle visualizzazioni dei dati; e logica visiva, dove affrontavano puzzle di riconoscimento di pattern e problemi di ragionamento spaziale per misurare il ragionamento astratto senza guida numerica esplicita. Questa divisione riflette la distinzione fondamentale nel modo in cui i modelli elaborano dati espliciti rispetto a pattern impliciti.

I modelli raggiungono il ragionamento visivo attraverso diversi approcci architetturali. Ad esempio, il framework Cola coordina più modelli visione-linguaggio dove ognuno fornisce didascalie e risposte plausibili, quindi un LLM centrale valuta queste opzioni e seleziona la risposta più accurata.

Figura 5: Grafico che mostra come Cola sfrutta un modello linguistico coordinativo per il ragionamento visivo.²

Un altro esempio è il framework CVR-LLM, che migliora il ragionamento convertendo le immagini in descrizioni consapevoli del contesto utilizzando il metodo CaID e selezionando esempi pertinenti con la procedura CVR-ICL. Questo framework tratta le informazioni delle immagini come rappresentazioni basate sul testo, consentendo all'LLM di analizzare le associazioni in modo più efficace attraverso vari tipi di attività multimodali.³

Come funziona il ragionamento visivo nei LLM

I LLM non percepiscono direttamente le immagini. Si affidano a encoder visivi che convertono le immagini in rappresentazioni strutturate adattate per i modelli linguistici. L'encoder identifica oggetti, texture, relazioni spaziali e pattern visivi. Il LLM combina quindi questa rappresentazione con la query testuale per costruire una catena di ragionamento.

Esistono due meccanismi principali per scenari visivi complessi: coordinazione, dove un LLM integra gli output di più modelli visivi per verificare le interpretazioni; e raffinamento, dove il LLM migliora iterativamente le descrizioni delle immagini attraverso loop di feedback che identificano le informazioni mancanti. Entrambi affrontano le limitazioni in cui i singoli modelli non riescono ad analizzare scenari complessi.

Apprendimento in contesto per il ragionamento multimodale

Alcuni framework recuperano esempi simili dai dati di addestramento, fornendo al modello modelli per interpretare gli input visivi. Queste dimostrazioni aiutano il modello ad applicare pattern di ragionamento appresi a nuovi problemi.

Produzione della spiegazione finale

Il LLM produce una risposta supportata da un processo di ragionamento, spiegando come ha interpretato l'immagine, su quali elementi visivi si è basato e le connessioni logiche che ha fatto.

Ragionamento Chain-of-Thought nelle attività visive

Il ragionamento Chain-of-Thought (CoT) è emerso come un approccio importante nel ragionamento visivo. Invece di analizzare un'immagine tutto in una volta, i modelli ora scompongono i problemi visivi in passaggi più piccoli e sequenziali, simile a come gli umani risolvono problemi complessi pensando attraverso di essi passo dopo passo.

Il CoT visivo permette ai modelli di regolare dinamicamente il focus su diverse regioni spaziali di un'immagine, affrontando una limitazione chiave in cui i modelli in precedenza si affidavano all'elaborazione delle immagini a granularità fissa. Ad esempio, quando si analizza un grafico complesso, il modello potrebbe prima identificare gli assi, poi esaminare i singoli punti dati e infine confrontare le tendenze, invece di cercare di capire tutto simultaneamente.

Questo approccio integra l'apprendimento per rinforzo e l'apprendimento per imitazione per allineare i modelli più da vicino ai pattern di ragionamento umano. Questo rappresenta un cambiamento fondamentale dal riconoscimento passivo dei pattern alla risoluzione attiva dei problemi visivi, dove i modelli esplorano e ragionano attivamente su ciò che vedono. ⁴

Non perderti i nostri benchmark e approfondimenti basati sui dati. Il pulsante apre Google; selezionare AIMultiple conferma che desideri vedere AIMultiple più spesso nei risultati di ricerca di Google.

Aggiungi come fonte preferita

Applicazioni aziendali del ragionamento visivo nei LLM

I LLM con capacità visive possono supportare molteplici scenari aziendali. Queste applicazioni dipendono dalla capacità del modello di analizzare immagini, collegarle ai dati testuali e produrre insight affidabili.

Analisi di documenti e contenuti

Le aziende gestiscono diagrammi, disegni ingegneristici, figure di riviste scientifiche e varie forme di dati visivi. Un modello di ragionamento visivo può:

Rilevare elementi mancanti o errati.
Identificare oggetti o segnali nella parte inferiore o negli angoli dei diagrammi.
Collegare segmenti di testo e immagine per controlli di qualità.
Estrarre informazioni strutturate per ulteriori implementazioni o report.

Ad esempio, Intuit ha integrato i modelli Doc AI e Gemini di Google Cloud per compilare automaticamente le dichiarazioni dei redditi su moduli fiscali statunitensi comuni, migliorando sia la velocità che l'accuratezza nell'elaborazione dei documenti.⁵

Ispezione della qualità e operazioni

Nella produzione e nella logistica, i modelli possono ispezionare prodotti o pacchi. Il ragionamento visivo aiuta a rilevare difetti, disallineamenti o pattern insoliti. Il modello può confrontare le immagini con un riferimento e generare una spiegazione di cosa è cambiato o cosa manca.

Intel, ad esempio, utilizza sistemi di ispezione visiva AI che risparmiano 2 milioni di dollari all'anno, con i produttori che tipicamente raggiungono un ROI entro 6-12 mesi attraverso la riduzione degli scarti e dei resi dei clienti. ⁶

Retail e eCommerce

I modelli analizzano le immagini dei prodotti, identificano gli attributi chiave e li abbinano ai dati del catalogo. Le capacità di ricerca visiva permettono ai clienti di caricare immagini per trovare prodotti simili utilizzando la visione artificiale, mentre i motori di raccomandazione delle dimensioni basati sull'AI hanno ridotto i tassi di reso del 20-30%. Questi sistemi rilevano anche le incongruenze tra le descrizioni dei prodotti e le immagini.⁷

Sicurezza e monitoraggio

Il ragionamento visivo supporta le attività di ispezione video e immagine analizzando sequenze di fotogrammi e rilevando pattern insoliti. Cambridge Industries ha implementato un sistema di sicurezza basato sull'AI per i cantieri edili che ha ridotto i costi di riparazione di emergenza di quasi il 50%. ⁸

Marketing e esperienza utente

Il ragionamento visivo aiuta i team a capire come gli utenti interagiscono con i contenuti digitali. Un modello può valutare screenshot o creatività e fornire insight su layout, posizionamento degli oggetti e potenziali problemi. Questo è particolarmente rilevante quando si valutano diverse categorie di asset visivi.

Ad esempio, Comeen utilizza l'AI Gemini per generare sottotitoli multilingue per video aziendali in 40 lingue con un clic, eliminando il processo multi-giorno e multi-venditore che in precedenza rendeva i contenuti obsoleti prima della pubblicazione. ⁹

Scenario comparativo: principali attori e i loro approcci

Chance AI

Chance AI è tra i primi strumenti commerciali costruiti attorno alla comprensione vision-first. Il suo sistema di ragionamento visivo analizza le immagini attraverso lenti culturali, storiche, funzionali ed estetiche. Invece di assegnare semplici etichette, fornisce insight strutturati che spiegano perché un oggetto, una figura o una scena contano, come lo stile dell'opera d'arte, il simbolismo e il contesto storico, insieme al suo soggetto.

Il design dà priorità all'esperienza utente consentendo un'esplorazione guidata dal significato attraverso le immagini senza query digitate. Questo va oltre la tradizionale visione artificiale verso l'interpretazione, il racconto e la spiegazione simile a quella umana, rendendolo particolarmente rilevante per le industrie creative, l'educazione e il turismo, dove il contesto aggiunge valore oltre il riconoscimento.¹⁰

Meta AI

Il framework UniBench di Meta ha introdotto un approccio unificato alla valutazione del ragionamento visivo combinando oltre cinquanta benchmark per la comprensione spaziale, il ragionamento compositivo e il conteggio. Testando quasi sessanta modelli visione-linguaggio, Meta ha scoperto che scalare dati e dimensioni del modello migliora la percezione ma non il ragionamento, con anche modelli avanzati che falliscono in compiti semplici come il riconoscimento delle cifre e il conteggio degli oggetti.

Questi risultati hanno cambiato il modo in cui viene misurato il progresso del ragionamento visivo, evidenziando la necessità di dati di qualità superiore, obiettivi mirati e apprendimento strutturato piuttosto che affidarsi esclusivamente a modelli più grandi. Per le aziende, UniBench offre un modo trasparente per confrontare le prestazioni di ragionamento attraverso attività multimodali prima della distribuzione.¹¹

Figura 6: Il grafico mostra la prestazione mediana di 59 VLM su 53 benchmark, rivelando che, nonostante i progressi, molti modelli si comportano ancora vicino al livello casuale, in particolare su compiti come Winoground, iNaturalist, DSPR e altri (blu: mediana zero-shot; grigio: livello casuale).¹²

OpenAI

OpenAI ha avanzato il ragionamento visivo con i modelli o3 e o4-mini, che possono pensare con le immagini integrando la manipolazione delle immagini nel loro ragionamento. Durante l'analisi, ingrandiscono, ritagliano o ruotano le immagini per concentrarsi sui dettagli rilevanti, riflettendo il modo in cui gli umani regolano l'attenzione visiva quando interpretano diagrammi o disegni.

Testati su benchmark multimodali come l'interpretazione dei grafici, la risoluzione di problemi visivi e il ragionamento matematico, i modelli hanno mostrato chiari guadagni in accuratezza e comprensione contestuale. Tuttavia, i risultati hanno anche esposto limitazioni, tra cui ragionamento incoerente e errori percettivi occasionali, sottolineando la sfida continua dell'affidabilità nei sistemi di ragionamento visivo.

Figura 7: Il grafico mostra i risultati di tutti i modelli valutati con impostazioni di alto 'sforzo di ragionamento'.¹³

Sforzi di ricerca accademica e aperta

Questo articolo introduce VisuLogic, un benchmark per valutare le prestazioni dei modelli multimodali su compiti di ragionamento visivo. Combina oltre cinquanta dataset che coprono vari tipi di ragionamento, tra cui relazioni spaziali, logica compositiva e conteggio degli oggetti.

Gli autori analizzano dozzine di modelli esistenti e scoprono che aumentare le dimensioni o la scala dei dati migliora il riconoscimento delle immagini ma non il ragionamento. I modelli spesso rilevano pattern senza comprendere le relazioni tra gli oggetti. L'articolo sottolinea che l'addestramento specifico per il ragionamento, una migliore qualità dei dati e una valutazione dettagliata sono essenziali per un progresso significativo.

VisuLogic offre un framework unificato che aiuta ricercatori e aziende ad analizzare le capacità di ragionamento piuttosto che affidarsi esclusivamente alle metriche di percezione, rendendolo una risorsa preziosa per valutare i sistemi di ragionamento multimodale.¹⁴

Spiega prima di rispondere: un sondaggio sul ragionamento visivo compositivo

Questo sondaggio esamina gli approcci attuali al ragionamento visivo compositivo, concentrandosi su come i modelli combinano indizi visivi e testuali per raggiungere una risposta corretta. Identifica le debolezze nei metodi esistenti che si basano sul riconoscimento piuttosto che sul ragionamento strutturato.

Gli autori propongono di addestrare i modelli a spiegare prima di rispondere, assicurando che ogni processo di ragionamento sia trasparente e interpretabile. Discutono tecniche per allineare le rappresentazioni visive e linguistiche in modo che i modelli possano comprendere meglio diagrammi, figure e associazioni di oggetti.

L'articolo conclude che un ragionamento allineato e spiegabile migliora l'affidabilità e l'interpretabilità nelle attività multimodali. Sottolinea che il futuro della ricerca sul ragionamento visivo dipende dall'integrazione dell'apprendimento basato sulla spiegazione nella progettazione del modello.¹⁵

Sfide nelle capacità di ragionamento visivo dei LLM

I progressi nel ragionamento visivo portano anche sfide tecniche ed etiche che devono essere considerate.

L'affidabilità rimane una preoccupazione chiave. Come visto nel nostro benchmark, i modelli faticano con visualizzazioni densamente impaccate, fallendo nella mappatura barra-anno e nella percezione dell'altezza relativa in grafici complessi, portando a errori sistematici nell'identificazione delle tendenze. Anche i modelli avanzati falliscono in compiti semplici come il riconoscimento delle cifre e il conteggio degli oggetti, e scalare i dati migliora la percezione ma non il ragionamento.

I problemi di bias e interpretazione sono diffusi. I modelli di ragionamento visivo apprendono e riflettono i bias presenti nei loro dati di addestramento quando interpretano le immagini. I modelli riflettono assunzioni culturali e stereotipi dai dati di addestramento, inclusi bias di genere, razza, età e disabilità. Ad esempio, quando si prevedono le professioni delle persone in un'immagine o si interpretano scenari, questi bias possono distorcere i risultati.

L'spiegabilità è fondamentale per la fiducia. I modelli dovrebbero spiegare il loro processo di ragionamento in modo trasparente, specialmente in applicazioni ad alto rischio come l'assistenza sanitaria, l'assunzione e la giustizia penale dove output distorti causano danni.

Metodologia del benchmark

Tutti i modelli sono stati valutati tramite OpenRouter API con parametri standardizzati: temperatura impostata a 0.8 e il parametro max tokens non è stato impostato per evitare di limitare le capacità di ragionamento. Ai modelli è stato ordinato di rispondere con una singola lettera (A-E) senza spiegazione, sebbene alcuni modelli abbiano ancora fornito un ragionamento dettagliato, che abbiamo analizzato per estrarre le risposte finali. La valutazione è stata eseguita in parallelo su tutti i modelli contemporaneamente. Ogni domanda è stata eseguita 5 volte per garantire risultati coerenti e affidabili.

Il benchmark è consistito in 200 domande divise in due categorie: Comprensione dei grafici (100 domande) che copre istogrammi, grafici a linee, diagrammi a dispersione e visualizzazioni complesse dei dati, e Logica visiva (10 domande) che testa il riconoscimento dei pattern, il ragionamento spaziale e la logica visiva matematica. Tutte le domande sono state presentate in formato a scelta multipla con cinque opzioni (A-E), richiedendo ai modelli di analizzare le immagini e selezionare la risposta corretta.

Questions:

1. Comprensione dei grafici Abbiamo valutato i modelli sulla loro capacità di estrarre, interpretare e analizzare informazioni da varie visualizzazioni dei dati:

Istogrammi: Configurazioni orizzontali e verticali, formati impilati e raggruppati
Grafici a linee: Trend a serie singola e multipla, dati in serie temporali
Diagrammi a dispersione: Analisi delle correlazioni, identificazione dei pattern con assi etichettati
Grafici a torta: Distribuzioni percentuali e ragionamento proporzionale
Visualizzazioni complesse: Grafici combinati, grafici a doppio asse e display multi-pannello

2. Logica visiva Abbiamo valutato il ragionamento astratto e l'intelligenza spaziale attraverso:

Riconoscimento dei pattern: Identificazione di sequenze e completamento di pattern visivi
Ragionamento spaziale: Visualizzazione 3D, reti di cubi e trasformazioni geometriche
Logica matematica: Pattern numerici, ragionamento algebrico e combinatoria
Pensiero astratto: Manipolazione di simboli, deduzione logica e inferenza di regole

Formato della domanda

Formato della risposta: Scelta multipla (A, B, C, D, E)

Cita questo benchmark

Scegli il formato adatto a dove pubblicherai. Incollare la versione con link nel tuo CMS preserva il backlink.

Sıla Ermut and Nazlı Şipi (2026) - "Confronta i modelli di IA multimodali sul ragionamento visivo". Pubblicato online su AIMultiple.com. Consultato il 20 Febbraio 2026, da: https://aimultiple.com/visual-reasoning [Risorsa online]

Ermut, S., & Şipi, N. (2026, 20 Febbraio). Confronta i modelli di IA multimodali sul ragionamento visivo. AIMultiple. https://aimultiple.com/visual-reasoning

@misc{ermut2026,
  author = {Ermut, Sıla and Şipi, Nazlı},
  title  = {{Confronta i modelli di IA multimodali sul ragionamento visivo}},
  year   = {2026},
  month  = feb,
  howpublished    = {\url{https://aimultiple.com/visual-reasoning}},
  note   = {AIMultiple. Consultato il 20 Febbraio 2026}
}

Collegamenti di riferimento

Hitbullseye: Transforming Education with Cutting Edge Technology

https://papers.neurips.cc/paper_files/paper/2023/file/ddfe6bae7b869e819f842753009b94ad-Paper-Conference.pdf

https://arxiv.org/pdf/2409.13980

Why Reasoning Matters? A Survey of Advancements in Multimodal Reasoning (v1)

Real-world gen AI use cases from the world's leading organizations | Google Cloud Blog

Google Cloud

100% Accuracy AI Vision: The Real Cost of Defects

Overview.ai

Top AI Use Cases Transforming Industries in 2025 | Databricks Blog

WEF highlights 32 AI case studies with real-world business impact | CIO

CIO

Real-world gen AI use cases from the world's leading organizations | Google Cloud Blog

Google Cloud

10.

Introducing Visual Reasoning: A New Way to Understand What You See

Chance AI

11.

UniBench: Visual Reasoning Requires Rethinking Vision-Language Beyond Scaling | Research - AI at Meta

12.

https://proceedings.neurips.cc/paper_files/paper/2024/file/96271227d3e204501d199433e56af289-Paper-Datasets_and_Benchmarks_Track.pdf

13.

Pensar con imágenes | OpenAI

14.

https://arxiv.org/pdf/2504.15279

15.

https://arxiv.org/pdf/2508.17298

Sıla Ermut

Analista di settore

Segui

Sıla Ermut è un'analista di settore presso AIMultiple, specializzata in email marketing e video di vendita. In precedenza, ha lavorato come reclutatrice in società di project management e consulenza. Sıla ha conseguito un Master in Psicologia Sociale e una laurea in Relazioni Internazionali.

Visualizza il profilo completo

Ricercato da

Nazlı Şipi

Ricercatore di intelligenza artificiale

Nazlı è un'analista di dati presso AIMultiple. Ha maturato esperienza nell'analisi dei dati in diversi settori, dove si è occupata di trasformare set di dati complessi in informazioni utili.

Visualizza il profilo completo