IA Modelli di intelligenza artificiale LLM

Modelli multimodali di grandi dimensioni (LMM) vs LLM

aggiornato il Mag 22, 2026

Abbiamo valutato le prestazioni dei modelli multimodali di grandi dimensioni (LMM) in compiti di ragionamento finanziario utilizzando un dataset accuratamente selezionato. Analizzando un sottoinsieme di campioni finanziari di alta qualità, valutiamo le capacità dei modelli nell'elaborazione e nel ragionamento con dati multimodali nel dominio finanziario.

Loading Chart

La sezione relativa alla metodologia fornisce informazioni dettagliate sul set di dati e sul quadro di valutazione utilizzati.

Esplora modelli multimodali di grandi dimensioni e confrontali con modelli linguistici di grandi dimensioni .

Perché i modelli hanno avuto prestazioni diverse?

La variazione nei tassi di successo riflette le differenze nel modo in cui ciascun modello elabora le attività finanziarie multimodali. Poiché il benchmark utilizza campioni tratti dal dataset FinMME, che richiede l'integrazione di testo e elementi visivi finanziari come grafici e documenti strutturati, le prestazioni dipendono fortemente dall'architettura del modello, dalla qualità dell'addestramento e dall'allineamento multimodale.

Architettura del modello e progettazione dei parametri

I modelli differiscono per il modo in cui combinano i codificatori di testo e di immagine, per il numero di parametri attivi e per la complessità del loro sistema di instradamento esperto.

Llama 4 Maverick, ad esempio, utilizza un'architettura più ampia basata su esperti, che consente un ragionamento più robusto.
I modelli più piccoli o focalizzati sull'efficienza presentano un numero inferiore di parametri allineati al ragionamento multimodale, il che ne limita le prestazioni.

Queste distinzioni architettoniche influenzano la capacità di ciascun modello di interpretare relazioni numeriche, strutture di grafici e elementi visivi specifici del dominio.

copertura dei dati di training

Alcuni modelli vengono addestrati su ampi set di dati multimodali, mentre altri si basano principalmente su dati di carattere generale.

I modelli delle famiglie Claude 4 e Qwen 2.5 incorporano dati visivi e testuali su larga scala, migliorando la loro capacità di allineare indizi numerici e visivi.
I modelli addestrati su corpus multimodali più limitati hanno difficoltà con grafici finanziari e diagrammi strutturati.

I dati di addestramento influenzano direttamente l'affidabilità con cui un modello gestisce concetti finanziari intermodali.

Il test di riferimento richiede il coordinamento tra l'interpretazione delle immagini e il ragionamento basato sul testo.

I modelli Claude 4 sono descritti come particolarmente abili nei compiti che coinvolgono grafici e diagrammi.
I modelli privi di una specifica messa a punto intermodale possono rilevare correttamente le caratteristiche visive, ma risultano inadeguati quando si tratta di collegarle al linguaggio o alla logica finanziaria.

La strategia di messa a punto di un modello influisce sulla sua capacità di fondere segnali testuali e visivi durante l'analisi.

Capacità di gestione del contesto

I documenti finanziari di esempio spesso contengono diversi elementi che devono essere letti congiuntamente, come grafici suddivisi in più parti o descrizioni dettagliate.

I modelli con finestre di contesto più ampie possono mantenere le relazioni anche in presenza di input prolungati.
I modelli più vincolati potrebbero non rilevare le dipendenze, riducendo la precisione in attività che richiedono il monitoraggio di più componenti visive e testuali.

La dimensione della finestra di contesto influenza la capacità di un modello di mantenere l'allineamento tra dettagli quantitativi e visivi.

Priorità relative alle dimensioni e all'efficienza del modello

Alcuni modelli sono volutamente progettati per un'implementazione semplice piuttosto che per ragionamenti ad alta complessità.

I modelli multimodali Phi-4 e modelli simili privilegiano l'efficienza, limitando la profondità dell'elaborazione multimodale.
I modelli più grandi mantengono una maggiore capacità per i compiti di ragionamento che implicano una comprensione dettagliata dei grafici.

Questo compromesso si traduce in punteggi inferiori per i modelli più piccoli.

Differenze nella comprensione visiva

La valutazione comprende compiti che richiedono un'accurata lettura dei grafici, l'identificazione di oggetti all'interno di documenti finanziari e l'estrazione di dettagli visivi.

I modelli con pipeline visive avanzate, come le varianti Qwen 2.5-VL, gestiscono questi compiti in modo più efficace.
Altri potrebbero gestire bene le immagini generiche, ma avere prestazioni incoerenti con le visualizzazioni finanziarie strutturate.

La capacità di ragionamento visivo influenza notevolmente i risultati ottenuti in campioni in stile FinMME.

Caratteristiche del set di dati di valutazione

Il dataset si concentra sul ragionamento finanziario multimodale piuttosto che su compiti di carattere generale.

I modelli addestrati o ottimizzati per compiti finanziari, numerici o basati su grafici offrono prestazioni migliori.
I modelli generalisti privi di esperienza specifica nel settore mostrano una minore precisione sui set di dati finanziari.

La specializzazione del dataset rende le prestazioni più sensibili alla qualità del ragionamento intermodale.

Che cosa sono i modelli multimodali di grandi dimensioni open-source?

Modelli lineari open source con il relativo numero di stelle su GitHub:

Il grafico mostra che la popolarità su GitHub di vari modelli lineari misti (LMM) open-source è in aumento, con alcuni modelli che hanno registrato una rapida adozione poco dopo il loro rilascio.

La serie Janus di DeepSeek ha guadagnato migliaia di stelle su GitHub in pochi giorni dopo il rilascio di Janus-Pro il 27 gennaio 2025, superando i suoi concorrenti, che hanno impiegato mesi per raggiungere numeri simili. Questa rapida ascesa non è stata dovuta solo al successo di Janus-Pro, ma è stata anche influenzata dallo slancio creato da DeepSeek-R1 .

Gemma 3 di Google: Gemma 3 è una famiglia di modelli aperti leggeri e all'avanguardia derivati dalla tecnologia Gemini 2.0. Questi modelli offrono funzionalità avanzate di ragionamento testuale e visivo, una finestra di contesto da 128.000 token, supporto per la chiamata di funzioni e versioni quantizzate per prestazioni ottimizzate. Include ShieldGemma 2 per la sicurezza delle immagini e supporta diversi strumenti e opzioni di implementazione. ¹
Janus-Pro di DeepSeek : Janus-Pro è una versione avanzata del modello Janus, progettata per comprendere e generare testo e immagini. Presenta una strategia di addestramento ottimizzata, dati di addestramento ampliati e una dimensione del modello maggiore, migliorando le sue capacità multimodali. ²
Qwen2.5-VL di Alibaba: Qwen2.5-VL di Alibaba è un'estensione multimodale del modello linguistico Qwen2.5, progettato per la comprensione di testo e immagini. Vanta un pre-addestramento su larga scala (fino a 18 trilioni di token), una finestra di contesto estesa (fino a 128.000 token), una migliore capacità di seguire le istruzioni e un solido supporto multilingue, che lo rendono adatto a compiti come la generazione di didascalie per immagini e la risposta a domande visive. ³
- Basandosi sulla serie Qwen2.5-VL, Alibaba ha ottimizzato e reso open source Qwen2.5-VL-32B-Instruct, un modello VL a 32 bit che incorpora una comprensione e un ragionamento delle immagini più dettagliati. Ciò si traduce in prestazioni migliori e analisi più approfondite in attività come l'analisi delle immagini, il riconoscimento dei contenuti e la deduzione della logica visiva. ⁴
CLIP (Contrastive Language–Image Pretraining) di OpenAI: CLIP è progettato per comprendere le immagini nel contesto del linguaggio naturale. Può eseguire attività come la classificazione di immagini zero-shot, in cui è in grado di classificare accuratamente le immagini anche in categorie su cui non è stato esplicitamente addestrato, comprendendo descrizioni testuali. ⁵
Flamingo di DeepMind: Flamingo è progettato per sfruttare i punti di forza sia del linguaggio che della comprensione visiva, rendendolo capace di svolgere compiti che richiedono l'interpretazione e l'integrazione di informazioni provenienti sia da testo che da immagini. ⁶

Figura 1: Un esempio tratto da Chip Huyen ⁷

Quali sono i principali modelli LMM?

Funzionalità dell'interfaccia utente e dell'API dei LLM di uso generale

I fornitori vengono selezionati tra i modelli di vita quotidiana multimodali più diffusi in base a criteri di comparabilità, disponibilità dei dati e tempestività.

LMM con il loro prezzo per token:

Per selezionare il modello più adatto, è necessario considerare fattori quali il budget, le funzionalità e il livello di prestazioni richiesti, nonché il volume previsto di token di input/output necessari per il caso d'uso specifico.

Puoi leggere ulteriori informazioni sui prezzi dei LLM.

Quali sono gli ultimi progressi nei modelli multimodali?

I recenti progressi nei modelli multimodali hanno introdotto nuove capacità ed efficienze nello sviluppo dell'intelligenza artificiale.

modelli di base multimodali incentrati sul video

I modelli multimodali basati sui video si stanno evolvendo, superando la semplice generazione di didascalie o riassunti di alto livello e imparando invece a localizzare esplicitamente le prove all'interno dei video.

Anziché descrivere cosa accade, possono identificare quando accade (tramite timestamp) e dove accade (tramite riquadri di delimitazione attorno a oggetti o regioni).

Questo passaggio a una base spazio-temporale rende la comprensione dei video più precisa e verificabile. Consente inoltre di svolgere attività come individuare momenti esatti, tracciare oggetti nel tempo, modificare video utilizzando il linguaggio naturale e supportare la robotica e i sistemi critici per la sicurezza.

Ad esempio, Vidi ⁸ è un progetto open-source di ByteDance incentrato su modelli multimodali di grandi dimensioni per la comprensione e la modifica dei video.

Il repository ospita il codice e le risorse per una famiglia di modelli (ad esempio, Vidi-7B, Vidi1.5-9B, Vidi2 e Vidi2.5) che utilizzano immagini, audio e testo come input per eseguire attività quali:

Recupero temporale (individuazione dei segmenti temporali in un video corrispondenti a una query di testo)
Ancoraggio spazio-temporale (individuazione di oggetti nel tempo tramite riquadri di delimitazione)
Risposta alle domande tramite video

Rilascio multimodale di frontiera di Mistral 3

Mistral AI ha sviluppato una nuova famiglia di modelli di intelligenza artificiale open-source chiamata Mistral 3. La suite Mistral 3 comprende sia modelli multimodali/multilingue all'avanguardia, sia modelli più piccoli ed efficienti, progettati per funzionare su una vasta gamma di dispositivi, dal cloud all'edge computing, e persino su singole GPU.

Rilasciati con una licenza open-source permissiva (Apache 2.0), questi modelli mirano a democratizzare l'accesso all'intelligenza artificiale avanzata, a consentire la personalizzazione e la flessibilità di implementazione e a rafforzare la posizione dell'Europa nello sviluppo dell'IA, dove sussistono preoccupazioni per il ritardo rispetto a Stati Uniti e Cina nelle tecnologie all'avanguardia. ⁹

Modelli di linguaggio visivo open source del Ministero dell'Istruzione

Kimi-VL (da Moonshot AI) è un modello visivo-linguistico multimodale open-source costruito con un'architettura Mixture-of-Experts (MoE), in grado di eseguire attività che combinano testo, immagini e video mantenendo un'elevata efficienza computazionale.

Dispone di una struttura portante con un totale di 16 miliardi di parametri, ma in genere ne attiva solo circa 2,8 miliardi durante l'inferenza, il che contribuisce a bilanciare capacità e costi.

Kimi-VL è progettato per il ragionamento multimodale avanzato, la comprensione di contesti lunghi (fino a circa 128.000 token) e le interazioni in stile agente, e compete bene con modelli più grandi in benchmark come la comprensione video, il riconoscimento ottico dei caratteri (OCR) , il ragionamento matematico e le attività multi-immagine.

Varianti come Kimi-VL-A3B-Thinking sono ulteriormente ottimizzate per compiti di ragionamento e di flusso di pensiero, mentre il codificatore visivo MoonViT supporta la comprensione di input ad alta risoluzione.

Figura 2: Progettazione dell'architettura Kimi-VL. ¹⁰

Claude Serie 4 di Anthropic

La serie Claude 4 di Anthropic integra una comprensione visiva avanzata con il suo motore di ragionamento basato sul testo, incorporando la visione direttamente nei flussi di lavoro di risoluzione dei problemi.

I modelli Claude 4 dimostrano prestazioni elevate nei benchmark di ragionamento multimodale come MMMU, in particolare nell'interpretazione di grafici, diagrammi e dati visivi complessi. Una caratteristica distintiva di Claude Opus 4.1 è la sua capacità di valutare le qualità estetiche all'interno delle immagini, estendendosi oltre il semplice riconoscimento per arrivare a valutazioni più sfumate.

Queste capacità, unite alle funzioni di agente di Claude, rendono la serie efficace per compiti come la sintesi di ricerche da report con testo e immagini misti o l'assistenza nella progettazione di interfacce attraverso l'analisi di mockup visivi.

GPT-5 da OpenAI

GPT-5 introduce una multimodalità nativa avanzata per testo, voce, immagini e video. A differenza dei sistemi precedenti che si basavano in gran parte su plugin, GPT-5 integra queste modalità in un'architettura unificata, garantendo un'interazione più fluida. Il modello si adatta in modo flessibile a diversi tipi di input e può passare da uno all'altro.

Una caratteristica degna di nota è la modalità vocale in tempo reale, in grado di regolare tono, ritmo e stile in base alle istruzioni dell'utente. Ciò crea un'esperienza di conversazione più naturale e adattiva. Anche l'elaborazione visiva è stata migliorata, riducendo le allucinazioni nell'interpretazione o nella generazione di immagini, diagrammi e grafici. Un altro progresso risiede nelle sue capacità di memoria, che consentono al sistema di richiamare input precedenti e di mantenere il contesto durante interazioni prolungate.

Questi miglioramenti rendono GPT-5 particolarmente prezioso per le interfacce multimodali accessibili, soprattutto per le persone con disabilità sensoriali.

Google Modelli multimodali di DeepMind focalizzati sulla robotica

DeepMind ha sviluppato Gemini Robotics e Gemini Robotics-ER, modelli progettati per integrare visione, linguaggio e azione all'interno di sistemi robotici. Questi modelli consentono ai robot di svolgere compiti in ambienti non strutturati, come piegare la carta o svitare i tappi delle bottiglie.

Una caratteristica fondamentale di questi modelli è il loro meccanismo di sicurezza. Prima di eseguire qualsiasi azione, il sistema effettua controlli integrati per minimizzare i rischi e garantire la corretta gestione dei compiti. Questo approccio affronta una delle sfide più importanti della robotica: collegare il ragionamento avanzato dell'intelligenza artificiale con un'esecuzione sicura e affidabile nel mondo reale.

Llama 4 Scout e Llama 4 Maverick di Meta AI

Llama 4 Scout è un modello multimodale con 17 miliardi di parametri attivi e 16 esperti. Questo modello supera le prestazioni dei modelli Llama di precedente generazione ed è progettato per funzionare su una singola GPU H100. Dispone di una finestra di contesto da 10 milioni di token per l'elaborazione di grandi quantità di informazioni. I risultati dei benchmark indicano che Llama 4 Scout ottiene risultati migliori di Gemma 3, Gemini 2.0 Flash-Lite e Mistral 3.1 in una serie di benchmark ampiamente riportati.

Llama 4 Maverick è un modello multimodale con 17 miliardi di parametri attivi e 128 esperti. Questo modello si presenta come uno dei migliori della sua categoria, superando GPT-4o e Gemini 2.0 Flash in una serie di benchmark. Raggiunge prestazioni paragonabili a DeepSeek v3 nel ragionamento e nella codifica, pur utilizzando un numero inferiore di parametri attivi. Una versione sperimentale di chat di Llama 4 Maverick ha ottenuto un punteggio ELO di 1417 sulla piattaforma LMArena.

4o Generazione di immagini da OpenAI

Il modello di generazione di immagini più recente di OpenAI, integrato in GPT-4o , unisce la creazione di testo e immagini in un sistema unificato. Questa capacità multimodale consente a GPT-4 di generare immagini attingendo alla sua conoscenza testuale e al contesto della chat, creando un'interazione tra linguaggio e immagini.

Attraverso la generazione multi-turno, gli utenti possono perfezionare le immagini in modo conversazionale, come mostrato nelle figure seguenti. Il modello si basa su input di testo precedenti e immagini caricate per mantenere la coerenza. Analizzando gli elementi visivi forniti dall'utente e apprendendo nel contesto, GPT-4o si adatta a dettagli specifici, migliorando la sua capacità di produrre immagini sensibili al contesto.

Figura 3: Suggerimento per la creazione di un disegno utilizzando riferimenti e istruzioni sulle caratteristiche del testo per l'immagine.

Figura 4: Stimolare la creazione di una foto a partire dal disegno e inserirla in una scena. ¹¹

Qwen2.5-VL-32B-Istruzioni di Alibaba

Il modello Qwen2.5-VL-32B-Instruct di Alibaba si basa sul modello linguistico Qwen2.5 con funzionalità di elaborazione visiva. Il modello a 32 miliardi di parametri si concentra sulla comprensione e sul ragionamento delle immagini. È stato pre-addestrato su 18 trilioni di token con una finestra di contesto di 128.000 token e include il supporto multilingue. Il modello migliora l'analisi delle immagini, il riconoscimento dei contenuti e il ragionamento visivo, risultando utile per applicazioni che combinano l'analisi di immagini e testo.

Gemma 3 di Google

Gemma 3 di Google si basa sulla tecnologia dei modelli Gemini 2.0. È disponibile in quattro dimensioni (1B, 4B, 12B e 27B) per soddisfare diverse esigenze hardware e offre una finestra di contesto di 128.000 token. Gemma 3 offre buone prestazioni anche con configurazioni a singolo acceleratore e include funzionalità di ragionamento testuale e visivo, chiamate di funzione e supporto per oltre 35 lingue, con pre-addestramento per più di 140. Le versioni quantizzate riducono le dimensioni del modello e i requisiti di calcolo. Il sistema ShieldGemma 2 fornisce la classificazione della sicurezza dei contenuti.

Phi-4-multimodale di Microsoft

Il modello Phi-4-multimodale di Microsoft è un modello a 5,6 miliardi di parametri che elabora voce, immagini e testo in un'architettura unificata. Utilizza l'apprendimento cross-modale per interazioni sensibili al contesto tra diversi tipi di input. Il modello gestisce più formati di input senza richiedere sistemi di elaborazione separati ed è progettato per l'implementazione su dispositivi e per l'edge computing. Le applicazioni includono l'intelligenza artificiale per smartphone, i sistemi automobilistici e i servizi multilingue.

Che cos'è un modello multimodale di grandi dimensioni (LMM)?

Un modello multimodale di grandi dimensioni è un tipo avanzato di modello di intelligenza artificiale in grado di elaborare e comprendere diverse tipologie di dati. Questi dati multimodali possono includere testo, immagini, audio, video e potenzialmente altri. La caratteristica principale di un modello multimodale è la sua capacità di integrare e interpretare le informazioni provenienti da queste diverse fonti di dati, spesso simultaneamente.

Questi possono essere intesi come versioni più avanzate di modelli linguistici di grandi dimensioni (LLM) in grado di funzionare con il testo e con diversi tipi di dati. Inoltre, gli output dei modelli linguistici multimodali sono progettati per essere non solo testuali, ma anche visivi, uditivi e così via.

I modelli linguistici multimodali sono considerati il passo successivo verso il raggiungimento dell'intelligenza artificiale generale .

Che cos'è un agente di intelligenza artificiale multimodale?

Gli agenti di intelligenza artificiale multimodale sono sistemi progettati per interagire con il mondo utilizzando vari tipi di dati, tra cui immagini, video e testo, consentendo loro di operare sia in ambienti digitali che fisici. I modelli multimodali sono il componente centrale di questi agenti, in quanto permettono loro di percepire e comprendere informazioni provenienti da diverse fonti.

Ad esempio, modelli come Magma utilizzano la comprensione visivo-linguistica e l'intelligenza spaziale, ottenute tramite tecniche come Set-of-Mark e Trace-of-Mark durante il pre-addestramento su dataset multimodali.

Ciò consente all'agente di svolgere compiti che vanno dalla comprensione di contenuti video e dalla risposta a domande alla navigazione di interfacce utente e al controllo di robot, dimostrando le versatili capacità che i modelli multimodali apportano agli agenti di intelligenza artificiale sfruttando diverse modalità di dati. L'illustrazione seguente mostra Magma mentre pianifica le traiettorie del robot per portare a termine i compiti, mettendo in mostra la sua intelligenza spaziale in azione. ¹²

Qual è la differenza tra LMM e LLM?

1. Modalità dei dati

Modelli lineari di elaborazione (LMM) : sono progettati per comprendere ed elaborare molteplici tipi di input di dati, o modalità. Ciò include testo, immagini, audio, video e talvolta altri tipi di dati come i dati sensoriali. La capacità chiave dei modelli LMM è la loro capacità di integrare e dare un senso a questi diversi formati di dati, spesso simultaneamente.
Modelli linguistici lineari (LLM) : questi modelli sono specializzati nell'elaborazione e nella generazione di dati testuali. Vengono addestrati principalmente su grandi corpus di testo e sono abili nel comprendere e generare il linguaggio umano in una varietà di contesti. Non elaborano intrinsecamente dati non testuali come immagini o audio.

2. Applicazioni e compiti

Modelli lineari misti (LMM) : Grazie alla loro natura multimodale, questi modelli possono essere applicati a compiti che richiedono la comprensione e l'integrazione di informazioni provenienti da diversi tipi di dati. Ad esempio, un LMM potrebbe analizzare un articolo di notizie (testo), le fotografie che lo accompagnano (immagini) e i relativi video per ottenere una comprensione completa.
LLM : Le loro applicazioni sono incentrate su attività che coinvolgono il testo, come scrivere articoli, tradurre lingue, rispondere a domande, riassumere documenti e creare contenuti testuali.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Segui

Quali sono le modalità di dati dei modelli multimodali di grandi dimensioni?

Testo

Ciò include qualsiasi forma di contenuto scritto, come libri, articoli, pagine web e post sui social media. Il modello è in grado di comprendere, interpretare e generare contenuti testuali, comprese attività di elaborazione del linguaggio naturale come traduzione, riassunto e risposta a domande.

Immagini

Questi modelli sono in grado di analizzare e generare dati visivi. Ciò include la comprensione del contenuto e del contesto di fotografie, illustrazioni e altre rappresentazioni grafiche. Attività come la classificazione delle immagini , il rilevamento di oggetti e la generazione di immagini a partire da descrizioni testuali rientrano in questa categoria.

Audio

Ciò include registrazioni sonore, musica e linguaggio parlato. I modelli possono essere addestrati a riconoscere il parlato , la musica, i suoni ambientali e altri input uditivi. Possono trascrivere il parlato, comprendere i comandi vocali e persino generare parlato o musica sintetici.

Video

L'elaborazione video, che combina elementi visivi e uditivi, implica la comprensione delle immagini in movimento e dei suoni che le accompagnano. Ciò può includere l'analisi del contenuto video, il riconoscimento di azioni o eventi nei video e la generazione di clip video.

Sebbene la maggior parte degli attuali modelli linguistici multimodali di grandi dimensioni sia in grado di elaborare solo testo e immagini, la ricerca futura mira a includere input di dati audio e video.

Come vengono addestrati i modelli multimodali di grandi dimensioni?

L'addestramento di modelli multimodali di grandi dimensioni (LMM) differisce in modo significativo dall'addestramento di modelli linguistici di grandi dimensioni (LLM) per diversi aspetti chiave:

1. Raccolta e preparazione dei dati

LLM : si concentrano su dati testuali provenienti da libri, siti web e fonti scritte, con particolare attenzione alla diversità linguistica per le fonti di dati di addestramento degli LLM .
Modelli lineari misti (LMM) : richiedono dati testuali, immagini, audio e video. La raccolta è più complessa a causa della varietà dei formati. L'annotazione dei dati e l'allineamento tra le diverse modalità sono essenziali.

2. Progettazione dell'architettura del modello

LLM : Utilizzano architetture di trasformazione ottimizzate per l'elaborazione sequenziale del testo.
Modelli lineari misti (LMM) : impiegano architetture più complesse che integrano diversi tipi di reti neurali (CNN per le immagini, transformer per il testo) con meccanismi per connettere queste modalità.

3. Pre-allenamento

LLM : Pre-addestramento su corpus di testo utilizzando tecniche come la modellazione del linguaggio mascherato.
Modelli lineari misti (LMM) : pre-addestramento su più tipi di dati, per imparare a correlare il testo con le immagini o a comprendere sequenze video.

4. Messa a punto

LLM : Affinamento su dataset di testo specializzati per compiti specifici.
Modelli lineari misti (LMM) : richiedono una messa a punto precisa sia su set di dati specifici per modalità che su set di dati intermodali per stabilire relazioni tra diversi tipi di dati.

5. Valutazione e iterazione

LLM : Le metriche di valutazione si concentrano sulla comprensione e sulla produzione del linguaggio, inclusi fluidità, coerenza e pertinenza.
Modelli lineari misti (LMM) : valutati in base a metriche più ampie che comprendono il riconoscimento delle immagini, l'elaborazione audio e le capacità di integrazione multimodale.

Come funzionano i LLM?

I modelli multimodali di grandi dimensioni condividono somiglianze con i modelli linguistici di grandi dimensioni nel processo di addestramento, nella progettazione e nel funzionamento. Utilizzano la stessa architettura Transformer e le stesse strategie di addestramento. I modelli multimodali di grandi dimensioni vengono addestrati su:

Dati testuali
Milioni o miliardi di immagini con descrizioni testuali
Clip video
Frammenti audio
Altri dati di input, come il codice

Questo addestramento prevede l'apprendimento simultaneo di molteplici modalità di dati, consentendo al modello di:

Riconosci la foto di un gatto
Identifica una parola in una clip audio
Comprendere concetti e dettagli sensoriali al di là del testo

In questo modo, gli utenti possono caricare:

Un'immagine per:
- Ottieni una descrizione di ciò che sta accadendo
- Utilizza l'immagine come parte di un prompt per generare testo o immagini
- Poni domande di approfondimento su elementi specifici dell'immagine.
- Traduci il testo dell'immagine in un'altra lingua (ad esempio, Menu)

Figura 5: Caricamento dell'immagine di un gatto su ChatGPT per descriverlo.

Grafici e diagrammi per:
- Poni domande di approfondimento complesse su ciò che mostrano
Progettazione di un mockup per:
- Ottieni il codice HTML e CSS necessario per crearlo.

Figura 6: Richiesta di immagine nello stile dei film di Wes Anderson. ChatGPT invia la richiesta a un modello di generazione di immagini (come DALL·E), che interpreta la richiesta e produce l'immagine stilizzata.

Dopo il processo di formazione, i modelli potrebbero incorporare stereotipi malsani e idee tossiche. Per affinarli, si possono utilizzare tecniche come:

Apprendimento per rinforzo con feedback umano (RLHF)
Modelli di IA di supervisione
È possibile utilizzare il red teaming (verifica della robustezza del modello).

Inoltre, gli strumenti di governance dell'IA e gli strumenti per l'IA responsabile, che fungono da soluzioni di conformità per l'IA, possono anche consentire l'ottimizzazione dell'inventario dell'IA, contribuendo a prevenire i pregiudizi dell'IA e altri dilemmi etici. Ecco un esempio di come questi strumenti affrontano le problematiche relative al copyright dell'IA di nuova generazione :

Figura 7: ChatGPT rifiuta la mia richiesta a causa delle linee guida sulla politica dei contenuti per la protezione del copyright.

L'obiettivo è sviluppare un sistema multimodale funzionale in grado di gestire:

Sintesi da testo a immagine
Didascalia dell'immagine
Recupero di immagini basato sul testo
Risposta visiva alle domande.

In questo modo, l'IA multimodale può integrare diverse modalità, fornendo funzionalità avanzate per compiti che coinvolgono sia il linguaggio che la visione.

Quali sono i limiti dei modelli linguistici di grandi dimensioni?

Requisiti dei dati e distorsioni : questi modelli richiedono set di dati ampi e diversificati per l'addestramento. Tuttavia, la disponibilità e la qualità di tali set di dati possono rappresentare una sfida. Inoltre, se i dati di addestramento contengono distorsioni, è probabile che il modello le erediti e possibilmente le amplifichi, portando a risultati iniqui o non etici.
Risorse computazionali : l'addestramento e l'esecuzione di modelli multimodali di grandi dimensioni richiedono notevoli risorse computazionali, il che li rende costosi e meno accessibili per le organizzazioni più piccole o i ricercatori indipendenti.
Interpretazione e spiegabilità : come accade con i modelli di intelligenza artificiale complessi, comprendere come prendono le decisioni può risultare difficile. Questa mancanza di trasparenza può rappresentare un problema critico, soprattutto in applicazioni delicate come la sanità o le forze dell'ordine.
Integrazione delle modalità : Integrare efficacemente diversi tipi di dati (come testo, immagini e audio) in modo da comprendere appieno le sfumature di ciascuna modalità è estremamente difficile. Il modello potrebbe non sempre cogliere con precisione il contesto o le sottigliezze della comunicazione umana che derivano dalla combinazione di queste modalità.
Generalizzazione e overfitting : sebbene questi modelli siano addestrati su vasti set di dati, potrebbero avere difficoltà a generalizzare a dati nuovi e mai visti prima o a scenari che differiscono significativamente dai dati di addestramento. Al contrario, potrebbero sovradattarsi ai dati di addestramento, interpretando rumore e anomalie come pattern.

Per saperne di più, esplora le sfide e i rischi associati ai modelli generativi e linguistici .

Metodologia di benchmarking per i modelli lineari misti (LMM)

Abbiamo valutato le prestazioni dei modelli multimodali di grandi dimensioni (LMM) utilizzando un sottoinsieme del dataset FinMME. ¹³ , un benchmark completo progettato per valutare le capacità di ragionamento multimodale in ambito finanziario. FinMME comprende oltre 11.000 campioni finanziari di alta qualità in 18 domini finanziari e 6 classi di attività, fornendo un quadro solido per la valutazione dei modelli di apprendimento automatico (LMM) nel dominio finanziario.

Per questo benchmarking, abbiamo utilizzato una selezione curata di 100 campioni dal dataset FinMME per analizzare la capacità dei modelli di elaborare e ragionare con dati finanziari multimodali.

Disclaimer

Questa valutazione ha utilizzato un sottoinsieme selezionato di 100 campioni provenienti da un dataset più ampio per confrontare le prestazioni dei modelli lineari misti (LMM). Per una valutazione completa delle prestazioni del modello, è necessario considerare tutti i campioni presenti nel dataset di riferimento completo.

Conclusione

I modelli multimodali di grandi dimensioni (LMM) stanno integrando diversi tipi di dati, come testo, immagini, audio e video, superando così le capacità di elaborazione del solo testo dei modelli linguistici di grandi dimensioni (LLM). Grazie a progressi come Llama 4 di Meta AI, GPT-4o di Qwen2.5-VL di Alibaba, gli LMM consentono applicazioni più ricche, dal ragionamento visivo alla generazione di immagini contestualmente consapevoli.

Tuttavia, la loro complessità, gli elevati requisiti computazionali e le sfide legate all'integrazione dei dati e alla mitigazione dei bias rimangono degli ostacoli. Con l'evoluzione dei modelli lineari misti (LMM), si apre la strada ad agenti di intelligenza artificiale più versatili, avvicinandoci all'intelligenza artificiale generale. Per le organizzazioni e i ricercatori, la scelta del modello più adatto implica trovare un equilibrio tra prestazioni, costi e le esigenze specifiche del caso d'uso.

Collegamenti di riferimento

Gemma 3: Google’s new open model based on Gemini 2.0

Google

GitHub - deepseek-ai/Janus: Janus-Series: Unified Multimodal Understanding and Generation Models · GitHub

GitHub - QwenLM/Qwen3-VL: Qwen3-VL is the multimodal large language model series developed by Qwen team, Alibaba Cloud. · GitHub

Qwen2.5-VL-32B: Smarter and Lighter | Qwen

CLIP: Connecting text and images | OpenAI

Qwen2.5-VL-32B: Smarter and Lighter | Qwen

[2204.14198] Flamingo: a Visual Language Model for Few-Shot Learning

Multimodality and Large Multimodal Models (LMMs)

GitHub - bytedance/vidi: The official repo for "Vidi: Large Multimodal Models for Video Understanding and Editing" · GitHub

GitHub - MoonshotAI/Kimi-VL: Kimi-VL: Mixture-of-Experts Vision-Language Model for Multimodal Reasoning, Long-Context Understanding, and Strong Agent Capabilities · GitHub

12.

Gemini 3: Introducing the latest Gemini AI model from Google

Google

13.

Introducing 4o Image Generation | OpenAI

Cem Dilmegani

Analista principale

Segui

Cem è analista principale presso AIMultiple dal 2017. AIMultiple fornisce informazioni a centinaia di migliaia di aziende (secondo SimilarWeb), tra cui il 55% delle aziende Fortune 500, ogni mese. Il lavoro di Cem è stato citato da importanti pubblicazioni globali come Business Insider, Forbes, Washington Post, società globali come Deloitte e HPE, ONG come il World Economic Forum e organizzazioni sovranazionali come la Commissione Europea. È possibile consultare l'elenco di altre aziende e risorse autorevoli che hanno citato AIMultiple. Nel corso della sua carriera, Cem ha lavorato come consulente tecnologico, responsabile acquisti tecnologici e imprenditore nel settore tecnologico. Ha fornito consulenza alle aziende sulle loro decisioni tecnologiche presso McKinsey & Company e Altman Solon per oltre un decennio. Ha anche pubblicato un report di McKinsey sulla digitalizzazione. Ha guidato la strategia tecnologica e gli acquisti di un'azienda di telecomunicazioni, riportando direttamente al CEO. Ha inoltre guidato la crescita commerciale dell'azienda deep tech Hypatos, che ha raggiunto un fatturato annuo ricorrente a 7 cifre e una valutazione a 9 cifre partendo da zero in soli 2 anni. Il lavoro di Cem in Hypatos è stato oggetto di articoli su importanti pubblicazioni tecnologiche come TechCrunch e Business Insider. Cem partecipa regolarmente come relatore a conferenze internazionali di settore. Si è laureato in ingegneria informatica presso l'Università di Bogazici e ha conseguito un MBA presso la Columbia Business School.

Visualizza il profilo completo