Contattaci
Nessun risultato trovato.

Valutazione comparativa di 38 LLM in Finanza: Claude Opus 4.6, Gemini 3.1 Pro e altri

Ekrem Sarı
Ekrem Sarı
aggiornato il Feb 20, 2026
Guarda il nostro norme etiche

Abbiamo valutato 38 modelli di apprendimento basati su logica (LLM) in ambito finanziario, rispondendo a 238 domande complesse tratte dal benchmark FinanceReasoning, al fine di individuare i modelli più efficaci in compiti di ragionamento finanziario complessi, come l'analisi dei bilanci, le previsioni e il calcolo dei rapporti.

Panoramica di riferimento del programma LLM in finanza

Loading Chart

Abbiamo valutato i modelli lineari di apprendimento (LLM) su 238 domande difficili tratte dal benchmark FinanceReasoning (Tang et al.). 1 Questo sottoinsieme si concentra sui compiti di ragionamento finanziario più impegnativi, valutando un ragionamento quantitativo complesso e a più fasi che coinvolge concetti e formule finanziarie. La nostra valutazione ha utilizzato un modello di prompt personalizzato e criteri di punteggio basati sull'accuratezza e sul consumo di token.

Per una spiegazione dettagliata di come sono stati calcolati questi parametri e del quadro di riferimento utilizzato per questa valutazione, si prega di consultare la nostra metodologia di benchmarking finanziario .

Risultati: Quale LLM è il migliore per la finanza?

Prestazioni di alto livello (>83% di precisione):

Il dataset gpt-5-2025-08-07 raggiunge la massima accuratezza, pari all'88,23%, con 829.720 token. Questo rappresenta lo stato dell'arte attuale per le attività di ragionamento finanziario.

claude-opus-4.6 ottiene un punteggio di accuratezza dell'87,82% con 164.369 token, offrendo prestazioni quasi al top pur consumando un numero di token significativamente inferiore rispetto al leader.

gpt-5-mini-2025-08-07 raggiunge l'accuratezza dell'87,39% con 595.505 token, offrendo una valida alternativa all'interno della famiglia GPT-5.

gemini-3.1-pro-preview ottiene un punteggio di accuratezza dell'86,55% con 475.148 token, superando il suo predecessore gemini-3-pro-preview (86,13%) pur consumando il 35% di token in meno (730.759 token).

Sia gemini-3-pro-preview che gpt-5.2 raggiungono un'accuratezza pari all'86,13%. Tuttavia, gpt-5.2 ottiene questo risultato con 247.660 token rispetto ai 730.759 token di gemini-3-pro-preview, risultando tre volte più efficiente.

Risultati eccellenti (accuratezza dell'80-83%):

claude-opus-4.5 offre una precisione dell'84,03% con 144.505 token, mantenendo il forte equilibrio tra prestazioni ed efficienza di Claude.

claude-sonnet-4.6 e gemini-3-flash-preview sono pari con una precisione dell'83,61%. Claude Sonnet 4.6 utilizza 161.035 token, mentre Gemini 3 Flash Preview raggiunge lo stesso risultato con 118.530 token, risultando l'opzione più efficiente in termini di token tra tutti i modelli ad alte prestazioni.

kimi-k2.5 raggiunge un'accuratezza dell'82,77% ma richiede 877.868 token, il consumo più elevato tra i modelli in questa fascia di prestazioni.

Livello intermedio (precisione del 70-80%):

o3-pro-2025-06-10 (accuratezza del 78,15%, 473.659 token) e kimi-k2 (accuratezza del 78,15%, 100.323 token) sono a pari merito. Kimi-k2 è il modello più efficiente in questo gruppo.

Seguono da vicino o3-mini-2025-01-31 (accuratezza del 77,31%, 376.929 token), gpt-5-nano-2025-08-07 (accuratezza del 76,89%, 1.028.909 token) e claude-sonnet-4-20250514 (accuratezza del 76,05%, 135.462 token).

Prestazioni scarse (<70% di precisione):

claude-3-5-sonnet-20241022 (67,65% di precisione, 90.103 token) e gpt-oss-20b (67,65% di precisione, 515.041 token) sono in testa a questa categoria.

Seguono gemini-2.5-flash (accuratezza del 65,55%, 286.603 token), glm-4.5 (accuratezza del 64,29%, 692.662 token) e gpt-4.1-nano-2025-04-14 (accuratezza del 63,45%, 171.096 token).

Il modello con il punteggio più basso è deepseek-v3-0324 , che ha ottenuto un'accuratezza del 10,92% con 100.861 token.

Analisi delle prestazioni:

Il benchmark non mostra una chiara correlazione tra consumo di token e accuratezza. deepseek-r1-0528 ha consumato il maggior numero di token (1.251.064) ma ha raggiunto un'accuratezza del 62,18%, mentre claude-opus-4-20250514 ha ottenuto un punteggio dell'80,25% con 132.274 token.

L'efficienza dei token varia notevolmente anche tra modelli ad alte prestazioni. gemini-3-flash-preview utilizza 118.530 token per raggiungere un'accuratezza dell'83,61%, mentre kimi-k2.5 ne consuma 877.868 per un'accuratezza dell'82,77% (7,4 volte più token per prestazioni leggermente inferiori).

La tabella sopra riportata presenta altri benchmark di modelli di intelligenza artificiale, inclusi quelli utilizzati per questo benchmark.

Metodologia di riferimento per il ragionamento finanziario

Il nostro benchmark fornisce una valutazione equa, trasparente e riproducibile delle prestazioni dei modelli linguistici di grandi dimensioni (LLM) in compiti complessi di ragionamento finanziario.

Configurazione del test e corpus di dati

  • Suite di benchmark: abbiamo utilizzato i dati, il codice e gli script di valutazione del benchmark FinanceReasoning. Lo abbiamo scelto per la sua specializzazione in problemi finanziari quantitativi e inferenziali.
  • Corpus di conoscenze e domande di test: abbiamo focalizzato la nostra analisi sul sottoinsieme più difficile, composto da 238 domande impegnative. Come definito dal benchmark, ogni punto dati include:
    1. Una domanda che richiede un ragionamento logico e numerico a più fasi.
    2. Un contesto che spesso contiene informazioni dense presentate in formati strutturati come le tabelle Markdown (ad esempio, bilanci, dati sull'andamento delle azioni).
    3. Una risposta definitiva e oggettiva per una valutazione affidabile.
  • Tipologie di query esemplificative: la difficoltà del benchmark deriva dalla necessità che i modelli gestiscano compiti di ragionamento finanziario diversi e complessi. Per illustrare questa ampiezza, evidenziamo due esempi rappresentativi tratti dal set di test:

Esempio: ragionamento algoritmico e sulle serie temporali (analisi tecnica)

Contesto: Un investitore sta analizzando… i prezzi delle azioni negli ultimi 25 giorni… per calcolare il Canale di Keltner utilizzando un periodo EMA a 10 giorni e un periodo ATR a 10 giorni, con un moltiplicatore di 1,5…

Domanda: Qual è il valore dell'ultima banda superiore del canale di Keltner...? Rispondere con due cifre decimali.

Questa query verifica la capacità di un modello di agire come analista quantitativo attraverso:

  1. Decostruire un indicatore composito: riconoscere che il “Canale di Keltner” deriva da altri due indicatori complessi:
    • la media mobile esponenziale (EMA)
    • la portata reale media (ATR) .
  2. Implementazione della logica algoritmica: Implementazione corretta, partendo da zero, degli algoritmi iterativi per EMA e ATR su una serie temporale di 25 punti dati.
  3. Sintesi dei risultati: Combinazione dei valori calcolati secondo la formula finale del canale di Keltner (Banda superiore = EMA + (Moltiplicatore × ATR)).

Principi fondamentali della valutazione

  • Chiamate API isolate e standardizzate: per ciascun modello, abbiamo condotto la valutazione in modo programmatico tramite i rispettivi endpoint API (ad esempio, OpenRouter, OpenAI). Ciò ha garantito che ogni modello ricevesse esattamente lo stesso input in condizioni identiche, eliminando la variabilità derivante dalle interazioni con l'interfaccia utente.
  • Generazione a risposta libera: Non abbiamo vincolato i modelli a un formato a scelta multipla. Al contrario, è stato chiesto loro di generare una risposta completa e a risposta libera, consentendo una valutazione più autentica delle loro capacità di ragionamento.
  • Stimolo basato sulla catena di pensiero (CoT): Per elicitare e valutare il processo di ragionamento dei modelli, abbiamo impiegato una strategia di stimolo basata sulla catena di pensiero (CoT). Il sistema istruiva esplicitamente ciascun modello a "pensare al problema passo dopo passo" prima di giungere a una conclusione definitiva. Questo approccio consente un'analisi più approfondita di come un modello arriva alla sua conclusione, al di là del risultato finale.

Metriche e quadro di valutazione

Per valutare gli output del modello, abbiamo utilizzato il framework di valutazione completamente automatizzato del benchmark FinanceReasoning. Questo framework è progettato per misurare sia la correttezza concettuale che il costo computazionale.

1. Metrica principale: Accuratezza

Questo indicatore risponde alla domanda cruciale: "Il modello è in grado di risolvere correttamente il problema finanziario?" Il processo di valutazione prevede una complessa procedura in due fasi:

  • Fase 1: Estrazione della risposta basata su LLM: L'output grezzo di un modello è un testo non strutturato che contiene sia il ragionamento che la risposta finale. Per analizzare in modo affidabile il valore numerico o booleano definitivo, abbiamo utilizzato un potente modello supervisore (openai/gpt-4o) come parser intelligente. Questo metodo identifica in modo coerente la risposta finale prevista, anche in presenza di lievi variazioni di formattazione tra i diversi modelli.
  • Fase 2: Confronto basato sulla tolleranza: una semplice "corrispondenza esatta" non è sufficiente per i problemi numerici. Pertanto, la risposta estratta è stata confrontata programmaticamente con il valore reale. Lo script applica una soglia di tolleranza numerica (una differenza relativa dello 0,2%) per gestire in modo equo piccole variazioni in virgola mobile o di arrotondamento, garantendo che le soluzioni concettualmente valide vengano contrassegnate come corrette.

2. Metrica secondaria: Consumo di token

Questa metrica risponde alla domanda: "Quanto è dispendioso in termini di risorse computazionali per il modello risolvere questi problemi?". Misura il costo totale associato alla generazione delle 238 risposte.

  • Calcolo: Per ogni chiamata API, abbiamo raccolto i dati di utilizzo restituiti dal fornitore del modello, che includono prompt_tokens e completion_tokens. Il punteggio finale per un modello è la somma di completion_tokens (token di output generati dal modello) per tutte le 238 domande. Questo fornisce una chiara misura della verbosità del modello e del costo computazionale complessivo per l'attività.

Questo approccio a due parametri, fornito dallo stesso benchmark FinanceReasoning, consente una valutazione olistica, bilanciando la capacità di risoluzione dei problemi di un modello (accuratezza) con la sua efficienza operativa (consumo di token).

Ragionamento finanziario con generazione aumentata tramite recupero (RAG)

Per superare i modelli standalone, abbiamo progettato e implementato un framework RAG personalizzato, distinto dall'implementazione originale del benchmark. Il nostro approccio si basa su un moderno stack di database vettoriale (Qdrant) per fornire ai modelli lineari linguistici (LLM) conoscenze pertinenti e specifiche del dominio in fase di inferenza, aiutandoli a risolvere problemi che vanno oltre i dati di addestramento. Abbiamo testato questo approccio su gpt-4o-mini per misurarne l'impatto.

Risultati e analisi: il compromesso RAG

L'introduzione di RAG ha avuto un impatto significativo e misurabile sulle prestazioni di gpt-4o-mini.

Punti chiave emersi dalla valutazione RAG:

  • Notevole miglioramento dell'accuratezza: RAG ha dimostrato di migliorare la capacità di risoluzione dei problemi del modello, aumentando l'accuratezza di oltre 10 punti percentuali . Ciò conferma che fornire un contesto esterno e pertinente è estremamente efficace per compiti di ragionamento complessi e specifici di un determinato dominio.
  • Il costo della precisione: questo miglioramento delle prestazioni ha avuto un costo elevato. Il consumo totale di token è aumentato di quasi 18 volte e il tempo di esecuzione totale è aumentato di 20 volte. Ciò è dovuto alle chiamate API aggiuntive per l'incorporamento e, soprattutto, ai prompt molto più grandi e complessi che LLM deve elaborare.
  • Implicazioni per modelli più grandi: i risultati di gpt-4o-mini suggeriscono che, sebbene RAG possa sbloccare prestazioni superiori, l'applicazione di questo metodo a modelli più grandi e costosi come GPT-4o o Claude Opus sarà sostanzialmente più dispendiosa e richiederà più tempo. Ciò evidenzia il compromesso critico tra accuratezza, costi e latenza nella progettazione di sistemi di intelligenza artificiale finanziaria di livello produttivo.

Ragionamento finanziario Metodologia RAG

La nostra pipeline RAG è costruita su uno stack moderno che utilizza Qdrant come database vettoriale e il modello OpenAI di text-embedding-3-small per generare rappresentazioni vettoriali semantiche. Il processo si compone di due fasi principali: una fase di indicizzazione offline e una fase di generazione e recupero online.

1. Indicizzazione del corpus di conoscenza

  • Creazione del corpus: abbiamo creato una base di conoscenza specializzata a partire da due fonti fornite dal benchmark:
    1. Documenti finanziari: una raccolta di articoli (financial_documents.json) che illustrano vari concetti e termini finanziari.
    2. Funzioni finanziarie: una libreria di funzioni Python pronte all'uso (functions-article-all.json) progettate per risolvere specifici calcoli finanziari.
  • Intelsuddivisione e incorporamento ligent: Per preparare questo corpus a un recupero efficiente, ogni documento e funzione è stato elaborato e indicizzato:
    1. Suddivisione in blocchi: i documenti sono stati segmentati in blocchi più piccoli e semanticamente coerenti in base alle loro sezioni. Ogni funzione Python è stata trattata come un singolo blocco atomico. Ciò garantisce che il contesto recuperato sia mirato e pertinente.
    2. Incorporamento: ciascun blocco è stato quindi convertito in un vettore a 1536 dimensioni utilizzando il modello text-embedding-3-small.
    3. Indicizzazione: questi vettori sono stati indicizzati in due collezioni separate all'interno della nostra istanza locale di Qdrant (financial_documents_openai_small e financial_functions_openai_small), ottimizzate per la ricerca di similarità del coseno.

2. Inferenza basata su RAG

Per ciascuna delle 238 domande, il processo di ragionamento del modello è stato potenziato con i seguenti passaggi automatizzati:

  1. Generazione dell'embedding (chiamate API 1 e 2): la query dell'utente (domanda + contesto) è stata convertita in un vettore di embedding. Ciò ha richiesto due chiamate all'API di embedding di OpenAI per prepararsi alle ricerche in entrambe le collezioni.
  2. Ricerca da fonti multiple: il vettore di query è stato utilizzato per eseguire una ricerca semantica su entrambe le collezioni Qdrant simultaneamente, al fine di recuperare le informazioni più pertinenti:
    • I 3 frammenti di documento più rilevanti dalla raccolta financial_documents.
    • Le 2 funzioni Python più rilevanti della collezione financial_functions.
  3. Aumento del prompt: i documenti e le funzioni recuperati sono stati inseriti dinamicamente nel prompt, creando un "pacchetto informativo" ricco e contestualizzato. Ciò ha aumentato significativamente le dimensioni del prompt di input (da circa 300-500 token a circa 3.000-5.000+ token ).
  4. Generazione della risposta finale (chiamata API 3): questo prompt ampliato è stato inviato al modello gpt-4o-mini per generare la risposta finale e motivata.

Limitazioni del benchmark dei LLM in finanza

Il nostro parametro di riferimento, sebbene esaustivo, è soggetto ad alcune limitazioni fondamentali:

  • Rischio di contaminazione dei dati : è possibile che questi modelli siano stati addestrati sul dataset di riferimento, dato che quest'ultimo è pubblico. Ciò potrebbe portare a punteggi gonfiati, rendendo difficile valutare la reale capacità di ragionamento.
  • Analisi RAG su modello singolo : la valutazione RAG è stata eseguita su un modello (gpt-4o-mini), pertanto i compromessi osservati tra prestazioni e costi potrebbero non essere applicabili a tutti gli altri modelli.

Conclusione

La nostra analisi comparativa di 38 modelli su compiti complessi di ragionamento finanziario rivela i seguenti risultati chiave:

  • Il modello gpt-5-2025-08-07 è all'avanguardia : con una precisione dell'88,23%, questo modello definisce lo standard attuale per le attività di ragionamento finanziario.
  • Esistono diverse valide alternative : claude-opus-4.6 (87,82%) e gpt-5-mini-2025-08-07 (87,39%) offrono prestazioni quasi al top, con Claude Opus 4.6 che raggiunge questo risultato con un consumo di token significativamente inferiore (164.369 token).
  • I miglioramenti generazionali contano : gemini-3.1-pro-preview (86,55%) supera gemini-3-pro-preview (86,13%) utilizzando il 35% di token in meno, dimostrando che gli aggiornamenti iterativi del modello possono migliorare sia l'accuratezza che l'efficienza.
  • L'efficienza è importante quanto la precisione : gemini-3-flash-preview raggiunge una precisione dell'83,61% con 118.530 token, dimostrando che alte prestazioni e bassi costi possono coesistere. Allo stesso modo, gpt-5.2 dimostra una forte efficienza con 247.660 token, raggiungendo al contempo una precisione dell'86,13%.
  • L'impatto di RAG : Retrieval-Augmented Generation (RAG) aumenta significativamente l'accuratezza di un modello (+10 punti percentuali per gpt-4o-mini) ma a un costo sostanziale in termini di consumo di token (aumento di 18 volte) e latenza (20 volte più lento).

Registro delle modifiche

20 febbraio 2026

Sono stati aggiunti 2 nuovi modelli al benchmark:

  • Google: Anteprima di Gemini 3.1 Pro (google/gemini-3.1-pro-preview)
  • Anthropic: Claude Sonnet 4.6 (antropico/claude-sonnet-4.6)

6 febbraio 2026

Sono stati aggiunti 7 nuovi modelli al benchmark:

  • Claude Opus 4.6 (anthropic/claude-opus-4.6)
  • Anteprima di Gemini 3 Pro (google/gemini-3-pro-preview)
  • GPT 5.2 (openai/gpt-5.2)
  • Claude Opus 4.5 (anthropic/claude-opus-4.5)
  • Anteprima Flash di Gemini 3 (google/gemini-3-flash-preview)
  • Kimi K2.5 (moonshotai/kimi-k2.5)
  • Claude Sonnet 4.5 (antropico/claude-sonnet-4.5)

Per approfondire

L'analisi finanziaria può riferirsi a diverse competenze, come l'analisi azionaria, l'interpretazione delle leggi finanziarie e il ragionamento finanziario. Nel nostro benchmark, ci siamo concentrati specificamente sul ragionamento finanziario, mentre le altre attività sono trattate in articoli separati:

  • Modelli lineari per l'analisi azionaria: questi modelli aiutano a elaborare dati di mercato, report aziendali e notizie per identificare opportunità di investimento. (Per un'analisi completa, consultare il seguente link: Trading azionario basato sull'intelligenza artificiale )
  • Intelligenza artificiale applicata al diritto finanziario: alcuni LLM (Legal Management Systems) possono interpretare normative finanziarie, contratti e requisiti di conformità per supportare le attività legali in ambito finanziario. (Consulta il nostro elenco di strumenti di intelligenza artificiale per il settore legale qui: Strumenti di intelligenza artificiale per il settore legale )

FAQ

Un LLM (Large Language Model) in ambito finanziario è un modello di intelligenza artificiale che utilizza tecniche di elaborazione del linguaggio naturale per eseguire analisi finanziarie complesse, gestire la conformità normativa e comprendere i documenti. Questi modelli aiutano le istituzioni finanziarie a orientarsi tra le leggi finanziarie, i requisiti normativi e le esigenze dinamiche del settore finanziario.

Intelligent chatbot:
Gli assistenti virtuali basati su LLM consentono alle società finanziarie di fornire un'assistenza clienti automatizzata 24 ore su 24, 7 giorni su 7, gestendo le richieste di routine e le attività di onboarding senza intervento umano. Ciò riduce i tempi di attesa e migliora la soddisfazione del cliente, liberando al contempo gli operatori umani per le problematiche più complesse.

Consulenza e analisi:
Le banche d'investimento utilizzano i modelli lineari di logica (LLM) per analizzare le tendenze di mercato, le notizie finanziarie e i dati dei clienti. Questi modelli elaborano grandi volumi di informazioni non strutturate, consentendo ai consulenti di fornire consulenza personalizzata sugli investimenti e gestione del portafoglio con informazioni in tempo reale.

Analisi dei documenti normativi:
Gli studi legali e le istituzioni finanziarie utilizzano i modelli LLM per elaborare documenti normativi complessi come i documenti depositati presso la SEC. Questi modelli estraggono informazioni chiave e riassumono i report, riducendo i tempi di revisione manuale e aiutando le aziende a rimanere conformi alle normative in continua evoluzione.

Rilevamento delle frodi:
I modelli di apprendimento automatico (LLM) analizzano enormi set di dati finanziari in tempo reale per individuare schemi di transazione sospetti e tattiche di frode emergenti. Le loro capacità di apprendimento continuo consentono un'identificazione delle frodi più rapida e precisa rispetto ai metodi tradizionali.

Automazione dei processi legali e di conformità:
Gli studi legali e i team di compliance utilizzano i modelli di logica legale (LLM) per esaminare i contratti, interpretare le leggi bancarie e verificare la conformità normativa. L'automazione di queste attività riduce i tempi di revisione e i costi legali, garantendo al contempo il rispetto di complesse normative finanziarie.

Domande e risposte sui documenti e riconoscimento delle entità nominate (NER):
Gli istituti finanziari utilizzano i LLM (Latent Library Models) per rispondere alle domande degli investitori estraendo dati da bilanci e conference call sugli utili. Il NER (Nome dell'azienda) consente l'etichettatura automatica di nomi di società, ticker azionari (simboli di negoziazione di classe) ed enti regolatori, semplificando il recupero dei dati.

Efficienza e automazione: i sistemi LLM automatizzano le analisi di routine (ad esempio, la sintesi dei report sugli utili, l'elaborazione di prestiti o documenti), consentendo agli analisti di risparmiare tempo e riducendo gli errori.

Assistenza clienti 24 ore su 24, 7 giorni su 7: gli assistenti virtuali e i chatbot basati sull'intelligenza artificiale, sviluppati da LLM, sono in grado di gestire le richieste dei clienti a qualsiasi ora, fornendo risposte interattive e migliorando l'esperienza e la soddisfazione del cliente.

Consulenza finanziaria personalizzata: analizzando la storia e il profilo di rischio del cliente, i consulenti LLM offrono consulenza finanziaria o di investimento su misura.

Rilevamento delle frodi e gestione del rischio: gli LLM analizzano grandi quantità di dati transazionali per individuare anomalie o schemi fraudolenti, adattandosi alle nuove tattiche di truffa e contribuendo alla creazione di profili di rischio.

Conformità e reporting: i LLM redigono automaticamente report normativi, estraggono informazioni rilevanti per le politiche e aiutano ad analizzare leggi e regolamenti finanziari complessi per garantire la conformità.

Sì, esistono diversi modelli più ampi specifici per il settore finanziario. Ad esempio, BloombergGPT è progettato per supportare la regolamentazione finanziaria, i mercati dei capitali e la gestione della conformità, elaborando grandi quantità di dati finanziari, inclusi documenti provenienti dalla borsa valori nazionale e documenti depositati presso gli enti regolatori.

Altri modelli, come FinBERT e FinGPT, si concentrano sul diritto finanziario, sul diritto bancario internazionale e sulla consulenza finanziaria personalizzata, adattando modelli linguistici complessi al vocabolario specialistico della finanza, come i simboli di negoziazione di classi di titoli e i testi normativi.

Finanziario Il ragionamento è la capacità di analizzare i dati finanziari per prendere decisioni aziendali o di investimento consapevoli.

Tra i compiti principali figurano:
– Analisi dei bilanci (utile, flusso di cassa, stato patrimoniale)
– Pianificazione del budget e previsioni
– Valutazione degli investimenti (VAN, TIR, ROI)
– Gestione del flusso di cassa e della liquidità
– Valutazione dei rischi finanziari e degli indici di performance

Ekrem Sarı
Ekrem Sarı
Ricercatore di intelligenza artificiale
Ekrem è un ricercatore di intelligenza artificiale presso AIMultiple, specializzato in automazione intelligente, GPU, agenti di intelligenza artificiale e framework RAG.
Visualizza il profilo completo

Sii il primo a commentare

Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori.

0/450