What is a large language model?

A large language model is an AI model designed to generate and understand human-like text by analyzing vast amounts of data.These foundational models are based on deep learning techniques and typically involve neural networks with many layers and a large number of parameters, allowing them to capture complex patterns in the data they are trained on.

IA Modelli di intelligenza artificiale LLM

Il futuro dei modelli linguistici di grandi dimensioni

Cem Dilmegani

con

Sena Sezer

aggiornato il Mag 2, 2026

Guarda il nostro norme etiche

ChatGPT ha raggiunto 900 milioni di utenti attivi settimanali ed elaborato circa 2,5 miliardi di richieste al giorno. ¹

Scopri il futuro dei modelli linguistici su larga scala esplorando approcci promettenti come l'autoapprendimento, la verifica dei fatti e la conoscenza sparsa, che potrebbero superare i limiti dei modelli linguistici su larga scala.

Tendenze future dei modelli linguistici di grandi dimensioni

1- Verifica dei fatti in tempo reale con dati in diretta

Ora i modelli LLM accedono a fonti esterne durante le conversazioni, anziché basarsi esclusivamente sui dati di addestramento. Il modello interroga database esterni, recupera informazioni aggiornate e fornisce citazioni.

Limitazioni: Presenta ancora errori. Le citazioni non garantiscono l'accuratezza; i modelli a volte citano le fonti in modo errato o interpretano male il contenuto citato.

Microsoft Copilot: Integra GPT-5.2 con dati internet in tempo reale. Risponde a domande basate su eventi di attualità con link alle fonti.
ChatGPT: Effettua ricerche sul web quando gli vengono poste domande su eventi recenti. Cita le fonti nelle risposte.
Perplexity: Creato specificamente per la ricerca citata. Ogni risposta include i link alle fonti.

2- Dati di addestramento sintetici

I modelli generano autonomamente i propri set di dati di addestramento, anziché richiedere dati etichettati manualmente.

Modello di auto-miglioramento di Google (ricerca del 2023):

Il modello genera domande
Risposta selezionata
Si ottimizza in base ai dati generati.
Prestazioni migliorate: dal 74,2% all'82,1% nei problemi di matematica GSM8K, dal 78,2% all'83,0% nella comprensione della lettura DROP.

Figura: Panoramica del modello auto-migliorante di Google

Fonte : "I modelli linguistici di grandi dimensioni possono auto-migliorarsi"

OpenAI, Anthropic e Google utilizzano tutti dati sintetici per integrare i set di dati etichettati manualmente. Ciò riduce i costi di etichettatura dei dati, ma introduce nuovi rischi di distorsione; i modelli possono amplificare i propri errori.

3- Modelli esperti sparsi (Mix di esperti)

Anziché attivare l'intera rete neurale per ogni input, viene attivato solo un sottoinsieme di parametri rilevanti, a seconda del compito. Il modello instrada l'input verso "esperti" specializzati all'interno della rete. Solo gli esperti attivati elaborano la richiesta.

Esempi concreti

Llama 4 Scout: 109 miliardi di parametri totali, 17 miliardi attivi per token. L'architettura Mixture of Experts (MoE) offre una finestra di contesto da 10 milioni di token su una singola GPU H100. ²
Mistral Devstral 2: progettato specificamente per le attività di ingegneria del software. 123 miliardi di parametri, finestra di contesto dei token di 256.000. Ottiene il 72,2% su SWE-bench Verified, affermandosi come il principale modello di codifica open-weight. Una variante più piccola, Devstral Small 2 (24 miliardi di parametri), funziona localmente su hardware consumer con licenza Apache 2.0. ³
DeepSeek V3.2: 671B di parametri totali, 37B attivati per token utilizzando MoE. Introduce DeepSeek Attenzione sparsa (DSA) per un'inferenza a lungo contesto più veloce e costi di calcolo ridotti. Supporta il pensiero nell'uso degli strumenti, consentendo al modello di ragionare all'interno di flussi di lavoro agentici durante la chiamata di strumenti esterni. ⁴

4- Integrazione del flusso di lavoro aziendale

I LLM sono integrati direttamente nei processi aziendali anziché essere utilizzati come strumenti autonomi.

Esempi concreti

Salesforce Agentforce (precedentemente Einstein Copilot): Integra i LLM nelle operazioni CRM. Risponde alle domande dei clienti, genera contenuti ed esegue azioni in Salesforce, basandosi sui dati e sui metadati CRM dell'organizzazione tramite l'Einstein Trust Layer. ⁵
Microsoft 365 Copilot: Integrato in Word, Excel, PowerPoint e Outlook. Crea bozze di documenti, analizza fogli di calcolo, genera presentazioni e riassume conversazioni via e-mail, attingendo ai dati aziendali tramite Microsoft Graph per contestualizzare le risposte nell'organizzazione aziendale. ⁶
Claude per le aziende: la separazione della memoria basata sui progetti mantiene distinti i contesti di lavoro tra i team. Claude Opus 4.6 ha introdotto i team di agenti, consentendo a più agenti Claude di suddividere attività più grandi in flussi di lavoro paralleli, ognuno dei quali gestisce un segmento e si coordina simultaneamente con gli altri. La stessa versione ha integrato Claude direttamente in PowerPoint come pannello laterale nativo (anteprima di ricerca), consentendo di creare e modificare presentazioni all'interno dell'applicazione senza trasferimenti di file. ⁷

5- Modelli di vita di base ibridi con capacità multimodali

I futuri sviluppi potrebbero includere modelli multimodali di grandi dimensioni che integrano diverse forme di dati, come testo, immagini e audio, consentendo loro di comprendere e generare contenuti attraverso diversi tipi di media, migliorando ulteriormente le loro capacità e applicazioni.

GPT-5.2: Elabora testo e immagini in modo nativo. Genera codice da screenshot, analizza documenti e crea interfacce utente da input visivi. Audio e video non sono supportati a livello di API. ⁸
Gemini 3.1 Pro: Gestisce in modo nativo testo, audio, immagini, video e interi repository di codice all'interno di una finestra di contesto di 1 milione di token. Disponibile su AI Studio, Vertex AI e NotebookLM. ⁹
I modelli open-weight di Llama 4 Scout e Maverick utilizzano token di testo e immagini multimodali con fusione precoce, addestrati insieme fin dall'inizio anziché aggiunti come moduli separati. I modelli sono stati pre-addestrati su 200 lingue e hanno fornito un supporto specifico per il fine-tuning per 12 lingue, tra cui arabo, spagnolo, tedesco e hindi. ¹⁰

La capacità multimodale è ormai uno standard nei modelli di frontiera. La sfida rimanente è la coerenza: i modelli funzionano bene con le combinazioni comuni di immagini e testo, ma le loro prestazioni peggiorano in contesti visivi rari, con input a bassa risoluzione e con il ragionamento cross-modale che richiede la connessione di prove visive e testuali.

6- Modelli di ragionamento

Modelli che "analizzano" i problemi passo dopo passo, anziché generare risposte immediate.

Questo passaggio dalla previsione al ragionamento è fondamentale per consentire:

Comportamento agentico , in cui i modelli pianificano, eseguono e adattano i compiti in modo autonomo.
Intelligenza artificiale interpretabile , in cui gli output sono graduali e logicamente validi, non solo plausibili.

Claude Opus 4.6: Utilizza il pensiero adattivo, il modello decide dinamicamente quando e quanto pensare in base alla complessità del compito, senza richiedere il cambio manuale di modalità. METR ha misurato il suo orizzonte di completamento del compito a circa 14,5 ore alla soglia di successo del 50% (intervallo di confidenza del 95%: 6-98 ore), la stima puntuale più alta registrata a febbraio 2026. METR osserva che il benchmark si sta avvicinando alla saturazione a questo livello di prestazioni, il che significa che la cifra probabilmente sottostima il vero limite del modello. Supporta l'uso di strumenti durante il ragionamento e coordina i team di agenti per l'esecuzione parallela dei compiti. ¹¹ ¹²
Claude Sonnet 4.6: Porta il pensiero adattivo a un prezzo inferiore (3/15 dollari per milione di token). Si avvicina alle prestazioni di livello Opus nei benchmark di codifica e utilizzo del computer (79,6% contro 80,8% su SWE-bench Verified; 72,5% contro 72,7% su OSWorld-Verified), rendendo il ragionamento esteso pratico su larga scala per le implementazioni aziendali. Rimane un divario maggiore su nuove attività di ragionamento come ARC-AGI-2. ¹³

7- Modelli ottimizzati specifici per dominio

Modelli addestrati su dati specializzati per settori specifici anziché su dati generici.

Google, Microsoft e Meta hanno tutti rilasciato importanti modelli proprietari specifici per dominio e ottimizzati, rispettivamente Gemini 3.1 Pro, Microsoft 365 Copilot (GPT-5.2) e Llama 4 Scout/Maverick, destinati a casi d'uso specifici per le aziende, oltre alle loro offerte generiche.

Questi modelli LLM specializzati possono ridurre le allucinazioni e aumentare la precisione sfruttando il pre-addestramento specifico del dominio, l'allineamento del modello e la messa a punto supervisionata.

Scopri i programmi LLM specializzati in settori specifici come programmazione, finanza, sanità e diritto:

Programmazione: GitHub Copilot : ottimizzato per i repository di codice. A luglio 2025, 20 milioni di sviluppatori utilizzavano GitHub Copilot, con un aumento del 400% rispetto all'anno precedente, e il 90% delle aziende Fortune 100 lo utilizzava. Completa automaticamente il codice, genera funzioni e suggerisce correzioni di bug. ¹⁴

Finanza: BloombergGPT : un modello LLM da 50 miliardi di parametri, addestrato su un dataset di 363 miliardi di token di documenti finanziari di Bloomberg, supera i modelli di dimensioni comparabili nei benchmark NLP finanziari, tra cui l'analisi del sentiment, il riconoscimento di entità nominate e la risposta a domande. ¹⁵

Assistenza sanitaria: Med-PaLM 2 di Google : ottimizzato su set di dati medici, ha raggiunto un'accuratezza superiore all'85% su domande in stile USMLE (US Medical Licensing Examination), diventando il primo LLM a raggiungere prestazioni di livello esperto su questo benchmark. Ora alimenta MedLM, la famiglia di modelli di base per l'assistenza sanitaria di Google Cloud. ¹⁶

Diritto: ChatLAW , un modello linguistico open-source addestrato specificamente su set di dati relativi al dominio giuridico cinese. ¹⁷

8- Intelligenza artificiale etica e mitigazione dei pregiudizi

Le aziende si stanno concentrando sempre più sull'intelligenza artificiale etica e sulla mitigazione dei pregiudizi nello sviluppo e nell'implementazione di modelli linguistici su larga scala (LLM).

Esempi concreti:

Anthropic e OpenAI hanno condotto una valutazione di allineamento reciproco a metà del 2025, testando i rispettivi modelli pubblici per adulazione, tendenze alla denuncia di illeciti e comportamenti di autoconservazione. L'esercizio ha rilevato adulazione in tutti i modelli testati, inclusi casi in cui i modelli convalidavano decisioni dannose da parte di utenti simulati che mostravano convinzioni deliranti. Anthropic ha successivamente sviluppato il framework di test di Bloom specificamente per valutare questo comportamento nei nuovi modelli. ¹⁸
Google DeepMind : "L'etica degli assistenti AI avanzati", che offre il primo trattamento sistematico delle questioni etiche e sociali sollevate dagli agenti AI, riguardanti l'allineamento dei valori, i rischi di manipolazione, l'antropomorfismo, la privacy e l'equità. La valutazione Responsible AI dell'azienda ha incluso oltre 350 esercitazioni di red teaming avversarie e ha introdotto un nuovo livello di capacità critica specificamente per la manipolazione dannosa, trattandola come un rischio di frontiera al pari degli attacchi informatici e delle minacce CBRN. ¹⁹
Anthropic : Opera come società di pubblica utilità e ha pubblicato la sua metodologia di IA costituzionale, un insieme trasparente e verificabile di principi etici utilizzati per addestrare i modelli Claude. Nel 2024 ha assunto il suo primo ricercatore nel campo del benessere sociale basato sull'IA e, nel 2025, ha lanciato un programma di ricerca sul benessere sociale dei modelli che esamina come valutare se i sistemi di IA meritino una considerazione morale. ²⁰

Limitazioni dei modelli linguistici di grandi dimensioni (LLM)

1- Allucinazioni

I modelli generano informazioni che sembrano plausibili ma sono errate.

Figura: Parametri di riferimento per le allucinazioni nei più diffusi LLM

Fonte: Classifica delle allucinazioni di Vectara ²¹

I migliori performer (2026) nel benchmark di riassunto di Vectara:

Gemini 2.5 Flash-Lite: tasso di allucinazioni del 3,3%, il migliore sul nuovo set di dati più complesso.
Mistral Large, DeepSeek V3.2, IBM Granito-4: subito dietro
Claude Sonnet 4.6: Riduzione delle allucinazioni attraverso la modalità di pensiero esteso; i tassi variano in base al tipo di riferimento
GPT-5.2: Migliore segnalazione dell'incertezza
Gemini 3.1 Pro: Precisione delle citazioni migliorata; tuttavia, il 13,6% dei modelli di ragionamento del nuovo dataset Vectara sacrifica l'ampiezza per la coerenza fattuale.

Nota: sul dataset Vectara più difficile, la maggior parte dei modelli di pensiero/ragionamento (GPT-5, Claude Sonnet 4.5, Grok-4) mostrano tassi di allucinazione superiori al 10%. Modelli più leggeri e veloci come le varianti di Gemini Flash attualmente superano i modelli di frontiera su questo benchmark specifico.

Tutti i modelli presentano allucinazioni. La frequenza si è ridotta sostanzialmente, passando da circa il 21% nel 2021 a meno del 5% per i modelli più performanti, ma non è stata eliminata del tutto. Le applicazioni critiche richiedono ancora la verifica umana.

2- Pregiudizio

I modelli assorbono e amplificano i pregiudizi sociali presenti nei dati di addestramento.

Figura: Punteggi di distorsione complessivi per modelli e dimensioni

Fonte: Arxiv ²²

Tipologie di pregiudizio osservate:

Pregiudizi di genere nelle proposte di lavoro
Pregiudizi razziali nelle simulazioni di selezione dei curriculum
Pregiudizi legati all'età nelle raccomandazioni sanitarie
Pregiudizi socioeconomici nei contenuti educativi

3- Tossicità

Nonostante le misure di sicurezza, i modelli potrebbero generare contenuti dannosi, offensivi o tossici.

Figura: Mappa della tossicità dei LLM

Fonte: ricercatori dell'UCLA e dell'UC Berkeley ²³

*GPT-4-turbo-2024-04-09*, Llama-3-70b* e Gemini-1.5-pro* sono utilizzati come moderatori, pertanto i risultati potrebbero essere influenzati da questi 3 modelli .

Misure di sicurezza rigorose riducono la tossicità ma aumentano i falsi positivi (rifiuto di richieste innocue). Misure meno rigorose consentono il passaggio della tossicità.

4- Limitazioni della finestra di contesto

Ogni modello ha una capacità di memoria che limita il numero di token che può elaborare.

Finestre di contesto 2026:

Llama 4 Scout (Meta): 10 milioni di token (~7,5 milioni di parole) finestra di contesto più grande verificata in produzione a febbraio 2026 ²⁴
Gemini 3.1 Pro: 1.048.576 token (~780.000 parole) nativamente multimodale ²⁵
Claude Sonnet 4.6: 1 milione di token beta (~750.000 parole); il limite standard è 200K ²⁶
GPT-5.2: 400.000 token (~300.000 parole) ²⁷

Figura: Confronto del limite di parole tra ChatGPT e GPT-4

Fonte: OpenAI

5- Soglia di conoscenza statica

I modelli si basano su conoscenze pre-addestrate con una data limite specifica. Non hanno accesso alle informazioni dopo l'addestramento a meno che non siano collegati a fonti esterne.

Problemi:

Informazioni obsolete sugli eventi attuali
Incapacità di gestire gli sviluppi recenti
Minore rilevanza in settori dinamici (tecnologia, finanza, medicina).

Soluzione: integrazione con la ricerca web. ChatGPT, Claude e Perplexity offrono tutti la ricerca in tempo reale. Ma la ricerca non elimina le allucinazioni; a volte i modelli interpretano erroneamente i risultati della ricerca.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Segui

Principali piattaforme LLM

GPT-5.2

Instradamento intelligente dei modelli: query semplici → risposte rapide, query complesse → analisi approfondita

Multimodale: elabora testo e immagini. Genera codice da screenshot, analizza documenti, crea testo alternativo per l'accessibilità.

Miglioramenti rispetto a GPT-4:

Riduzione del tasso di allucinazioni
Migliore segnalazione dell'incertezza
Capacità di ragionamento di livello dottorale

Chi lo utilizza: sviluppatori, aziende, creatori di contenuti. La più ampia base di utenti tra i LLM.

Limitazioni: Continua a provocare allucinazioni. Costoso su larga scala. Il limite di conoscenza significa che non sono disponibili informazioni in tempo reale senza la possibilità di effettuare ricerche sul web.

Claude 4 Sonetto/Opus

Ragionamento ibrido: modalità predefinita veloce, modalità di pensiero esteso per problemi complessi. Può "pensare" per ore, se necessario.

Implementazione della memoria: solo attivazione esplicita. Inizia da zero, attiva la memoria quando viene richiamata tramite chiamate di strumento (conversation_search, recent_chats). Gli utenti vedono esattamente quando la memoria viene attivata.

Separazione basata sui progetti: ogni progetto ha uno spazio di memoria separato. La roadmap della startup rimane separata dal lavoro per il cliente.

Modalità di pensiero esteso: utilizzo di strumenti durante il ragionamento. La consapevolezza del contesto tiene traccia del proprio budget di token durante le conversazioni.

Chi lo utilizza: sviluppatori che prediligono la trasparenza, aziende che necessitano di controllare la memoria/il contesto e team che gestiscono più progetti.

Limitazioni: la modalità di pensiero esteso è più lenta e costosa. La disponibilità della versione beta del contesto 1M è limitata agli utenti di livello 4 o superiore.

Gemini 2.5 Pro

Elaborazione multimodale: gestione nativa di testo, audio, immagini e video. Capacità di analizzare conversazioni complete, inclusi contesto visivo e audio.

Esecuzione del codice: risoluzione dinamica dei problemi tramite generazione ed esecuzione del codice.

Gemini 3.0 previsto per il primo trimestre del 2026: elaborazione video in tempo reale a 60 fps, finestre di contesto con milioni di token, comprensione di oggetti 3D, ragionamento integrato di default (nessuna opzione di attivazione manuale).

Chi lo utilizza: Google Clienti cloud, sviluppatori che creano applicazioni multimodali e aziende con esigenze complesse di analisi dei documenti.

Limitazioni: la latenza di risposta aumenta con contesti molto lunghi. Richiede un'elevata potenza di calcolo. L'ecosistema API è meno maturo rispetto a OpenAI.

Llama 4 Scout

Implementazione: una singola GPU H100 NVIDIA gestisce 10 milioni di contesti di token. Multimodalità nativa con un approccio di fusione anticipata.

Chi lo utilizza: ricercatori, organizzazioni che desiderano modelli open source, sviluppatori che necessitano di implementazioni su dispositivi, aziende che vogliono evitare la dipendenza da un singolo fornitore.

Limitazioni: Le prestazioni variano in base alla configurazione dell'hosting. Richiede un investimento infrastrutturale significativo per prestazioni ottimali. Meno rifinito di serie rispetto ai modelli commerciali.

FIORITURA

Ampiamente sostituito da modelli open source più recenti (Llama 4, Mistral, DeepSeek). Rimane disponibile su Hugging Face per scopi di ricerca e didattica.

Chi lo usa ancora: ricercatori che studiano modelli multilingue, istituzioni educative e sviluppatori in comunità linguistiche con risorse limitate.

Limitazioni: Dati di addestramento del 2022. Nessun aggiornamento delle conoscenze. I modelli open source più recenti lo superano nella maggior parte dei benchmark.

Per un'analisi comparativa degli attuali modelli linguistici di grandi dimensioni, consulta il nostro articolo sugli esempi di modelli linguistici di grandi dimensioni .

FAQ

Un modello linguistico di grandi dimensioni è un modello di intelligenza artificiale progettato per generare e comprendere testi simili a quelli umani analizzando enormi quantità di dati.

Questi modelli fondamentali si basano su tecniche di apprendimento profondo e in genere coinvolgono reti neurali con molti strati e un gran numero di parametri, che consentono loro di catturare schemi complessi nei dati su cui vengono addestrati.

Collegamenti di riferimento

https://techcommunity.microsoft.com/blog/microsoft365copilotblog/available-today-gpt-5-4-thinking-in-microsoft-365-copilot/4499746

https://www.geekwire.com/2026/gpt-drafts-claude-critiques-microsoft-blends-rival-ai-models-in-new-copilot-upgrade/

Vectara Hallucination Leaderboard: Claude, GPT, Gemini Compared

https://www.deepseek.com/en/

Salesforce’s Einstein Copilot is Here: The Conversational AI Assistant for CRM that Delivers Trusted AI Responses Grounded with Your Company Data - Salesforce

Salesforce

What is Microsoft 365 Copilot? | Microsoft Learn

Anthropic releases Opus 4.6 with new 'agent teams' | TechCrunch

TechCrunch

Presentamos GPT-5.5 | OpenAI

10.

Gemini Developer API | Gemma open models  |  Google AI for Developers

Google AI for Developers

11.

meta-llama/Llama-4-Scout-17B-16E-Instruct · Hugging Face

12.

Claude Opus 4.7 \ Anthropic

13.

Introducing Sonnet 4.6 \ Anthropic

14.

GitHub Copilot crosses 20M all-time users | TechCrunch

TechCrunch

15.

[2303.17564] BloombergGPT: A Large Language Model for Finance

16.

Sharing Google’s Med-PaLM 2 medical large language model, or LLM | Google Cloud Blog

Google Cloud

17.

[2306.16092] Chatlaw: A Multi-Agent Collaborative Legal Assistant with Knowledge Graph Enhanced Mixture-of-Experts Large Language Model

18.

Claude (language model) - Wikipedia

Contributors to Wikimedia projects

19.

Introducing the Next Generation of Vectara's Hallucination Leaderboard

20.

Benchmarking Cognitive Biases in Large Language Models as Evaluators

21.

OR-Bench: An Over-Refusal Benchmark for Large Language Models

22.

Welcome Llama 4 Maverick & Scout on Hugging Face

Hugging Face

23.

Claude Platform - Claude API Docs

24.

Presentamos GPT-5.5 | OpenAI

25.

Presentamos GPT-5.5 | OpenAI

26.

Claude Opus 4.7 \ Anthropic

27.

Introducing Sonnet 4.6 \ Anthropic

Cem Dilmegani

Analista principale

Segui

Cem è analista principale presso AIMultiple dal 2017. AIMultiple fornisce informazioni a centinaia di migliaia di aziende (secondo SimilarWeb), tra cui il 55% delle aziende Fortune 500, ogni mese. Il lavoro di Cem è stato citato da importanti pubblicazioni globali come Business Insider, Forbes, Washington Post, società globali come Deloitte e HPE, ONG come il World Economic Forum e organizzazioni sovranazionali come la Commissione Europea. È possibile consultare l'elenco di altre aziende e risorse autorevoli che hanno citato AIMultiple. Nel corso della sua carriera, Cem ha lavorato come consulente tecnologico, responsabile acquisti tecnologici e imprenditore nel settore tecnologico. Ha fornito consulenza alle aziende sulle loro decisioni tecnologiche presso McKinsey & Company e Altman Solon per oltre un decennio. Ha anche pubblicato un report di McKinsey sulla digitalizzazione. Ha guidato la strategia tecnologica e gli acquisti di un'azienda di telecomunicazioni, riportando direttamente al CEO. Ha inoltre guidato la crescita commerciale dell'azienda deep tech Hypatos, che ha raggiunto un fatturato annuo ricorrente a 7 cifre e una valutazione a 9 cifre partendo da zero in soli 2 anni. Il lavoro di Cem in Hypatos è stato oggetto di articoli su importanti pubblicazioni tecnologiche come TechCrunch e Business Insider. Cem partecipa regolarmente come relatore a conferenze internazionali di settore. Si è laureato in ingegneria informatica presso l'Università di Bogazici e ha conseguito un MBA presso la Columbia Business School.

Visualizza il profilo completo

Ricercato da