IA Modelli di intelligenza artificiale LLM

Formazione su modelli linguistici di grandi dimensioni

aggiornato il Mar 6, 2026

L'integrazione di modelli di apprendimento automatico (LLM) esistenti nei flussi di lavoro aziendali è sempre più diffusa. Tuttavia, alcune aziende sviluppano modelli personalizzati, addestrati su dati proprietari, per migliorare le prestazioni in attività specifiche.

La creazione e la manutenzione di tali modelli richiedono risorse considerevoli, tra cui talenti specializzati in intelligenza artificiale, grandi set di dati per l'addestramento e infrastrutture informatiche, il che può far lievitare i costi fino a milioni di dollari.

Scopri come creare un modello personalizzato con approcci a basso costo prima di investire somme considerevoli:

Che cos'è l'addestramento di modelli linguistici di grandi dimensioni?

L'addestramento del modello consiste nell'insegnare a un algoritmo di apprendimento automatico a riconoscere schemi, esponendolo a una quantità sufficiente di dati di addestramento che illustrino la relazione tra le variabili di input e i risultati desiderati.

L'addestramento di modelli linguistici di grandi dimensioni si articola in quattro fasi:

1. Raccolta e preelaborazione dei dati

Il primo passo consiste nel raccogliere il set di dati di addestramento. I dati possono provenire da diverse fonti, come documenti, siti web, articoli, ecc. Il vantaggio principale di un modello personalizzato è che sfrutta i dati interni dell'azienda. La preparazione di dati proprietari di alta qualità è il passaggio più importante.

Una volta preparati i dati privati, è possibile arricchirli con dati pubblici provenienti da domini adiacenti. Tra le fonti pubbliche più diffuse per reperire set di dati si annoverano:

Kaggle
Google Ricerca nel dataset
Faccia da abbraccio
Data.gov
Database di Wikipedia

I dati devono quindi essere ripuliti e preparati per l'addestramento. Ciò può comportare la conversione del dataset in minuscolo, la rimozione delle parole non significative (stop words) e la tokenizzazione del testo in sequenze di token che lo compongono.

Reperimento di dati web reali per la formazione LLM

Uno dei metodi più efficaci per raccogliere grandi quantità di dati di addestramento diversificati e costantemente aggiornati è l' estrazione di dati dal web . Sebbene i dataset pubblici (come Kaggle o Hugging Face) siano preziosi, spesso sono statici o limitati in termini di ambito e specificità di dominio. Sono più adatti alla sperimentazione e alla ricerca accademica, ma potrebbero risultare inadeguati per lo sviluppo di modelli di livello produttivo.

Ad esempio, i dati trapelati su GPT-4 suggeriscono che sia stato pre-addestrato su circa 13 trilioni di token, provenienti principalmente dai dataset Common Crawl e RefinedWeb. ¹ Ciò indica che i moderni LLM continuano a fare ampio affidamento su fonti web estese e selezionate per coprire una vasta gamma di argomenti.

I fornitori di servizi di dati web supportano l'addestramento dei modelli linguistici consentendo l'accesso a set di dati web specifici per dominio, raccolti eticamente e conformi alle normative sulla privacy, come il GDPR e il CCPA, nonché ai termini di servizio della piattaforma.

2. Selezione e configurazione del modello

Modelli di grandi dimensioni come Gemini di Google e GPT-4 di OpenAI utilizzano entrambi modelli addestrati con un'architettura di deep learning transformer che collaborano in un approccio Mixture-of-Experts (MoE) . Alcuni elementi chiave del modello sono:

Numero di esperti
Numero di strati nei blocchi trasformatore
Numero di teste di attenzione
Funzione di perdita
Iperparametri

devono essere specificati durante la configurazione di una rete neurale transformer.

La determinazione degli iperparametri ottimali (come lo scheduler del tasso di apprendimento o la dimensione del batch) è fondamentale per stabilire se un modello converge o fallisce.

Anziché procedere manualmente per tentativi ed errori, i team di formazione utilizzano strumenti come Weights & Biases (Sweeps) per automatizzare e visualizzare lo spazio di ricerca. Ciò consente agli ingegneri di identificare la configurazione più efficiente su sottoinsiemi di dati più piccoli prima di impegnarsi in costose sessioni di formazione su vasta scala.

3. Addestramento modello

Il modello viene addestrato su dati testuali pre-elaborati utilizzando l'apprendimento supervisionato . Durante l'addestramento, al modello viene presentata una sequenza di parole e viene addestrato a prevedere la parola successiva nella sequenza. Il modello regola i suoi pesi in base alla differenza tra la sua previsione e la parola successiva effettiva. Questo processo viene ripetuto milioni di volte finché il modello non raggiunge un livello di prestazioni soddisfacente.

Considerato l'ingente investimento in potenza di calcolo, l'osservabilità in tempo reale è imprescindibile. I team di IA leader del settore utilizzano un livello di "sistema di registrazione", come Weights & Biases , che si sovrappone all'infrastruttura (come AWS o NVIDIA). Questo permette loro di monitorare le curve di perdita e le metriche di sistema (utilizzo della GPU, picchi di memoria) su migliaia di chip distribuiti, garantendo che, in caso di anomalie durante l'addestramento o di guasti hardware, questi possano essere rilevati e interrotti immediatamente, con conseguente risparmio sui costi.

Poiché i modelli e i dati sono di grandi dimensioni, l'addestramento dei modelli richiede un'enorme potenza di calcolo. Per ridurre i tempi di addestramento, si utilizza una tecnica chiamata parallelismo del modello. Il parallelismo del modello consente di distribuire diverse parti di un modello di grandi dimensioni su più GPU, permettendo così di addestrare il modello in modo distribuito coni chip AI .

Dividendo il modello in parti più piccole, ciascuna parte può essere addestrata in parallelo, con conseguente processo di addestramento più rapido rispetto all'addestramento dell'intero modello su una singola GPU o processore. Ciò si traduce in una convergenza più rapida e in prestazioni complessive migliori, rendendo possibile l'addestramento di modelli linguistici ancora più grandi rispetto al passato. I tipi più comuni di parallelismo dei modelli includono:

Il parallelismo dei dati suddivide e trasmette i mini-batch di addestramento alle repliche del modello, aumentando la velocità di elaborazione.
Il parallelismo pipeline assegna livelli separati del modello a diverse GPU, per estendere le dimensioni del modello oltre una singola GPU.
Il parallelismo tensoriale suddivide un singolo livello su più GPU, solitamente all'interno dello stesso server.

Figura 1: Esempio di addestramento di un modello a 6 strati da AWS. ²

4. Valutazione e messa a punto

Dopo l'addestramento, il modello viene valutato su un set di dati di test non utilizzato per l'addestramento, al fine di misurarne le prestazioni. In base ai risultati della valutazione, il modello potrebbe richiedere alcune ottimizzazioni, come la regolazione degli iperparametri, la modifica dell'architettura o l'addestramento su dati aggiuntivi, per migliorarne le prestazioni.

La valutazione dei modelli generativi è più complessa rispetto alle metriche tradizionali dell'apprendimento automatico. Richiede di tracciare le catene di ragionamento del modello e di confrontare gli output con un set di dati di riferimento.

Ad esempio, W&B Weave consente agli sviluppatori di creare valutazioni sistematiche (utilizzando tecniche "LLM-as-a-judge") per assegnare un punteggio al modello in base a sfumature quali tono, fedeltà e sicurezza prima della distribuzione.

L'apprendimento per rinforzo basato sul feedback umano (RLHF) è una tecnica comune per la messa a punto dei modelli. Nell'RLHF, una funzione di ricompensa derivata dai segnali di preferenza umana guida il modello a migliorare i suoi risultati tramite tentativi ed errori, allineandoli ai valori umani.

Ad esempio, la ricerca DeepSeek-R1 dimostra che l'applicazione del puro RL (senza dati di ragionamento ampiamente etichettati da esseri umani) può migliorare sostanzialmente le prestazioni di ragionamento di un LLM. ³

Formazione di LLM per casi d'uso specifici

L'addestramento di un LLM si compone di due parti: pre-addestramento e addestramento specifico per il compito. L'addestramento specifico per il compito è anche chiamato messa a punto dell'LLM .

Il pre-addestramento è una parte dell'addestramento che consente al modello di apprendere le regole generali e le dipendenze all'interno di un linguaggio. Ciò richiede una quantità significativa di dati e

La potenza di calcolo dei supercomputer è fornita da hardware dei principaliproduttori di chip per l'IA (ad esempio, NVIDIA). Una volta aggiunti i costi di manutenzione e di alimentazione, il pre-addestramento di un modello linguistico di grandi dimensioni rappresenta un investimento di milioni.
Tempo : GPT-4 l'addestramento sarebbe durato circa sei mesi.

Per rendere i modelli linguistici di grandi dimensioni più accessibili alle aziende, gli sviluppatori di LLM offrono servizi di ottimizzazione per le imprese che desiderano sfruttare i modelli linguistici.

Ad esempio, Qwen3.5, l'ultimo modello di intelligenza artificiale open-weight di Alibaba, è progettato come un agente multimodale nativo, in grado di comprendere e ragionare su testo , immagini , video e codice . Il primo modello rilasciato, Qwen3.5-397B-A17B, utilizza un'architettura ibrida che combina l'attenzione lineare e la miscela sparsa di esperti, consentendo un'elevata efficienza: sebbene il modello contenga 397 miliardi di parametri, solo 17 miliardi vengono attivati per ogni fase di inferenza.

Qwen3.5 introduce miglioramenti all'infrastruttura, tra cui l'addestramento FP8, pipeline di addestramento multimodali eterogenee e framework di apprendimento per rinforzo scalabili, ottenendo un'accelerazione dell'addestramento di 3-5 volte. Il modello può anche agire come un agente di intelligenza artificiale , capace di utilizzare strumenti, effettuare ricerche sul web, eseguire codice, interagire con l'interfaccia grafica e ragionare in contesti a lungo termine. ⁴

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Segui

Architettura di modelli linguistici di grandi dimensioni

L'architettura di modelli linguistici di grandi dimensioni, come OpenAI, si basa sull'architettura Transformer. Essa è composta dai seguenti componenti principali (vedere Figura 2):

Figura 2: Grafico che illustra i processi dell'architettura del trasformatore. ⁵

1. Incorporamento dell'input

La sequenza di input viene innanzitutto trasformata in una rappresentazione vettoriale densa, nota come embedding, che cattura le relazioni tra le parole nell'input.

2. Autoattenzione multi-testa

Il componente principale dell'architettura del blocco transformer è il meccanismo di autoattenzione multi-testa, che consente al modello di concentrarsi su diverse parti della sequenza di input per catturarne le relazioni e le dipendenze.

3. Rete feed-forward

Dopo il meccanismo di autoattenzione, l'output viene immesso in una rete neurale feed-forward, che esegue una trasformazione non lineare per generare una nuova rappresentazione.

4. Normalizzazione e connessioni residue

Per stabilizzare il processo di addestramento, l'output di ogni strato viene normalizzato e viene aggiunta una connessione residua per consentire il passaggio diretto dell'input all'output, permettendo così al modello di apprendere quali parti dell'input sono più importanti.

Questi componenti vengono ripetuti più volte per formare una rete neurale profonda, in grado di elaborare lunghe sequenze di testo e generare output di alta qualità per diverse attività linguistiche, come la generazione di testo, la risposta a domande e la traduzione.

Gli sviluppatori continuano a sviluppare modelli linguistici di grandi dimensioni implementando nuove tecniche per:

Semplifica il modello (diminuisci le dimensioni del modello o la memoria necessaria per l'addestramento),
Migliorare le prestazioni,
Prezzo più basso,
Ridurre i tempi di addestramento del modello.

Di recente, l'economia della formazione viene ridefinita dai sistemi rack dell'era Rubin, ottimizzati per la formazione e l'inferenza del modello di intelligenza artificiale (MoE).

NVIDIA ha introdotto la piattaforma Rubin, una nuova architettura di calcolo AI che combina sei chip, tra cui la CPU Vera, la GPU Rubin, lo switch NVLink 6, la SuperNIC ConnectX-9, la DPU BlueField-4 e lo switch Ethernet Spectrum-6, per alimentare i supercomputer AI.

Il sistema è progettato attraverso una stretta co-progettazione hardware-software per migliorare significativamente l'efficienza, riducendo i costi dei token di inferenza AI fino a 10 volte e diminuendo di 4 volte il numero di GPU necessarie per addestrare modelli di miscela di esperti (MoE) rispetto alla piattaforma Blackwell.

I principali fornitori di servizi cloud e laboratori di intelligenza artificiale, tra cui AWS, Microsoft, Google, Meta e OpenAI, prevedono di adottare un'infrastruttura basata su Rubin, con i sistemi dei partner previsti nella seconda metà del 2026. ⁶

Collegamenti di riferimento

GPT-4 architecture, datasets, costs and more leaked

THE-DECODER.com

Training large language models on Amazon SageMaker: Best practices | Artificial Intelligence

DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning | Nature

Nature Publishing Group UK

https://qwen.ai/blog?id=qwen3.5

https://arxiv.org/pdf/1706.03762v5

NVIDIA Corporation - NVIDIA Kicks Off the Next Generation of AI With Rubin — Six New Chips, One Incredible AI Supercomputer

Cem Dilmegani

Analista principale

Segui

Cem è analista principale presso AIMultiple dal 2017. AIMultiple fornisce informazioni a centinaia di migliaia di aziende (secondo SimilarWeb), tra cui il 55% delle aziende Fortune 500, ogni mese. Il lavoro di Cem è stato citato da importanti pubblicazioni globali come Business Insider, Forbes, Washington Post, società globali come Deloitte e HPE, ONG come il World Economic Forum e organizzazioni sovranazionali come la Commissione Europea. È possibile consultare l'elenco di altre aziende e risorse autorevoli che hanno citato AIMultiple. Nel corso della sua carriera, Cem ha lavorato come consulente tecnologico, responsabile acquisti tecnologici e imprenditore nel settore tecnologico. Ha fornito consulenza alle aziende sulle loro decisioni tecnologiche presso McKinsey & Company e Altman Solon per oltre un decennio. Ha anche pubblicato un report di McKinsey sulla digitalizzazione. Ha guidato la strategia tecnologica e gli acquisti di un'azienda di telecomunicazioni, riportando direttamente al CEO. Ha inoltre guidato la crescita commerciale dell'azienda deep tech Hypatos, che ha raggiunto un fatturato annuo ricorrente a 7 cifre e una valutazione a 9 cifre partendo da zero in soli 2 anni. Il lavoro di Cem in Hypatos è stato oggetto di articoli su importanti pubblicazioni tecnologiche come TechCrunch e Business Insider. Cem partecipa regolarmente come relatore a conferenze internazionali di settore. Si è laureato in ingegneria informatica presso l'Università di Bogazici e ha conseguito un MBA presso la Columbia Business School.

Visualizza il profilo completo