Contattaci
Nessun risultato trovato.

Leggi di scala LLM: analisi da parte di ricercatori di intelligenza artificiale

Sıla Ermut
Sıla Ermut
aggiornato il Gen 26, 2026
Guarda il nostro norme etiche

I modelli linguistici di grandi dimensioni prevedono il token successivo basandosi su schemi appresi dai dati testuali. Il termine leggi di scala LLM si riferisce a regolarità empiriche che collegano le prestazioni del modello alla quantità di calcolo, dati di addestramento e parametri del modello utilizzati durante l'addestramento.

Per comprendere in che modo queste relazioni influenzano la progettazione dei modelli moderni nella pratica, abbiamo esaminato i risultati di cinque articoli accademici e le intuizioni di tre importanti laboratori e ricercatori nel campo dell'intelligenza artificiale.

Punti chiave

I principali ricercatori concordano sulle seguenti conclusioni chiave:

  • Le prestazioni di un modello non dipendono esclusivamente dal numero di parametri. La quantità e la qualità dei dati sono ugualmente cruciali.
  • Le decisioni relative al dimensionamento dovrebbero basarsi sui requisiti del compito, piuttosto che presumere che i modelli più grandi siano sempre migliori.
  • Le architetture efficienti in termini di parametri possono raggiungere prestazioni competitive a costi di addestramento e inferenza inferiori.
  • Nelle implementazioni reali, i costi di inferenza possono superare i costi di addestramento e dovrebbero essere presi in considerazione nella scelta della dimensione del modello.

Prove derivanti dalla ricerca accademica sulla legge di scala

Carta
Anno
Cosa viene ridimensionato?
Obiettivo di ottimizzazione
Risultato chiave
Implicazione pratica
Leggi di scala per i modelli linguistici neurali
2020
Parametri, token di addestramento, calcolo
Ridurre al minimo le perdite in condizioni di calcolo fisso
Le prestazioni ottimali seguono una legge di potenza.
I modelli più grandi sono utili solo con dati e capacità di calcolo sufficienti
Addestramento di modelli linguistici di grandi dimensioni ottimizzati dal punto di vista computazionale.
2022
Parametri vs. token di addestramento
Minimizzare la perdita in condizioni di calcolo di addestramento fisso
Molte modelle di grandi dimensioni non sono adeguatamente formate
I modelli più piccoli, addestrati più a lungo, possono ottenere risultati migliori rispetto a quelli più grandi.
Oltre l'ottimale per i cincillà
2025
Parametri, calcolo dell'inferenza
Ridurre al minimo il costo totale del ciclo di vita (addestramento e inferenza)
L'utilizzo intensivo dell'inferenza favorisce i modelli più piccoli
Il contesto di implementazione è importante quanto la formazione.
Pigrizia
2025
Competenze latenti vs. parametri e dati
Prevedi le prestazioni di benchmark
Prestazioni determinate da poche abilità latenti
Consente di effettuare previsioni senza dover addestrare modelli di grandi dimensioni
Legge di densificazione dei LLM
2025
Parametri effettivi vs. parametri reali
Misurare l'efficienza dei parametri nel tempo
L'efficienza dei parametri continua a migliorare
I vantaggi derivano da architetture e formazione migliori, non solo dalla scalabilità.

“Leggi di scala per i modelli linguistici neurali”, Kaplan e McCandlish, 2020

Kaplan et al. hanno introdotto le prime leggi di scalatura ampiamente citate per i modelli linguistici neurali.

Nella loro analisi, le prestazioni del modello seguono relazioni di legge di potenza rispetto a tre variabili chiave: il numero di parametri del modello, la dimensione del set di dati di addestramento (misurata in token) e la potenza di calcolo totale richiesta per l'addestramento.

Variando sistematicamente questi tre fattori, gli autori hanno dimostrato che l'aumento di uno qualsiasi di essi porta a riduzioni prevedibili delle perdite, a condizione che gli altri siano opportunamente dimensionati.

Figura 1: La figura mostra come la perdita di test varia in funzione delle dimensioni del modello, considerando diversi budget di calcolo e conteggi di passi di addestramento, rivelando l'equilibrio ottimale tra dimensioni del modello, risorse di calcolo e durata dell'addestramento per ottenere le migliori prestazioni.

Questo lavoro ha gettato le basi per le successive ricerche sulle leggi di scalatura dei modelli linguistici. Ha inoltre dimostrato che la forma e la profondità del modello hanno un impatto minore rispetto al numero totale di parametri e ai token di addestramento, a parità di potenza di calcolo. Questa intuizione ha influenzato il modo in cui i ricercatori successivi hanno progettato algoritmi di addestramento per modelli linguistici di grandi dimensioni. 1

“Addestramento di modelli linguistici di grandi dimensioni ottimizzati per il calcolo”, Hoffmann, Borgeaud e Mensch, 2022

Questo articolo rivaluta le precedenti leggi per i modelli linguistici neurali utilizzando un ampio set di esperimenti controllati. Modella la funzione di perdita come una funzione congiunta dei parametri del modello e della dimensione dei dati di addestramento, e scopre che molti modelli di grandi dimensioni precedenti erano sotto-addestrati rispetto al loro numero di parametri. Quando i ricercatori addestrano modelli più grandi con dati di addestramento insufficienti, la qualità del modello risultante non è in linea con le previsioni delle leggi di scala tradizionali.

Gli autori dimostrano che, a parità di risorse computazionali, le prestazioni ottimali si ottengono quando i modelli utilizzano un numero di parametri e di token di addestramento di ordini di grandezza simili. Questo risultato è ampiamente noto come legge di scala del cincillà. Essa afferma che il calcolo dell'addestramento ottimale richiede una relazione quasi proporzionale tra il numero di parametri e il numero di token di addestramento.

Questo approccio produce modelli più piccoli che offrono prestazioni migliori rispetto a modelli più grandi addestrati su dati limitati. Inoltre, favorisce una selezione efficiente dei modelli, poiché i ricercatori possono adattare leggi di scalatura a modelli più piccoli e prevedere le prestazioni dei modelli linguistici per configurazioni più ampie prima dell'addestramento.

Figura 2: La figura sovrappone le previsioni di diversi metodi, le quali indicano tutte che i modelli di grandi dimensioni attualmente in uso sono sovradimensionati e dovrebbero invece essere più piccoli e addestrati per un periodo più lungo. 2

“Oltre l’ottimalità del modello Chinchilla: tenere conto dell’inferenza nelle leggi di scalatura dei modelli linguistici”, Sardana, Portes & Doubov, 2025

Sardana et al. estendono il framework Chinchilla incorporando i costi di inferenza nella scalabilità computazionalmente ottimale.

Anziché minimizzare solo la potenza di calcolo necessaria per l'addestramento, definiscono un livello di prestazioni obiettivo e ottimizzano il costo combinato di addestramento e inferenza per l'intera durata di vita del modello.

Questo cambiamento porta a un'importante considerazione pratica: in contesti ad alto utilizzo, i modelli più piccoli addestrati su una maggiore quantità di dati possono spesso eguagliare le prestazioni dei modelli più grandi, pur comportando costi computazionali totali inferiori.

Figura 3: I grafici confrontano i rapporti tra costo totale, numero di parametri e token di addestramento tra modelli a costo ottimale nel mondo reale e modelli in stile Chinchilla. 3

“Sloth: Leggi di scala per le competenze LLM per prevedere le prestazioni multi-benchmark in diverse famiglie”, Polo, Somerstep e Choshen, 2025

Sloth introduce un nuovo approccio alla modellazione delle leggi di scalabilità per modelli linguistici di grandi dimensioni , spostando l'attenzione dalla funzione di perdita del modello alle prestazioni a livello di benchmark. Invece di trattare i compiti separatamente, Sloth identifica un insieme di competenze latenti che catturano le prestazioni dei modelli linguistici su diversi benchmark. Queste competenze rappresentano capacità generali come il ragionamento o il recupero della conoscenza.

Il framework modella come ogni abilità si adatta ai parametri del modello e ai dati di addestramento. Sloth utilizza caratteristiche semplici, come i logaritmi delle dimensioni del modello e del dataset, per descrivere come queste abilità cambiano all'interno di una famiglia di modelli. Una volta addestrato, Sloth può prevedere le prestazioni di modelli più grandi della stessa famiglia su numerosi benchmark senza bisogno di ulteriore addestramento.

Grazie alle previsioni di Sloth, le organizzazioni possono decidere come allocare le risorse computazionali ed evitare configurazioni di addestramento che difficilmente raggiungeranno le prestazioni desiderate. Ciò favorisce una pianificazione più razionale dei modelli di addestramento in presenza di vincoli reali. 4

"Legge di densità degli LLM", Xiao, Cai e Zhao, 2025

L'articolo esamina l'efficienza con cui i modelli utilizzano i propri parametri. Introduce il concetto di densità di capacità, definita come il rapporto tra il numero effettivo di parametri di un modello e il suo numero reale di parametri. Il numero effettivo di parametri viene stimato adattando leggi di scala ai modelli esistenti e chiedendosi quanto grande dovrebbe essere un modello di riferimento per eguagliare le prestazioni attuali.

Gli autori osservano che i modelli migliori in ogni momento mostrano una densità di capacità crescente. Ciò significa che i modelli più recenti raggiungono una determinata prestazione con un numero inferiore di parametri rispetto ai modelli più vecchi. L'andamento sembra essere approssimativamente esponenziale nel tempo.

Questa osservazione suggerisce che i progressi nei modelli linguistici di grandi dimensioni non riguardano solo l'aumento delle dimensioni del modello, ma anche il miglioramento dell'architettura del modello, della qualità dei dati di addestramento e degli algoritmi di addestramento. L'articolo sostiene che monitorare l'efficienza dei parametri è essenziale per comprendere le future direzioni nell'elaborazione del linguaggio naturale e nell'apprendimento automatico.

Figura 4: Il grafico mostra la densità di capacità stimata per i modelli LLM di base open-source su cinque benchmark di ragionamento e codifica, con la dimensione del cerchio che indica il numero di parametri del modello e una linea di tendenza che suggerisce una "legge di densificazione" in cui la densità di capacità di picco aumenta esponenzialmente nel tempo. 5

Opinioni sulle leggi di scalatura LLM da parte dei principali laboratori e ricercatori di intelligenza artificiale.

Al di là delle leggi di scalatura accademiche, i ricercatori e i professionisti del settore sottolineano come questi principi si traducano nello sviluppo e nell'implementazione di modelli nel mondo reale.

Le seguenti prospettive illustrano come i diversi soggetti interessati, dai fornitori di hardware ai ricercatori applicati, interpretano e applicano nella pratica le leggi di scalabilità.

NVIDIA, 2025

Dal punto di vista infrastrutturale, NVIDIA presenta le leggi di scalabilità come strumenti pratici per la progettazione e l'addestramento di modelli linguistici di grandi dimensioni. Evidenzia tre assi di scalabilità principali:

  • Dimensioni del modello.
  • Dimensione del dataset.
  • Risorse di calcolo.

Secondo NVIDIA, la scalatura di uno qualsiasi di questi fattori nel regime corretto si traduce in miglioramenti prevedibili nella qualità del modello.

L'articolo sottolinea inoltre l'importanza del tempo di calcolo in fase di test. I sistemi moderni dedicano più tempo all'inferenza utilizzando tecniche come le sequenze di ragionamento estese. Ciò aggiunge una nuova dimensione alle leggi di scalabilità, estendendosi oltre l'attenzione originaria sui token di addestramento e sui parametri del modello.

NVIDIA utilizza queste idee per spiegare perché la domanda di risorse di calcolo continua a crescere, anche se i modelli diventano più efficienti in termini di parametri. Suggerisce che sia l'addestramento che l'inferenza rimarranno fattori determinanti per l'utilizzo della potenza di calcolo nei futuri sistemi di elaborazione del linguaggio naturale. 6

Cameron Wolfe, ricercatore LLM presso Netflix, 2025

Dal punto di vista di un professionista, Cameron Wolfe spiega come le relazioni di legge di potenza originali della letteratura accademica si applichino ai modelli attuali e come i professionisti possano utilizzare queste curve per stimare le prestazioni raggiungibili da un modello prima di addestrare modelli più complessi.

Wolfe discute il ruolo della forma e dell'architettura del modello nella scalabilità e osserva che, mentre le leggi di scalabilità tradizionali si concentrano sul numero di parametri, i sistemi pratici devono considerare anche la qualità dei dati e gli algoritmi di addestramento. L'articolo evidenzia le preoccupazioni relative alla disponibilità di dati di alta qualità e a come questi vincoli possano influenzare l'addestramento di futuri modelli di dimensioni maggiori.

La discussione presenta le leggi di scala come linee guida per valutare i modelli esistenti e per stimare come le prestazioni del modello possano cambiare quando i dati di addestramento vengono ampliati o quando i parametri del modello vengono modificati. 7

MIT-IBM Laboratorio AI Watson, 2025

Adottando un approccio più metodologico, i ricercatori del MIT-IBM Watson AI Lab analizzano le leggi di scalabilità su diverse architetture e set di dati.

I ricercatori hanno compilato un ampio meta-dataset che include 485 modelli pre-addestrati, metadati di addestramento dettagliati e oltre 1 milione di misurazioni delle prestazioni. Questo dataset viene utilizzato per testare oltre 1.000 leggi di scala candidate e identificare modelli che si generalizzano a diverse famiglie di modelli.

Lo studio delinea passaggi chiari per adattare le leggi di scalabilità in presenza di vincoli computazionali. Raccomanda di definire un budget computazionale e prestazioni target, quindi di addestrare un piccolo insieme di modelli di diverse dimensioni anziché concentrarsi sui modelli più grandi. I checkpoint intermedi sono evidenziati come preziose fonti di informazione, mentre si sconsiglia l'utilizzo di dati di addestramento molto precoci a causa del rumore.

Gli autori dimostrano che, seguendo queste linee guida, le previsioni possono avvicinarsi al limite inferiore stabilito dalla variabilità del seme casuale. Anche quando le previsioni sono meno precise, le leggi di scala rimangono utili per confrontare le scelte di addestramento e identificare configurazioni promettenti.

Lo studio rileva che le prestazioni variano significativamente tra le diverse famiglie di modelli, il che rafforza l'importanza di utilizzare diversi contesti di addestramento quando si adattano le leggi di scala. 8

Cosa dicono i ricercatori più importanti sul futuro della scalabilità?

Punti di vista a sostegno della continua validità delle leggi di adeguamento

Nell'ambito della ricerca, si riscontrano prove consistenti che le leggi di scala sono valide all'interno dei regimi testati. Studi fondamentali mostrano chiare relazioni di legge di potenza tra i parametri del modello, la dimensione dei dati di addestramento e la potenza di calcolo necessaria per l'addestramento, quando i modelli vengono addestrati in contesti bilanciati.

Studi successivi affinano questo quadro dimostrando che l'addestramento computazionalmente ottimale richiede l'allineamento delle dimensioni del modello con il volume dei token di addestramento e che tale allineamento migliora le prestazioni del modello rispetto agli approcci precedenti.

Ulteriori studi sulla valutazione multi-task dimostrano che le prestazioni di riferimento scalano in modo prevedibile anche quando espresse in termini di un insieme più ristretto di competenze latenti. Ciò rafforza l'idea che le leggi di scalabilità dei modelli linguistici rimangano strumenti affidabili per prevedere le prestazioni del modello quando le dimensioni del dataset e le risorse di calcolo sono allocate in modo appropriato.

Punti di vista che enfatizzano un'allocazione efficiente delle risorse di calcolo.

Una seconda linea di ricerca sostiene che il progresso dipenda sempre più da come viene distribuita la potenza di calcolo, piuttosto che dal solo aumento del numero di parametri. Le analisi dell'addestramento ottimizzato in termini di risorse computazionali mostrano che i modelli necessitano di una quantità sufficiente di dati di addestramento per raggiungere il loro potenziale e che i modelli più grandi addestrati con dati limitati sono spesso inefficienti.

Gli studi che includono i costi di inferenza estendono questa idea, dimostrando che il costo totale di un modello dipende sia dal tempo di calcolo necessario per l'addestramento sia dal tempo di calcolo necessario per l'inferenza.

Questa prospettiva suggerisce che i futuri sforzi di scalabilità si concentreranno su configurazioni efficienti che ottimizzino congiuntamente le dimensioni del modello, i token di addestramento e il volume di inferenza previsto. Inquadra la progettazione di modelli linguistici di grandi dimensioni come un esercizio di allocazione computazionale piuttosto che come la ricerca della massima crescita dei parametri.

Punti di vista che sottolineano la crescente importanza dell'efficienza e della densità

Un altro punto di vista si concentra sull'efficienza dei parametri e sull'uso efficace delle risorse computazionali. La ricerca che analizza la densità dei parametri mostra che i modelli più recenti raggiungono prestazioni migliori con un numero inferiore di parametri rispetto ai modelli precedenti. Ciò indica che i miglioramenti architetturali, la qualità dei dati e gli algoritmi di addestramento giocano un ruolo significativo nell'incremento delle prestazioni.

Il commento tecnico evidenzia inoltre la crescente importanza del comportamento di inferenza e dei miglioramenti post-addestramento. Nel complesso, questi risultati suggeriscono che i sistemi futuri si baseranno su una progettazione efficiente dei modelli e su metodi di addestramento migliori, piuttosto che su un'espansione incontrollata del numero di parametri. L'attenzione si sposta da modelli più grandi a modelli più performanti che utilizzano i propri parametri in modo più efficace.

Vincoli alla futura scalabilità di LLM

limiti di calcolo e di energia

Un tema ricorrente nella letteratura è l'elevato fabbisogno di risorse computazionali necessario per addestrare e implementare modelli linguistici di grandi dimensioni. L'addestramento di modelli di grandi dimensioni consuma notevoli risorse di calcolo, mentre l'inferenza su larga scala comporta costi operativi considerevoli.

Questi fattori impongono limiti economici alla scalabilità, anche quando le leggi teoriche di scalabilità indicano ulteriori vantaggi. Con la crescita dei modelli, il consumo energetico e i requisiti hardware diventano sempre più difficili da gestire.

Vincoli di disponibilità dei dati

Un altro vincolo è la disponibilità di dati di alta qualità. Le formulazioni tradizionali delle leggi di scala presuppongono l'accesso a una grande quantità di dati di addestramento, ma questa ipotesi non è più affidabile.

Diverse analisi evidenziano la limitata disponibilità di testi di alta qualità e la crescente necessità di dati curati o sintetici . Poiché la dimensione dei dati di addestramento diventa un fattore limitante, la qualità dei dati diventa cruciale quanto il numero di parametri nel determinare le prestazioni del modello.

Vincoli di bilancio economici e computazionali

La scalabilità pratica è limitata non solo da fattori tecnici, ma anche da considerazioni finanziarie e organizzative. La ricerca incentrata sulla previsione delle prestazioni dimostra che la pianificazione del budget di calcolo è essenziale per determinare quali cicli di addestramento siano fattibili.

Le analisi sulle pratiche del settore evidenziano l'aumento dei costi di calcolo e la necessità per le organizzazioni di allocare le proprie risorse con attenzione. Questi fattori limitano la scalabilità possibile in ambienti reali.

Vincoli algoritmici e architetturali

La ricerca sulle leggi di scala sottolinea che miglioramenti prevedibili si verificano solo quando i modelli vengono addestrati in regimi bilanciati. Gli studi che analizzano l'efficienza dei parametri dimostrano che i progressi architetturali possono modificare la relazione tra dimensione del modello e prestazioni.

Ulteriori commenti dimostrano che gli algoritmi di addestramento influenzano l'efficacia con cui si applicano le leggi di scalatura. Queste considerazioni implicano che la semplice scalatura dei parametri non può continuare indefinitamente e che i progressi dipenderanno sempre più da nuovi metodi di addestramento e architetture di modelli.

FAQ

I modelli linguistici di grandi dimensioni vengono addestrati come modelli linguistici neurali che prevedono il token successivo nel linguaggio naturale. Il termine "leggi di scala dei modelli linguistici di grandi dimensioni" descrive regolarità empiriche che collegano le prestazioni del modello alle sue dimensioni, ai dati di addestramento e alle risorse computazionali. Queste relazioni sono definite come funzioni di legge di potenza nella letteratura accademica. Esse implicano che le prestazioni del modello linguistico migliorano in modo prevedibile quando i ricercatori allocano maggiori risorse computazionali ai parametri del modello e alle dimensioni dei dati di addestramento.

L'idea fondamentale nella letteratura è che la perdita del modello diminuisce all'aumentare del numero di parametri, di dati di addestramento e di risorse computazionali a disposizione. Queste regole hanno influenzato il modo in cui i ricercatori addestrano modelli più complessi e valutano il compromesso tra il numero di parametri e la disponibilità di dati di addestramento sufficienti. Inoltre, supportano le decisioni su come allocare le risorse computazionali tra le diverse architetture del modello e i dati di addestramento disponibili.

Comprendere queste relazioni è fondamentale perché le organizzazioni si affidano alle leggi di scalabilità dei modelli linguistici per prevedere i miglioramenti prestazionali ottenibili scalando i parametri del modello o raccogliendo più dati di addestramento. Inoltre, aiutano i team a identificare quando modelli più piccoli, addestrati su una maggiore quantità di dati, possono offrire prestazioni simili a modelli più grandi ma meno addestrati.

È opportuno verificare che i fornitori allineino i parametri del modello alla quantità di dati di addestramento e considerare il costo di inferenza durante la selezione. I modelli addestrati con scalabilità computazionalmente ottimale spesso eguagliano le prestazioni di modelli più grandi, riducendo al contempo i costi operativi.

I team possono addestrare modelli più piccoli e applicare leggi di scalabilità per prevedere le prestazioni di modelli più grandi. La scalabilità multi-competenza dimostra che poche competenze di base determinano le prestazioni su diversi benchmark, contribuendo a evitare sessioni di addestramento improduttive e a guidare l'allocazione delle risorse di calcolo.

È opportuno monitorare le tendenze di efficienza dei parametri per identificare i modelli che offrono prestazioni migliori con un minor numero di parametri. I miglioramenti nell'architettura e negli algoritmi di addestramento giocano un ruolo fondamentale, pertanto la selezione del modello dovrebbe concentrarsi sui miglioramenti complessivi delle prestazioni piuttosto che sul solo numero di parametri.

Sıla Ermut
Sıla Ermut
Analista di settore
Sıla Ermut è un'analista di settore presso AIMultiple, specializzata in email marketing e video di vendita. In precedenza, ha lavorato come reclutatrice in società di project management e consulenza. Sıla ha conseguito un Master in Psicologia Sociale e una laurea in Relazioni Internazionali.
Visualizza il profilo completo

Sii il primo a commentare

Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori.

0/450