IA Modelli di intelligenza artificiale LLM

Parametri LLM: GPT-5 Alto, Medio, Basso e Minimo

Sıla Ermut

con

Şevval Alper

aggiornato il Gen 22, 2026

Guarda il nostro norme etiche

I nuovi LLM, come la famiglia GPT-5 di OpenAI, sono disponibili in diverse versioni (ad esempio, GPT-5, GPT-5-mini e GPT-5-nano) e con varie impostazioni dei parametri, tra cui alta, media, bassa e minima.

Di seguito, analizziamo le differenze tra queste versioni del modello, raccogliendo i risultati dei benchmark e i costi per eseguirli.

Prezzo vs. successo: i punti chiave

Nella nostra analisi abbiamo utilizzato la famiglia GPT-5. Abbiamo utilizzato sei parametri di riferimento in diverse aree, tra cui ragionamento, programmazione, esecuzione di istruzioni e matematica.

Loading Chart

La nostra analisi ha rivelato:

In media, considerando tutti i parametri di riferimento, GPT-5 (alto) e GPT-5 (medio) offrono tassi di successo quasi identici (65% contro 64%), eppure GPT-5 (alto) costa quasi il doppio ($511 contro $280). Seguono GPT-5-mini (alto) , GPT-5 (basso) e GPT-5-mini (medio), con tassi di successo rispettivamente del 62%, 61% e 60%, a prezzi molto più bassi di $105, $90 e $28. Ciò dimostra che, accettando solo un calo del ~5% nel tasso di successo, le attività possono essere completate a un costo fino a 18 volte inferiore passando da GPT-5 (alto) a GPT-5-mini (medio).
GPT-5-mini (alto) supera GPT-5 (basso) in quasi tutti i benchmark, e lo fa allo stesso costo o a un costo inferiore. In IFBench, i tassi di successo sono del 75% contro il 67%; in AIME 2025, del 97% contro l'83%; in Humanity's Last Exam, del 20% contro il 18%; e in GPQA Diamond, dell'83% contro l'81%. Sono alla pari su SciCode al 39%, eppure GPT-5-mini (alto) risulta comunque più economico.
Il modello più costoso, GPT-5 (alto), supera il secondo miglior modello solo in tre benchmark, e anche in questi casi il margine non supera il 3%. In tutti gli altri benchmark, viene superato da alternative più economiche.

Impostazioni dei parametri alto-medio-basso-minimo

Sebbene i parametri dei modelli lineari lineari (LLM) siano spesso descritti in termini di aggiustamenti numerici, possono anche essere espressi come intervalli qualitativi quali alto, medio e basso. Questi intervalli non rappresentano standard fissi, bensì categorie concettuali che descrivono l'influenza di un parametro sull'output del modello.

L'utilizzo di questi tre livelli consente di selezionare rapidamente le impostazioni per diverse attività, a seconda del livello di creatività, determinismo o durata desiderato. Questi livelli sono utili per regolare i parametri relativi a top-P, token massimi e penalità.

Il parametro medio si riferisce alla versione standard (non parametrizzata) di un modello.

Impostazioni minime :

Top-p / Top-k: Molto basso (top-p ≈ 0,1–0,2, top-k = 1–5)
Numero massimo di token: limite breve
Sanzioni: molto basse o nulle
Effetti:
- Risultati altamente deterministici, pressoché identici ogni volta.
- Molto conciso, fattuale e rigoroso.
- Ideale per codice, matematica, query di database o risposte che richiedono una rigorosa conformità.
- Condizioni molto vincolate, con bassa casualità, che favoriscono la prevedibilità e la precisione.

Impostazione bassa:

Top-p / Top-k: Basso (top-p ≈ 0,3–0,5, top-k = 5–10)
Numero massimo di token: da breve a medio
Sanzioni: da lievi a moderate
Effetti:
- Prevalentemente deterministico, ma ammette piccole variazioni.
- Riduce la ripetizione robotica rispetto a un approccio minimo.
- Adatto per riassunti, spiegazioni strutturate o testi professionali dallo stile coerente.

Impostazione media :

Top-p / Top-k: Moderato (top-p ≈ 0,7–0,9, top-k = 20–50)
Numero massimo di token: lunghezza media
Penalità: Moderate, per evitare ripetizioni ma consentire un certo grado di creatività
Effetti:
- Un perfetto equilibrio tra precisione e creatività.
- Produce risposte naturali che variano leggermente da una sessione all'altra.
- Adatto per domande e risposte generali, stesura di bozze e brainstorming.

Impostazione alta :

Top-p / Top-k: Elevato (top-p ≈ 0,95–1,0, top-k = 50–100)
Numero massimo di token: limite elevato per output più lunghi
Sanzioni: da medie ad alte, incoraggiando la varietà e la novità
Effetti:
- Risultati altamente creativi e diversificati.
- Meno prevedibile, con un rischio maggiore di allucinazioni .
- Ideale per narrazione, ideazione, giochi di ruolo e scrittura creativa.

Per decidere quale livello utilizzare, considera:

Tipo di compito/scopo : Se hai bisogno di accuratezza ( legale , medica , normativa , fattuale ), scegli minimo o medio. Se hai bisogno di creatività, stile e originalità, potrebbe essere meglio un livello alto.
Tolleranza agli errori : quanto sono gravi gli errori o le imperfezioni occasionali? Se bassa, evita un'elevata casualità.
Vincoli computazionali : Lunghezze di output elevate e un alto grado di casualità spesso richiedono maggiore potenza di calcolo e memoria.
Dimensioni del modello : i modelli più grandi tendono a gestire meglio un'elevata casualità, mentre i modelli più piccoli possono degradare significativamente in presenza di impostazioni elevate.
Lunghezza di output desiderata : un testo generato più lungo può variare, quindi un'elevata casualità unita a una lunghezza elevata comporta maggiori rischi.

GPT-5

GPT-5 bilancia capacità di ragionamento superiori con una velocità media, rendendolo adatto a compiti complessi e a più fasi in cui precisione e adattabilità sono cruciali.

Finestra di contesto : 400.000
Numero massimo di token in uscita : 128.000
Termine ultimo per la presentazione delle conoscenze : 30 settembre 2024
Ragionamento : Superiore, con supporto per token di ragionamento

Prezzi (per 1 milione di token)

Input: $1,25
Input memorizzato nella cache: $0,125
Output: $10,00

Modalities

Testo: input e output
Immagine: solo input
Audio: non supportato

GPT-5 mini

GPT-5 mini è una versione più piccola, veloce ed economica di GPT-5. Mantiene una forte capacità di ragionamento pur essendo più adatta a compiti ben definiti.

Finestra di contesto : 400.000
Numero massimo di token in uscita : 128.000
Termine ultimo per la presentazione delle conoscenze : 31 maggio 2024
Funzionalità : supporta la ricerca sul web, la ricerca di file e l'interprete di codice.

Prezzo per 1 milione di token :

Input: $0,25
Input memorizzato nella cache: $0,025
Produzione: $2,00

GPT-5 nano

GPT-5 nano è l'opzione più veloce ed economica, progettata per attività leggere come la classificazione e la sintesi.

Finestra di contesto : 400.000
Numero massimo di token in uscita : 128.000
Termine ultimo per la presentazione delle conoscenze : 31 maggio 2024
Funzionalità : supporta la ricerca di file, la generazione di immagini e l'interprete di codice (ma non la ricerca sul web).

Prezzo per 1 milione di token :

Input: $0,05
Input memorizzato nella cache: $0,005
Output: $0,40

Caratteristiche della serie GPT-5

La serie GPT-5 introduce diverse funzionalità che migliorano il controllo, la formattazione e l'efficienza. Queste funzionalità si applicano ai modelli GPT-5, GPT-5 Mini e GPT-5 Nano.

Parametro di verbosità

Il parametro di verbosità consente agli sviluppatori di influenzare il livello di dettaglio negli output del modello senza modificare il prompt.
Accetta tre valori:

Basso: risultati brevi e concisi
Medio: risultati bilanciati (impostazione predefinita)
Elevato: output dettagliati adatti a spiegazioni, documentazione o revisione

Una maggiore verbosità porta a risposte più lunghe e a un maggiore utilizzo dei token di output.

Chiamata di funzione a forma libera

La serie GPT-5 supporta chiamate di strumenti personalizzate che accettano output di testo grezzo anziché JSON strutturato. Ciò consente di generare codice, query SQL o testo di configurazione che viene passato direttamente a runtime esterni come:

Sandbox di codice
motori SQL
Ambienti Shell
Sistemi di configurazione

Il tipo di strumento personalizzato non supporta chiamate parallele ad altri strumenti. È pensato per situazioni in cui il testo naturale è preferibile a uno schema JSON rigido.

Supporto per la grammatica libera dal contesto (CFG)

I modelli possono produrre testo vincolato da una grammatica definita con Lark o sintassi regex. Ciò garantisce che il testo generato segua regole strutturali rigorose. Esempi di utilizzo comuni includono:

Imposizione di dialetti SQL specifici
Limitare i timestamp o gli identificatori
Convalida dei formati di configurazione

Quando si utilizzano i CFG (Content Function Graph), gli sviluppatori definiscono terminali e regole che descrivono l'insieme delle stringhe accettabili. Il modello produce solo output che corrispondono a queste regole.

Modalità di ragionamento minimo

La modalità di ragionamento minimo riduce o elimina i token di ragionamento. Ciò riduce la latenza e migliora il tempo di generazione del primo token.
È adatto per compiti quali:

Classificazione
Brevi riscritture
Estrazione strutturata
Operazioni di formattazione di base

Se non viene specificata alcuna impostazione di ragionamento, il livello di impegno predefinito è medio.

Differenze chiave

I tre modelli differiscono principalmente per profondità di ragionamento, velocità e costo. Le nuove funzionalità possono essere utilizzate in tutti i modelli, ma il loro impatto varia a seconda del modello.

Ragionamento

GPT-5 offre le capacità di ragionamento più avanzate. È adatto per problemi complessi e a più fasi nell'ambito della codifica, dell'analisi scientifica o del supporto alle decisioni.
GPT-5 mini offre un ragionamento solido per suggerimenti strutturati con confini di attività prevedibili.
GPT-5 nano ha prestazioni di ragionamento moderate e funziona al meglio su attività che non richiedono analisi approfondite.
La modalità di ragionamento minimo può essere utilizzata con tutti i modelli e offre il vantaggio più significativo per GPT-5 nano e GPT-5 mini, dato il loro vantaggio in termini di velocità.

Velocità

GPT-5 nano è l'opzione più veloce ed è efficace per carichi di lavoro in tempo reale o su larga scala.
GPT-5 mini bilancia velocità e capacità di ragionamento, rendendolo adatto ai carichi di lavoro di produzione standard.
GPT-5 è più lento perché esegue un ragionamento interno più complesso, ma ciò si traduce in un output più preciso.
La modalità di ragionamento minimo può ridurre ulteriormente la latenza, in particolare per nano.

Costo

GPT-5 nano ha il costo per token più basso. È preferito per attività ad alto volume come la classificazione batch o la sintesi.
Il modello GPT-5 mini si colloca nella fascia media, offrendo un buon equilibrio tra funzionalità e costo.
Il modello GPT-5 è il più costoso e viene generalmente utilizzato quando la precisione e la coerenza sono prioritarie.
Le impostazioni di verbosità influenzano i costi perché una maggiore verbosità produce un numero maggiore di token di output.

Cosa sono i parametri LLM?

I parametri LLM sono impostazioni che influenzano il modo in cui i modelli linguistici di grandi dimensioni (LLM) generano il testo durante l'inferenza. Questi controlli dei parametri non modificano i pesi appresi di un modello pre-addestrato. Piuttosto, definiscono il modo in cui il modello linguistico campiona da una distribuzione di probabilità sui token probabili durante la generazione delle risposte.

I modelli linguistici di grandi dimensioni sono sistemi di reti neurali, tipicamente basati sull'architettura Transformer. Durante l'addestramento, il modello apprende valori numerici chiamati pesi e bias. I pesi rappresentano l'importanza assegnata ai diversi input, consentendo al modello di cogliere le relazioni tra parole, concetti e contesto. I bias sono valori costanti aggiunti all'interno dei livelli che contribuiscono ad attivare i neuroni in determinate condizioni. Insieme, questi valori definiscono la capacità del modello di riconoscere schemi complessi nel linguaggio.

I parametri di inferenza, al contrario, operano dopo l'addestramento. Essi modellano il modo in cui viene utilizzata la conoscenza appresa dal modello, senza modificarne i pesi sottostanti. La regolazione dei parametri LLM consente agli utenti di influenzare la diversità, la prevedibilità, la ripetizione e la lunghezza dell'output, elementi essenziali per ottimizzare le prestazioni del modello in compiti specifici come la scrittura creativa, la generazione strutturata o le spiegazioni tecniche.

I parametri chiave includono il campionamento del nucleo top-p, il numero massimo di token, la penalità di frequenza, la penalità di presenza e le sequenze di stop. Insieme, questi parametri di campionamento controllano l'output generato, bilanciando la qualità dell'output, il costo computazionale e l'efficienza dell'inferenza.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Segui

Dimensioni del modello, parametri e principi fondamentali dell'addestramento

Nei modelli linguistici di grandi dimensioni, il numero di parametri può raggiungere i miliardi. I modelli più grandi in genere sono più capaci di gestire il linguaggio sfumato, le dipendenze a lungo raggio e i ragionamenti complessi. Questo miglioramento delle prestazioni del modello comporta tuttavia maggiori requisiti di potenza di calcolo sia durante l'addestramento che durante l'inferenza.

I modelli più piccoli richiedono meno risorse computazionali e offrono una maggiore efficienza, ma potrebbero avere difficoltà con pattern più complessi o finestre di contesto più ampie. La scelta tra modelli più grandi e più piccoli dipende dal compito, dalla latenza accettabile e dall'infrastruttura disponibile. Consulta le leggi di scalabilità LLM per scoprire come i ricercatori di IA valutano l'effetto delle dimensioni del modello, della qualità dei dati e della strategia di addestramento.

Diversi parametri di addestramento influenzano il modo in cui un modello apprende prima dell'inferenza:

La dimensione del batch si riferisce al numero di campioni di addestramento elaborati prima che il modello aggiorni i suoi pesi. Batch di dimensioni maggiori migliorano l'efficienza dell'addestramento ma aumentano l'utilizzo della memoria.
Il tasso di apprendimento controlla la rapidità con cui il modello regola i suoi pesi e i suoi bias. Valori più elevati accelerano l'apprendimento ma comportano il rischio di instabilità, mentre valori più bassi favoriscono una convergenza più stabile.
Gli iperparametri definiscono impostazioni esterne come la dimensione del modello, la dimensione del batch e il tasso di apprendimento, influenzando l'intero processo di addestramento.

Dopo il pre-addestramento, la messa a punto e l'allineamento sono essenziali. La messa a punto adatta un modello pre-addestrato a dati o attività specifici del dominio, mentre l'allineamento garantisce che il testo generato rifletta l'intento umano.

La messa a punto efficiente dei parametri (PEFT) migliora l'efficienza computazionale bloccando la maggior parte dei parametri e aggiornando solo un piccolo sottoinsieme di parametri rilevanti per l'attività.

Campionamento Top-p

Il campionamento top-p, noto anche come campionamento del nucleo, limita la selezione dei token al gruppo più piccolo la cui probabilità cumulativa supera una data soglia p. Invece di selezionare da un numero fisso di token, il modello sceglie dinamicamente tra i token probabili che insieme rappresentano la massa di probabilità specificata.

Valori più bassi (ad esempio, p = 0,5) limitano il campionamento a un insieme ristretto di token con la probabilità più alta, risultando in un testo coerente ma meno vario.
Valori più elevati (ad esempio, p = 0,9) consentono di campionare da un gruppo più ampio, aumentando la diversità dei risultati ma anche il rischio di divagare dall'argomento principale.

Campionamento Top k

Il campionamento top k limita la scelta del modello ai k token con la probabilità più alta per la fase successiva della generazione del testo. Restringendo l'insieme dei candidati, questo parametro influisce direttamente sulla prevedibilità e sulla varietà.

Valori top-k più bassi limitano la selezione a un piccolo insieme di token altamente probabili, producendo risultati più prevedibili e mirati.
Valori più elevati ampliano il bacino di candidati, aumentando la variabilità e favorendo una maggiore diversità linguistica.

Mentre il campionamento top-p si adatta dinamicamente in base alla massa di probabilità, il campionamento top-k utilizza un valore di soglia fisso. I due metodi vengono spesso confrontati durante la valutazione del modello per determinare le impostazioni ottimali per compiti specifici.

Numero massimo di token (il numero di token)

Il parametro max_tokens definisce il numero massimo di token che il modello può generare in una singola risposta. Determina direttamente la lunghezza dell'output e influenza il costo computazionale.

Valori massimi più bassi impongono risposte concise, ma potrebbero omettere dettagli importanti.
Valori più elevati consentono spiegazioni più dettagliate, ma richiedono maggiori risorse computazionali e aumentano i tempi di inferenza.

Il numero massimo di token è limitato dalla finestra di contesto, che include sia i dati di input che l'output generato. Se il numero totale di token supera il limite di token del modello, la generazione si interromperà indipendentemente dall'impostazione del numero massimo di token.

Parametro di penalità di frequenza

La penalità di frequenza regola la probabilità dei token in base alla frequenza con cui sono già apparsi nel testo generato.

I valori positivi riducono le ripetizioni, migliorando la qualità delle risposte più lunghe.
I valori negativi incoraggiano il riutilizzo, il che può essere utile per i documenti che richiedono una terminologia coerente.

Penalità eccessivamente elevate possono compromettere la coerenza, poiché la ripetizione naturale è spesso necessaria per un testo simile a quello umano. Questo parametro è più efficace quando si ottimizzano le prestazioni del modello per la generazione di testi lunghi.

Pena di presenza

La penalità di presenza riduce la probabilità dei token che sono apparsi almeno una volta, indipendentemente dalla frequenza. Ciò incoraggia il modello a introdurre nuove idee.

I valori positivi promuovono la novità e l'esplorazione, elementi utili nel brainstorming e nella scrittura creativa.
I valori negativi rafforzano i termini esistenti, il che può essere utile in output strutturati o vincolati.

La penalizzazione di presenza è un valido strumento di controllo per guidare la diversità di idee, ma deve essere applicata con cautela per evitare un'innaturale evitazione di termini chiave.

Sequenze di arresto

Le sequenze di arresto definiscono token o stringhe specifici che segnalano al modello di interrompere la generazione. Sono comunemente utilizzate nelle applicazioni strutturate.

Utile per imporre modelli nei sistemi di dialogo o nella generazione di codice.
Aiuta a controllare la lunghezza dell'output e a prevenire continuazioni irrilevanti.

Le sequenze di stop migliorano la prevedibilità degli output di testo generati senza basarsi esclusivamente sui limiti dei token.

Seme e determinismo

Alcuni sistemi consentono agli utenti di specificare un seme casuale, garantendo che gli stessi dati di input e le stesse impostazioni dei parametri producano lo stesso output generato.

Utile per la valutazione e la verifica dei modelli.
Consente di confrontare diverse configurazioni di parametri senza che variazioni casuali influenzino i risultati.

La generazione deterministica favorisce la riproducibilità, sebbene i risultati esatti possano comunque variare a seconda dei diversi modelli di IA o degli ambienti di implementazione.

Differenze tra i parametri chiave

Comprendere come differiscono i parametri chiave è utile per regolare i parametri LLM e ottenere risultati ottimali.

Penalità di frequenza vs penalità di presenza : la penalità di frequenza aumenta con la frequenza con cui un token appare, mentre la penalità di presenza si applica una sola volta dopo la prima apparizione del token.
Campionamento top k vs top p : il metodo top k limita la selezione a un numero fisso di token, mentre il metodo top p seleziona dinamicamente i token in base alla probabilità cumulativa.
Numero massimo di token vs finestra di contesto : il numero massimo di token limita la lunghezza dell'output, mentre la finestra di contesto rappresenta un limite superiore fisso che copre sia i token di input che quelli di output.

Un'attenta messa a punto di questi parametri consente agli esperti di bilanciare la qualità dell'output, l'efficienza computazionale e le prestazioni di LLM in diverse applicazioni, come la generazione aumentata per il recupero di informazioni, le attività analitiche e la generazione di testo aperto.

Sıla Ermut

Analista di settore

Segui

Sıla Ermut è un'analista di settore presso AIMultiple, specializzata in email marketing e video di vendita. In precedenza, ha lavorato come reclutatrice in società di project management e consulenza. Sıla ha conseguito un Master in Psicologia Sociale e una laurea in Relazioni Internazionali.

Visualizza il profilo completo

Ricercato da