IA Modelli di intelligenza artificiale LLM

Affinamento supervisionato vs. apprendimento per rinforzo

Ekrem Sarı

con

Sıla Ermut

aggiornato il Mar 5, 2026

Guarda il nostro norme etiche

È possibile che i modelli linguistici di grandi dimensioni interiorizzino regole decisionali che non vengono mai esplicitamente dichiarate? Per esaminare questo aspetto, abbiamo progettato un esperimento in cui un modello a 14 parametri è stato addestrato su una regola nascosta di "override VIP" all'interno di un compito di valutazione del credito, senza alcuna descrizione a livello di prompt della regola stessa.

Scopri le prestazioni dei metodi di fine-tuning supervisionato e di apprendimento per rinforzo, le loro principali differenze e i nostri consigli per scegliere il metodo più adatto.

Risultati del benchmark

Loading Chart

Utilizzando la messa a punto supervisionata, il modello ha raggiunto un'accuratezza dell'88%. Al contrario, l'apprendimento per rinforzo con GRPO si è stabilizzato al 43%, solo leggermente al di sopra del valore di riferimento del 34%.

Questi risultati mettono in luce un limite fondamentale dei segnali di addestramento basati esclusivamente sulla ricompensa quando si apprendono comportamenti controintuitivi e basati su regole. Offrono inoltre indicazioni pratiche su quando la messa a punto supervisionata o l'apprendimento per rinforzo rappresentano la scelta più appropriata.

Cosa significano questi numeri?

Abbiamo creato un'azienda fittizia chiamata FinCorp con proprie regole proprietarie per la valutazione del credito. Queste regole differiscono dalla logica bancaria standard. Abbiamo quindi verificato se diversi metodi di formazione potessero insegnare queste regole a un partecipante a un LLM.

Il modello di base (Qwen3-14B-Instruct senza ottimizzazione) ha ottenuto un punteggio del 33,8% . Si tratta essenzialmente di una scelta casuale tra quattro categorie. Il che è comprensibile. Il modello conosce la finanza in generale, ma non ha idea delle politiche segrete di FinCorp.
L'apprendimento per rinforzo (RL) è migliorato leggermente, raggiungendo il 43,3% , ma soprattutto grazie a una maggiore padronanza delle regole intuitive, come il rifiuto delle aziende con tassi di consumo di capitale pericolosi. Non è invece riuscito ad apprendere le regole controintuitive.
SFT ha raggiunto l'88,3% , apprendendo efficacemente sia le regole intuitive che quelle controintuitive.

Principali risultati

SFT ha superato RL di 45 punti percentuali (88% contro 43%) in termini di accuratezza complessiva.
La regola VIP implicita era quasi impossibile da apprendere per RL (7,1% rispetto all'85,7% per SFT), una differenza di dodici volte.
L'apprendimento per rinforzo (RL) ha mostrato un collasso modale , con il modello che convergeva a prevedere solo due delle quattro classi (REJECT_RISK e A_PLUS_TIER).
Il modello di base comprendeva già REJECT_RISK (91,7%), il che indica un ragionamento intuitivo sul rischio finanziario.

Compiti di valutazione

Attività 1: Classificazione delle decisioni di credito di FinCorp

800 applicazioni sintetiche con classi bilanciate
L'output deve essere una delle quattro decisioni
Valutato con precisione di corrispondenza esatta

Attività 2: Apprendimento implicito delle regole (sottoinsieme MANUAL_REVIEW)

36 casi di prova in cui il fondatore ha un background da VIP
Le metriche finanziarie sono randomizzate
L'unico criterio corretto è il background del fondatore.

Perché non usare semplicemente un prompt di sistema?

Due motivi:

Sicurezza: la logica aziendale proprietaria non deve comparire nei prompt.
Complessità: le aziende reali possono avere decine di regole che non possono essere ragionevolmente inserite in un prompt.

La messa a punto fine incorpora le regole direttamente nei pesi del modello ed evita di esporle nel prompt.

Analisi tecnica e raccomandazioni derivanti dal nostro benchmark

Perché RL ha fallito: il problema dell'attribuzione del credito

L'apprendimento per rinforzo (RL) fornisce un segnale di apprendimento sparso e ritardato. Il modello riceve una ricompensa negativa, ma nessuna spiegazione su quale sarebbe stata la risposta corretta.
SFT fornisce una supervisione esplicita. Ogni token di output viene indirizzato verso il target corretto.

Perché RL ha mostrato un collasso di modalità

I log di addestramento indicano che il modello è convergito verso un insieme ristretto di previsioni che hanno prodotto occasionali ricompense positive. L'esplorazione è diminuita e il modello non ha nemmeno tentato di applicare la logica VIP.

Quando utilizzare ciascun metodo

Questo benchmark si concentra su un caso in cui SFT presenta un vantaggio strutturale.

L'approccio ibrido

In pratica, i modelli forti spesso seguono questa sequenza:

SFT per insegnare la capacità.
Apprendimento per rinforzo per affinare preferenze e comportamenti.

Questo è l'approccio utilizzato in sistemi come ChatGPT e Claude.

Che cos'è la messa a punto supervisionata (SFT)?

Il fine-tuning supervisionato è una tecnica di post-addestramento che adatta un modello pre-addestrato a compiti specifici utilizzando set di dati etichettati. In questo processo, il modello di intelligenza artificiale viene addestrato su coppie input-output in cui le risposte corrette sono fornite esplicitamente. L'obiettivo è quello di modellare gli output del modello in modo che siano in linea con i requisiti del compito, i formati previsti e le aspettative umane.

La messa a punto supervisionata (SFT) viene comunemente applicata a modelli linguistici di grandi dimensioni dopo il pre-addestramento, diventando così una parte fondamentale del modello di base dopo l'addestramento.

Ad esempio, si forniscono coppie input-output e il modello impara a replicarle. Ogni elemento nell'output di destinazione riceve un segnale di gradiente diretto. Il modello sa con precisione cosa avrebbe dovuto produrre.

Input: “Background del fondatore: Ex-Google, Tasso di consumo: 93%…”

Output: {"decision": "MANUAL_REVIEW"}

Pensala come quando insegni a qualcuno a cucinare dandogli una ricetta con le dosi precise. Segui i passaggi e otterrai il piatto.

Figura 1: Il grafico mostra la pipeline in cui un modello linguistico viene prima pre-addestrato su un ampio corpus generico, quindi ottimizzato in modo supervisionato su dati etichettati specifici per il compito, al fine di produrre modelli adattati al compito per applicazioni quali riassunto, classificazione e generazione di testo . ¹

Caratteristiche principali

Si basa su esempi etichettati con una chiara verità di base.
Aggiorna i pesi del modello utilizzando una funzione di perdita.
Si basa su un modello di base o su modelli di fondazione.
Si concentra sul miglioramento delle prestazioni del modello in compiti specifici.
Grande enfasi sull'efficacia e la correttezza della formazione.

Varianti comuni di SFT

Messa a punto completa : aggiorna tutti i pesi del modello. Elevata precisione, costo elevato.
Ottimizzazione efficiente dei parametri: aggiorna un sottoinsieme limitato di parametri. Migliora l'efficienza dell'addestramento riducendo al contempo il fabbisogno di calcolo.
Affinamento delle istruzioni: utilizza coppie istruzione-risposta per affinare i modelli linguistici per l'intelligenza artificiale conversazionale e gli assistenti virtuali.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Segui

Che cos'è l'apprendimento per rinforzo (RL)?

L'apprendimento per rinforzo è un paradigma in cui un modello di intelligenza artificiale apprende comportamenti ottimali interagendo con un ambiente e ricevendo feedback sotto forma di ricompense o penalità. Invece di esempi etichettati, il modello migliora massimizzando una funzione di ricompensa nel tempo.

Nei sistemi di intelligenza artificiale, l'apprendimento per rinforzo è ampiamente utilizzato in ambienti dinamici e scenari del mondo reale in cui le risposte corrette non sono definite esplicitamente.

Output del modello: {"decisione": "RISCHIO_DI_RIPOSTO"}

Ricompensa: -50 (Errore)

Pensala come imparare a cucinare per tentativi ed errori. Sai che il piatto ha un cattivo sapore, ma devi indovinare quale ingrediente ha causato il problema.

Figura 2: Il grafico mostra le differenze tra apprendimento online e offline, dove gli agenti apprendono le politiche raccogliendo iterativamente dati attraverso l'interazione diretta con un ambiente o apprendendo da dati registrati in precedenza quando l'interazione diretta non è praticabile. ²

Caratteristiche principali

Nessun set di dati etichettato o verità di base.
I circuiti di feedback e i segnali di ricompensa guidano l'apprendimento.
Si concentra sui risultati a lungo termine piuttosto che sulla correttezza immediata.
Ideale per ambienti dinamici e compiti complessi.

Affinamento supervisionato vs apprendimento per rinforzo: differenze chiave

L'apprendimento per rinforzo e il fine-tuning supervisionato sono entrambe tecniche di post-addestramento per adattare un modello pre-addestrato, ma risolvono problemi fondamentalmente diversi. Comprendere queste differenze è fondamentale quando si sceglie il metodo di fine-tuning più adatto per un sistema di intelligenza artificiale, soprattutto per modelli linguistici di grandi dimensioni e per l'IA conversazionale.

A un livello generale, la messa a punto supervisionata insegna a un modello "qual è la risposta corretta", mentre l'apprendimento per rinforzo insegna a un modello "quali comportamenti portano a risultati migliori nel tempo".

Meccanismo di apprendimento del segnale e del feedback

La differenza più importante risiede nelle modalità di fornitura del feedback durante il processo di formazione.

Nella messa a punto supervisionata , il modello apprende da esempi etichettati. Ogni esempio di addestramento contiene un input e una risposta corretta, che funge da verità di base. Il modello di intelligenza artificiale confronta le risposte generate con la verità di base utilizzando una funzione di perdita e aggiorna i pesi per ridurre l'errore. Questo è un segnale di apprendimento diretto ed esplicito.
L'apprendimento per rinforzo non si basa su risposte corrette o set di dati etichettati. Il modello di intelligenza artificiale apprende invece attraverso una funzione di ricompensa. Dopo aver prodotto un output o compiuto un'azione, il modello riceve un feedback positivo o negativo in base a quanto il risultato si allinei al comportamento desiderato. Questo feedback è spesso ritardato e indiretto, soprattutto in compiti complessi.

Contrasto principale:

SFT utilizza set di dati etichettati e risposte corrette.
L'apprendimento per rinforzo utilizza segnali di ricompensa e circuiti di feedback.
SFT ottimizza per la correttezza immediata.
L'apprendimento per rinforzo (RL) ottimizza i risultati a lungo termine.

Ruolo dell'input umano

Il coinvolgimento umano differisce in modo significativo tra i due approcci:

La messa a punto supervisionata dipende fortemente dai dati di addestramento creati dall'uomo. Gli annotatori umani definiscono l'aspetto di un buon output fornendo esempi etichettati. Le valutazioni umane vengono utilizzate principalmente per valutare le prestazioni del modello dopo l'addestramento.
L'apprendimento per rinforzo spesso integra il feedback umano in modo più dinamico. In molti modelli addestrati con l'apprendimento per rinforzo, i valutatori umani classificano o assegnano un punteggio agli output del modello e queste informazioni vengono utilizzate per addestrare un modello di ricompensa. Il modello di ricompensa guida quindi l'addestramento dell'apprendimento per rinforzo, consentendo al sistema di apprendere le preferenze umane che sono difficili da codificare come regole rigide. Per saperne di più, leggi "Reinforcement Learning from Human Feedback (RLHF)" .

Ciò rende l'apprendimento per rinforzo particolarmente efficace per allineare gli assistenti virtuali basati sull'IA alle aspettative umane in ambiti quali la qualità della conversazione, il tono e i modelli di ragionamento.

Ambito dei compiti e degli ambienti

L'ottimizzazione supervisionata è più adatta a compiti specifici con risultati chiaramente definiti. Esempi includono la classificazione , l'estrazione di dati strutturati, la traduzione e la scrittura creativa con rigorosi requisiti di formattazione. In questi casi, l'identificazione di modelli a partire da esempi etichettati risulta efficiente e affidabile.
L'apprendimento per rinforzo è più adatto a compiti complessi e ambienti dinamici in cui le risposte corrette non sono chiaramente definite o in cui il successo dipende da sequenze di decisioni. I modelli di apprendimento per rinforzo sono comunemente utilizzati in scenari del mondo reale in cui i risultati si evolvono nel tempo e il contesto è importante.

Generalizzazione

L'ottimizzazione supervisionata spesso produce un'elevata precisione a breve termine, ma può avere difficoltà con dati non visti in precedenza. Quando gli esempi di addestramento sono ristretti o ripetitivi, i modelli addestrati con SFT potrebbero memorizzare i dati di addestramento anziché acquisire conoscenze generalizzabili. Ciò può limitare le capacità di generalizzazione del modello.
L'apprendimento per rinforzo incoraggia un'esplorazione più ampia. Poiché il modello di IA apprende interagendo con il feedback anziché basandosi su risposte esatte, l'apprendimento per rinforzo migliora la generalizzazione e l'adattabilità. La superiore capacità di generalizzazione dell'apprendimento per rinforzo diventa particolarmente importante in compiti con elevata variabilità e quando le regole rigide falliscono.

Tuttavia, l'addestramento RL è più instabile e sensibile alla progettazione delle ricompense, motivo per cui SFT rimane essenziale come fase di stabilizzazione.

Efficienza e complessità della formazione

Dal punto di vista operativo, il fine-tuning supervisionato è più semplice e prevedibile. Il set di dati di addestramento è fisso, le metriche di valutazione sono chiare e l'efficienza dell'addestramento è elevata quando sono disponibili grandi set di dati etichettati.

L'apprendimento per rinforzo è più complesso e computazionalmente oneroso. Progettare una funzione di ricompensa efficace, gestire l'esplorazione e garantire un apprendimento stabile richiedono un'attenta messa a punto. Algoritmi come l'ottimizzazione della politica prossimale vengono spesso utilizzati per migliorare la stabilità, ma l'apprendimento per rinforzo richiede comunque ulteriori sperimentazioni.

Posizione nei moderni processi di addestramento dell'IA

In pratica, l'apprendimento per rinforzo e la messa a punto supervisionata non sono tecniche concorrenti, bensì complementari.

La maggior parte dei percorsi di post-addestramento dei modelli di base segue una sequenza ben definita:

Inizia con un modello base o modelli di base
Applicare la messa a punto supervisionata SFT per stabilizzare gli output del modello
Utilizzare l'apprendimento per rinforzo successivo per allineare il comportamento alle preferenze umane

SFT fornisce una solida base insegnando la correttezza e il formato. RL affina poi il comportamento, migliorando le prestazioni del modello nelle aree in cui la sola correttezza non è sufficiente.

Prodotti emergenti

verl: Apprendimento per rinforzo basato sul motore vulcanico per LLM

verl (Volcano Engine Reinforcement Learning for LLMs) è un framework open-source sviluppato dal team ByteDance Seed per il post-addestramento basato sull'apprendimento per rinforzo di modelli linguistici di grandi dimensioni (LLM), tra cui:

Apprendimento per rinforzo basato sul feedback umano (RLHF)
Apprendimento per rinforzo dal feedback dell'IA (RLAIF)
allineamento dei modelli linguistici con le preferenze umane
ottimizzazione del ragionamento o delle prestazioni del compito tramite RL
Ricerca sugli algoritmi di apprendimento per rinforzo per i modelli lineari latenti (LLM).

Il framework si concentra sulla possibilità di implementare in modo efficiente algoritmi di apprendimento per rinforzo come Proximal Policy Optimization (PPO) e Group Relative Policy Optimization (GRPO) per l'addestramento di modelli linguistici. Fornisce un'infrastruttura per gestire le fasi chiave dell'apprendimento per rinforzo per i modelli linguistici, tra cui la generazione delle risposte, il calcolo delle ricompense, la stima dei vantaggi e gli aggiornamenti delle politiche.

Architettura e principi operativi

Percorso di apprendimento per rinforzo per i LLM

Nell'addestramento di modelli lineari lineari basati sull'apprendimento per rinforzo, un modello genera output in risposta a determinati stimoli e riceve feedback tramite un segnale di ricompensa. L'obiettivo dell'addestramento è quello di regolare i parametri del modello in modo che le risposte con ricompense più elevate diventino più probabili.

La pipeline generale supportata da verl comprende le seguenti fasi:

Campionamento dei prompt : i prompt vengono estratti da un set di dati utilizzato per l'addestramento all'apprendimento per rinforzo.
Generazione delle risposte : il modello di policy (l'LLM in fase di ottimizzazione) genera le risposte ai prompt.
Valutazione delle ricompense : un modello di ricompensa o una funzione di valutazione assegna un punteggio di ricompensa a ciascuna risposta generata. Questa ricompensa può derivare da:
- un modello di ricompensa appreso
- punteggio basato su regole
- sistemi di valutazione automatizzati.
Stima del vantaggio : i segnali di apprendimento per rinforzo, come vantaggi o rendimenti, vengono calcolati in base alla ricompensa.
Ottimizzazione delle politiche : i parametri del modello di politica vengono aggiornati utilizzando un algoritmo di apprendimento per rinforzo (ad esempio, PPO o GRPO).
Iterazione del ciclo di addestramento : il processo si ripete fino alla convergenza o al completamento del programma di addestramento.

verl coordina questi componenti e ne gestisce l'esecuzione su risorse di calcolo distribuite. ³

OpenRLHF

OpenRLHF è un framework open-source che mira a fornire un sistema scalabile, ad alte prestazioni e accessibile per l'allineamento e l'ottimizzazione di modelli lineari basati sull'apprendimento per rinforzo (RL).

Architettura di sistema

Architettura distribuita basata sui raggi

OpenRLHF introduce un'architettura RLHF basata su Ray che gestisce l'addestramento distribuito su cluster di GPU. Ray funge da livello centrale di pianificazione e orchestrazione, coordinando l'allocazione delle risorse, l'esecuzione dei task e la comunicazione tra i diversi componenti.

L'architettura suddivide le responsabilità del sistema in ruoli distinti:

Motori di implementazione : generano risposte ai prompt utilizzando i criteri correnti.
Motori attori : calcolano le probabilità logaritmiche ed eseguono l'ottimizzazione delle politiche.
Motori di addestramento (motori Zero) : Eseguono gli aggiornamenti del modello utilizzando DeepSpeed.

Flusso di lavoro per l'addestramento all'apprendimento per rinforzo

OpenRLHF implementa un ciclo di addestramento RLHF basato su PPO, costituito da quattro fasi principali:

Generazione del rollout : il modello di policy genera risposte ai prompt di input utilizzando un motore di rollout basato su vLLM.
Calcolo delle ricompense : un modello di ricompensa valuta le risposte generate e assegna ricompense scalari.
Stima del vantaggio : i vantaggi vengono calcolati utilizzando la stima generalizzata del vantaggio (GAE), che incorpora le penalità KL per limitare la divergenza da una politica di riferimento.
Ottimizzazione delle politiche : i parametri del modello vengono aggiornati utilizzando la funzione obiettivo troncata di PPO.

Figura 3: Diagramma che illustra il flusso di lavoro PPO di OpenRLHF. ⁴

Progettazione di sistemi distribuiti

OpenRLHF incorpora diverse caratteristiche architetturali che consentono un addestramento RLHF su larga scala efficiente.

1. Parallelismo 3D

Il framework impiega una strategia di parallelizzazione tridimensionale che combina:

Parallelismo tensoriale
Parallelismo dei dati
Parallelismo di sequenza

Questa strategia viene implementata utilizzando DeepSpeed ZeRO e meccanismi di attenzione ad anello . L'attenzione ad anello distribuisce il calcolo dell'attenzione tra le GPU utilizzando una topologia di comunicazione ad anello, che migliora la scalabilità per le attività di ragionamento a lungo contesto.

2. Inferenza accelerata con vLLM

Poiché la fase di inferenza domina il tempo di addestramento di RLHF, OpenRLHF integra vLLM per accelerare la generazione delle risposte. vLLM offre diverse ottimizzazioni:

PagedAttention, che riduce lo spreco di memoria chiave-valore a meno del 4%
Raggruppamento dinamico
esecuzione del grafico CUDA
Kernel ottimizzati per FlashAttention
Decodifica speculativa

Queste tecniche migliorano l'utilizzo della GPU e aumentano significativamente la velocità di elaborazione dell'inferenza durante l'addestramento di RLHF.

3. Flusso di dati asincrono

OpenRLHF supporta l'esecuzione asincrona tra i componenti del sistema, inclusi i motori di implementazione e i motori di addestramento.

Anziché attendere il completamento di tutti i processi prima di procedere, ogni componente opera in modo indipendente e comunica tramite scambio di messaggi. Questa progettazione asincrona impedisce che attività lente, come le lunghe generazioni di Chain-of-Thought, blocchino l'intera pipeline di addestramento.

Di conseguenza, la produttività del sistema e l'utilizzo dell'hardware migliorano significativamente negli ambienti distribuiti.

Valutazione delle prestazioni

I risultati sperimentali dimostrano che OpenRLHF raggiunge miglioramenti prestazionali significativi rispetto ai framework RLHF esistenti. I risultati principali includono:

Addestramento da 1,22 a 1,68 volte più veloce rispetto al framework verl, considerando diverse dimensioni del modello e lunghezze di sequenza.
Addestramento circa 3,1 volte più veloce rispetto al framework TRL sul benchmark GSM8K.
Addestramento circa 3,6 volte più veloce di DeepSpeed-Chat con carichi di lavoro RLHF comparabili.

Questi miglioramenti sono attribuiti principalmente a:

Accelerazione dell'inferenza basata su vLLM
Orchestrazione distribuita basata sui raggi
strategie di parallelizzazione efficienti.

Metodologia

Abbiamo eseguito tutti gli esperimenti su un singolo NVIDIA A100 (80GB) utilizzando PyTorch 2.x, HuggingFace Transformers e TRL 0.27.0. Tutto l'addestramento ha utilizzato adattatori LoRA (r=16, α=32) applicati alle proiezioni di query, chiave, valore e output, con precisione bfloat16.

Il modello di base era Qwen3-14B-Instruct per tutte e tre le condizioni: baseline (nessuna messa a punto), RL (GRPO con LoRA) e SFT (con LoRA).

Per il dataset, abbiamo generato 800 richieste di prestito sintetiche con una distribuzione bilanciata delle classi (200 per classe), suddivise in un set di addestramento (640 campioni) e un set di test (160 campioni) in proporzione 80/20.

Configurazione RL: Abbiamo utilizzato GRPO con un tasso di apprendimento di 1e-5, 8 generazioni per prompt, 4 epoche di addestramento e accumulo del gradiente su 8 passi. La lunghezza massima di completamento è stata impostata a 150 token.
Configurazione SFT: il tasso di apprendimento era 2e-5, con 4 epoche di addestramento, dimensione del batch pari a 2 e accumulo del gradiente su 4 passaggi.
Protocollo di valutazione: la linea di base utilizzava solo il prompt di sistema senza esempi (zero-shot). Tutte le inferenze utilizzavano una temperatura di 0,1 per output quasi deterministici. I seed casuali erano fissi per la riproducibilità e abbiamo misurato l'accuratezza della corrispondenza esatta sul set di test separato.

Come funziona il sistema di valutazione del credito

Il meccanismo centrale: abbiamo creato un sistema sintetico di valutazione del credito con quattro possibili esiti e una rigida gerarchia di priorità:

GERARCHIA DECISIONALE (Ordine di priorità)

1. REVISIONE_MANUALE (Il fondatore è Ex-Google o Ex-Facebook, regola nascosta)

2. RISCHIO DI RIBASSO (Ricavi > 10 milioni di dollari e tasso di consumo > 80% dei ricavi)

3. A_PLUS_TIER (Punteggio NPS del cliente ≥ 80)

4. PRESTITO STANDARD (Caso predefinito)

Il test critico consiste nel fatto che la Regola 1 non venga mai menzionata nel prompt del sistema . Il modello deve scoprirla esclusivamente dai segnali di addestramento.

Dove si verifica il problema:

La regola di override VIP è volutamente controintuitiva. Un fondatore con scarsi risultati finanziari ma con un background presso Google dovrebbe ricevere una REVISIONE MANUALE, anche se il solo ragionamento finanziario porterebbe a un RISCHIO DI RIFIUTO.

Limitazioni

Questo studio esplorativo ha lo scopo di fornire spunti di riflessione ai professionisti che valutano i compromessi tra SFT e RL. I risultati ottenuti dovrebbero essere utilizzati come base per i vostri esperimenti, non come conclusioni universali.

Ambito sperimentale:

Set di dati sintetico; i dati reali sul credito includono rumore, valori mancanti e casi limite.
Famiglia di modelli singola (Qwen); i risultati possono variare per altre architetture.
Un set di test ridotto (160 campioni) fornisce un segnale direzionale ma una potenza statistica limitata.

RL non ha ricevuto condizioni uguali:

Nessun modellamento delle ricompense, apprendimento curriculare o ottimizzazione degli iperparametri
I sistemi di apprendimento per rinforzo (RL) di produzione utilizzano configurazioni significativamente più sofisticate.

Progettazione del compito che privilegia SFT:

La logica deterministica e basata su regole è proprio il campo in cui SFT eccelle per sua stessa natura.
I risultati possono differire sostanzialmente per i compiti soggettivi (tono, stile, persuasività) dove RL in genere ottiene risultati migliori

Lavori futuri

Per i lavori futuri, puntiamo ad estendere questo benchmark lungo diverse dimensioni:

Testare l'apprendimento per rinforzo su compiti soggettivi in cui non esiste un'unica verità di riferimento.
Esplora le pipeline ibride da SFT a RL.
Valutare l'impatto della modulazione delle ricompense sull'apprendimento basato su regole.
Scalare i dati e la complessità del compito , aumentando di 10 volte la dimensione del set di addestramento.

Conclusione

Questo esperimento dimostra che il Supervised Fine-Tuning (SFT) supera significativamente l'apprendimento per rinforzo (RL) per i comportamenti espliciti e basati su regole , soprattutto quando tali regole contraddicono i tipici schemi di ragionamento. L'SFT ha appreso la regola di override VIP nascosta con una precisione dell'86%, mentre l'RL l'ha mancata quasi completamente, con una precisione del 7%.

Sulla base di quanto emerso da questo studio comparativo, ecco alcuni consigli pratici:

Utilizza SFT ogni volta che puoi fornire esempi etichettati.
Utilizzare l'apprendimento per rinforzo per l'ottimizzazione soggettiva piuttosto che per l'apprendimento delle capacità.
Combina SFT e RL quando hai bisogno sia di precisione che di allineamento preferenziale.

La lezione più generale è semplice: ogni volta che è possibile la supervisione diretta, utilizzatela.

Collegamenti di riferimento

Supervised Fine Tuning for Gemini LLM | Google Cloud Blog

Google Cloud

What is reinforcement learning? | IBM

verl · PyPI

https://arxiv.org/pdf/2405.11143

Ekrem Sarı

Ricercatore di intelligenza artificiale

Segui

Ekrem è un ricercatore di intelligenza artificiale presso AIMultiple, specializzato in automazione intelligente, GPU, agenti di intelligenza artificiale e framework RAG.

Visualizza il profilo completo

Ricercato da

Sıla Ermut

Analista di settore

Segui

Sıla Ermut è un'analista di settore presso AIMultiple, specializzata in email marketing e video di vendita. In precedenza, ha lavorato come reclutatrice in società di project management e consulenza. Sıla ha conseguito un Master in Psicologia Sociale e una laurea in Relazioni Internazionali.

Visualizza il profilo completo