Contactez-nous
Aucun résultat trouvé.

Réglage fin supervisé vs apprentissage par renforcement

Ekrem Sarı
Ekrem Sarı
mis à jour le Mar 5, 2026
Consultez notre normes éthiques

Les grands modèles de langage peuvent-ils internaliser des règles de décision qui ne sont jamais explicitement énoncées ? Pour examiner cette question, nous avons conçu une expérience dans laquelle un modèle à 14 milliards de paramètres a été entraîné sur une règle cachée de « priorité VIP » au sein d’une tâche de décision de crédit, sans aucune description de la règle elle-même au niveau de l’invite.

Découvrez les performances des méthodes de réglage fin supervisé et d'apprentissage par renforcement, leurs principales différences et nos recommandations pour choisir la méthode la plus adaptée.

Résultats de référence

Loading Chart

Grâce à un réglage fin supervisé, le modèle a atteint une précision de 88 %. En revanche, l'apprentissage par renforcement avec GRPO a plafonné à 43 %, soit à peine au-dessus du niveau de référence de 34 %.

Ces résultats mettent en évidence une limite majeure des signaux d'entraînement basés uniquement sur la récompense lors de l'apprentissage de comportements contre-intuitifs et régis par des règles. Ils offrent également des indications pratiques quant au choix le plus approprié entre l'ajustement fin supervisé et l'apprentissage par renforcement.

Que signifient ces chiffres ?

Nous avons créé une entreprise fictive, FinCorp , dotée de règles de décision de crédit propriétaires. Ces règles diffèrent de la logique bancaire standard. Nous avons ensuite testé si différentes méthodes de formation pouvaient enseigner ces règles à un LLM.

  • Le modèle de base (Qwen3-14B-Instruct sans ajustement) a obtenu un score de 33,8 % . Il s'agit essentiellement d'une réponse aléatoire dans quatre catégories, ce qui est logique. Le modèle maîtrise les principes généraux de la finance, mais ignore tout des politiques secrètes de FinCorp.
  • L'apprentissage par renforcement s'est légèrement amélioré, atteignant 43,3 % , principalement grâce à une meilleure maîtrise des règles intuitives, comme le rejet des entreprises présentant des taux de consommation de trésorerie dangereux. Il n'a en revanche absolument pas réussi à apprendre les règles contre-intuitives.
  • SFT a atteint 88,3 % , apprenant efficacement les règles intuitives et contre-intuitives.

Principales conclusions

  • SFT a surpassé RL de 45 points (88 % contre 43 %) en termes de précision globale.
  • La règle VIP implicite était presque impossible à apprendre pour RL (7,1 % contre 85,7 % pour SFT), une différence de douze fois.
  • L'apprentissage par renforcement (RL) a montré un effondrement du mode , le modèle convergeant vers la prédiction de seulement deux des quatre classes (REJECT_RISK et A_PLUS_TIER).
  • Le modèle de base comprenait déjà REJECT_RISK (91,7%), ce qui indique un raisonnement intuitif sur le risque financier.

tâches d'évaluation

Tâche 1 : Classification des décisions de crédit FinCorp

  • 800 applications synthétiques avec des classes équilibrées
  • Le résultat doit être l'une des quatre décisions suivantes
  • Évalué avec une précision de correspondance exacte

Tâche 2 : Apprentissage implicite des règles (sous-ensemble MANUAL_REVIEW)

  • 36 cas tests où le fondateur a un passé de VIP
  • Les indicateurs financiers sont randomisés
  • Le seul critère valable est l'origine du fondateur.

Pourquoi ne pas simplement utiliser une invite système ?

Deux raisons :

  1. Sécurité : La logique métier propriétaire ne doit pas apparaître dans les invites.
  2. Complexité : Les entreprises réelles peuvent avoir des dizaines de règles qui ne peuvent pas raisonnablement être intégrées dans une simple invite.

Le réglage fin intègre directement les règles dans les pondérations du modèle et évite de les exposer dans l'invite.

Analyse technique et recommandations issues de notre analyse comparative

Pourquoi l'apprentissage par renforcement a échoué : le problème d'attribution du crédit

  • L'apprentissage par renforcement (RL) fournit un signal d'apprentissage épars et différé. Le modèle reçoit une récompense négative sans aucune explication quant à la réponse correcte.
  • SFT assure une supervision explicite. Chaque jeton de sortie est dirigé vers la cible appropriée.

Pourquoi RL a-t-il montré un effondrement de mode ?

Les journaux d'entraînement indiquent que le modèle a convergé vers un ensemble restreint de prédictions qui ont généré des récompenses positives occasionnelles. L'exploration a diminué et le modèle n'a pas du tout tenté d'appliquer la logique VIP.

Quand utiliser chaque méthode

Ce test de référence se concentre sur un cas dans lequel SFT présente un avantage structurel.

L'approche hybride

En pratique, les modèles robustes suivent souvent cette séquence :

  1. SFT pour enseigner cette capacité.
  2. RL pour affiner les préférences et les comportements.

C’est l’approche utilisée dans des systèmes comme ChatGPT et Claude.

Qu’est-ce que le réglage fin supervisé (SFT) ?

Le fine-tuning supervisé est une technique de post-entraînement qui adapte un modèle pré-entraîné à des tâches spécifiques à l'aide d'ensembles de données étiquetés. Dans ce processus, le modèle d'IA est entraîné sur des paires entrée-sortie où les réponses correctes sont explicitement fournies. L'objectif est d'adapter les sorties du modèle aux exigences de la tâche, aux formats attendus et aux attentes des utilisateurs.

Le réglage fin supervisé (SFT) est couramment appliqué aux grands modèles de langage après le pré-entraînement, ce qui en fait une partie essentielle du modèle de base après l'entraînement.

Par exemple, vous fournissez des paires entrée-sortie, et le modèle apprend à les reproduire. Chaque jeton de la sortie cible reçoit un signal de gradient direct. Le modèle sait précisément ce qu'il aurait dû produire.

Entrée : « Profil du fondateur : Ex-Google, Taux de destruction : 93 %… »

Résultat : {« décision » : « MANUAL_REVIEW »}

Imaginez que vous appreniez à quelqu'un à cuisiner en lui donnant une recette avec des mesures précises. Suivez les étapes, et vous obtenez le plat.

Figure 1 : Le graphique montre le pipeline dans lequel un modèle de langage est d'abord pré-entraîné sur un grand corpus générique, puis affiné de manière supervisée sur des données étiquetées spécifiques à la tâche pour produire des modèles adaptés à la tâche pour des applications telles que la synthèse, la classification et la génération de texte . 1

Caractéristiques principales

  • S'appuie sur des exemples étiquetés avec une vérité de référence claire.
  • Met à jour les poids du modèle à l'aide d'une fonction de perte.
  • S'appuie sur un modèle de base ou des modèles de fondation.
  • L'objectif est d'améliorer les performances du modèle sur des tâches spécifiques.
  • L'accent est fortement mis sur l'efficacité et l'exactitude de la formation.

Variantes courantes de SFT

  • Réglage fin complet : met à jour tous les poids des modèles. Haute précision, coût élevé.
  • Réglage fin optimisé des paramètres : met à jour un sous-ensemble limité de paramètres. Améliore l’efficacité de l’entraînement tout en réduisant les besoins en calcul.
  • Optimisation des instructions : utilise des paires instruction-réponse pour optimiser les modèles de langage destinés à l’IA conversationnelle et aux assistants IA.

Qu'est-ce que l'apprentissage par renforcement (RL) ?

L'apprentissage par renforcement est un paradigme dans lequel un modèle d'IA apprend les comportements optimaux en interagissant avec un environnement et en recevant des retours d'information sous forme de récompenses ou de sanctions. Au lieu d'exemples étiquetés, le modèle s'améliore en maximisant une fonction de récompense au fil du temps.

Dans les systèmes d'intelligence artificielle, l'apprentissage par renforcement est largement utilisé pour les environnements dynamiques et les scénarios du monde réel où les réponses correctes ne sont pas explicitement définies.

Sortie du modèle : {« décision » : « REJETER_RISQUE »}

Récompense : -50 (Erreur)

Imaginez que vous apprenez à cuisiner par essais et erreurs. Vous savez que le plat a mauvais goût, mais vous devez deviner quel ingrédient est en cause.

Figure 2 : Le graphique montre les différences entre l'apprentissage en ligne et hors ligne, où les agents apprennent les politiques en collectant de manière itérative des données par interaction directe avec un environnement ou en apprenant à partir de données précédemment enregistrées lorsque l'interaction directe est impraticable. 2

Caractéristiques principales

  • Aucun ensemble de données étiquetées ni vérité terrain.
  • Les boucles de rétroaction et les signaux de récompense stimulent l'apprentissage.
  • Privilégie les résultats à long terme plutôt que la justesse immédiate.
  • Parfaitement adapté aux environnements dynamiques et aux tâches complexes.

Réglage fin supervisé vs apprentissage par renforcement : principales différences

L’apprentissage par renforcement et le fine-tuning supervisé sont deux techniques de post-entraînement permettant d’adapter un modèle pré-entraîné, mais elles résolvent des problèmes fondamentalement différents. Comprendre ces différences est essentiel pour choisir la méthode de fine-tuning la plus appropriée à un système d’IA, notamment pour les grands modèles de langage et l’IA conversationnelle.

En résumé, le réglage fin supervisé enseigne à un modèle « quelle est la bonne réponse », tandis que l'apprentissage par renforcement enseigne à un modèle « quels comportements conduisent à de meilleurs résultats au fil du temps ».

Mécanisme de signal d'apprentissage et de rétroaction

La principale distinction réside dans la manière dont le retour d'information est fourni pendant le processus de formation.

  • Dans l'apprentissage supervisé , le modèle apprend à partir d'exemples étiquetés. Chaque exemple d'entraînement contient une entrée et une réponse correcte, qui sert de référence. Le modèle d'IA compare ses réponses générées à cette référence à l'aide d'une fonction de perte et ajuste ses poids pour réduire l'erreur. Il s'agit d'un signal d'apprentissage direct et explicite.
  • L'apprentissage par renforcement ne repose ni sur des réponses correctes ni sur des ensembles de données étiquetés. Le modèle d'IA apprend plutôt grâce à une fonction de récompense. Après avoir produit un résultat ou effectué une action, il reçoit un retour d'information positif ou négatif selon la pertinence du résultat par rapport au comportement souhaité. Ce retour d'information est souvent différé et indirect, notamment pour les tâches complexes.

Principale différence :

  • SFT utilise des ensembles de données étiquetés et des réponses correctes.
  • L'apprentissage par renforcement utilise des signaux de récompense et des boucles de rétroaction.
  • SFT optimise pour une correction immédiate.
  • RL optimise les résultats à long terme.

Rôle de l'intervention humaine

L'implication humaine diffère considérablement entre les deux approches :

  • L'ajustement supervisé repose largement sur des données d'entraînement créées par des humains. Ces annotateurs définissent les caractéristiques d'un bon résultat en fournissant des exemples étiquetés. Les évaluations humaines servent principalement à évaluer les performances du modèle après l'entraînement.
  • L'apprentissage par renforcement intègre souvent les retours humains de manière plus dynamique. Dans de nombreux modèles entraînés par renforcement, des évaluateurs humains classent ou notent les résultats du modèle, et ces informations servent à entraîner un modèle de récompense. Ce modèle guide ensuite l'entraînement, permettant au système d'apprendre les préférences humaines, difficiles à encoder sous forme de règles strictes. Pour en savoir plus, consultez la documentation sur l'apprentissage par renforcement à partir des retours humains (RLHF) .

Cela rend l'apprentissage par renforcement particulièrement efficace pour aligner les assistants IA sur les attentes humaines dans des domaines tels que la qualité de la conversation, le ton et les modèles de raisonnement.

Étendue des tâches et environnements

  • L'apprentissage supervisé est particulièrement adapté aux tâches spécifiques dont les résultats sont clairement définis. On peut citer, par exemple, la classification , l'extraction de données structurées, la traduction et la rédaction créative avec des exigences de mise en forme strictes. Dans ces cas, l'identification de modèles à partir d'exemples étiquetés est à la fois efficace et fiable.
  • L'apprentissage par renforcement est mieux adapté aux tâches complexes et aux environnements dynamiques où les réponses correctes ne sont pas clairement définies ou lorsque le succès dépend de séquences de décisions. Les modèles d'apprentissage par renforcement sont couramment utilisés dans des scénarios réels où les résultats évoluent dans le temps et où le contexte est important.

Généralisation

  • Le réglage fin supervisé offre souvent une excellente précision à court terme, mais peut rencontrer des difficultés avec des données inédites. Lorsque les exemples d'entraînement sont restreints ou répétitifs, les modèles entraînés avec le réglage fin supervisé risquent de mémoriser les données d'entraînement plutôt que d'acquérir des connaissances généralisables, ce qui peut limiter leurs capacités de généralisation.
  • L'apprentissage par renforcement encourage une exploration plus large. Puisque le modèle d'IA apprend en interagissant avec les retours d'information plutôt qu'en reproduisant des réponses exactes, l'apprentissage par renforcement améliore la généralisation et l'adaptabilité. Cette capacité de généralisation supérieure est particulièrement importante pour les tâches à forte variabilité et lorsque les règles rigides s'avèrent inefficaces.

Cependant, l'entraînement RL est plus instable et sensible à la conception des récompenses, c'est pourquoi le SFT reste essentiel comme étape de stabilisation.

Efficacité et complexité de la formation

D'un point de vue opérationnel, le réglage fin supervisé est plus simple et plus prévisible. L'ensemble de données d'entraînement est fixe, les métriques d'évaluation sont claires et l'efficacité de l'entraînement est élevée lorsque de grands ensembles de données étiquetées sont disponibles.

L'apprentissage par renforcement est plus complexe et plus gourmand en ressources de calcul. La conception d'une fonction de récompense adaptée, la gestion de l'exploration et la garantie d'un apprentissage stable nécessitent un réglage précis. Des algorithmes comme l'optimisation de politique proximale sont souvent utilisés pour améliorer la stabilité, mais l'apprentissage par renforcement exige encore davantage d'expérimentation.

Position dans les pipelines de formation d'IA modernes

En pratique, l'apprentissage par renforcement et le réglage fin supervisé ne sont pas des techniques concurrentes mais complémentaires.

La plupart des pipelines de post-entraînement des modèles de base suivent une séquence claire :

  1. Commencez par un modèle de base ou des modèles de fondation
  2. Appliquer un SFT à réglage fin supervisé pour stabiliser les sorties du modèle
  3. Utilisez l'apprentissage par renforcement ultérieur pour aligner le comportement sur les préférences humaines.

SFT fournit une base solide en enseignant la correction et le format. RL affine ensuite le comportement, améliorant les performances du modèle dans les domaines où la correction seule est insuffisante.

Produits émergents

verl : Apprentissage par renforcement Volcano Engine pour les LLM

verl (Volcano Engine Reinforcement Learning for LLMs) est un framework open-source développé par l'équipe Seed pour le post-entraînement basé sur l'apprentissage par renforcement de grands modèles de langage (LLM), notamment :

  • Apprentissage par renforcement à partir de retours humains (RLHF)
  • Apprentissage par renforcement à partir du retour d'information de l'IA (RLAIF)
  • alignement des modèles de langage avec les préférences humaines
  • optimisation du raisonnement ou des performances des tâches grâce à l'apprentissage par renforcement
  • Recherche sur les algorithmes d'apprentissage par renforcement pour les LLM.

Ce cadre vise à faciliter la mise en œuvre efficace d'algorithmes d'apprentissage par renforcement tels que l'optimisation de politique proximale (PPO) et l'optimisation de politique relative de groupe (GRPO) pour l'entraînement des modèles de langage. Il fournit l'infrastructure nécessaire à la gestion des étapes clés de l'apprentissage par renforcement pour les modèles de langage, notamment la génération de réponses, le calcul des récompenses, l'estimation des avantages et la mise à jour des politiques.

Principes d'architecture et de fonctionnement

Pipeline d'apprentissage par renforcement pour les LLM

Dans l'entraînement des modèles linéaires à longue portée (LLM) par apprentissage par renforcement, un modèle génère des réponses à des incitations données et reçoit un retour d'information sous forme de signal de récompense. L'objectif de l'entraînement est d'ajuster les paramètres du modèle afin que les réponses assorties de récompenses plus élevées soient plus probables.

Le pipeline général pris en charge par verl comprend les étapes suivantes :

  1. Échantillonnage des invites : Les invites sont tirées d’un ensemble de données utilisé pour l’entraînement par renforcement.
  2. Génération des réponses : Le modèle de politique (le LLM en cours d'optimisation) génère des réponses aux invites.
  3. Évaluation des récompenses : Un modèle de récompense ou une fonction d’évaluation attribue un score de récompense à chaque réponse générée. Cette récompense peut provenir de :
    • un modèle de récompense appris
    • système de notation basé sur des règles
    • systèmes d'évaluation automatisés.
  4. Estimation des avantages : Les signaux d'apprentissage par renforcement, tels que les avantages ou les rendements, sont calculés en fonction de la récompense.
  5. Optimisation des politiques : Les paramètres du modèle de politique sont mis à jour à l'aide d'un algorithme RL (par exemple, PPO ou GRPO).
  6. Itération de la boucle d'entraînement : Le processus se répète jusqu'à convergence ou achèvement du programme d'entraînement.

verl coordonne ces composants et gère leur exécution sur des ressources de calcul distribuées. 3

OpenRLHF

OpenRLHF est un framework open-source visant à fournir un système évolutif, performant et accessible pour l'alignement et l'optimisation LLM basés sur l'apprentissage par renforcement.

architecture système

Architecture distribuée basée sur Ray

OpenRLHF introduit une architecture RLHF basée sur Ray qui gère l'entraînement distribué sur des clusters de GPU. Ray fait office de couche centrale de planification et d'orchestration, coordonnant l'allocation des ressources, l'exécution des tâches et la communication entre les différents composants.

L'architecture répartit les responsabilités du système en rôles distincts :

  • Moteurs de déploiement : Générer des réponses à partir d’invites en utilisant la politique actuelle.
  • Moteurs d'acteurs : Calcul des logarithmes-probabilités et optimisation des politiques.
  • Moteurs d'entraînement (moteurs Zero) : Exécuter les mises à jour du modèle à l'aide de DeepSpeed.

Flux de travail de formation par apprentissage par renforcement

OpenRLHF met en œuvre une boucle d'entraînement RLHF basée sur PPO et composée de quatre étapes principales :

  1. Génération du déploiement : Le modèle de politique génère des réponses aux invites d'entrée à l'aide d'un moteur de déploiement alimenté par vLLM.
  2. Calcul des récompenses : Un modèle de récompense évalue les réponses générées et attribue des récompenses scalaires.
  3. Estimation des avantages : Les avantages sont calculés à l'aide de l'estimation généralisée des avantages (GAE), intégrant des pénalités KL pour limiter la divergence par rapport à une politique de référence.
  4. Optimisation des politiques : Les paramètres du modèle sont mis à jour à l'aide de la fonction objectif tronquée de PPO.

Figure 3 : Diagramme illustrant le flux de travail PPO d'OpenRLHF. 4

Conception de systèmes distribués

OpenRLHF intègre plusieurs caractéristiques architecturales qui permettent un entraînement RLHF efficace à grande échelle.

1. Parallélisme 3D

Ce cadre utilise une stratégie de parallélisation tridimensionnelle qui combine :

  • Parallélisme tensoriel
  • Parallélisme des données
  • Parallélisme de séquence

Cette stratégie est mise en œuvre à l'aide de DeepSpeed ZeRO et du mécanisme d'attention en anneau . L'attention en anneau répartit le calcul de l'attention entre les GPU grâce à une topologie de communication en anneau, ce qui améliore l'évolutivité pour les tâches de raisonnement à contexte long.

2. Inférence accélérée avec vLLM

Étant donné que l'inférence représente la majeure partie du temps d'entraînement de RLHF, OpenRLHF intègre vLLM pour accélérer la génération des réponses. vLLM offre plusieurs optimisations :

  • PagedAttention, qui réduit le gaspillage de mémoire clé-valeur à moins de 4%
  • Traitement par lots dynamique
  • Exécution de graphes CUDA
  • Noyaux optimisés pour FlashAttention
  • Décodage spéculatif

Ces techniques améliorent l'utilisation du GPU et augmentent considérablement le débit d'inférence lors de l'entraînement RLHF.

3. Flux de données asynchrone

OpenRLHF prend en charge l'exécution asynchrone entre les composants du système, y compris les moteurs de déploiement et les moteurs d'entraînement.

Au lieu d'attendre la fin de tous les processus avant de poursuivre, chaque composant fonctionne indépendamment et communique par échange de messages. Cette conception asynchrone empêche les tâches lentes, comme la génération de chaînes de pensée complexes, de bloquer l'ensemble du processus d'entraînement.

Par conséquent, le débit du système et l'utilisation du matériel s'améliorent considérablement dans les environnements distribués.

Évaluation des performances

Les résultats expérimentaux démontrent qu'OpenRLHF offre des performances nettement supérieures aux frameworks RLHF existants. Principaux résultats :

  • Entraînement 1,22× à 1,68× plus rapide par rapport au framework verl sur différentes tailles de modèles et longueurs de séquences.
  • Entraînement environ 3,1 fois plus rapide que le framework TRL sur le benchmark GSM8K.
  • Entraînement environ 3,6 fois plus rapide que DeepSpeed-Chat dans des conditions de charge de travail RLHF comparables.

Ces améliorations sont principalement attribuées à :

  • Accélération de l'inférence basée sur vLLM
  • Orchestration distribuée basée sur Ray
  • Stratégies de parallélisation efficaces.

Méthodologie

Nous avons exécuté toutes les expériences sur un seul NVIDIA A100 (80 Go) en utilisant PyTorch 2.x, HuggingFace Transformers et TRL 0.27.0. Tous les entraînements ont utilisé des adaptateurs LoRA (r=16, α=32) appliqués aux projections de requête, de clé, de valeur et de sortie, avec une précision bfloat16.

Le modèle de base était Qwen3-14B-Instruct pour les trois conditions : ligne de base (sans réglage fin), RL (GRPO avec LoRA) et SFT (avec LoRA).

Pour l'ensemble de données, nous avons généré 800 demandes de prêt synthétiques avec une distribution de classe équilibrée (200 par classe), divisées en ensembles d'entraînement (640 échantillons) et de test (160 échantillons) 80/20.

  • Configuration RL : Nous avons utilisé GRPO avec un taux d’apprentissage de 1e-5, 8 générations par invite, 4 époques d’entraînement et une accumulation de gradient sur 8 étapes. La longueur maximale de complétion a été fixée à 150 jetons.
  • Configuration SFT : le taux d’apprentissage était de 2e-5, avec 4 époques d’entraînement, une taille de lot de 2 et une accumulation de gradient sur 4 étapes.
  • Protocole d'évaluation : La méthode de référence utilisait uniquement l'invite système, sans aucun exemple (apprentissage zéro-shot). Toutes les inférences utilisaient une température de 0,1 pour des résultats quasi déterministes. Les germes aléatoires étaient fixes pour assurer la reproductibilité, et nous avons mesuré la précision de la correspondance exacte sur l'ensemble de test mis de côté.

Comment fonctionne le système de décision en matière de crédit

Le mécanisme principal : Nous avons construit un système synthétique de décision de crédit avec quatre résultats possibles et une hiérarchie de priorité stricte :

HIÉRARCHIE DES DÉCISIONS (Ordre de priorité)

1. RÉVISION_MANUELLE (Le fondateur est un ancien employé de Google ou de Facebook, règle cachée)

2. REJETER_LE_RISQUE (Revenus > 10 millions de dollars et taux de consommation > 80 % des revenus)

3. NIVEAU A+ (Score NPS client ≥ 80)

4. STANDARD_PRÊT (Cas par défaut)

Le test crucial est que la règle 1 ne soit jamais mentionnée dans l'invite système . Le modèle doit la découvrir uniquement à partir des signaux d'entraînement.

Là où ça coince :

La règle de priorité VIP est volontairement contre-intuitive. Un fondateur présentant de mauvais indicateurs financiers mais une expérience chez Google devrait faire l'objet d'un examen manuel, même si une analyse financière seule entraînerait un rejet pour risque.

Limites

Cette étude exploratoire vise à orienter les recherches des praticiens évaluant les compromis entre l'apprentissage par renforcement statique (SFT) et l'apprentissage par renforcement dynamique (RL). Ces résultats doivent éclairer vos propres expériences et ne sauraient constituer des conclusions universelles.

Portée expérimentale :

  • Ensemble de données synthétiques ; les données de crédit réelles incluent du bruit, des valeurs manquantes et des cas particuliers.
  • Modèle unique (Qwen); les résultats peuvent différer pour d'autres architectures
  • Un petit ensemble de test (160 échantillons) fournit un signal directionnel mais une puissance statistique limitée.

RL n'a pas bénéficié de conditions égales :

  • Aucun système de structuration des récompenses, d'apprentissage du programme ou d'optimisation des hyperparamètres
  • Les systèmes RL de production utilisent des configurations nettement plus sophistiquées.

La conception des tâches favorisait SFT :

  • La logique déterministe et basée sur des règles est précisément le domaine où SFT excelle par sa conception.
  • Les résultats peuvent différer sensiblement pour les tâches subjectives (ton, style, force de persuasion) où l'apprentissage par renforcement surpasse généralement les performances de l'apprentissage par renforcement.

Travaux futurs

Pour les travaux futurs, nous prévoyons d'étendre ce référentiel selon plusieurs dimensions :

  • Tester l'apprentissage par renforcement sur des tâches subjectives pour lesquelles il n'existe pas de vérité de référence unique.
  • Explorez les pipelines hybrides SFT vers RL.
  • Évaluer l'impact du façonnage des récompenses sur l'apprentissage basé sur des règles.
  • Augmenter la complexité des données et des tâches , en multipliant par 10 la taille de l'ensemble d'entraînement.

Conclusion

Cette expérience démontre que le réglage fin supervisé surpasse nettement l'apprentissage par renforcement pour les comportements explicites et basés sur des règles , en particulier lorsque ces règles contredisent les schémas de raisonnement habituels. Le réglage fin supervisé a appris la règle de priorité VIP cachée avec une précision de 86 %, tandis que l'apprentissage par renforcement l'a presque totalement manquée (7 %).

Voici quelques recommandations pratiques tirées de cette analyse comparative :

  1. Utilisez SFT chaque fois que vous pouvez fournir des exemples étiquetés.
  2. Utilisez l'apprentissage par renforcement pour l'optimisation subjective plutôt que pour l'apprentissage des capacités.
  3. Combinez SFT et RL lorsque vous avez besoin à la fois d'un alignement précis et d'un alignement selon vos préférences.

La leçon générale est simple : chaque fois qu'une supervision directe est possible, utilisez-la.

Ekrem Sarı
Ekrem Sarı
Chercheur en IA
Ekrem est chercheur en IA chez AIMultiple, spécialisé dans l'automatisation intelligente, les GPU, les agents IA et les frameworks RAG.
Voir le profil complet
Recherche effectuée par
Sıla Ermut
Sıla Ermut
Analyste du secteur
Sıla Ermut est analyste chez AIMultiple, spécialisée dans le marketing par e-mail et les vidéos de vente. Auparavant, elle travaillait comme recruteuse dans des cabinets de conseil et de gestion de projets. Sıla est titulaire d'un master en psychologie sociale et d'une licence en relations internationales.
Voir le profil complet

Soyez le premier à commenter

Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.

0/450