Können große Sprachmodelle Entscheidungsregeln verinnerlichen, die nie explizit formuliert werden? Um dies zu untersuchen, haben wir ein Experiment entworfen, in dem ein Modell mit 14 Milliarden Parametern anhand einer versteckten „VIP-Override“-Regel innerhalb einer Kreditentscheidungsaufgabe trainiert wurde, ohne dass die Regel selbst auf Prompt-Ebene beschrieben wurde.
Erfahren Sie mehr über die Leistung von überwachten Feinabstimmungs- und Reinforcement-Learning-Methoden, ihre wichtigsten Unterschiede und unsere Empfehlungen zur Auswahl der am besten geeigneten Methode.
Vergleichsergebnisse
Mithilfe von überwachtem Feintuning erreichte das Modell eine Genauigkeit von 88 %. Im Gegensatz dazu stagnierte das Reinforcement Learning mit GRPO bei 43 %, was nur geringfügig über dem Basiswert von 34 % lag.
Diese Ergebnisse verdeutlichen eine zentrale Einschränkung von Trainingssignalen, die ausschließlich auf Belohnung basieren, beim Erlernen kontraintuitiver, regelbasierter Verhaltensweisen. Sie bieten zudem praktische Hinweise darauf, wann überwachtes Feintuning oder bestärkendes Lernen die geeignetere Wahl darstellt.
Was bedeuten diese Zahlen?
Wir haben ein fiktives Unternehmen namens FinCorp mit eigenen, firmeneigenen Kreditentscheidungsregeln entwickelt. Diese Regeln unterscheiden sich von der üblichen Banklogik. Anschließend haben wir getestet, ob verschiedene Trainingsmethoden diese Regeln einem LLM vermitteln können.
- Das Basismodell (Qwen3-14B-Instruct ohne Feinabstimmung) erzielte einen Wert von 33,8 % . Dies entspricht im Wesentlichen zufälligen Schätzungen in vier Kategorien. Das ist nachvollziehbar. Das Modell kennt sich zwar mit allgemeinen Finanzthemen aus, hat aber keine Kenntnis von den geheimen Richtlinien von FinCorp.
- RL verbesserte sich leicht auf 43,3 % , hauptsächlich jedoch durch eine bessere Anwendung intuitiver Regeln, wie beispielsweise die Ablehnung von Unternehmen mit gefährlich hohen Burn-Raten. Die kontraintuitiven Regeln wurden hingegen überhaupt nicht erlernt.
- SFT erreichte 88,3 % und lernte sowohl die intuitiven als auch die kontraintuitiven Regeln effektiv.
Wichtigste Erkenntnisse
- SFT übertraf RL um 45 Prozentpunkte (88 % gegenüber 43 %) in Bezug auf die Gesamtgenauigkeit.
- Die implizite VIP-Regel war für RL nahezu unmöglich zu erlernen (7,1 % im Vergleich zu 85,7 % bei SFT), ein zwölffacher Unterschied.
- RL zeigte einen Modellkollaps , wobei das Modell nur noch zwei der vier Klassen vorhersagte (REJECT_RISK und A_PLUS_TIER).
- Das Basismodell verstand bereits REJECT_RISK (91,7%), was auf ein intuitives Denken über finanzielle Risiken hindeutet.
Bewertungsaufgaben
Aufgabe 1: Klassifizierung der Kreditentscheidung von FinCorp
- 800 synthetische Anwendungen mit ausgewogenen Klassen
- Das Ergebnis muss eine von vier Entscheidungen sein.
- Bewertet mit exakter Übereinstimmungsgenauigkeit
Aufgabe 2: Implizites Regellernen (Teilmenge MANUAL_REVIEW)
- 36 Testfälle, in denen der Gründer einen VIP-Hintergrund hat
- Finanzkennzahlen werden zufällig ausgewählt
- Das einzig richtige Kriterium ist der Hintergrund des Gründers.
Warum nicht einfach eine Systemabfrage verwenden?
Zwei Gründe:
- Sicherheitshinweis: Proprietäre Geschäftslogik darf nicht in den Eingabeaufforderungen erscheinen.
- Komplexität: Reale Unternehmen haben oft Dutzende von Regeln, die sich nicht in einer vorgegebenen Aufgabenstellung unterbringen lassen.
Durch die Feinabstimmung werden die Regeln direkt in die Modellgewichte eingebettet und vermeiden so, dass sie in der Eingabeaufforderung offengelegt werden.
Technische Analyse und Empfehlungen aus unserem Benchmark
Warum RL scheiterte: Das Problem der Gutschriftzuweisung
- RL liefert ein spärliches und verzögertes Lernsignal. Das Modell erhält eine negative Belohnung, aber keine Erklärung dafür, was korrekt gewesen wäre.
- SFT bietet explizite Überwachung. Jedes Ausgabetoken wird zum richtigen Ziel geleitet.
Warum zeigte RL einen Moduskollaps?
Die Trainingsprotokolle zeigen, dass sich das Modell auf eine enge Menge von Vorhersagen beschränkte, die nur gelegentlich positive Ergebnisse lieferten. Die Exploration nahm ab, und das Modell versuchte gar nicht erst, die VIP-Logik anzuwenden.
Wann welche Methode anwenden?
Dieser Benchmark konzentriert sich auf einen Fall, in dem SFT einen strukturellen Vorteil hat.
Der Hybridansatz
In der Praxis folgen starke Modelle oft dieser Abfolge:
- SFT soll die Fähigkeit vermitteln.
- RL zur Verfeinerung von Präferenzen und Verhalten.
Dies ist der Ansatz, der in Systemen wie ChatGPT und Claude verwendet wird.
Was ist überwachtes Feintuning (SFT)?
Überwachtes Feintuning ist eine Nachbearbeitungstechnik, die ein vortrainiertes Modell mithilfe von gelabelten Datensätzen an spezifische Aufgaben anpasst. Dabei wird das KI-Modell mit Eingabe-Ausgabe-Paaren trainiert , bei denen die korrekten Antworten explizit vorgegeben sind. Ziel ist es, die Modellausgaben so zu gestalten, dass sie den Aufgabenanforderungen, den erwarteten Formaten und den Erwartungen der Nutzer entsprechen.
Das überwachte Feinabstimmen (Supervised Fine-Tuning, SFT) wird üblicherweise nach dem Vortraining auf große Sprachmodelle angewendet und ist somit ein Kernbestandteil des Basismodells nach dem Training.
Man gibt beispielsweise Eingabe-Ausgabe-Paare vor, und das Modell lernt, diese nachzubilden. Jedes Token in der Zielausgabe erhält ein direktes Gradientensignal. Das Modell weiß genau, was es hätte erzeugen sollen.
Eingabe: „Gründerhintergrund: Ex-Google, Burn Rate: 93%…“
Ausgabe: {“decision”: “MANUAL_REVIEW”}
Es ist, als würde man jemandem das Kochen beibringen, indem man ihm ein Rezept mit genauen Mengenangaben gibt. Folgt man den Schritten, erhält man das Gericht.
Abbildung 1: Das Diagramm zeigt die Pipeline, in der ein Sprachmodell zunächst auf einem großen generischen Korpus vortrainiert und anschließend auf gekennzeichneten aufgabenspezifischen Daten überwacht feinabgestimmt wird, um aufgabenangepasste Modelle für Anwendungen wie Zusammenfassung, Klassifizierung und Textgenerierung zu erzeugen. 1
Kernmerkmale
- Setzt auf gekennzeichnete Beispiele mit klar definierten Grundwahrheiten.
- Aktualisiert die Modellgewichte mithilfe einer Verlustfunktion.
- Baut auf einem Basismodell oder Fundamentmodellen auf.
- Konzentriert sich auf die Verbesserung der Modellleistung bei spezifischen Aufgaben.
- Starker Fokus auf Effizienz und Korrektheit im Training.
Häufige SFT-Varianten
- Vollständige Feinabstimmung : Aktualisiert alle Modellgewichte. Hohe Genauigkeit, hoher Preis.
- Parametereffizientes Feintuning: Aktualisiert nur eine begrenzte Teilmenge der Parameter. Verbessert die Trainingseffizienz bei gleichzeitig reduziertem Rechenaufwand.
- Feinabstimmung der Anweisungen: Nutzt Anweisungs-Antwort-Paare, um Sprachmodelle für dialogbasierte KI und KI-Assistenten feinabzustimmen.
Was ist Reinforcement Learning (RL)?
Reinforcement Learning ist ein Paradigma, bei dem ein KI-Modell optimale Verhaltensweisen erlernt, indem es mit einer Umgebung interagiert und Feedback in Form von Belohnungen oder Bestrafungen erhält. Anstelle von markierten Beispielen verbessert sich das Modell, indem es im Laufe der Zeit eine Belohnungsfunktion maximiert.
In Systemen der künstlichen Intelligenz wird Reinforcement Learning häufig für dynamische Umgebungen und realweltliche Szenarien eingesetzt, in denen korrekte Antworten nicht explizit definiert sind.
Modellausgabe: {“decision”: “REJECT_RISK”}
Belohnung: -50 (Falsch)
Man kann sich das wie Kochen lernen durch Ausprobieren vorstellen. Man weiß, dass das Gericht schlecht schmeckt, muss aber erraten, welche Zutat das Problem verursacht hat.
Abbildung 2: Die Grafik zeigt die Unterschiede zwischen Online- und Offline-Lernen. Agenten lernen Strategien, indem sie iterativ Daten durch direkte Interaktion mit einer Umgebung sammeln oder, wenn eine direkte Interaktion nicht praktikabel ist, aus zuvor protokollierten Daten lernen. 2
Kernmerkmale
- Keine gekennzeichneten Datensätze oder Referenzdaten.
- Rückkopplungsschleifen und Belohnungssignale steuern das Lernen.
- Der Fokus liegt auf langfristigen Ergebnissen statt auf unmittelbarer Richtigkeit.
- Gut geeignet für dynamische Umgebungen und komplexe Aufgaben.
Überwachtes Feinabstimmen vs. bestärkendes Lernen: Wesentliche Unterschiede
Reinforcement Learning und überwachtes Feinabstimmen sind beides Nachbearbeitungstechniken zur Anpassung eines vortrainierten Modells, lösen aber grundlegend unterschiedliche Probleme. Das Verständnis dieser Unterschiede ist entscheidend für die Wahl der richtigen Feinabstimmungsmethode für ein KI-System, insbesondere für große Sprachmodelle und dialogbasierte KI.
Auf einer höheren Ebene lehrt das überwachte Feintuning ein Modell, „was die richtige Antwort ist“, während das bestärkende Lernen einem Modell beibringt, „welche Verhaltensweisen im Laufe der Zeit zu besseren Ergebnissen führen“.
Lernsignal und Rückkopplungsmechanismus
Der wichtigste Unterschied liegt darin , wie während des Trainingsprozesses Feedback gegeben wird.
- Beim überwachten Feinabstimmen lernt das Modell anhand von gelabelten Beispielen. Jedes Trainingsbeispiel enthält eine Eingabe und eine korrekte Antwort, die als Referenzwert dient. Das KI-Modell vergleicht seine generierten Antworten mit dem Referenzwert mithilfe einer Verlustfunktion und passt seine Gewichte an, um den Fehler zu minimieren. Dies ist ein direktes und explizites Lernsignal.
- Reinforcement Learning verwendet keine korrekten Antworten oder gelabelten Datensätze. Stattdessen lernt das KI-Modell mithilfe einer Belohnungsfunktion. Nach der Erzeugung einer Ausgabe oder der Ausführung einer Aktion erhält das Modell positives oder negatives Feedback, je nachdem, wie gut das Ergebnis dem gewünschten Verhalten entspricht. Dieses Feedback ist oft verzögert und indirekt, insbesondere bei komplexen Aufgaben.
Hauptkontrast:
- SFT verwendet gekennzeichnete Datensätze und korrekte Antworten.
- RL nutzt Belohnungssignale und Rückkopplungsschleifen.
- SFT optimiert für sofortige Korrektheit.
- RL optimiert für langfristige Ergebnisse.
Rolle des menschlichen Beitrags
Der Grad der menschlichen Beteiligung unterscheidet sich bei den beiden Ansätzen erheblich:
- Das überwachte Feinabstimmen ist stark von manuell erstellten Trainingsdaten abhängig. Menschliche Annotatoren definieren anhand von gekennzeichneten Beispielen, wie gute Ergebnisse aussehen. Menschliche Bewertungen dienen hauptsächlich der Beurteilung der Modellleistung nach dem Training.
- Reinforcement Learning integriert menschliches Feedback oft dynamischer. In vielen RL-trainierten Modellen bewerten menschliche Anwender die Modellausgaben, und diese Informationen werden genutzt, um ein Belohnungsmodell zu trainieren. Dieses Belohnungsmodell steuert dann das RL-Training und ermöglicht es dem System, menschliche Präferenzen zu erlernen, die sich nur schwer in strikte Regeln umsetzen lassen. Weitere Informationen finden Sie im Artikel „Reinforcement Learning from Human Feedback (RLHF)“ .
Dadurch ist Reinforcement Learning besonders effektiv, um KI-Assistenten an die menschlichen Erwartungen in Bereichen wie Gesprächsqualität, Tonfall und Denkmodellen anzupassen.
Aufgabenumfang und Umgebungen
- Überwachtes Feintuning eignet sich am besten für spezifische Aufgaben mit klar definierten Ergebnissen. Beispiele hierfür sind Klassifizierung , Extraktion strukturierter Daten, Übersetzung und kreatives Schreiben mit strengen Formatierungsanforderungen. In diesen Fällen ist die Identifizierung von Mustern anhand gekennzeichneter Beispiele sowohl effizient als auch zuverlässig.
- Reinforcement Learning eignet sich besser für komplexe Aufgaben und dynamische Umgebungen, in denen korrekte Antworten nicht eindeutig definiert sind oder der Erfolg von einer Abfolge von Entscheidungen abhängt. RL-Modelle werden häufig in realen Szenarien eingesetzt, in denen sich Ergebnisse im Laufe der Zeit entwickeln und der Kontext eine Rolle spielt.
Verallgemeinerung
- Überwachtes Feinabstimmen führt oft zu hoher kurzfristiger Genauigkeit, kann aber bei unbekannten Daten Schwierigkeiten haben. Sind die Trainingsbeispiele eng gefasst oder wiederholend, neigen mit SFT trainierte Modelle dazu, die Trainingsdaten auswendig zu lernen , anstatt verallgemeinerbares Wissen zu erwerben. Dies kann die Generalisierungsfähigkeit des Modells einschränken.
- Reinforcement Learning (RL) fördert die Erkundung breiterer Fragestellungen. Da das KI-Modell durch Interaktion mit Feedback lernt, anstatt exakte Antworten zu finden, verbessert RL die Generalisierungsfähigkeit und Anpassungsfähigkeit. Die überlegene Generalisierungsfähigkeit von RL ist besonders wichtig bei Aufgaben mit hoher Variabilität und wenn starre Regeln versagen.
Allerdings ist das RL-Training instabiler und reagiert empfindlicher auf die Gestaltung der Belohnungen. Deshalb bleibt SFT als stabilisierender Schritt unerlässlich.
Effizienz und Komplexität des Trainings
Aus operativer Sicht ist überwachtes Feinabstimmen unkomplizierter und besser vorhersagbar. Der Trainingsdatensatz ist festgelegt, die Bewertungsmetriken sind klar definiert, und die Trainingseffizienz ist hoch, wenn große, annotierte Datensätze verfügbar sind.
Reinforcement Learning ist komplexer und rechenintensiver. Die Entwicklung einer praktikablen Belohnungsfunktion, die Steuerung der Exploration und die Gewährleistung stabilen Lernens erfordern sorgfältige Optimierung. Algorithmen wie die proximale Richtlinienoptimierung werden häufig zur Verbesserung der Stabilität eingesetzt, dennoch bedarf Reinforcement Learning weiterer Experimente.
Position in modernen KI-Trainingspipelines
In der Praxis sind Reinforcement Learning und Supervised Fine-Tuning keine Konkurrenten, sondern komplementäre Techniken.
Die meisten Pipelines für die Nachbearbeitung von Foundation-Modellen folgen einer klaren Abfolge:
- Beginnen Sie mit einem Basismodell oder Fundamentmodellen.
- Wenden Sie überwachtes Feinabstimmungsverfahren (SFT) an, um die Modellausgaben zu stabilisieren.
- Nutzen Sie anschließendes RL, um das Verhalten an die menschlichen Präferenzen anzupassen.
SFT schafft eine solide Grundlage, indem es Korrektheit und Format vermittelt. RL verfeinert dann das Verhalten und verbessert die Modellleistung in Bereichen, in denen Korrektheit allein nicht ausreicht.
Neue Produkte
verl: Volcano Engine Reinforcement Learning für LLMs
verl (Volcano Engine Reinforcement Learning for LLMs) ist ein Open-Source-Framework, das vom Seed-Team (ByteDance) für das Reinforcement-Learning-basierte Nachtraining großer Sprachmodelle (LLMs) entwickelt wurde, einschließlich:
- Reinforcement Learning durch menschliches Feedback (RLHF)
- Reinforcement Learning durch KI-Feedback (RLAIF)
- Angleichung von Sprachmodellen an menschliche Präferenzen
- Optimierung des Denkprozesses oder der Aufgabenleistung durch RL
- Forschung zu Reinforcement-Learning-Algorithmen für LLMs.
Das Framework zielt darauf ab, die effiziente Implementierung von Reinforcement-Learning-Algorithmen wie Proximal Policy Optimization (PPO) und Group Relative Policy Optimization (GRPO) für das Training von Sprachmodellen zu ermöglichen. Es bietet die Infrastruktur zur Verwaltung der wichtigsten Phasen des Reinforcement Learnings für Sprachmodelle, einschließlich der Generierung von Antworten, der Berechnung von Belohnungen, der Abschätzung des Vorteils und der Aktualisierung von Richtlinien.
Architektur- und Betriebsprinzipien
Reinforcement-Learning-Pipeline für LLMs
Beim Training von LLM mittels bestärkendem Lernen generiert ein Modell Ausgaben für vorgegebene Eingaben und erhält Feedback in Form eines Belohnungssignals. Ziel des Trainings ist es, die Modellparameter so anzupassen, dass Reaktionen mit höheren Belohnungen wahrscheinlicher werden.
Die von verl unterstützte allgemeine Pipeline umfasst die folgenden Phasen:
- Prompt-Sampling : Die Prompts werden aus einem Datensatz gezogen, der für das Reinforcement-Learning-Training verwendet wird.
- Antwortgenerierung : Das Richtlinienmodell (das zu optimierende LLM) generiert Antworten auf die Eingabeaufforderungen.
- Belohnungsbewertung : Ein Belohnungsmodell oder eine Bewertungsfunktion ordnet jeder generierten Antwort einen Belohnungswert zu. Diese Belohnung kann folgende Ursachen haben:
- ein erlerntes Belohnungsmodell
- regelbasierte Wertung
- automatisierte Auswertungssysteme.
- Vorteilschätzung : Verstärkungslernsignale wie Vorteile oder Erträge werden auf Basis der Belohnung berechnet.
- Richtlinienoptimierung : Die Parameter des Richtlinienmodells werden mithilfe eines RL-Algorithmus (z. B. PPO oder GRPO) aktualisiert.
- Iteration der Trainingsschleife : Der Prozess wird wiederholt, bis Konvergenz oder Abschluss des Trainingsplans erreicht ist.
verl koordiniert diese Komponenten und verwaltet deren Ausführung auf verteilten Rechenressourcen. 3
OpenRLHF
OpenRLHF ist ein Open-Source-Framework, das ein skalierbares, leistungsstarkes und zugängliches System für die RL-basierte LLM-Ausrichtung und -Optimierung bereitstellen soll.
Systemarchitektur
Ray-basierte verteilte Architektur
OpenRLHF stellt eine Ray-basierte RLHF-Architektur vor, die das verteilte Training über GPU-Cluster hinweg verwaltet. Ray fungiert als zentrale Planungs- und Orchestrierungsschicht und koordiniert die Ressourcenzuweisung, die Aufgabenausführung und die Kommunikation zwischen den verschiedenen Komponenten.
Die Architektur unterteilt die Systemverantwortlichkeiten in klar abgegrenzte Rollen:
- Rollout-Engines : Generieren Antworten auf Eingabeaufforderungen anhand der aktuellen Richtlinie.
- Akteur-Engines : Sie berechnen Log-Wahrscheinlichkeiten und führen eine Richtlinienoptimierung durch.
- Trainings-Engines (ZeRO-Engines) : Modellaktualisierungen mit DeepSpeed durchführen.
Arbeitsablauf für das Training mit bestärkendem Lernen
OpenRLHF implementiert eine PPO-basierte RLHF-Trainingsschleife, die aus vier Hauptphasen besteht:
- Rollout-Generierung : Das Richtlinienmodell generiert Antworten auf Eingabeaufforderungen mithilfe einer Rollout-Engine, die von vLLM unterstützt wird.
- Belohnungsberechnung : Ein Belohnungsmodell wertet die generierten Antworten aus und weist ihnen skalare Belohnungen zu.
- Vorteilsabschätzung : Die Vorteile werden mittels Generalized Advantage Estimation (GAE) berechnet, wobei KL-Strafen zur Begrenzung der Abweichung von einer Referenzstrategie einbezogen werden.
- Richtlinienoptimierung : Die Modellparameter werden mithilfe der beschnittenen Zielfunktion von PPO aktualisiert.
Abbildung 3: Diagramm zur Veranschaulichung des PPO-Workflows von OpenRLHF. 4
Entwurf verteilter Systeme
OpenRLHF beinhaltet mehrere architektonische Merkmale, die ein effizientes RLHF-Training im großen Maßstab ermöglichen.
1. 3D-Parallelität
Das Framework verwendet eine dreidimensionale Parallelisierungsstrategie, die Folgendes kombiniert:
- Tensorparallelität
- Datenparallelität
- Sequenzparallelität
Diese Strategie wird mithilfe von DeepSpeed ZeRO und Ring-Attention -Mechanismen implementiert. Ring-Attention verteilt die Aufmerksamkeitsberechnung über mehrere GPUs mithilfe einer Ringkommunikationstopologie, was die Skalierbarkeit für Aufgaben des kontextreichen Schließens verbessert.
2. Beschleunigte Inferenz mit vLLM
Da die Inferenz den größten Teil der RLHF-Trainingszeit ausmacht, integriert OpenRLHF vLLM , um die Antwortgenerierung zu beschleunigen. vLLM bietet mehrere Optimierungen:
- PagedAttention reduziert die Speicherverschwendung für Schlüsselwerte auf unter 4 %.
- Dynamische Stapelverarbeitung
- CUDA-Graphausführung
- FlashAttention-optimierte Kernel
- Spekulative Dekodierung
Diese Techniken verbessern die GPU-Auslastung und erhöhen den Inferenzdurchsatz während des RLHF-Trainings signifikant.
3. Asynchroner Datenfluss
OpenRLHF unterstützt die asynchrone Ausführung zwischen Systemkomponenten, einschließlich Rollout-Engines und Trainings-Engines.
Anstatt auf den Abschluss aller Prozesse zu warten, arbeitet jede Komponente unabhängig und kommuniziert über Nachrichtenaustausch. Dieses asynchrone Design verhindert, dass langsame Aufgaben, wie z. B. die Generierung langer Gedankenketten, den gesamten Trainingsablauf blockieren.
Als Ergebnis verbessern sich Systemdurchsatz und Hardwareauslastung in verteilten Umgebungen deutlich.
Leistungsbeurteilung
Experimentelle Ergebnisse zeigen, dass OpenRLHF im Vergleich zu bestehenden RLHF-Frameworks deutliche Leistungsverbesserungen erzielt. Zu den wichtigsten Erkenntnissen gehören:
- Das Training ist im Vergleich zum verl-Framework um das 1,22- bis 1,68-Fache schneller, und zwar über verschiedene Modellgrößen und Sequenzlängen hinweg.
- Das Training ist auf dem GSM8K-Benchmark etwa 3,1-mal schneller als mit dem TRL-Framework.
- Rund 3,6-mal schnelleres Training als DeepSpeed-Chat unter vergleichbaren RLHF-Arbeitslasten.
Diese Verbesserungen sind hauptsächlich auf Folgendes zurückzuführen:
- vLLM-basierte Inferenzbeschleunigung
- Ray-basierte verteilte Orchestrierung
- effiziente Parallelisierungsstrategien.
Methodik
Wir haben alle Experimente auf einem einzelnen NVIDIA A100 (80GB) mit PyTorch 2.x, HuggingFace Transformers und TRL 0.27.0 durchgeführt. Für das gesamte Training wurden LoRA-Adapter (r=16, α=32) verwendet, die auf die Query-, Key-, Value- und Output-Projektionen mit bfloat16-Genauigkeit angewendet wurden.
Das Basismodell war Qwen3-14B-Instruct für alle drei Bedingungen: Baseline (ohne Feinabstimmung), RL (GRPO mit LoRA) und SFT (mit LoRA).
Für den Datensatz haben wir 800 synthetische Kreditanträge mit ausgewogener Klassenverteilung (200 pro Klasse) generiert und diese im Verhältnis 80/20 in Trainings- (640 Beispiele) und Testdatensätze (160 Beispiele) aufgeteilt.
- RL-Konfiguration: Wir verwendeten GRPO mit einer Lernrate von 1e-5, 8 Generationen pro Eingabeaufforderung, 4 Trainingsepochen und Gradientenakkumulation über 8 Schritte. Die maximale Vervollständigungslänge wurde auf 150 Token festgelegt.
- SFT-Konfiguration: Die Lernrate betrug 2e-5, mit 4 Trainingsepochen, einer Batchgröße von 2 und einer Gradientenakkumulation über 4 Schritte.
- Evaluierungsprotokoll: Die Baseline verwendete lediglich die Systemaufforderung ohne Beispiele (Zero-Shot). Alle Inferenzberechnungen erfolgten mit einer Temperatur von 0,1 für nahezu deterministische Ausgaben. Die Zufallszahlen wurden zur Gewährleistung der Reproduzierbarkeit festgelegt, und die Genauigkeit der exakten Übereinstimmung wurde anhand des zurückgehaltenen Testdatensatzes gemessen.
Wie das Kreditentscheidungssystem funktioniert
Der Kernmechanismus: Wir haben ein synthetisches Kreditentscheidungssystem mit vier möglichen Ergebnissen und einer strikten Prioritätshierarchie entwickelt:
ENTSCHEIDUNGSHIERARCHIE (Prioritätsreihenfolge)
1. MANUAL_REVIEW (Gründer ist Ex-Google oder Ex-Facebook, versteckte Regel)
2. REJECT_RISK (Umsatz > 10 Mio. USD und Burn Rate > 80 % des Umsatzes)
3. A_PLUS_TIER (Kunden-NPS-Wert ≥ 80)
4. STANDARD_LOAN (Standardfall)
Der entscheidende Test besteht darin, dass Regel 1 in der Systemaufforderung niemals erwähnt wird . Das Modell muss sie ausschließlich anhand von Trainingssignalen ermitteln.
Wo es hakt:
Die VIP-Überschreibungsregel ist bewusst kontraintuitiv. Ein Gründer mit schwachen Finanzkennzahlen, aber Erfahrung bei Google, sollte eine manuelle Überprüfung erhalten, obwohl die finanzielle Begründung allein zu einem Ablehnungsrisiko führen würde.
Einschränkungen
Diese explorative Studie soll Praktikern, die die Vor- und Nachteile von SFT und RL abwägen, erste Orientierungshilfen bieten. Die Ergebnisse sollen Ihre eigenen Experimente unterstützen und nicht als allgemeingültige Schlussfolgerungen dienen.
Experimenteller Umfang:
- Synthetischer Datensatz; reale Kreditdaten enthalten Rauschen, fehlende Werte und Sonderfälle
- Einzelne Modellfamilie (Qwen); Ergebnisse können für andere Architekturen abweichen
- Ein kleiner Testdatensatz (160 Stichproben) liefert zwar ein Richtungssignal, hat aber eine begrenzte statistische Aussagekraft.
Für RL galten keine gleichen Bedingungen:
- Keine Belohnungsgestaltung, kein Curriculumlernen und keine Hyperparameteroptimierung
- Produktionssysteme für Reinforcement Learning verwenden deutlich komplexere Konfigurationen.
Aufgabengestaltung begünstigte SFT:
- Deterministische, regelbasierte Logik ist genau das, wo SFT von Natur aus hervorragend ist.
- Die Ergebnisse können bei subjektiven Aufgaben (Tonfall, Stil, Überzeugungskraft) erheblich abweichen, bei denen RL typischerweise überlegen ist.
Zukünftige Arbeit
Für zukünftige Arbeiten beabsichtigen wir, diesen Benchmark in mehreren Dimensionen zu erweitern:
- Testen Sie Reinforcement Learning an subjektiven Aufgaben, bei denen keine eindeutige Wahrheit existiert.
- Erkunden Sie hybride SFT-zu-RL-Pipelines.
- Bewerten Sie den Einfluss der Belohnungsgestaltung auf regelbasiertes Lernen.
- Skalieren Sie die Daten und die Aufgabenkomplexität , indem Sie die Größe des Trainingsdatensatzes um das Zehnfache erhöhen.
Abschluss
Dieses Experiment zeigt, dass Supervised Fine-Tuning (SFT) Reinforcement Learning (RL) bei expliziten und regelbasierten Verhaltensweisen deutlich übertrifft , insbesondere wenn diese Regeln typischen Denkmustern widersprechen. SFT lernte die versteckte VIP-Override-Regel mit einer Genauigkeit von 86 %, während RL sie mit 7 % fast vollständig verfehlte.
Aus den Erkenntnissen, die wir aus diesem Benchmark gewonnen haben, ergeben sich folgende praktische Empfehlungen:
- Verwenden Sie SFT, wann immer Sie beschriftete Beispiele bereitstellen können.
- Nutze RL für subjektive Optimierung anstatt für Fähigkeitslernen.
- Kombinieren Sie SFT und RL, wenn Sie sowohl Präzision als auch individuelle Ausrichtung benötigen.
Die allgemeine Lehre daraus ist eindeutig: Wann immer eine direkte Aufsicht möglich ist, sollte man sie nutzen.
Seien Sie der Erste, der kommentiert
Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.