Große Sprachmodelle sagen das nächste Token anhand von Mustern voraus, die aus Textdaten gelernt wurden. Der Begriff „Skalierungsgesetze großer Sprachmodelle“ bezeichnet empirische Regelmäßigkeiten, die die Modellleistung mit dem Rechenaufwand, den Trainingsdaten und den während des Trainings verwendeten Modellparametern verknüpfen.
Um zu verstehen, wie diese Zusammenhänge die Entwicklung moderner Modelle in der Praxis beeinflussen, haben wir Ergebnisse aus fünf wissenschaftlichen Artikeln sowie Erkenntnisse aus drei großen KI-Laboren und von Forschern ausgewertet.
Wichtigste Erkenntnisse
Führende Forscher stimmen in folgenden zentralen Erkenntnissen überein:
- Die Leistungsfähigkeit des Modells hängt nicht allein von der Anzahl der Parameter ab. Datenmenge und -qualität sind gleichermaßen entscheidend.
- Skalierungsentscheidungen sollten auf den Aufgabenanforderungen basieren und nicht auf der Annahme, dass größere Modelle immer besser sind.
- Parametereffiziente Architekturen können bei geringeren Trainings- und Inferenzkosten eine wettbewerbsfähige Leistung erzielen.
- In realen Anwendungen können die Kosten für die Inferenz die Trainingskosten übersteigen und sollten bei der Wahl der Modellgröße berücksichtigt werden.
Erkenntnisse aus der akademischen Skalierungsgesetzforschung
Papier | Jahr | Was wird skaliert? | Optimierungsziel | Wichtigste Erkenntnis | Praktische Auswirkungen |
|---|---|---|---|---|---|
Skalierungsgesetze für neuronale Sprachmodelle | 2020 | Parameter, Trainingstoken, Berechnung | Minimierung des Verlusts bei festem Rechenaufwand | Optimale Leistung folgt einer Potenzgesetz-Skalierung | Größere Modelle helfen nur bei ausreichenden Daten und Rechenkapazitäten. |
Training rechenoptimaler großer Sprachmodelle | 2022 | Parameter vs. Trainingstoken | Minimiere den Verlust bei festem Trainingsrechner | Viele große Modelle sind unzureichend trainiert. | Kleinere Modelle, die länger trainiert werden, können größere Modelle übertreffen. |
Jenseits von Chinchilla-Optimal | 2025 | Parameter, Inferenzberechnung | Minimierung der gesamten Lebenszykluskosten (Training und Inferenz) | Inferenzintensive Anwendungen begünstigen kleinere Modelle | Der Einsatzkontext ist genauso wichtig wie die Ausbildung. |
Faultier | 2025 | Latente Fähigkeiten vs. Parameter und Daten | Benchmark-Leistung vorhersagen | Leistung wird durch wenige latente Fähigkeiten bestimmt | Ermöglicht Vorhersagen ohne das Training riesiger Modelle |
Verdichtungsgesetz von LLMs | 2025 | Effektive vs. tatsächliche Parameter | Messen Sie die Parametereffizienz im Laufe der Zeit | Die Parametereffizienz verbessert sich ständig. | Die Vorteile ergeben sich aus besseren Architekturen und Schulungen, nicht nur aus der Skalierung. |
„Skalierungsgesetze für neuronale Sprachmodelle“, Kaplan & McCandlish, 2020
Kaplan et al. stellten die ersten vielfach zitierten Skalierungsgesetze für neuronale Sprachmodelle vor.
In ihrer Analyse folgen die Modellleistungs-Beziehungen in Bezug auf drei Schlüsselvariablen: die Anzahl der Modellparameter , die Größe des Trainingsdatensatzes (gemessen in Token) und den gesamten Trainingsrechenaufwand.
Durch die systematische Variation dieser drei Faktoren konnten die Autoren zeigen, dass eine Erhöhung eines einzigen Faktors zu vorhersehbaren Reduzierungen der Verluste führt, vorausgesetzt, die anderen werden entsprechend angepasst.
Abbildung 1: Die Abbildung zeigt, wie sich der Testverlust mit der Modellgröße bei unterschiedlichen Rechenbudgets und Trainingsschrittanzahlen verändert und verdeutlicht das optimale Gleichgewicht zwischen Modellgröße, Rechenaufwand und Trainingsdauer für die beste Leistung.
Diese Arbeit legte den Grundstein für spätere Forschungen zu Skalierungsgesetzen von Sprachmodellen. Sie zeigte außerdem, dass Modellform und -tiefe bei konstantem Rechenaufwand einen geringeren Einfluss haben als die Gesamtzahl der Parameter und die Anzahl der Trainingstoken. Diese Erkenntnis beeinflusste die Entwicklung von Trainingsalgorithmen für große Sprachmodelle durch nachfolgende Forscher. 1
„Training Compute-Optimal Large Language Models“, Hoffmann, Borgeaud & Mensch, 2022
Diese Arbeit überprüft die bisherigen Gesetze für neuronale Sprachmodelle anhand einer großen Anzahl kontrollierter Experimente. Sie modelliert den Verlust als gemeinsame Funktion der Modellparameter und der Größe der Trainingsdaten und stellt fest, dass viele frühere große Modelle im Verhältnis zu ihrer Parameteranzahl untertrainiert waren. Wenn Forscher größere Modelle mit unzureichenden Trainingsdaten trainieren, entspricht die resultierende Modellqualität nicht den Vorhersagen traditioneller Skalierungsgesetze.
Die Autoren zeigen, dass bei einem festen Rechenbudget optimale Leistung erzielt wird, wenn Modelle Parameter- und Trainingstokenanzahlen ähnlicher Größenordnung verwenden. Dieses Ergebnis ist allgemein als Chinchilla-Skalierungsgesetz bekannt. Es besagt, dass die Berechnung des optimalen Trainings ein nahezu proportionales Verhältnis zwischen der Anzahl der Parameter und der Anzahl der Trainingstoken erfordert.
Dieser Ansatz erzeugt kleinere Modelle, die mit begrenzten Daten besser abschneiden als größere Modelle. Er unterstützt zudem eine effiziente Modellauswahl, da Forschende Skalierungsgesetze an kleinere Modelle anpassen und die Leistung von Sprachmodellen für größere Konfigurationen vor dem Training vorhersagen können.
Abbildung 2: Die Abbildung zeigt überlagert Vorhersagen aus verschiedenen Methoden. Alle Ergebnisse deuten darauf hin, dass die heutigen großen Modelle überdimensioniert sind und stattdessen kleiner sein und länger trainiert werden sollten. 2
„Jenseits des Chinchilla-Optimalmodells: Berücksichtigung von Inferenz in Skalierungsgesetzen von Sprachmodellen“, Sardana, Portes & Doubov, 2025
Sardana et al. erweitern das Chinchilla-Framework, indem sie Inferenzkosten in die rechenoptimale Skalierung einbeziehen.
Anstatt nur den Rechenaufwand für das Training zu minimieren, legen sie ein Zielleistungsniveau fest und optimieren die kombinierten Kosten für Training und Inferenz über die gesamte Lebensdauer des Modells.
Diese Verschiebung führt zu einer wichtigen praktischen Erkenntnis: In Umgebungen mit hoher Auslastung können kleinere Modelle, die mit mehr Daten trainiert werden, oft die Leistung größerer Modelle erreichen und dabei geringere Gesamtkosten für die Rechenleistung verursachen.
Abbildung 3: Die Diagramme vergleichen die Verhältnisse von Gesamtkosten, Parameteranzahl und Trainings-Tokens zwischen realen kostenoptimalen Modellen und Modellen im Chinchilla-Stil. 3
„Sloth: Scaling laws for LLM skills to predict multi-benchmark performance across families“, Polo, Somerstep & Choshen, 2025
Sloth führt einen neuen Ansatz zur Modellierung von Skalierungsgesetzen für große Sprachmodelle ein, indem der Fokus von Modellverlusten auf die Leistung auf Benchmark-Ebene verlagert wird. Anstatt Aufgaben separat zu betrachten, identifiziert Sloth eine Reihe latenter Fähigkeiten, die die Leistung von Sprachmodellen über verschiedene Benchmarks hinweg erfassen. Diese Fähigkeiten repräsentieren allgemeine Fertigkeiten wie logisches Denken oder Wissensabruf.
Das Framework modelliert, wie sich die einzelnen Fähigkeiten mit den Modellparametern und den Trainingsdaten verändern. Sloth verwendet einfache Merkmale, wie beispielsweise die Logarithmen der Modell- und Datensatzgröße, um zu beschreiben, wie sich diese Fähigkeiten innerhalb einer Modellfamilie verändern. Nach der Anpassung kann Sloth vorhersagen, wie größere Modelle derselben Familie auf vielen Benchmarks abschneiden, ohne dass diese trainiert werden müssen.
Mithilfe der Vorhersagen von Sloth können Organisationen entscheiden, wo sie Rechenressourcen einsetzen und Trainingskonfigurationen vermeiden, die voraussichtlich nicht die gewünschte Leistung erbringen. Dies unterstützt eine rationalere Planung des Modelltrainings unter realen Rahmenbedingungen. 4
„Verdichtungsgesetz von LLMs“, Xiao, Cai & Zhao, 2025
Die vorliegende Arbeit untersucht die Effizienz der Parameternutzung in Modellen. Sie führt das Konzept der Fähigkeitsdichte ein, definiert als das Verhältnis der effektiven zur tatsächlichen Parameteranzahl eines Modells. Die effektive Parameteranzahl wird geschätzt, indem Skalierungsgesetze an bestehende Modelle angepasst und die Frage gestellt wird, wie groß ein Referenzmodell sein müsste, um die aktuelle Leistung zu erreichen.
Die Autoren stellen fest, dass die besten Modelle zu jedem Zeitpunkt eine steigende Fähigkeitsdichte aufweisen. Dies bedeutet, dass neuere Modelle eine bestimmte Leistung mit weniger Parametern erreichen als ältere Modelle. Der Trend verläuft im Zeitverlauf annähernd exponentiell.
Diese Beobachtung legt nahe, dass Fortschritte bei großen Sprachmodellen nicht nur von der Skalierung der Modellgröße abhängen, sondern auch von der Verbesserung der Modellarchitektur, der Qualität der Trainingsdaten und der Trainingsalgorithmen. Die Arbeit argumentiert, dass die Überwachung der Parametereffizienz unerlässlich ist, um zukünftige Entwicklungen in der Verarbeitung natürlicher Sprache und im maschinellen Lernen zu verstehen.
Abbildung 4: Die Grafik zeigt die geschätzte Fähigkeitsdichte für Open-Source-basierte LLMs über fünf Reasoning- und Coding-Benchmarks hinweg, wobei die Kreisgröße die Anzahl der Modellparameter angibt und eine Trendlinie ein „Verdichtungsgesetz“ nahelegt, nach dem die maximale Fähigkeitsdichte mit der Zeit exponentiell ansteigt. 5
LLM-Skalierungsgesetze: Meinungen führender KI-Labore und Forscher
Über die akademischen Skalierungsgesetze hinaus betonen Forscher und Praktiker aus der Industrie, wie sich diese Prinzipien in die Entwicklung und den Einsatz realer Modelle übertragen lassen.
Die folgenden Perspektiven veranschaulichen, wie verschiedene Interessengruppen, von Hardwareanbietern bis hin zu angewandten Forschern, Skalierungsgesetze in der Praxis interpretieren und anwenden.
NVIDIA, 2025
Aus infrastruktureller Sicht präsentiert NVIDIA Skalierungsgesetze als praktische Werkzeuge für die Entwicklung und das Training großer Sprachmodelle. Dabei werden drei primäre Skalierungsachsen hervorgehoben:
- Modellgröße.
- Datensatzgröße.
- Rechenressourcen.
Gemäß NVIDIA führt die Skalierung eines dieser Faktoren im richtigen Bereich zu vorhersehbaren Verbesserungen der Modellqualität.
Der Artikel betont zudem die Bedeutung der Testzeitberechnung. Moderne Systeme verwenden mehr Zeit für Inferenzprozesse mithilfe von Techniken wie erweiterten Schlussfolgerungssequenzen. Dies erweitert die Skalierungsgesetze um eine neue Dimension und geht über den ursprünglichen Fokus auf Trainingstoken und Modellparameter hinaus.
NVIDIA nutzt diese Ideen, um zu erklären, warum der Bedarf an Rechenressourcen weiter steigt, obwohl Modelle parametereffizienter werden. Es wird angenommen, dass sowohl Training als auch Inferenz auch in zukünftigen Systemen zur Verarbeitung natürlicher Sprache wesentliche Treiber des Rechenaufwands bleiben werden. 6
Cameron Wolfe, LLM-Forscher bei Netflix, 2025
Aus der Sicht eines Praktikers erklärt Cameron Wolfe, wie die ursprünglichen Potenzgesetzbeziehungen aus der akademischen Literatur auf aktuelle Modelle anwendbar sind und wie Praktiker diese Kurven nutzen können, um die erreichbare Modellleistung abzuschätzen, bevor sie größere Modelle trainieren.
Wolfe erörtert die Rolle von Modellform und -architektur bei der Skalierung und merkt an, dass sich traditionelle Skalierungsgesetze zwar auf die Parameteranzahl konzentrieren, praktische Systeme aber auch die Datenqualität und Trainingsalgorithmen berücksichtigen müssen. Der Artikel beleuchtet Bedenken hinsichtlich der Verfügbarkeit hochwertiger Daten und wie diese Einschränkungen das Training zukünftiger, größerer Modelle beeinflussen können.
Die Diskussion stellt Skalierungsgesetze als Leitfaden für die Bewertung bestehender Modelle und für die Abschätzung vor, wie sich die Modellleistung verändern kann, wenn die Trainingsdaten erweitert oder die Modellparameter angepasst werden. 7
MIT-IBM Watson AI Lab, 2025
Aus methodischer Sicht analysieren die Forscher des MIT Watson AI Lab Skalierungsgesetze über verschiedene Architekturen und Datensätze hinweg.
Die Forscher erstellten einen umfangreichen Metadatensatz mit 485 vortrainierten Modellen, detaillierten Trainingsmetadaten und über einer Million Leistungsmessungen. Dieser Datensatz dient dazu, über 1.000 Skalierungsgesetze zu testen und Muster zu identifizieren, die sich auf verschiedene Modellfamilien übertragen lassen.
Die Studie beschreibt klare Schritte zur Anpassung von Skalierungsgesetzen unter Berücksichtigung von Rechenbeschränkungen. Sie empfiehlt, ein Rechenbudget und eine Zielvorgabe für die Leistung festzulegen und anschließend eine kleine Anzahl von Modellen unterschiedlicher Größe zu trainieren, anstatt sich auf die größten Modelle zu konzentrieren. Zwischenergebnisse werden als wertvolle Informationsquellen hervorgehoben, während sehr frühe Trainingsdaten aufgrund von Rauschen nicht empfohlen werden.
Die Autoren zeigen, dass sich die Vorhersagen bei Einhaltung dieser Richtlinien der durch die Variabilität der Zufallsstartwerte festgelegten unteren Grenze annähern können. Selbst bei weniger präzisen Vorhersagen bleiben Skalierungsgesetze nützlich, um Trainingsoptionen zu vergleichen und vielversprechende Konfigurationen zu identifizieren.
Die Arbeit stellt fest, dass die Leistung zwischen den verschiedenen Modellfamilien erheblich variiert, was die Bedeutung der Verwendung unterschiedlicher Trainingsumgebungen bei der Anpassung von Skalierungsgesetzen unterstreicht. 8
Was sagen führende Forscher über die Zukunft der Skalierung?
Ansichten, die die fortgesetzte Gültigkeit von Skalierungsgesetzen unterstützen
In der gesamten Forschungslandschaft finden sich übereinstimmende Belege dafür, dass Skalierungsgesetze innerhalb der untersuchten Bereiche gelten. Grundlagenarbeiten zeigen klare Potenzgesetzbeziehungen zwischen Modellparametern, Trainingsdatengröße und Trainingsrechenaufwand, wenn Modelle in ausgewogenen Umgebungen trainiert werden.
Spätere Studien verfeinern dieses Bild, indem sie zeigen, dass die Berechnung des optimalen Trainings die Angleichung der Modellgröße an das Volumen der Trainings-Token erfordert und dass diese Angleichung die Modellleistung im Vergleich zu früheren Ansätzen verbessert.
Weitere Untersuchungen zur Multitasking-Evaluierung zeigen, dass die Benchmark-Performance auch dann erwartungsgemäß skaliert, wenn sie anhand einer kleineren Anzahl latenter Fähigkeiten ausgedrückt wird. Dies bestärkt die Ansicht, dass Skalierungsgesetze für Sprachmodelle weiterhin zuverlässige Instrumente zur Prognose der Modellleistung darstellen, sofern Datensatzgröße und Rechenressourcen angemessen verteilt werden.
Ansichten, die eine effiziente Rechenzuweisung betonen
Ein zweiter Forschungsansatz argumentiert, dass der Fortschritt zunehmend von der Verteilung der Rechenleistung abhängt und nicht mehr allein von der Erhöhung der Parameteranzahl. Analysen des rechenoptimalen Trainings zeigen, dass Modelle ausreichend Trainingsdaten benötigen, um ihr volles Potenzial auszuschöpfen, und dass größere Modelle, die mit begrenzten Daten trainiert werden, oft ineffizient sind.
Arbeiten, die Inferenzkosten einbeziehen, erweitern diese Idee, indem sie zeigen, dass die Gesamtkosten eines Modells sowohl von der Rechenleistung für das Training als auch von der Rechenleistung für die Inferenzzeit abhängen.
Diese Perspektive legt nahe, dass zukünftige Skalierungsbemühungen effiziente Konfigurationen in den Vordergrund stellen werden, die Modellgröße, Trainings-Token und das erwartete Inferenzvolumen gemeinsam optimieren. Sie betrachtet den Entwurf großer Sprachmodelle als eine Übung in der Rechenressourcenallokation und nicht als ein Streben nach maximalem Parameterwachstum.
Ansichten, die die wachsende Bedeutung von Effizienz und Dichte betonen.
Ein anderer Blickwinkel konzentriert sich auf die Parametereffizienz und die effektive Nutzung von Rechenressourcen. Untersuchungen zur Parameterdichte zeigen, dass neuere Modelle mit weniger Parametern eine höhere Leistung erzielen als ältere Modelle. Dies deutet darauf hin, dass architektonische Verbesserungen, Datenqualität und Trainingsalgorithmen maßgeblich zu Leistungssteigerungen beitragen.
Die technischen Kommentare unterstreichen zudem die wachsende Bedeutung des Inferenzverhaltens und der Verbesserungen nach dem Training. Zusammengenommen deuten diese Erkenntnisse darauf hin, dass zukünftige Systeme eher auf effizientes Modelldesign und bessere Trainingsmethoden als auf eine unkontrollierte Erhöhung der Parameteranzahl setzen werden. Der Fokus verschiebt sich von größeren Modellen hin zu leistungsfähigeren Modellen, die ihre Parameter effektiver nutzen.
Einschränkungen für die zukünftige Skalierung von LLM
Berechnungs- und Energiegrenzen
Ein wiederkehrendes Thema in der Fachliteratur ist der hohe Rechenaufwand, der für das Training und den Einsatz großer Sprachmodelle erforderlich ist. Das Training großer Modelle beansprucht erhebliche Rechenressourcen, während die Inferenz in großem Umfang beträchtliche Betriebskosten verursacht.
Diese Faktoren setzen der Skalierung wirtschaftliche Grenzen, selbst wenn theoretische Skalierungsgesetze weitere Verbesserungen nahelegen. Mit zunehmender Modellgröße werden Energieverbrauch und Hardwareanforderungen immer schwieriger zu handhaben.
Einschränkungen der Datenverfügbarkeit
Eine weitere Einschränkung ist die Verfügbarkeit qualitativ hochwertiger Daten. Traditionelle Formulierungen von Skalierungsgesetzen setzen den Zugriff auf umfangreiche Trainingsdaten voraus, diese Annahme ist jedoch nicht mehr verlässlich.
Mehrere Analysen weisen auf das begrenzte Angebot an qualitativ hochwertigen Texten und den steigenden Bedarf an kuratierten oder synthetischen Daten hin. Da die Größe der Trainingsdaten zu einem limitierenden Faktor wird, ist die Datenqualität für die Bestimmung der Modellleistung ebenso entscheidend wie die Anzahl der Parameter.
Wirtschaftliche und rechnerische Budgetbeschränkungen
Die praktische Skalierung ist nicht nur durch technische Faktoren, sondern auch durch finanzielle und organisatorische Erwägungen begrenzt. Untersuchungen zur Leistungsprognose zeigen, dass eine sorgfältige Budgetplanung für Rechenressourcen unerlässlich ist, um zu bestimmen, welche Trainingsläufe durchführbar sind.
Kommentare zu Branchenpraktiken verdeutlichen die steigenden Rechenkosten und die Notwendigkeit für Unternehmen, ihre Ressourcen sorgfältig zuzuweisen. Diese Faktoren begrenzen das Ausmaß, in dem eine Skalierung in realen Umgebungen möglich ist.
Algorithmische und architektonische Beschränkungen
Die Forschung zu Skalierungsgesetzen betont, dass vorhersehbare Verbesserungen nur dann auftreten, wenn Modelle in ausgewogenen Umgebungen trainiert werden. Arbeiten, die die Parametereffizienz analysieren, zeigen, dass architektonische Fortschritte die Beziehung zwischen Modellgröße und Leistung verändern können.
Weitere Kommentare zeigen, dass Trainingsalgorithmen die Wirksamkeit von Skalierungsgesetzen beeinflussen. Diese Erkenntnisse implizieren, dass eine einfache Parameterskalierung nicht unbegrenzt fortgesetzt werden kann und der Fortschritt zunehmend von neuen Trainingsmethoden und Modellarchitekturen abhängen wird.
FAQs
Große Sprachmodelle werden als neuronale Sprachmodelle trainiert, die das nächste Token in natürlicher Sprache vorhersagen. Die sogenannten Skalierungsgesetze großer Sprachmodelle beschreiben empirische Regelmäßigkeiten, die die Modellleistung mit der Modellgröße, den Trainingsdaten und den verfügbaren Rechenressourcen verknüpfen. Diese Zusammenhänge werden in der Fachliteratur als Potenzgesetzfunktionen definiert. Sie implizieren, dass sich die Leistung von Sprachmodellen vorhersagbar verbessert, wenn Forschende mehr Rechenressourcen für Modellparameter und die Größe der Trainingsdaten bereitstellen.
Die grundlegende Idee in der Literatur besagt, dass der Modellverlust sinkt, wenn Modelle mehr Parameter, mehr Trainingsdaten und mehr Rechenleistung erhalten. Diese Regeln haben die Vorgehensweise von Forschern beim Training größerer Modelle und bei der Bewertung des Kompromisses zwischen der Anzahl der Parameter und der Verfügbarkeit ausreichender Trainingsdaten maßgeblich beeinflusst. Sie unterstützen auch Entscheidungen darüber, wie das Rechenbudget zwischen Modellarchitekturen und verfügbaren Trainingsdaten aufgeteilt werden soll.
Das Verständnis dieser Zusammenhänge ist unerlässlich, da Organisationen auf Skalierungsgesetze von Sprachmodellen angewiesen sind, um die erreichbaren Leistungssteigerungen durch die Skalierung von Modellparametern oder die Erfassung weiterer Trainingsdaten vorherzusagen. Sie helfen Teams auch dabei zu erkennen, wann kleinere, mit mehr Daten trainierte Modelle eine ähnliche Leistung wie größere, untertrainierte Modelle erbringen können.
Sie sollten prüfen, ob die Anbieter die Modellparameter an die Menge der Trainingsdaten anpassen und die Inferenzkosten bei der Auswahl berücksichtigen. Modelle, die mit rechenoptimaler Skalierung trainiert werden, erreichen oft die Leistung größerer Modelle bei gleichzeitig reduzierten Betriebskosten.
Teams können kleinere Modelle trainieren und Skalierungsgesetze anwenden, um die Leistung größerer Modelle vorherzusagen. Multiskilling-Skalierung zeigt, dass wenige grundlegende Fähigkeiten die Leistung über verschiedene Benchmarks hinweg bestimmen. Dies hilft, unproduktive Trainingsläufe zu vermeiden und die Rechenressourcen optimal zu verteilen.
Sie sollten die Trends der Parametereffizienz verfolgen, um Modelle zu identifizieren, die mit weniger Parametern eine höhere Leistung erzielen. Verbesserungen der Architektur und der Trainingsalgorithmen spielen dabei eine wichtige Rolle, daher sollte die Modellauswahl den Fokus auf die Gesamtleistungssteigerung und nicht allein auf die Parameteranzahl legen.
Seien Sie der Erste, der kommentiert
Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.