What are the LLM scaling laws?

Large language models are trained as neural language models that predict the next token in natural language. The term LLM scaling laws describes empirical regularities that link model performance to model size, training data, and compute resources. These relationships are defined as power-law functions in the academic literature. They imply that language model performance improves predictably when researchers allocate more computational resources to model parameters and training data size.The foundational idea in the literature is that model loss decreases when models are given more parameters, more training tokens, and more compute. These rules have shaped how researchers train larger models and evaluate the trade-off between the number of parameters and the availability of sufficient training data. They also support decisions on how to allocate a compute budget between model architectures and available training data.Understanding these relationships is essential because organizations rely on language model scaling laws to forecast achievable performance gains from scaling model parameters or collecting more training data. They also help teams identify when smaller models trained on more data may offer similar performance to larger models that are undertrained.

How can organizations use compute optimal training principles?

They should check whether vendors align model parameters with the amount of training data and consider inference cost during selection. Models trained with compute-optimal scaling often match the performance of larger models while reducing operational costs.

How can teams use skill-based scaling to plan training?

Teams can train smaller models and fit scaling laws to predict how larger models will perform. Multi-skilling scaling shows that a few underlying skills drive performance across benchmarks, helping avoid unproductive training runs and guiding compute allocation.

How should organizations use efficiency and density insights?

They should track parameter efficiency trends to identify models that deliver stronger performance with fewer parameters. Improvements in architecture and training algorithms play a major role, so model selection should focus on overall performance gains rather than parameter count alone.

KI KI-Modelle LLMs

LLM-Skalierungsgesetze: Analyse von KI-Forschern

Sıla Ermut

aktualisiert am Mai 22, 2026

Siehe unsere ethischen Normen

Große Sprachmodelle sagen das nächste Token anhand von Mustern voraus, die aus Textdaten gelernt wurden. Der Begriff „Skalierungsgesetze großer Sprachmodelle“ bezeichnet empirische Regelmäßigkeiten, die die Modellleistung mit dem Rechenaufwand, den Trainingsdaten und den während des Trainings verwendeten Modellparametern verknüpfen.

Um zu verstehen, wie diese Zusammenhänge die Entwicklung moderner Modelle in der Praxis beeinflussen, haben wir Ergebnisse aus fünf wissenschaftlichen Artikeln sowie Erkenntnisse aus drei großen KI-Laboren und von Forschern ausgewertet.

Wichtigste Erkenntnisse

Führende Forscher stimmen in folgenden zentralen Erkenntnissen überein:

Die Leistungsfähigkeit des Modells hängt nicht allein von der Anzahl der Parameter ab. Datenmenge und -qualität sind gleichermaßen entscheidend.
Skalierungsentscheidungen sollten auf den Aufgabenanforderungen basieren und nicht auf der Annahme, dass größere Modelle immer besser sind.
Parametereffiziente Architekturen können bei geringeren Trainings- und Inferenzkosten eine wettbewerbsfähige Leistung erzielen.
In realen Anwendungen können die Kosten für die Inferenz die Trainingskosten übersteigen und sollten bei der Wahl der Modellgröße berücksichtigt werden.

Erkenntnisse aus der akademischen Skalierungsgesetzforschung

Papier	Jahr	Was wird skaliert?	Optimierungsziel	Wichtigste Erkenntnis	Praktische Auswirkungen
Skalierungsgesetze für neuronale Sprachmodelle	2020	Parameter, Trainingstoken, Berechnung	Minimierung des Verlusts bei festem Rechenaufwand	Optimale Leistung folgt einer Potenzgesetz-Skalierung	Größere Modelle helfen nur bei ausreichenden Daten und Rechenkapazitäten.
Training rechenoptimaler großer Sprachmodelle	2022	Parameter vs. Trainingstoken	Minimiere den Verlust bei festem Trainingsrechner	Viele große Modelle sind unzureichend trainiert.	Kleinere Modelle, die länger trainiert werden, können größere Modelle übertreffen.
Jenseits von Chinchilla-Optimal	2025	Parameter, Inferenzberechnung	Minimierung der gesamten Lebenszykluskosten (Training und Inferenz)	Inferenzintensive Anwendungen begünstigen kleinere Modelle	Der Einsatzkontext ist genauso wichtig wie die Ausbildung.
Faultier	2025	Latente Fähigkeiten vs. Parameter und Daten	Benchmark-Leistung vorhersagen	Leistung wird durch wenige latente Fähigkeiten bestimmt	Ermöglicht Vorhersagen ohne das Training riesiger Modelle
Verdichtungsgesetz von LLMs	2025	Effektive vs. tatsächliche Parameter	Messen Sie die Parametereffizienz im Laufe der Zeit	Die Parametereffizienz verbessert sich ständig.	Die Vorteile ergeben sich aus besseren Architekturen und Schulungen, nicht nur aus der Skalierung.

„Skalierungsgesetze für neuronale Sprachmodelle“, Kaplan & McCandlish, 2020

Kaplan et al. stellten die ersten vielfach zitierten Skalierungsgesetze für neuronale Sprachmodelle vor.

In ihrer Analyse folgen die Modellleistungs-Beziehungen in Bezug auf drei Schlüsselvariablen: die Anzahl der Modellparameter , die Größe des Trainingsdatensatzes (gemessen in Token) und den gesamten Trainingsrechenaufwand.

Durch die systematische Variation dieser drei Faktoren konnten die Autoren zeigen, dass eine Erhöhung eines einzigen Faktors zu vorhersehbaren Reduzierungen der Verluste führt, vorausgesetzt, die anderen werden entsprechend angepasst.

Abbildung 1: Die Abbildung zeigt, wie sich der Testverlust mit der Modellgröße bei unterschiedlichen Rechenbudgets und Trainingsschrittanzahlen verändert und verdeutlicht das optimale Gleichgewicht zwischen Modellgröße, Rechenaufwand und Trainingsdauer für die beste Leistung.

Diese Arbeit legte den Grundstein für spätere Forschungen zu Skalierungsgesetzen von Sprachmodellen. Sie zeigte außerdem, dass Modellform und -tiefe bei konstantem Rechenaufwand einen geringeren Einfluss haben als die Gesamtzahl der Parameter und die Anzahl der Trainingstoken. Diese Erkenntnis beeinflusste die Entwicklung von Trainingsalgorithmen für große Sprachmodelle durch nachfolgende Forscher. ¹

„Training Compute-Optimal Large Language Models“, Hoffmann, Borgeaud & Mensch, 2022

Diese Arbeit überprüft die bisherigen Gesetze für neuronale Sprachmodelle anhand einer großen Anzahl kontrollierter Experimente. Sie modelliert den Verlust als gemeinsame Funktion der Modellparameter und der Größe der Trainingsdaten und stellt fest, dass viele frühere große Modelle im Verhältnis zu ihrer Parameteranzahl untertrainiert waren. Wenn Forscher größere Modelle mit unzureichenden Trainingsdaten trainieren, entspricht die resultierende Modellqualität nicht den Vorhersagen traditioneller Skalierungsgesetze.

Die Autoren zeigen, dass bei einem festen Rechenbudget optimale Leistung erzielt wird, wenn Modelle Parameter- und Trainingstokenanzahlen ähnlicher Größenordnung verwenden. Dieses Ergebnis ist allgemein als Chinchilla-Skalierungsgesetz bekannt. Es besagt, dass die Berechnung des optimalen Trainings ein nahezu proportionales Verhältnis zwischen der Anzahl der Parameter und der Anzahl der Trainingstoken erfordert.

Dieser Ansatz erzeugt kleinere Modelle, die mit begrenzten Daten besser abschneiden als größere Modelle. Er unterstützt zudem eine effiziente Modellauswahl, da Forschende Skalierungsgesetze an kleinere Modelle anpassen und die Leistung von Sprachmodellen für größere Konfigurationen vor dem Training vorhersagen können.

Abbildung 2: Die Abbildung zeigt überlagert Vorhersagen aus verschiedenen Methoden. Alle Ergebnisse deuten darauf hin, dass die heutigen großen Modelle überdimensioniert sind und stattdessen kleiner sein und länger trainiert werden sollten. ²

„Jenseits des Chinchilla-Optimalmodells: Berücksichtigung von Inferenz in Skalierungsgesetzen von Sprachmodellen“, Sardana, Portes & Doubov, 2025

Sardana et al. erweitern das Chinchilla-Framework, indem sie Inferenzkosten in die rechenoptimale Skalierung einbeziehen.

Anstatt nur den Rechenaufwand für das Training zu minimieren, legen sie ein Zielleistungsniveau fest und optimieren die kombinierten Kosten für Training und Inferenz über die gesamte Lebensdauer des Modells.

Diese Verschiebung führt zu einer wichtigen praktischen Erkenntnis: In Umgebungen mit hoher Auslastung können kleinere Modelle, die mit mehr Daten trainiert werden, oft die Leistung größerer Modelle erreichen und dabei geringere Gesamtkosten für die Rechenleistung verursachen.

Abbildung 3: Die Diagramme vergleichen die Verhältnisse von Gesamtkosten, Parameteranzahl und Trainings-Tokens zwischen realen kostenoptimalen Modellen und Modellen im Chinchilla-Stil. ³

„Sloth: Scaling laws for LLM skills to predict multi-benchmark performance across families“, Polo, Somerstep & Choshen, 2025

Sloth führt einen neuen Ansatz zur Modellierung von Skalierungsgesetzen für große Sprachmodelle ein, indem der Fokus von Modellverlusten auf die Leistung auf Benchmark-Ebene verlagert wird. Anstatt Aufgaben separat zu betrachten, identifiziert Sloth eine Reihe latenter Fähigkeiten, die die Leistung von Sprachmodellen über verschiedene Benchmarks hinweg erfassen. Diese Fähigkeiten repräsentieren allgemeine Fertigkeiten wie logisches Denken oder Wissensabruf.

Das Framework modelliert, wie sich die einzelnen Fähigkeiten mit den Modellparametern und den Trainingsdaten verändern. Sloth verwendet einfache Merkmale, wie beispielsweise die Logarithmen der Modell- und Datensatzgröße, um zu beschreiben, wie sich diese Fähigkeiten innerhalb einer Modellfamilie verändern. Nach der Anpassung kann Sloth vorhersagen, wie größere Modelle derselben Familie auf vielen Benchmarks abschneiden, ohne dass diese trainiert werden müssen.

Mithilfe der Vorhersagen von Sloth können Organisationen entscheiden, wo sie Rechenressourcen einsetzen und Trainingskonfigurationen vermeiden, die voraussichtlich nicht die gewünschte Leistung erbringen. Dies unterstützt eine rationalere Planung des Modelltrainings unter realen Rahmenbedingungen. ⁴

„Verdichtungsgesetz von LLMs“, Xiao, Cai & Zhao, 2025

Die vorliegende Arbeit untersucht die Effizienz der Parameternutzung in Modellen. Sie führt das Konzept der Fähigkeitsdichte ein, definiert als das Verhältnis der effektiven zur tatsächlichen Parameteranzahl eines Modells. Die effektive Parameteranzahl wird geschätzt, indem Skalierungsgesetze an bestehende Modelle angepasst und die Frage gestellt wird, wie groß ein Referenzmodell sein müsste, um die aktuelle Leistung zu erreichen.

Die Autoren stellen fest, dass die besten Modelle zu jedem Zeitpunkt eine steigende Fähigkeitsdichte aufweisen. Dies bedeutet, dass neuere Modelle eine bestimmte Leistung mit weniger Parametern erreichen als ältere Modelle. Der Trend verläuft im Zeitverlauf annähernd exponentiell.

Diese Beobachtung legt nahe, dass Fortschritte bei großen Sprachmodellen nicht nur von der Skalierung der Modellgröße abhängen, sondern auch von der Verbesserung der Modellarchitektur, der Qualität der Trainingsdaten und der Trainingsalgorithmen. Die Arbeit argumentiert, dass die Überwachung der Parametereffizienz unerlässlich ist, um zukünftige Entwicklungen in der Verarbeitung natürlicher Sprache und im maschinellen Lernen zu verstehen.

Abbildung 4: Die Grafik zeigt die geschätzte Fähigkeitsdichte für Open-Source-basierte LLMs über fünf Reasoning- und Coding-Benchmarks hinweg, wobei die Kreisgröße die Anzahl der Modellparameter angibt und eine Trendlinie ein „Verdichtungsgesetz“ nahelegt, nach dem die maximale Fähigkeitsdichte mit der Zeit exponentiell ansteigt. ⁵

LLM-Skalierungsgesetze: Meinungen führender KI-Labore und Forscher

Über die akademischen Skalierungsgesetze hinaus betonen Forscher und Praktiker aus der Industrie, wie sich diese Prinzipien in die Entwicklung und den Einsatz realer Modelle übertragen lassen.

Die folgenden Perspektiven veranschaulichen, wie verschiedene Interessengruppen, von Hardwareanbietern bis hin zu angewandten Forschern, Skalierungsgesetze in der Praxis interpretieren und anwenden.

NVIDIA, 2025

Aus infrastruktureller Sicht präsentiert NVIDIA Skalierungsgesetze als praktische Werkzeuge für die Entwicklung und das Training großer Sprachmodelle. Dabei werden drei primäre Skalierungsachsen hervorgehoben:

Modellgröße.
Datensatzgröße.
Rechenressourcen.

Gemäß NVIDIA führt die Skalierung eines dieser Faktoren im richtigen Bereich zu vorhersehbaren Verbesserungen der Modellqualität.

Der Artikel betont zudem die Bedeutung der Testzeitberechnung. Moderne Systeme verwenden mehr Zeit für Inferenzprozesse mithilfe von Techniken wie erweiterten Schlussfolgerungssequenzen. Dies erweitert die Skalierungsgesetze um eine neue Dimension und geht über den ursprünglichen Fokus auf Trainingstoken und Modellparameter hinaus.

NVIDIA nutzt diese Ideen, um zu erklären, warum der Bedarf an Rechenressourcen weiter steigt, obwohl Modelle parametereffizienter werden. Es wird angenommen, dass sowohl Training als auch Inferenz auch in zukünftigen Systemen zur Verarbeitung natürlicher Sprache wesentliche Treiber des Rechenaufwands bleiben werden. ⁶

Cameron Wolfe, LLM-Forscher bei Netflix, 2025

Aus der Sicht eines Praktikers erklärt Cameron Wolfe, wie die ursprünglichen Potenzgesetzbeziehungen aus der akademischen Literatur auf aktuelle Modelle anwendbar sind und wie Praktiker diese Kurven nutzen können, um die erreichbare Modellleistung abzuschätzen, bevor sie größere Modelle trainieren.

Wolfe erörtert die Rolle von Modellform und -architektur bei der Skalierung und merkt an, dass sich traditionelle Skalierungsgesetze zwar auf die Parameteranzahl konzentrieren, praktische Systeme aber auch die Datenqualität und Trainingsalgorithmen berücksichtigen müssen. Der Artikel beleuchtet Bedenken hinsichtlich der Verfügbarkeit hochwertiger Daten und wie diese Einschränkungen das Training zukünftiger, größerer Modelle beeinflussen können.

Die Diskussion stellt Skalierungsgesetze als Leitfaden für die Bewertung bestehender Modelle und für die Abschätzung vor, wie sich die Modellleistung verändern kann, wenn die Trainingsdaten erweitert oder die Modellparameter angepasst werden. ⁷

MIT-IBM Watson AI Lab, 2025

Aus methodischer Sicht analysieren die Forscher des MIT Watson AI Lab Skalierungsgesetze über verschiedene Architekturen und Datensätze hinweg.

Die Forscher erstellten einen umfangreichen Metadatensatz mit 485 vortrainierten Modellen, detaillierten Trainingsmetadaten und über einer Million Leistungsmessungen. Dieser Datensatz dient dazu, über 1.000 Skalierungsgesetze zu testen und Muster zu identifizieren, die sich auf verschiedene Modellfamilien übertragen lassen.

Die Studie beschreibt klare Schritte zur Anpassung von Skalierungsgesetzen unter Berücksichtigung von Rechenbeschränkungen. Sie empfiehlt, ein Rechenbudget und eine Zielvorgabe für die Leistung festzulegen und anschließend eine kleine Anzahl von Modellen unterschiedlicher Größe zu trainieren, anstatt sich auf die größten Modelle zu konzentrieren. Zwischenergebnisse werden als wertvolle Informationsquellen hervorgehoben, während sehr frühe Trainingsdaten aufgrund von Rauschen nicht empfohlen werden.

Die Autoren zeigen, dass sich die Vorhersagen bei Einhaltung dieser Richtlinien der durch die Variabilität der Zufallsstartwerte festgelegten unteren Grenze annähern können. Selbst bei weniger präzisen Vorhersagen bleiben Skalierungsgesetze nützlich, um Trainingsoptionen zu vergleichen und vielversprechende Konfigurationen zu identifizieren.

Die Arbeit stellt fest, dass die Leistung zwischen den verschiedenen Modellfamilien erheblich variiert, was die Bedeutung der Verwendung unterschiedlicher Trainingsumgebungen bei der Anpassung von Skalierungsgesetzen unterstreicht. ⁸

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Folgen auf

Was sagen führende Forscher über die Zukunft der Skalierung?

Ansichten, die die fortgesetzte Gültigkeit von Skalierungsgesetzen unterstützen

In der gesamten Forschungslandschaft finden sich übereinstimmende Belege dafür, dass Skalierungsgesetze innerhalb der untersuchten Bereiche gelten. Grundlagenarbeiten zeigen klare Potenzgesetzbeziehungen zwischen Modellparametern, Trainingsdatengröße und Trainingsrechenaufwand, wenn Modelle in ausgewogenen Umgebungen trainiert werden.

Spätere Studien verfeinern dieses Bild, indem sie zeigen, dass die Berechnung des optimalen Trainings die Angleichung der Modellgröße an das Volumen der Trainings-Token erfordert und dass diese Angleichung die Modellleistung im Vergleich zu früheren Ansätzen verbessert.

Weitere Untersuchungen zur Multitasking-Evaluierung zeigen, dass die Benchmark-Performance auch dann erwartungsgemäß skaliert, wenn sie anhand einer kleineren Anzahl latenter Fähigkeiten ausgedrückt wird. Dies bestärkt die Ansicht, dass Skalierungsgesetze für Sprachmodelle weiterhin zuverlässige Instrumente zur Prognose der Modellleistung darstellen, sofern Datensatzgröße und Rechenressourcen angemessen verteilt werden.

Ansichten, die eine effiziente Rechenzuweisung betonen

Ein zweiter Forschungsansatz argumentiert, dass der Fortschritt zunehmend von der Verteilung der Rechenleistung abhängt und nicht mehr allein von der Erhöhung der Parameteranzahl. Analysen des rechenoptimalen Trainings zeigen, dass Modelle ausreichend Trainingsdaten benötigen, um ihr volles Potenzial auszuschöpfen, und dass größere Modelle, die mit begrenzten Daten trainiert werden, oft ineffizient sind.

Arbeiten, die Inferenzkosten einbeziehen, erweitern diese Idee, indem sie zeigen, dass die Gesamtkosten eines Modells sowohl von der Rechenleistung für das Training als auch von der Rechenleistung für die Inferenzzeit abhängen.

Diese Perspektive legt nahe, dass zukünftige Skalierungsbemühungen effiziente Konfigurationen in den Vordergrund stellen werden, die Modellgröße, Trainings-Token und das erwartete Inferenzvolumen gemeinsam optimieren. Sie betrachtet den Entwurf großer Sprachmodelle als eine Übung in der Rechenressourcenallokation und nicht als ein Streben nach maximalem Parameterwachstum.

Ansichten, die die wachsende Bedeutung von Effizienz und Dichte betonen.

Ein anderer Blickwinkel konzentriert sich auf die Parametereffizienz und die effektive Nutzung von Rechenressourcen. Untersuchungen zur Parameterdichte zeigen, dass neuere Modelle mit weniger Parametern eine höhere Leistung erzielen als ältere Modelle. Dies deutet darauf hin, dass architektonische Verbesserungen, Datenqualität und Trainingsalgorithmen maßgeblich zu Leistungssteigerungen beitragen.

Die technischen Kommentare unterstreichen zudem die wachsende Bedeutung des Inferenzverhaltens und der Verbesserungen nach dem Training. Zusammengenommen deuten diese Erkenntnisse darauf hin, dass zukünftige Systeme eher auf effizientes Modelldesign und bessere Trainingsmethoden als auf eine unkontrollierte Erhöhung der Parameteranzahl setzen werden. Der Fokus verschiebt sich von größeren Modellen hin zu leistungsfähigeren Modellen, die ihre Parameter effektiver nutzen.

Einschränkungen für die zukünftige Skalierung von LLM

Berechnungs- und Energiegrenzen

Ein wiederkehrendes Thema in der Fachliteratur ist der hohe Rechenaufwand, der für das Training und den Einsatz großer Sprachmodelle erforderlich ist. Das Training großer Modelle beansprucht erhebliche Rechenressourcen, während die Inferenz in großem Umfang beträchtliche Betriebskosten verursacht.

Diese Faktoren setzen der Skalierung wirtschaftliche Grenzen, selbst wenn theoretische Skalierungsgesetze weitere Verbesserungen nahelegen. Mit zunehmender Modellgröße werden Energieverbrauch und Hardwareanforderungen immer schwieriger zu handhaben.

Einschränkungen der Datenverfügbarkeit

Eine weitere Einschränkung ist die Verfügbarkeit qualitativ hochwertiger Daten. Traditionelle Formulierungen von Skalierungsgesetzen setzen den Zugriff auf umfangreiche Trainingsdaten voraus, diese Annahme ist jedoch nicht mehr verlässlich.

Mehrere Analysen weisen auf das begrenzte Angebot an qualitativ hochwertigen Texten und den steigenden Bedarf an kuratierten oder synthetischen Daten hin. Da die Größe der Trainingsdaten zu einem limitierenden Faktor wird, ist die Datenqualität für die Bestimmung der Modellleistung ebenso entscheidend wie die Anzahl der Parameter.

Wirtschaftliche und rechnerische Budgetbeschränkungen

Die praktische Skalierung ist nicht nur durch technische Faktoren, sondern auch durch finanzielle und organisatorische Erwägungen begrenzt. Untersuchungen zur Leistungsprognose zeigen, dass eine sorgfältige Budgetplanung für Rechenressourcen unerlässlich ist, um zu bestimmen, welche Trainingsläufe durchführbar sind.

Kommentare zu Branchenpraktiken verdeutlichen die steigenden Rechenkosten und die Notwendigkeit für Unternehmen, ihre Ressourcen sorgfältig zuzuweisen. Diese Faktoren begrenzen das Ausmaß, in dem eine Skalierung in realen Umgebungen möglich ist.

Algorithmische und architektonische Beschränkungen

Die Forschung zu Skalierungsgesetzen betont, dass vorhersehbare Verbesserungen nur dann auftreten, wenn Modelle in ausgewogenen Umgebungen trainiert werden. Arbeiten, die die Parametereffizienz analysieren, zeigen, dass architektonische Fortschritte die Beziehung zwischen Modellgröße und Leistung verändern können.

Weitere Kommentare zeigen, dass Trainingsalgorithmen die Wirksamkeit von Skalierungsgesetzen beeinflussen. Diese Erkenntnisse implizieren, dass eine einfache Parameterskalierung nicht unbegrenzt fortgesetzt werden kann und der Fortschritt zunehmend von neuen Trainingsmethoden und Modellarchitekturen abhängen wird.

FAQs

Große Sprachmodelle werden als neuronale Sprachmodelle trainiert, die das nächste Token in natürlicher Sprache vorhersagen. Die sogenannten Skalierungsgesetze großer Sprachmodelle beschreiben empirische Regelmäßigkeiten, die die Modellleistung mit der Modellgröße, den Trainingsdaten und den verfügbaren Rechenressourcen verknüpfen. Diese Zusammenhänge werden in der Fachliteratur als Potenzgesetzfunktionen definiert. Sie implizieren, dass sich die Leistung von Sprachmodellen vorhersagbar verbessert, wenn Forschende mehr Rechenressourcen für Modellparameter und die Größe der Trainingsdaten bereitstellen.

Die grundlegende Idee in der Literatur besagt, dass der Modellverlust sinkt, wenn Modelle mehr Parameter, mehr Trainingsdaten und mehr Rechenleistung erhalten. Diese Regeln haben die Vorgehensweise von Forschern beim Training größerer Modelle und bei der Bewertung des Kompromisses zwischen der Anzahl der Parameter und der Verfügbarkeit ausreichender Trainingsdaten maßgeblich beeinflusst. Sie unterstützen auch Entscheidungen darüber, wie das Rechenbudget zwischen Modellarchitekturen und verfügbaren Trainingsdaten aufgeteilt werden soll.

Das Verständnis dieser Zusammenhänge ist unerlässlich, da Organisationen auf Skalierungsgesetze von Sprachmodellen angewiesen sind, um die erreichbaren Leistungssteigerungen durch die Skalierung von Modellparametern oder die Erfassung weiterer Trainingsdaten vorherzusagen. Sie helfen Teams auch dabei zu erkennen, wann kleinere, mit mehr Daten trainierte Modelle eine ähnliche Leistung wie größere, untertrainierte Modelle erbringen können.

Sie sollten prüfen, ob die Anbieter die Modellparameter an die Menge der Trainingsdaten anpassen und die Inferenzkosten bei der Auswahl berücksichtigen. Modelle, die mit rechenoptimaler Skalierung trainiert werden, erreichen oft die Leistung größerer Modelle bei gleichzeitig reduzierten Betriebskosten.

Teams können kleinere Modelle trainieren und Skalierungsgesetze anwenden, um die Leistung größerer Modelle vorherzusagen. Multiskilling-Skalierung zeigt, dass wenige grundlegende Fähigkeiten die Leistung über verschiedene Benchmarks hinweg bestimmen. Dies hilft, unproduktive Trainingsläufe zu vermeiden und die Rechenressourcen optimal zu verteilen.

Sie sollten die Trends der Parametereffizienz verfolgen, um Modelle zu identifizieren, die mit weniger Parametern eine höhere Leistung erzielen. Verbesserungen der Architektur und der Trainingsalgorithmen spielen dabei eine wichtige Rolle, daher sollte die Modellauswahl den Fokus auf die Gesamtleistungssteigerung und nicht allein auf die Parameteranzahl legen.

Referenzlinks

https://arxiv.org/pdf/2509.25300

https://arxiv.org/pdf/2510.18245

Densing law of LLMs | Nature Machine Intelligence

Nature Publishing Group UK

https://arxiv.org/pdf/2412.06540

https://arxiv.org/pdf/2401.00448

Can AI scaling continue through 2030? | Epoch AI

https://arxiv.org/pdf/2203.15556

https://arxiv.org/pdf/2001.08361

Sıla Ermut

Branchenanalyst

Folgen auf

Sıla Ermut ist Branchenanalystin bei AIMultiple und spezialisiert auf E-Mail-Marketing und Vertriebsvideos. Zuvor war sie als Personalberaterin in Projektmanagement- und Beratungsunternehmen tätig. Sıla hat einen Master of Science in Sozialpsychologie und einen Bachelor of Arts in Internationalen Beziehungen.

Vollständiges Profil anzeigen

Seien Sie der Erste, der kommentiert

Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.

Als nächstes lesen

KI-AgentenMai 22

LLM-Skalierungsgesetze: Analyse von KI-Forschern

Wichtigste Erkenntnisse

Erkenntnisse aus der akademischen Skalierungsgesetzforschung

„Skalierungsgesetze für neuronale Sprachmodelle“, Kaplan & McCandlish, 2020

„Training Compute-Optimal Large Language Models“, Hoffmann, Borgeaud & Mensch, 2022

„Jenseits des Chinchilla-Optimalmodells: Berücksichtigung von Inferenz in Skalierungsgesetzen von Sprachmodellen“, Sardana, Portes & Doubov, 2025

„Sloth: Scaling laws for LLM skills to predict multi-benchmark performance across families“, Polo, Somerstep & Choshen, 2025

„Verdichtungsgesetz von LLMs“, Xiao, Cai & Zhao, 2025

LLM-Skalierungsgesetze: Meinungen führender KI-Labore und Forscher

NVIDIA, 2025

Cameron Wolfe, LLM-Forscher bei Netflix, 2025

MIT-IBM Watson AI Lab, 2025

Was sagen führende Forscher über die Zukunft der Skalierung?

Ansichten, die die fortgesetzte Gültigkeit von Skalierungsgesetzen unterstützen

Ansichten, die eine effiziente Rechenzuweisung betonen

Ansichten, die die wachsende Bedeutung von Effizienz und Dichte betonen.

Einschränkungen für die zukünftige Skalierung von LLM

Berechnungs- und Energiegrenzen

Einschränkungen der Datenverfügbarkeit

Wirtschaftliche und rechnerische Budgetbeschränkungen

Algorithmische und architektonische Beschränkungen

FAQs

Referenzlinks

Seien Sie der Erste, der kommentiert

Als nächstes lesen

Agentic LLM Benchmark: Die 13 besten LLM-Programme im Vergleich

LLM-Inferenzmaschinen: vLLM vs. LMDeploy vs. SGLang

Die Evaluierungslandschaft mit Rahmenwerken (LLM)

LCMs: Von der Tokenisierung auf LLM-Ebene zur Repräsentation auf Konzeptebene

Die besten LLMs für Extended Context Windows im Jahr 2026

LLM-Parameter: GPT-5 Hoch, Mittel, Niedrig und Minimal

LLM-Skalierungsgesetze: Analyse von KI-Forschern

Wichtigste Erkenntnisse

Erkenntnisse aus der akademischen Skalierungsgesetzforschung

„Skalierungsgesetze für neuronale Sprachmodelle“, Kaplan & McCandlish, 2020

„Training Compute-Optimal Large Language Models“, Hoffmann, Borgeaud & Mensch, 2022

„Jenseits des Chinchilla-Optimalmodells: Berücksichtigung von Inferenz in Skalierungsgesetzen von Sprachmodellen“, Sardana, Portes & Doubov, 2025

„Sloth: Scaling laws for LLM skills to predict multi-benchmark performance across families“, Polo, Somerstep & Choshen, 2025

„Verdichtungsgesetz von LLMs“, Xiao, Cai & Zhao, 2025

LLM-Skalierungsgesetze: Meinungen führender KI-Labore und Forscher

NVIDIA, 2025

Cameron Wolfe, LLM-Forscher bei Netflix, 2025

MIT-IBM Watson AI Lab, 2025

Was sagen führende Forscher über die Zukunft der Skalierung?

Ansichten, die die fortgesetzte Gültigkeit von Skalierungsgesetzen unterstützen

Ansichten, die eine effiziente Rechenzuweisung betonen

Ansichten, die die wachsende Bedeutung von Effizienz und Dichte betonen.

Einschränkungen für die zukünftige Skalierung von LLM

Berechnungs- und Energiegrenzen

Einschränkungen der Datenverfügbarkeit

Wirtschaftliche und rechnerische Budgetbeschränkungen

Algorithmische und architektonische Beschränkungen

FAQs

Was sind die Skalierungsgesetze des LLM?

Wie können Organisationen computergestützte, optimale Trainingsprinzipien nutzen?

Wie können Teams kompetenzbasierte Skalierung zur Trainingsplanung nutzen?

Wie sollten Organisationen Erkenntnisse über Effizienz und Dichte nutzen?

Referenzlinks

Seien Sie der Erste, der kommentiert

Als nächstes lesen

Agentic LLM Benchmark: Die 13 besten LLM-Programme im Vergleich

LLM-Inferenzmaschinen: vLLM vs. LMDeploy vs. SGLang

Die Evaluierungslandschaft mit Rahmenwerken (LLM)

LCMs: Von der Tokenisierung auf LLM-Ebene zur Repräsentation auf Konzeptebene

Die besten LLMs für Extended Context Windows im Jahr 2026

LLM-Parameter: GPT-5 Hoch, Mittel, Niedrig und Minimal