What are the LLM scaling laws?

Large language models are trained as neural language models that predict the next token in natural language. The term LLM scaling laws describes empirical regularities that link model performance to model size, training data, and compute resources. These relationships are defined as power-law functions in the academic literature. They imply that language model performance improves predictably when researchers allocate more computational resources to model parameters and training data size.The foundational idea in the literature is that model loss decreases when models are given more parameters, more training tokens, and more compute. These rules have shaped how researchers train larger models and evaluate the trade-off between the number of parameters and the availability of sufficient training data. They also support decisions on how to allocate a compute budget between model architectures and available training data.Understanding these relationships is essential because organizations rely on language model scaling laws to forecast achievable performance gains from scaling model parameters or collecting more training data. They also help teams identify when smaller models trained on more data may offer similar performance to larger models that are undertrained.

How can organizations use compute optimal training principles?

They should check whether vendors align model parameters with the amount of training data and consider inference cost during selection. Models trained with compute-optimal scaling often match the performance of larger models while reducing operational costs.

How can teams use skill-based scaling to plan training?

Teams can train smaller models and fit scaling laws to predict how larger models will perform. Multi-skilling scaling shows that a few underlying skills drive performance across benchmarks, helping avoid unproductive training runs and guiding compute allocation.

How should organizations use efficiency and density insights?

They should track parameter efficiency trends to identify models that deliver stronger performance with fewer parameters. Improvements in architecture and training algorithms play a major role, so model selection should focus on overall performance gains rather than parameter count alone.

IA Modèles d'IA LLM

Lois d'échelle LLM : Analyse par des chercheurs en IA

Sıla Ermut

mis à jour le Mai 22, 2026

Consultez notre normes éthiques

Les grands modèles de langage prédisent le jeton suivant à partir de schémas appris dans les données textuelles. L'expression « lois d'échelle des grands modèles de langage » désigne les régularités empiriques qui lient les performances du modèle à la puissance de calcul, aux données d'entraînement et aux paramètres utilisés lors de l'entraînement.

Pour comprendre comment ces relations influencent en pratique la conception des modèles modernes, nous avons examiné les résultats de cinq articles universitaires et les analyses de trois grands laboratoires et chercheurs en IA.

Points clés à retenir

Les principaux chercheurs convergent vers les conclusions clés suivantes :

Les performances d'un modèle ne dépendent pas uniquement du nombre de paramètres. La quantité et la qualité des données sont tout aussi importantes.
Les décisions relatives à la mise à l'échelle doivent être fondées sur les exigences de la tâche plutôt que de supposer que les modèles plus grands sont toujours meilleurs.
Les architectures à faible consommation de paramètres peuvent atteindre des performances compétitives à des coûts d'entraînement et d'inférence inférieurs.
Dans les déploiements réels, les coûts d'inférence peuvent dépasser les coûts d'entraînement et doivent être pris en compte lors du choix de la taille du modèle.

Données issues de recherches universitaires sur le droit de l'échelle

Papier	Année	Qu'est-ce qui est mis à l'échelle	Objectif d'optimisation	Découverte clé	Implications pratiques
Lois d'échelle pour les modèles de langage neuronaux	2020	Paramètres, jetons d'entraînement, calcul	Minimiser les pertes sous puissance de calcul fixe	Les performances optimales suivent une loi d'échelle de puissance.	Les modèles plus grands ne sont utiles que lorsqu'il y a suffisamment de données et de calculs.
Entraînement de grands modèles de langage à calcul optimal	2022	Paramètres vs. jetons d'entraînement	Minimiser la perte avec un nombre de calculs d'entraînement fixe	De nombreux grands modèles sont sous-entraînés.	Des modèles plus petits, entraînés plus longtemps, peuvent être plus performants que des modèles plus grands.
Au-delà de l'optimum pour les chinchillas	2025	Paramètres, calcul d'inférence	Minimiser le coût total sur la durée de vie (entraînement et inférence)	Une utilisation intensive en inférences favorise les modèles plus petits	Le contexte de déploiement est tout aussi important que la formation.
Paresseux	2025	Compétences latentes vs paramètres et données	Prédire les performances de référence	Performances basées sur un petit nombre de compétences latentes	Permet la prédiction sans avoir à entraîner d'énormes modèles
Loi de densification des LLM	2025	Paramètres effectifs vs. paramètres réels	Mesurer l'efficacité des paramètres au fil du temps	L'efficacité des paramètres continue de s'améliorer.	Les gains proviennent d'architectures et d'une formation améliorées, et non pas seulement de la mise à l'échelle.

« Lois d’échelle pour les modèles de langage neuronaux », Kaplan et McCandlish, 2020

Kaplan et al. ont introduit les premières lois d'échelle largement citées pour les modèles de langage neuronaux.

Dans leur analyse, les performances du modèle suivent des relations de type loi de puissance par rapport à trois variables clés : le nombre de paramètres du modèle, la taille de l’ensemble de données d’entraînement (mesurée en jetons) et la puissance de calcul totale de l’entraînement.

En faisant varier systématiquement ces trois facteurs, les auteurs ont montré que l'augmentation de l'un d'entre eux entraîne des réductions prévisibles des pertes, à condition que les autres soient correctement ajustés.

Figure 1 : La figure montre comment la perte de test évolue avec la taille du modèle sous différents budgets de calcul et nombres d'étapes d'entraînement, révélant l'équilibre optimal entre la taille du modèle, le calcul et la durée d'entraînement pour une performance optimale.

Ces travaux ont jeté les bases des recherches ultérieures sur les lois de mise à l'échelle des modèles de langage. Ils ont également démontré que, pour une puissance de calcul donnée, la forme et la profondeur du modèle ont un impact moindre que le nombre total de paramètres et de jetons d'entraînement. Cette observation a influencé la conception ultérieure des algorithmes d'entraînement pour les grands modèles de langage. ¹

« Entraînement de grands modèles de langage à calcul optimal », Hoffmann, Borgeaud et Mensch, 2022

Cet article réévalue les lois antérieures relatives aux modèles neuronaux du langage à l'aide d'un vaste ensemble d'expériences contrôlées. Il modélise la perte comme une fonction conjointe des paramètres du modèle et de la taille des données d'entraînement, et constate que de nombreux modèles de grande taille utilisés précédemment étaient sous-entraînés compte tenu de leur nombre de paramètres. Lorsque les chercheurs entraînent des modèles de grande taille avec des données d'entraînement insuffisantes, la qualité du modèle obtenu ne correspond pas aux prédictions des lois d'échelle traditionnelles.

Les auteurs démontrent que, pour un budget de calcul donné, les performances optimales sont obtenues lorsque les modèles utilisent un nombre de paramètres et de jetons d'entraînement du même ordre de grandeur. Ce résultat est communément appelé loi d'échelle du chinchilla. Cette loi stipule que le calcul d'un entraînement optimal requiert une relation quasi proportionnelle entre le nombre de paramètres et le nombre de jetons d'entraînement.

Cette approche permet de produire des modèles plus petits et plus performants que des modèles plus grands entraînés sur des données limitées. Elle facilite également la sélection de modèles, car les chercheurs peuvent ajuster des lois d'échelle à des modèles plus petits et prédire les performances du modèle de langage pour des configurations plus importantes avant l'entraînement.

Figure 2 : Cette figure superpose les prédictions de plusieurs méthodes, indiquant toutes que les grands modèles actuels sont surdimensionnés et devraient plutôt être plus petits et entraînés plus longtemps. ²

« Au-delà de l'optimalité Chinchilla : prise en compte de l'inférence dans les lois de mise à l'échelle des modèles de langage », Sardana, Portes et Doubov, 2025

Sardana et al. étendent le cadre Chinchilla en intégrant les coûts d'inférence dans la mise à l'échelle optimale en termes de calcul.

Au lieu de minimiser uniquement le temps de calcul nécessaire à l'entraînement, ils fixent un niveau de performance cible et optimisent le coût combiné de l'entraînement et de l'inférence sur toute la durée de vie du modèle.

Ce changement conduit à une observation pratique importante : dans les contextes d’utilisation intensive, des modèles plus petits, entraînés sur davantage de données, peuvent souvent égaler les performances de modèles plus grands tout en engendrant des coûts de calcul totaux inférieurs.

Figure 3 : Les graphiques comparent les ratios de coût total, de nombre de paramètres et de jetons d'entraînement entre les modèles optimaux en termes de coûts du monde réel et les modèles de type Chinchilla. ³

« Paresse : Lois d’échelle des compétences LLM pour prédire les performances multi-référentielles au sein des familles », Polo, Somerstep et Choshen, 2025

Sloth propose une nouvelle approche de la modélisation des lois d'échelle pour les grands modèles de langage, en déplaçant l'attention de la perte du modèle vers les performances de référence. Au lieu de traiter les tâches séparément, Sloth identifie un ensemble de compétences latentes qui rendent compte des performances des modèles de langage sur différents benchmarks. Ces compétences représentent des capacités générales telles que le raisonnement ou la recherche de connaissances.

Ce cadre de travail modélise l'évolution de chaque compétence en fonction des paramètres du modèle et des données d'entraînement. Sloth utilise des caractéristiques simples, comme les logarithmes des tailles du modèle et de l'ensemble de données, pour décrire comment ces compétences évoluent au sein d'une même famille de modèles. Une fois entraîné, Sloth peut prédire les performances de modèles plus grands de la même famille sur de nombreux jeux de données de référence, sans nécessiter leur entraînement préalable.

Grâce aux prédictions de Sloth, les organisations peuvent optimiser l'allocation de leurs ressources de calcul et éviter les configurations d'entraînement peu susceptibles d'atteindre les performances escomptées. Ceci favorise une planification plus rationnelle de l'entraînement des modèles, en tenant compte des contraintes réelles. ⁴

« Loi de densité des LLM », Xiao, Cai & Zhao, 2025

Cet article examine l'efficacité avec laquelle les modèles utilisent leurs paramètres. Il introduit le concept de densité de capacité, définie comme le rapport entre le nombre effectif de paramètres d'un modèle et son nombre réel de paramètres. Le nombre effectif de paramètres est estimé en ajustant des lois d'échelle aux modèles existants et en déterminant la taille nécessaire d'un modèle de référence pour égaler les performances actuelles.

Les auteurs constatent que les meilleurs modèles, à chaque instant, présentent une densité de capacités croissante. Autrement dit, les modèles les plus récents atteignent une performance donnée avec moins de paramètres que les modèles plus anciens. Cette tendance semble quasi exponentielle au fil du temps.

Cette observation suggère que les progrès réalisés dans le domaine des grands modèles de langage ne se limitent pas à l'augmentation de la taille du modèle, mais concernent également l'amélioration de son architecture, de la qualité des données d'entraînement et des algorithmes d'apprentissage. L'article soutient que le suivi de l'efficacité des paramètres est essentiel pour comprendre les orientations futures du traitement automatique du langage naturel et de l'apprentissage automatique.

Figure 4 : Le graphique montre la densité de capacité estimée pour les LLM de base open-source sur cinq benchmarks de raisonnement et de codage, la taille du cercle indiquant le nombre de paramètres du modèle et une ligne de tendance suggérant une « loi de densification » dans laquelle la densité de capacité maximale augmente de façon exponentielle au fil du temps. ⁵

Avis des principaux laboratoires et chercheurs en IA sur les lois de mise à l'échelle (LLM)

Au-delà des lois de mise à l'échelle académiques, les chercheurs et les praticiens de l'industrie soulignent comment ces principes se traduisent par le développement et le déploiement de modèles dans le monde réel.

Les perspectives suivantes illustrent comment différents acteurs, des fournisseurs de matériel aux chercheurs appliqués, interprètent et appliquent concrètement les lois de mise à l'échelle.

NVIDIA, 2025

Du point de vue de l'infrastructure, NVIDIA présente les lois de mise à l'échelle comme des outils pratiques pour la conception et l'entraînement de grands modèles de langage. L'article met en évidence trois axes de mise à l'échelle principaux :

Taille du modèle.
Taille de l'ensemble de données.
Ressources informatiques.

Selon NVIDIA, la mise à l'échelle de l'un de ces facteurs dans le régime approprié entraîne des améliorations prévisibles de la qualité du modèle.

L'article souligne également l'importance du calcul lors des tests. Les systèmes modernes consacrent davantage de temps à l'inférence, notamment grâce à des techniques telles que les séquences de raisonnement étendues. Ceci confère une nouvelle dimension aux lois de mise à l'échelle, dépassant ainsi le cadre initial centré sur les jetons d'entraînement et les paramètres du modèle.

NVIDIA utilise ces idées pour expliquer pourquoi la demande en ressources de calcul continue de croître, même si les modèles deviennent plus efficaces en termes de paramètres. L'article suggère que l'entraînement et l'inférence resteront des facteurs déterminants de l'utilisation du calcul dans les futurs systèmes de traitement automatique du langage naturel. ⁶

Cameron Wolfe, chercheur en droit chez Netflix, 2025

Du point de vue du praticien, Cameron Wolfe explique comment les relations de loi de puissance originales de la littérature académique s'appliquent aux modèles actuels et comment les praticiens peuvent utiliser ces courbes pour estimer les performances réalisables du modèle avant d'entraîner des modèles plus grands.

Wolfe examine le rôle de la forme et de l'architecture du modèle dans la mise à l'échelle et souligne que, si les lois de mise à l'échelle traditionnelles se concentrent sur le nombre de paramètres, les systèmes pratiques doivent également prendre en compte la qualité des données et les algorithmes d'apprentissage. L'article met en lumière les difficultés liées à la disponibilité de données de haute qualité et la manière dont ces contraintes peuvent affecter l'apprentissage de futurs modèles plus vastes.

Cette discussion présente les lois d'échelle comme guide pour évaluer les modèles existants et pour estimer comment les performances du modèle peuvent évoluer lorsque les données d'entraînement sont élargies ou lorsque les paramètres du modèle sont ajustés. ⁷

MIT-IBM Watson AI Lab, 2025

Adoptant une perspective plus méthodologique, les chercheurs du laboratoire d'IA Watson du MIT analysent les lois d'échelle sur plusieurs architectures et ensembles de données.

Les chercheurs ont constitué un vaste ensemble de métadonnées comprenant 485 modèles pré-entraînés, des métadonnées d'entraînement détaillées et plus d'un million de mesures de performance. Cet ensemble de données a permis de tester plus de 1 000 lois d'échelle candidates et d'identifier des tendances générales pour différentes familles de modèles.

L'étude décrit des étapes claires pour l'ajustement des lois d'échelle sous contraintes de calcul. Elle recommande de définir un budget de calcul et une performance cible, puis d'entraîner un petit ensemble de modèles de tailles différentes plutôt que de se concentrer sur les modèles les plus grands. Les points de contrôle intermédiaires sont présentés comme des sources d'information précieuses, tandis que l'utilisation de données d'entraînement très précoces est déconseillée en raison du bruit.

Les auteurs démontrent que, lorsque ces recommandations sont suivies, les prédictions peuvent se rapprocher de la limite inférieure fixée par la variabilité des graines aléatoires. Même lorsque les prédictions sont moins précises, les lois d'échelle restent utiles pour comparer les options d'entraînement et identifier les configurations prometteuses.

L'étude souligne que les performances varient considérablement d'une famille de modèles à l'autre, ce qui renforce l'importance d'utiliser des paramètres d'entraînement diversifiés lors de l'ajustement des lois d'échelle. ⁸

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Suivre

Que disent les chercheurs de renom sur l'avenir de la mise à l'échelle ?

Points de vue soutenant le maintien de la validité des lois sur l'échelle

Dans l'ensemble du paysage de la recherche, il existe des preuves constantes que les lois d'échelle se vérifient dans les régimes testés. Des travaux fondamentaux mettent en évidence des relations de type loi de puissance claires entre les paramètres du modèle, la taille des données d'entraînement et la puissance de calcul nécessaire à l'entraînement, lorsque les modèles sont entraînés dans des conditions équilibrées.

Des études ultérieures précisent ce tableau en démontrant que l'entraînement optimal nécessite d'aligner la taille du modèle sur le volume de jetons d'entraînement, et que cet alignement améliore les performances du modèle par rapport aux approches précédentes.

Des travaux complémentaires sur l'évaluation multitâche montrent que les performances de référence évoluent également de manière prévisible lorsqu'elles sont exprimées en fonction d'un ensemble plus restreint de compétences latentes. Ceci conforte l'idée que les lois de mise à l'échelle des modèles de langage restent des outils fiables pour prévoir les performances des modèles lorsque la taille de l'ensemble de données et les ressources de calcul sont allouées de manière appropriée.

Points de vue mettant l'accent sur l'allocation efficace des ressources de calcul

Une seconde piste de recherche soutient que les progrès dépendent de plus en plus de la distribution de la puissance de calcul plutôt que de la seule augmentation du nombre de paramètres. Les analyses d'entraînement optimal montrent que les modèles nécessitent suffisamment de données d'entraînement pour atteindre leur plein potentiel et que les modèles plus volumineux entraînés sur des données limitées sont souvent inefficaces.

Les travaux qui intègrent les coûts d'inférence étendent cette idée en montrant que le coût total d'un modèle dépend à la fois du temps de calcul d'entraînement et du temps de calcul d'inférence.

Cette perspective suggère que les efforts futurs de mise à l'échelle privilégieront des configurations efficaces optimisant conjointement la taille du modèle, le nombre de jetons d'entraînement et le volume d'inférence attendu. Elle envisage la conception de grands modèles de langage comme un exercice d'allocation de ressources de calcul plutôt que comme une recherche d'une croissance maximale du nombre de paramètres.

Points de vue soulignant l'importance croissante de l'efficacité et de la densité

Un autre point de vue s'intéresse à l'efficacité des paramètres et à l'utilisation optimale des ressources de calcul. Les recherches sur la densité des paramètres montrent que les modèles récents atteignent de meilleures performances avec moins de paramètres que les modèles précédents. Cela indique que les améliorations architecturales, la qualité des données et les algorithmes d'apprentissage jouent un rôle déterminant dans les gains de performance.

Les commentaires techniques soulignent également l'importance croissante du comportement d'inférence et des améliorations post-entraînement. L'ensemble de ces résultats suggère que les systèmes futurs s'appuieront sur une conception de modèle efficace et de meilleures méthodes d'entraînement plutôt que sur une augmentation incontrôlée du nombre de paramètres. L'accent se déplace des modèles volumineux vers des modèles plus performants qui utilisent leurs paramètres de manière plus efficiente.

Contraintes sur la mise à l'échelle future des LLM

Limites de calcul et d'énergie

Un thème récurrent dans la littérature est la forte demande en puissance de calcul nécessaire à l'entraînement et au déploiement de grands modèles de langage. L'entraînement de ces modèles consomme d'importantes ressources de calcul, tandis que l'inférence à grande échelle engendre des coûts opérationnels substantiels.

Ces facteurs imposent des limites économiques à la mise à l'échelle, même lorsque les lois théoriques de mise à l'échelle indiquent des gains supplémentaires. À mesure que les modèles se développent, la consommation d'énergie et les besoins en matériel deviennent de plus en plus difficiles à gérer.

contraintes de disponibilité des données

Une autre contrainte réside dans la disponibilité de données de haute qualité. Les formulations traditionnelles des lois d'échelle supposent l'accès à d'abondantes données d'entraînement, mais cette hypothèse n'est plus fiable.

Plusieurs analyses soulignent la rareté des textes de haute qualité et le besoin croissant de données organisées ou synthétiques . Face à la limitation de la taille des données d'entraînement, la qualité des données devient aussi cruciale que le nombre de paramètres pour déterminer les performances du modèle.

Contraintes budgétaires économiques et informatiques

La mise à l'échelle pratique est limitée non seulement par des facteurs techniques, mais aussi par des considérations financières et organisationnelles. Les recherches axées sur la prédiction des performances montrent que la planification du budget de calcul est essentielle pour déterminer quelles séquences d'entraînement sont réalisables.

Les analyses des pratiques du secteur mettent en lumière la hausse du coût du calcul et la nécessité pour les organisations d'allouer leurs ressources avec soin. Ces facteurs limitent les possibilités d'extension dans des environnements réels.

Contraintes algorithmiques et architecturales

Les recherches sur les lois d'échelle soulignent que les améliorations prévisibles ne se produisent que lorsque les modèles sont entraînés dans des conditions équilibrées. Les travaux analysant l'efficacité des paramètres démontrent que les progrès architecturaux peuvent modifier la relation entre la taille du modèle et ses performances.

Des commentaires supplémentaires montrent que les algorithmes d'entraînement influent sur l'efficacité de l'application des lois d'échelle. Ces observations impliquent que la simple mise à l'échelle des paramètres ne peut se poursuivre indéfiniment et que les progrès dépendront de plus en plus de nouvelles méthodes d'entraînement et d'architectures de modèles.

FAQ

Les grands modèles de langage sont entraînés comme des modèles neuronaux de langage capables de prédire le prochain jeton dans le langage naturel. L'expression « lois d'échelle des grands modèles de langage » décrit des régularités empiriques reliant les performances du modèle à sa taille, aux données d'entraînement et aux ressources de calcul. Ces relations sont définies comme des fonctions de type loi de puissance dans la littérature scientifique. Elles impliquent que les performances du modèle de langage s'améliorent de façon prévisible lorsque les chercheurs allouent davantage de ressources de calcul aux paramètres du modèle et à la taille des données d'entraînement.

L'idée fondamentale, présente dans la littérature, est que la perte du modèle diminue lorsque celui-ci dispose de plus de paramètres, de plus d'éléments d'entraînement et de ressources de calcul. Ces règles ont façonné la manière dont les chercheurs entraînent les modèles de grande taille et évaluent le compromis entre le nombre de paramètres et la disponibilité de données d'entraînement suffisantes. Elles permettent également de prendre des décisions quant à la répartition des ressources de calcul entre les architectures de modèles et les données d'entraînement disponibles.

Comprendre ces relations est essentiel car les organisations s'appuient sur les lois de mise à l'échelle des modèles de langage pour prévoir les gains de performance réalisables en augmentant les paramètres du modèle ou en collectant davantage de données d'entraînement. Ces lois aident également les équipes à identifier les situations où des modèles plus petits, entraînés sur un plus grand nombre de données, peuvent offrir des performances similaires à celles de modèles plus grands, mais sous-entraînés.

Il convient de vérifier si les fournisseurs adaptent les paramètres du modèle à la quantité de données d'entraînement et de prendre en compte le coût d'inférence lors de la sélection. Les modèles entraînés avec une mise à l'échelle optimale en termes de calcul offrent souvent des performances équivalentes à celles de modèles plus volumineux, tout en réduisant les coûts opérationnels.

Les équipes peuvent entraîner des modèles plus petits et ajuster des lois de mise à l'échelle pour prédire les performances de modèles plus grands. La mise à l'échelle multi-compétences montre que quelques compétences fondamentales déterminent les performances sur l'ensemble des tests de performance, ce qui permet d'éviter les entraînements improductifs et d'optimiser l'allocation des ressources de calcul.

Il convient de suivre l'évolution de l'efficacité des paramètres afin d'identifier les modèles offrant de meilleures performances avec un nombre réduit de paramètres. Les améliorations apportées à l'architecture et aux algorithmes d'apprentissage jouent un rôle majeur ; la sélection des modèles doit donc privilégier les gains de performance globaux plutôt que le seul nombre de paramètres.

Liens de référence

https://arxiv.org/pdf/2509.25300

https://arxiv.org/pdf/2510.18245

Densing law of LLMs | Nature Machine Intelligence

Nature Publishing Group UK

https://arxiv.org/pdf/2412.06540

https://arxiv.org/pdf/2401.00448

Can AI scaling continue through 2030? | Epoch AI

https://arxiv.org/pdf/2203.15556

https://arxiv.org/pdf/2001.08361

Sıla Ermut

Analyste du secteur

Suivre

Sıla Ermut est analyste chez AIMultiple, spécialisée dans le marketing par e-mail et les vidéos de vente. Auparavant, elle travaillait comme recruteuse dans des cabinets de conseil et de gestion de projets. Sıla est titulaire d'un master en psychologie sociale et d'une licence en relations internationales.

Voir le profil complet

Soyez le premier à commenter

Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.