What are the LLM scaling laws?

Large language models are trained as neural language models that predict the next token in natural language. The term LLM scaling laws describes empirical regularities that link model performance to model size, training data, and compute resources. These relationships are defined as power-law functions in the academic literature. They imply that language model performance improves predictably when researchers allocate more computational resources to model parameters and training data size.The foundational idea in the literature is that model loss decreases when models are given more parameters, more training tokens, and more compute. These rules have shaped how researchers train larger models and evaluate the trade-off between the number of parameters and the availability of sufficient training data. They also support decisions on how to allocate a compute budget between model architectures and available training data.Understanding these relationships is essential because organizations rely on language model scaling laws to forecast achievable performance gains from scaling model parameters or collecting more training data. They also help teams identify when smaller models trained on more data may offer similar performance to larger models that are undertrained.

How can organizations use compute optimal training principles?

They should check whether vendors align model parameters with the amount of training data and consider inference cost during selection. Models trained with compute-optimal scaling often match the performance of larger models while reducing operational costs.

How can teams use skill-based scaling to plan training?

Teams can train smaller models and fit scaling laws to predict how larger models will perform. Multi-skilling scaling shows that a few underlying skills drive performance across benchmarks, helping avoid unproductive training runs and guiding compute allocation.

How should organizations use efficiency and density insights?

They should track parameter efficiency trends to identify models that deliver stronger performance with fewer parameters. Improvements in architecture and training algorithms play a major role, so model selection should focus on overall performance gains rather than parameter count alone.

IA Modelos de IA Mestrados em Direito

Leis de escala LLM: Análise de pesquisadores de IA

Sıla Ermut

atualizado em Mai 22, 2026

Veja o nosso normas éticas

Grandes modelos de linguagem preveem o próximo token com base em padrões aprendidos a partir de dados textuais. O termo leis de escala LLM refere-se a regularidades empíricas que relacionam o desempenho do modelo à quantidade de poder computacional, dados de treinamento e parâmetros do modelo utilizados durante o treinamento.

Para entender como essas relações influenciam o design de modelos modernos na prática, analisamos as descobertas de cinco artigos acadêmicos e as percepções de três importantes laboratórios e pesquisadores de IA.

Principais conclusões

Os principais pesquisadores convergem para as seguintes conclusões principais:

O desempenho do modelo não depende apenas da quantidade de parâmetros. A quantidade e a qualidade dos dados são igualmente importantes.
As decisões sobre dimensionamento devem ser baseadas nos requisitos da tarefa, em vez de presumir que modelos maiores são sempre melhores.
Arquiteturas com uso eficiente de parâmetros podem alcançar desempenho competitivo com custos de treinamento e inferência mais baixos.
Em aplicações reais, os custos de inferência podem ser maiores que os custos de treinamento e devem ser considerados ao escolher o tamanho do modelo.

Evidências de pesquisas acadêmicas sobre direito de escala

Papel	Ano	O que está sendo dimensionado?	Objetivo de otimização	Descoberta principal	Implicação prática
Leis de escala para modelos de linguagem neural	2020	Parâmetros, tokens de treinamento, computação	Minimizar a perda sob computação fixa	O desempenho ideal segue uma escala de lei de potência.	Modelos maiores só são úteis com dados e capacidade computacional suficientes.
Treinamento de modelos de linguagem de grande porte com otimização computacional	2022	Parâmetros versus tokens de treinamento	Minimizar a perda sob computação de treinamento fixa	Muitos modelos de grande porte estão subtreinados.	Modelos menores, treinados por mais tempo, podem superar modelos maiores.
Além do ideal para chinchilas	2025	Parâmetros, computação de inferência	Minimizar o custo total ao longo da vida útil (treinamento e inferência)	O uso intensivo de inferência favorece modelos menores.	O contexto de implantação é tão importante quanto o treinamento.
Preguiça	2025	Habilidades latentes versus parâmetros e dados	Prever o desempenho de referência	Desempenho impulsionado por poucas habilidades latentes	Permite fazer previsões sem treinar modelos enormes.
Densificação da Lei de Mestrados em Direito (LLMs)	2025	Parâmetros efetivos versus parâmetros reais	Medir a eficiência dos parâmetros ao longo do tempo.	A eficiência dos parâmetros continua a melhorar.	Os ganhos vêm de melhores arquiteturas e treinamento, não apenas de escalabilidade.

“Leis de escala para modelos neurais de linguagem”, Kaplan & McCandlish, 2020

Kaplan e colaboradores introduziram as primeiras leis de escala amplamente citadas para modelos neurais de linguagem.

Em sua análise, o desempenho do modelo segue relações de lei de potência em relação a três variáveis principais: o número de parâmetros do modelo, o tamanho do conjunto de dados de treinamento (medido em tokens) e o poder computacional total do treinamento.

Ao variar sistematicamente esses três fatores, os autores demonstraram que o aumento de qualquer um deles leva a reduções previsíveis nas perdas, desde que os outros sejam dimensionados adequadamente.

Figura 1: A figura mostra como a perda de teste muda com o tamanho do modelo sob diferentes orçamentos de computação e contagens de etapas de treinamento, revelando o equilíbrio ideal entre tamanho do modelo, computação e duração do treinamento para o melhor desempenho.

Este trabalho estabeleceu as bases para pesquisas posteriores sobre leis de escalonamento de modelos de linguagem. Também demonstrou que a forma e a profundidade do modelo têm um efeito menor do que a contagem total de parâmetros e tokens de treinamento quando o poder computacional é fixo. Essa constatação influenciou a forma como pesquisadores posteriores projetaram algoritmos de treinamento para grandes modelos de linguagem. ¹

“Treinamento de Modelos de Linguagem Grandes e Otimizados para o Uso de Computação”, Hoffmann, Borgeaud & Mensch, 2022

Este artigo reavalia as leis anteriores para modelos neurais de linguagem usando um grande conjunto de experimentos controlados. Ele modela a perda como uma função conjunta dos parâmetros do modelo e do tamanho dos dados de treinamento, e descobre que muitos modelos grandes anteriores foram subtreinados para a quantidade de parâmetros que possuíam. Quando os pesquisadores treinam modelos maiores com dados de treinamento insuficientes, a qualidade do modelo resultante não se alinha com as previsões das leis de escala tradicionais.

Os autores demonstram que, para um orçamento computacional fixo, o desempenho ideal é alcançado quando os modelos utilizam contagens de parâmetros e de tokens de treinamento de ordens de magnitude semelhantes. Esse resultado é amplamente conhecido como a lei de escala Chinchilla. Ela afirma que computar o treinamento ideal requer uma relação quase proporcional entre o número de parâmetros e o número de tokens de treinamento.

Essa abordagem produz modelos menores que apresentam melhor desempenho do que modelos maiores treinados com dados limitados. Ela também permite a seleção eficiente de modelos, pois os pesquisadores podem ajustar leis de escala a modelos menores e prever o desempenho do modelo de linguagem para configurações maiores antes do treinamento.

Figura 2: A figura sobrepõe previsões de vários métodos, todos indicando que os grandes modelos atuais são superdimensionados e deveriam, em vez disso, ser menores e treinados por mais tempo. ²

“Além do ideal de chinchila: levando em conta a inferência nas leis de escalonamento de modelos de linguagem”, Sardana, Portes e Doubov, 2025

Sardana et al. ampliam a estrutura do Chinchilla incorporando custos de inferência no escalonamento computacionalmente ótimo.

Em vez de minimizar apenas o poder computacional do treinamento, eles definem um nível de desempenho alvo e otimizam o custo combinado de treinamento e inferência ao longo da vida útil do modelo.

Essa mudança leva a uma importante constatação prática: em cenários de uso intenso, modelos menores, treinados com mais dados, muitas vezes conseguem igualar o desempenho de modelos maiores, incorrendo em custos computacionais totais menores.

Figura 3: Os gráficos comparam as proporções de custo total, número de parâmetros e tokens de treinamento entre modelos otimizados em termos de custo no mundo real e modelos do tipo Chinchilla. ³

“Preguiça: Leis de escala para habilidades de LLM para prever o desempenho em múltiplos benchmarks entre famílias”, Polo, Somerstep e Choshen, 2025

O Sloth introduz uma nova abordagem para modelar leis de escalabilidade para grandes modelos de linguagem , mudando o foco da perda do modelo para o desempenho em nível de benchmark. Em vez de tratar as tarefas separadamente, o Sloth identifica um conjunto de habilidades latentes que capturam o desempenho dos modelos de linguagem em diferentes benchmarks. Essas habilidades representam capacidades gerais, como raciocínio ou recuperação de conhecimento.

A estrutura modela como cada habilidade se comporta em função dos parâmetros do modelo e dos dados de treinamento. O Sloth utiliza características simples, como os logaritmos dos tamanhos do modelo e do conjunto de dados, para descrever como essas habilidades variam dentro de uma família de modelos. Uma vez ajustado, o Sloth consegue prever o desempenho de modelos maiores da mesma família em diversos benchmarks, sem a necessidade de treiná-los novamente.

Ao utilizar as previsões do Sloth, as organizações podem decidir onde alocar recursos computacionais e evitar configurações de treinamento com baixa probabilidade de atingir o desempenho desejado. Isso permite um planejamento mais racional de modelos de treinamento sob restrições do mundo real. ⁴

“Lei de densidade dos LLMs”, Xiao, Cai & Zhao, 2025

Este artigo examina a eficiência com que os modelos utilizam seus parâmetros. Introduz o conceito de densidade de capacidade, definida como a razão entre o número efetivo de parâmetros de um modelo e seu número real de parâmetros. O número efetivo de parâmetros é estimado ajustando leis de escala a modelos existentes e questionando qual seria o tamanho necessário de um modelo de referência para igualar o desempenho atual.

Os autores observam que os melhores modelos em cada ponto temporal mostram uma densidade de capacidade crescente. Isso significa que os modelos mais recentes atingem um determinado desempenho com menos parâmetros do que os modelos mais antigos. A tendência parece ser aproximadamente exponencial ao longo do tempo.

Essa observação sugere que o progresso em modelos de linguagem de grande escala não se resume apenas ao aumento do tamanho do modelo, mas também à melhoria da arquitetura do modelo, da qualidade dos dados de treinamento e dos algoritmos de treinamento. O artigo argumenta que o rastreamento da eficiência dos parâmetros é essencial para a compreensão das futuras direções do processamento de linguagem natural e da aprendizagem de máquina.

Figura 4: O gráfico mostra a densidade de capacidade estimada para LLMs de código aberto em cinco benchmarks de raciocínio e codificação, com o tamanho do círculo indicando a contagem de parâmetros do modelo e uma linha de tendência sugerindo uma "lei de adensamento" na qual a densidade de capacidade máxima aumenta exponencialmente ao longo do tempo. ⁵

Opiniões sobre leis de escalabilidade para mestrado em Direito (LLM) de importantes laboratórios e pesquisadores de IA.

Além das leis de escala acadêmicas, pesquisadores e profissionais da indústria enfatizam como esses princípios se traduzem no desenvolvimento e na implementação de modelos no mundo real.

As perspectivas a seguir ilustram como diferentes partes interessadas, desde fornecedores de hardware até pesquisadores aplicados, interpretam e aplicam as leis de escala na prática.

NVIDIA, 2025

Do ponto de vista da infraestrutura, NVIDIA apresenta as leis de escalabilidade como ferramentas práticas para projetar e treinar grandes modelos de linguagem. Destaca três eixos principais de escalabilidade:

Tamanho do modelo.
Tamanho do conjunto de dados.
Recursos computacionais.

De acordo com NVIDIA, dimensionar qualquer um desses fatores no regime correto resulta em melhorias previsíveis na qualidade do modelo.

O artigo também enfatiza a importância do poder computacional durante os testes. Os sistemas modernos dedicam mais tempo à inferência, utilizando técnicas como sequências de raciocínio estendidas. Isso adiciona uma nova dimensão às leis de escalabilidade, indo além do foco original em tokens de treinamento e parâmetros do modelo.

NVIDIA utiliza essas ideias para explicar por que a demanda por recursos computacionais continua a crescer, mesmo com modelos cada vez mais eficientes em termos de parâmetros. Sugere que tanto o treinamento quanto a inferência continuarão sendo fatores determinantes do uso de computação em futuros sistemas de processamento de linguagem natural. ⁶

Cameron Wolfe, pesquisador de mestrado em Direito na Netflix, 2025

Do ponto de vista prático, Cameron Wolfe explica como as relações originais da lei de potência da literatura acadêmica se aplicam aos modelos atuais e como os profissionais podem usar essas curvas para estimar o desempenho alcançável do modelo antes de treinar modelos maiores.

Wolfe discute o papel do formato e da arquitetura do modelo na escalabilidade e observa que, embora as leis de escalabilidade tradicionais se concentrem na contagem de parâmetros, os sistemas práticos também devem considerar a qualidade dos dados e os algoritmos de treinamento. O artigo destaca as preocupações com a disponibilidade de dados de alta qualidade e como essas restrições podem afetar o treinamento de modelos maiores no futuro.

A discussão apresenta leis de escala como orientação para avaliar modelos existentes e para estimar como o desempenho do modelo pode mudar quando os dados de treinamento são expandidos ou quando os parâmetros do modelo são ajustados. ⁷

MIT-IBM Laboratório Watson AI, 2025

Adotando uma perspectiva mais metodológica, os pesquisadores do Laboratório de IA Watson do MIT analisam as leis de escalabilidade em diversas arquiteturas e conjuntos de dados.

Os pesquisadores compilaram um amplo conjunto de metadados que inclui 485 modelos pré-treinados, metadados detalhados de treinamento e mais de 1 milhão de medições de desempenho. Esse conjunto de dados é usado para testar mais de 1.000 leis de escala candidatas e identificar padrões que se generalizam entre diferentes famílias de modelos.

O estudo descreve etapas claras para ajustar leis de escala sob restrições computacionais. Recomenda-se definir um orçamento computacional e um desempenho alvo, treinando em seguida um pequeno conjunto de modelos de diferentes tamanhos, em vez de focar nos maiores modelos. Pontos de verificação intermediários são destacados como fontes valiosas de informação, enquanto o uso de dados de treinamento muito iniciais é desaconselhado devido ao ruído.

Os autores mostram que, quando essas diretrizes são seguidas, as previsões podem se aproximar do limite inferior estabelecido pela variabilidade da semente aleatória. Mesmo quando as previsões são menos precisas, as leis de escala continuam úteis para comparar opções de treinamento e identificar configurações promissoras.

O estudo observa que o desempenho varia significativamente entre as famílias de modelos, o que reforça a importância de usar configurações de treinamento diversificadas ao ajustar leis de escala. ⁸

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

O que dizem os principais pesquisadores sobre o futuro da escalabilidade?

Opiniões que apoiam a validade contínua das leis de escala

Em todo o panorama da pesquisa, há evidências consistentes de que as leis de escala se mantêm dentro dos regimes testados. Trabalhos fundamentais mostram relações claras de lei de potência entre os parâmetros do modelo, o tamanho dos dados de treinamento e o poder computacional do treinamento quando os modelos são treinados em configurações balanceadas.

Estudos posteriores refinam esse panorama, demonstrando que o treinamento computacionalmente ideal requer o alinhamento do tamanho do modelo com o volume de tokens de treinamento, e que esse alinhamento melhora o desempenho do modelo em relação às abordagens anteriores.

Trabalhos adicionais sobre avaliação multitarefa mostram que o desempenho de referência também escala de forma previsível quando expresso em termos de um conjunto menor de habilidades latentes. Isso reforça a visão de que as leis de escalabilidade de modelos de linguagem continuam sendo ferramentas confiáveis para prever o desempenho do modelo quando o tamanho do conjunto de dados e os recursos computacionais são alocados adequadamente.

Visões que enfatizam a alocação eficiente de recursos computacionais.

Uma segunda linha de pesquisa argumenta que o progresso depende cada vez mais de como o poder computacional é distribuído, e não apenas da expansão do número de parâmetros. Análises de treinamento computacional otimizado mostram que os modelos precisam de dados de treinamento suficientes para atingir seu potencial e que modelos maiores, treinados com dados limitados, geralmente são ineficientes.

Trabalhos que incorporam custos de inferência ampliam essa ideia, mostrando que o custo total de um modelo depende tanto do tempo de computação para treinamento quanto do tempo de computação para inferência.

Essa perspectiva sugere que os esforços futuros de escalonamento enfatizarão configurações eficientes que otimizem conjuntamente o tamanho do modelo, os tokens de treinamento e o volume de inferência esperado. Ela enquadra o projeto de grandes modelos de linguagem como um exercício de alocação de recursos computacionais, em vez de uma busca pelo crescimento máximo de parâmetros.

Opiniões que enfatizam a crescente importância da eficiência e da densidade.

Outra perspectiva foca na eficiência dos parâmetros e no uso eficaz dos recursos computacionais. Pesquisas que acompanham a densidade de parâmetros mostram que modelos mais recentes alcançam melhor desempenho com menos parâmetros do que modelos anteriores. Isso indica que melhorias na arquitetura, na qualidade dos dados e nos algoritmos de treinamento desempenham um papel significativo nos ganhos de desempenho.

Os comentários técnicos também destacam a crescente importância do comportamento de inferência e das melhorias pós-treinamento. Em conjunto, essas descobertas sugerem que os sistemas futuros dependerão de um design de modelo eficiente e de melhores métodos de treinamento, em vez da expansão descontrolada do número de parâmetros. A ênfase passa de modelos maiores para modelos mais capazes que utilizam seus parâmetros de forma mais eficaz.

Restrições ao escalonamento futuro do LLM

Limites de computação e energia

Um tema recorrente na literatura é a elevada demanda computacional necessária para treinar e implementar grandes modelos de linguagem. O treinamento de modelos grandes consome recursos computacionais significativos, enquanto a inferência em larga escala acarreta custos operacionais substanciais.

Esses fatores impõem limites econômicos à escalabilidade, mesmo quando as leis teóricas de escalabilidade indicam ganhos adicionais. À medida que os modelos crescem, o consumo de energia e os requisitos de hardware tornam-se cada vez mais difíceis de gerenciar.

restrições de disponibilidade de dados

Outra limitação é a disponibilidade de dados de alta qualidade. As formulações tradicionais das leis de escala pressupõem o acesso a uma grande quantidade de dados de treinamento, mas essa premissa já não é confiável.

Diversas análises apontam para a oferta limitada de texto de alta qualidade e para a crescente necessidade de dados curados ou sintéticos . À medida que o tamanho dos dados de treinamento se torna um fator limitante, a qualidade dos dados torna-se tão crucial quanto a quantidade de parâmetros para determinar o desempenho do modelo.

Restrições orçamentárias econômicas e computacionais

A escalabilidade prática é limitada não apenas por fatores técnicos, mas também por considerações financeiras e organizacionais. Pesquisas focadas na previsão de desempenho mostram que o planejamento do orçamento computacional é essencial para determinar quais execuções de treinamento são viáveis.

Os comentários sobre as práticas da indústria destacam o aumento do custo da computação e a necessidade de as organizações alocarem seus recursos com cuidado. Esses fatores limitam o quanto a escalabilidade pode ser ampliada em ambientes reais.

Restrições algorítmicas e arquitetônicas

Pesquisas sobre leis de escala enfatizam que melhorias previsíveis ocorrem somente quando os modelos são treinados em regimes balanceados. Trabalhos que analisam a eficiência de parâmetros demonstram que avanços arquitetônicos podem alterar a relação entre o tamanho do modelo e seu desempenho.

Comentários adicionais mostram que os algoritmos de treinamento influenciam a eficácia com que as leis de escala se aplicam. Essas observações implicam que o simples escalonamento de parâmetros não pode continuar indefinidamente e que o progresso dependerá cada vez mais de novos métodos de treinamento e arquiteturas de modelos.

Perguntas frequentes

Grandes modelos de linguagem são treinados como modelos neurais de linguagem que preveem o próximo token na linguagem natural. O termo leis de escala LLM descreve regularidades empíricas que relacionam o desempenho do modelo ao seu tamanho, aos dados de treinamento e aos recursos computacionais. Essas relações são definidas como funções de lei de potência na literatura acadêmica. Elas implicam que o desempenho do modelo de linguagem melhora de forma previsível quando os pesquisadores alocam mais recursos computacionais aos parâmetros do modelo e ao tamanho dos dados de treinamento.

A ideia fundamental na literatura é que a perda do modelo diminui quando os modelos recebem mais parâmetros, mais tokens de treinamento e mais poder computacional. Essas regras moldaram a forma como os pesquisadores treinam modelos maiores e avaliam a relação entre o número de parâmetros e a disponibilidade de dados de treinamento suficientes. Elas também auxiliam nas decisões sobre como alocar recursos computacionais entre as arquiteturas dos modelos e os dados de treinamento disponíveis.

Compreender essas relações é essencial porque as organizações dependem das leis de escalabilidade dos modelos de linguagem para prever os ganhos de desempenho alcançáveis com o aumento dos parâmetros do modelo ou com a coleta de mais dados de treinamento. Elas também ajudam as equipes a identificar quando modelos menores, treinados com mais dados, podem oferecer desempenho semelhante a modelos maiores que ainda não foram totalmente treinados.

Eles devem verificar se os fornecedores alinham os parâmetros do modelo com a quantidade de dados de treinamento e considerar o custo da inferência durante a seleção. Modelos treinados com escalonamento computacional otimizado geralmente igualam o desempenho de modelos maiores, reduzindo os custos operacionais.

As equipes podem treinar modelos menores e ajustar leis de escalabilidade para prever o desempenho de modelos maiores. A escalabilidade multiskill demonstra que algumas habilidades subjacentes impulsionam o desempenho em diversos benchmarks, ajudando a evitar execuções de treinamento improdutivas e orientando a alocação de recursos computacionais.

É importante acompanhar as tendências de eficiência dos parâmetros para identificar modelos que ofereçam melhor desempenho com menos parâmetros. Melhorias na arquitetura e nos algoritmos de treinamento desempenham um papel fundamental, portanto, a seleção de modelos deve priorizar os ganhos de desempenho geral em vez da quantidade de parâmetros isoladamente.

Links de referência

https://arxiv.org/pdf/2509.25300

https://arxiv.org/pdf/2510.18245

Densing law of LLMs | Nature Machine Intelligence

Nature Publishing Group UK

https://arxiv.org/pdf/2412.06540

https://arxiv.org/pdf/2401.00448

Can AI scaling continue through 2030? | Epoch AI

https://arxiv.org/pdf/2203.15556

https://arxiv.org/pdf/2001.08361

Sıla Ermut

Analista do setor

Sıla Ermut é analista de mercado na AIMultiple, com foco em marketing por e-mail e vídeos de vendas. Anteriormente, trabalhou como recrutadora em empresas de gestão de projetos e consultoria. Sıla possui mestrado em Psicologia Social e bacharelado em Relações Internacionais.

Ver perfil completo