Contáctanos
No se encontraron resultados.

Leyes de escalamiento de LLM: Análisis de investigadores de IA

Sıla Ermut
Sıla Ermut
actualizado el Ene 26, 2026
Vea nuestra normas éticas

Los modelos de lenguaje de gran tamaño predicen el siguiente token basándose en patrones aprendidos a partir de datos de texto. El término leyes de escalado de los modelos de lenguaje de gran tamaño (LLM, por sus siglas en inglés) se refiere a regularidades empíricas que vinculan el rendimiento del modelo con la cantidad de computación, datos de entrenamiento y parámetros del modelo utilizados durante el entrenamiento.

Para comprender cómo influyen estas relaciones en el diseño de modelos modernos en la práctica, revisamos los hallazgos de cinco artículos académicos y las perspectivas de tres importantes laboratorios e investigadores de IA.

Conclusiones clave

Los principales investigadores coinciden en las siguientes ideas clave:

  • El rendimiento del modelo no depende únicamente del número de parámetros. La cantidad y la calidad de los datos son igualmente importantes.
  • Las decisiones sobre el escalado deben basarse en los requisitos de la tarea, en lugar de asumir que los modelos más grandes son siempre mejores.
  • Las arquitecturas con parámetros eficientes pueden lograr un rendimiento competitivo con menores costes de entrenamiento e inferencia.
  • En implementaciones reales, los costos de inferencia pueden superar los costos de entrenamiento y deben tenerse en cuenta al elegir el tamaño del modelo.

Evidencia de la investigación académica sobre leyes de escalamiento

Papel
Año
¿Qué se está escalando?
Objetivo de optimización
Hallazgo clave
Implicación práctica
Leyes de escala para modelos de lenguaje neuronales
2020
Parámetros, tokens de entrenamiento, cálculo
Minimizar la pérdida bajo cómputo fijo
El rendimiento óptimo sigue una ley de potencias.
Los modelos más grandes solo ayudan con datos y capacidad de cálculo suficientes.
Entrenamiento de modelos de lenguaje grandes con optimización computacional
2022
Parámetros frente a tokens de entrenamiento
Minimizar la pérdida bajo un cálculo de entrenamiento fijo
Muchos modelos grandes no están suficientemente entrenados.
Los modelos más pequeños, entrenados durante más tiempo, pueden superar a los más grandes.
Más allá de la chinchilla: óptimo
2025
Parámetros, cálculo de inferencia
Minimizar el coste total a lo largo de su vida útil (entrenamiento e inferencia).
El uso intensivo de inferencias favorece a los modelos más pequeños.
El contexto de implementación es tan importante como la capacitación.
Ranura
2025
Habilidades latentes frente a parámetros y datos
Predice el rendimiento de referencia
Rendimiento impulsado por pocas habilidades latentes
Permite realizar predicciones sin necesidad de entrenar modelos enormes.
Densing Law de los LLM
2025
Parámetros efectivos frente a parámetros reales
Medir la eficiencia de los parámetros a lo largo del tiempo.
La eficiencia de los parámetros sigue mejorando.
Las mejoras provienen de mejores arquitecturas y capacitación, no solo de la escala.

“Leyes de escala para modelos de lenguaje neuronales”, Kaplan y McCandlish, 2020

Kaplan et al. introdujeron las primeras leyes de escalamiento ampliamente citadas para modelos de lenguaje neuronales.

En su análisis, el rendimiento del modelo sigue relaciones de ley de potencias con respecto a tres variables clave: el número de parámetros del modelo, el tamaño del conjunto de datos de entrenamiento (medido en tokens) y el cálculo total de entrenamiento.

Al variar sistemáticamente estos tres factores, los autores demostraron que aumentar cualquiera de ellos conlleva reducciones predecibles en las pérdidas, siempre que los demás estén ajustados adecuadamente.

Figura 1: La figura muestra cómo cambia la pérdida de prueba con el tamaño del modelo bajo diferentes presupuestos de cómputo y recuentos de pasos de entrenamiento, revelando el equilibrio óptimo entre el tamaño del modelo, el cómputo y la duración del entrenamiento para obtener el mejor rendimiento.

Este trabajo sentó las bases para investigaciones posteriores sobre las leyes de escalado de los modelos de lenguaje. También demostró que la forma y la profundidad del modelo tienen un efecto menor que el número total de parámetros y los tokens de entrenamiento cuando la capacidad de cómputo es fija. Esta observación influyó en cómo investigadores posteriores diseñaron algoritmos de entrenamiento para modelos de lenguaje de gran tamaño. 1

“Entrenamiento de modelos de lenguaje grandes con optimización computacional”, Hoffmann, Borgeaud y Mensch, 2022

Este artículo reevalúa las leyes previas para modelos de lenguaje neuronales mediante un amplio conjunto de experimentos controlados. Modela la función de pérdida como una función conjunta de los parámetros del modelo y el tamaño de los datos de entrenamiento, y concluye que muchos modelos grandes anteriores no estaban suficientemente entrenados para su número de parámetros. Cuando los investigadores entrenan modelos más grandes con datos de entrenamiento insuficientes, la calidad del modelo resultante no coincide con las predicciones de las leyes de escalado tradicionales.

Los autores demuestran que, con un presupuesto computacional fijo, el rendimiento óptimo se logra cuando los modelos utilizan cantidades de parámetros y tokens de entrenamiento de órdenes de magnitud similares. Este resultado se conoce como la ley de escalado de Chinchilla. Esta ley establece que para calcular el entrenamiento óptimo se requiere una relación casi proporcional entre el número de parámetros y el número de tokens de entrenamiento.

Este enfoque produce modelos más pequeños que funcionan mejor que los modelos más grandes entrenados con datos limitados. Además, facilita la selección eficiente de modelos, ya que los investigadores pueden ajustar leyes de escalado a modelos más pequeños y predecir el rendimiento del modelo de lenguaje para configuraciones más grandes antes del entrenamiento.

Figura 2: La figura superpone las predicciones de varios métodos, todos los cuales indican que los modelos actuales son demasiado grandes y deberían ser más pequeños y entrenarse durante más tiempo. 2

“Más allá de la optimización de la chinchilla: Consideración de la inferencia en las leyes de escalado de los modelos de lenguaje”, Sardana, Portes y Doubov, 2025

Sardana et al. amplían el marco de trabajo de Chinchilla incorporando los costos de inferencia en el escalado computacionalmente óptimo.

En lugar de minimizar únicamente el cálculo necesario para el entrenamiento, fijan un nivel de rendimiento objetivo y optimizan el coste combinado del entrenamiento y la inferencia a lo largo de la vida útil del modelo.

Este cambio conlleva una importante conclusión práctica: en entornos de alto uso, los modelos más pequeños entrenados con más datos a menudo pueden igualar el rendimiento de los modelos más grandes, al tiempo que incurren en menores costes computacionales totales.

Figura 3: Los gráficos comparan las proporciones de coste total, número de parámetros y tokens de entrenamiento entre modelos de coste óptimo del mundo real y modelos de estilo Chinchilla. 3

“Pereza: Leyes de escala para habilidades de LLM para predecir el rendimiento en múltiples puntos de referencia en diferentes familias”, Polo, Somerstep y Choshen, 2025

Sloth introduce un nuevo enfoque para modelar las leyes de escalado de los modelos de lenguaje a gran escala , desplazando el foco de la pérdida del modelo al rendimiento a nivel de referencia. En lugar de tratar las tareas por separado, Sloth identifica un conjunto de habilidades latentes que capturan el rendimiento de los modelos de lenguaje en diferentes pruebas comparativas. Estas habilidades representan capacidades generales como el razonamiento o la recuperación de conocimiento.

El marco modela cómo cada habilidad se ajusta a los parámetros del modelo y a los datos de entrenamiento. Sloth utiliza características sencillas, como los logaritmos del tamaño del modelo y del conjunto de datos, para describir cómo cambian estas habilidades dentro de una familia de modelos. Una vez ajustado, Sloth puede predecir el rendimiento de modelos más grandes de la misma familia en múltiples pruebas comparativas sin necesidad de entrenarlos.

Al utilizar las predicciones de Sloth, las organizaciones pueden decidir dónde asignar los recursos computacionales y evitar configuraciones de entrenamiento que probablemente no alcancen el rendimiento deseado. Esto permite una planificación más racional de los modelos de entrenamiento bajo las limitaciones del mundo real. 4

“Ley de densidad de los LLM”, Xiao, Cai y Zhao, 2025

El artículo examina la eficiencia con la que los modelos utilizan sus parámetros. Introduce el concepto de densidad de capacidad, definida como la relación entre el número de parámetros efectivos de un modelo y su número real de parámetros. El número de parámetros efectivos se estima ajustando leyes de escala a los modelos existentes y determinando el tamaño que debería tener un modelo de referencia para igualar el rendimiento actual.

Los autores observan que los mejores modelos en cada momento muestran una densidad de capacidad creciente. Esto significa que los modelos más recientes alcanzan un rendimiento determinado con menos parámetros que los modelos más antiguos. La tendencia parece ser aproximadamente exponencial a lo largo del tiempo.

Esta observación sugiere que el progreso en los modelos de lenguaje a gran escala no solo radica en aumentar el tamaño del modelo, sino también en mejorar su arquitectura, la calidad de los datos de entrenamiento y los algoritmos de entrenamiento. El artículo sostiene que el seguimiento de la eficiencia de los parámetros es fundamental para comprender las futuras tendencias en el procesamiento del lenguaje natural y el aprendizaje automático.

Figura 4: El gráfico muestra la densidad de capacidad estimada para los modelos LLM base de código abierto en cinco pruebas de razonamiento y codificación, donde el tamaño del círculo indica la cantidad de parámetros del modelo y una línea de tendencia sugiere una "ley de densificación" en la que la densidad de capacidad máxima aumenta exponencialmente con el tiempo. 5

Opiniones de los principales laboratorios e investigadores de IA sobre las leyes de escalado de LLM

Más allá de las leyes de escalamiento académicas, los investigadores y profesionales de la industria destacan cómo estos principios se traducen en el desarrollo y la implementación de modelos en el mundo real.

Las siguientes perspectivas ilustran cómo los diferentes actores involucrados, desde los proveedores de hardware hasta los investigadores aplicados, interpretan y aplican las leyes de escala en la práctica.

NVIDIA, 2025

Desde una perspectiva de infraestructura, NVIDIA presenta las leyes de escala como herramientas prácticas para diseñar y entrenar grandes modelos de lenguaje. Destaca tres ejes de escala principales:

  • Tamaño del modelo.
  • Tamaño del conjunto de datos.
  • Recursos informáticos.

Según NVIDIA, escalar cualquiera de estos factores en el régimen correcto da como resultado mejoras predecibles en la calidad del modelo.

El artículo también destaca la importancia del tiempo de procesamiento durante las pruebas. Los sistemas modernos dedican más tiempo a la inferencia mediante técnicas como las secuencias de razonamiento extendidas. Esto añade una nueva dimensión a las leyes de escalado, que va más allá del enfoque original en los tokens de entrenamiento y los parámetros del modelo.

El documento NVIDIA utiliza estas ideas para explicar por qué la demanda de recursos computacionales sigue creciendo, incluso a medida que los modelos se vuelven más eficientes en cuanto a parámetros. Sugiere que tanto el entrenamiento como la inferencia seguirán siendo factores determinantes en el uso de recursos computacionales en los futuros sistemas de procesamiento del lenguaje natural. 6

Cameron Wolfe, investigadora de LLM en Netflix, 2025

Desde la perspectiva de un profesional, Cameron Wolfe explica cómo las relaciones originales de la ley de potencias de la literatura académica se aplican a los modelos actuales y cómo los profesionales pueden utilizar estas curvas para estimar el rendimiento alcanzable del modelo antes de entrenar modelos más grandes.

Wolfe analiza el papel de la forma y la arquitectura del modelo en el escalado y señala que, si bien las leyes de escalado tradicionales se centran en el número de parámetros, los sistemas prácticos también deben considerar la calidad de los datos y los algoritmos de entrenamiento. El artículo destaca la preocupación por la disponibilidad de datos de alta calidad y cómo estas limitaciones pueden afectar el entrenamiento de futuros modelos de mayor tamaño.

En este análisis se presentan las leyes de escala como guía para evaluar los modelos existentes y para estimar cómo puede cambiar el rendimiento del modelo cuando se amplían los datos de entrenamiento o cuando se ajustan los parámetros del modelo. 7

MIT-IBM Laboratorio de IA Watson, 2025

Desde una perspectiva más metodológica, los investigadores del Laboratorio de IA Watson del MIT (IBM) analizan las leyes de escala en múltiples arquitecturas y conjuntos de datos.

Los investigadores recopilaron un amplio conjunto de metadatos que incluye 485 modelos preentrenados, metadatos de entrenamiento detallados y más de un millón de mediciones de rendimiento. Este conjunto de datos se utiliza para probar más de 1000 leyes de escalado candidatas e identificar patrones que se generalizan a través de diferentes familias de modelos.

El estudio describe pasos claros para ajustar leyes de escala bajo restricciones computacionales. Recomienda definir un presupuesto computacional y un rendimiento objetivo, y luego entrenar un pequeño conjunto de modelos de diferentes tamaños en lugar de centrarse en los modelos más grandes. Se destacan los puntos de control intermedios como fuentes valiosas de información, mientras que se desaconseja el uso de datos de entrenamiento muy tempranos debido al ruido.

Los autores demuestran que, al seguir estas directrices, las predicciones pueden aproximarse al límite inferior establecido por la variabilidad de la semilla aleatoria. Incluso cuando las predicciones son menos precisas, las leyes de escala siguen siendo útiles para comparar las opciones de entrenamiento e identificar configuraciones prometedoras.

El estudio señala que el rendimiento varía significativamente entre las distintas familias de modelos, lo que refuerza la importancia de utilizar diversos entornos de entrenamiento al ajustar las leyes de escala. 8

¿Qué opinan los investigadores más destacados sobre el futuro de la escalabilidad?

Opiniones que respaldan la validez continua de las leyes de escala.

En el ámbito de la investigación, existe evidencia consistente de que las leyes de escala se cumplen dentro de los regímenes analizados. Los trabajos fundamentales muestran relaciones claras de ley de potencias entre los parámetros del modelo, el tamaño de los datos de entrenamiento y la capacidad de cómputo del entrenamiento cuando los modelos se entrenan en entornos equilibrados.

Estudios posteriores perfeccionan esta visión al demostrar que el entrenamiento óptimo mediante cálculos requiere alinear el tamaño del modelo con el volumen de tokens de entrenamiento, y que esta alineación mejora el rendimiento del modelo en comparación con enfoques anteriores.

Estudios adicionales sobre la evaluación de tareas múltiples demuestran que el rendimiento de referencia también se ajusta de forma predecible cuando se expresa en términos de un conjunto más reducido de habilidades latentes. Esto refuerza la idea de que las leyes de escalado de los modelos de lenguaje siguen siendo herramientas fiables para predecir el rendimiento del modelo cuando el tamaño del conjunto de datos y los recursos computacionales se asignan adecuadamente.

Puntos de vista que enfatizan la asignación eficiente de recursos computacionales.

Una segunda línea de investigación sostiene que el progreso depende cada vez más de cómo se distribuye la capacidad de procesamiento, en lugar de simplemente aumentar el número de parámetros. Los análisis del entrenamiento óptimo en términos de capacidad de procesamiento demuestran que los modelos requieren datos de entrenamiento suficientes para alcanzar su máximo potencial y que los modelos más grandes entrenados con datos limitados suelen ser ineficientes.

Los trabajos que incorporan los costos de inferencia amplían esta idea al demostrar que el costo total de un modelo depende tanto del tiempo de cómputo del entrenamiento como del tiempo de cómputo de la inferencia.

Esta perspectiva sugiere que los futuros esfuerzos de escalado harán hincapié en configuraciones eficientes que optimicen conjuntamente el tamaño del modelo, los tokens de entrenamiento y el volumen de inferencia esperado. Concibe el diseño de grandes modelos de lenguaje como un ejercicio de asignación de recursos computacionales, en lugar de como una búsqueda del máximo crecimiento de parámetros.

Puntos de vista que enfatizan la creciente importancia de la eficiencia y la densidad.

Otro punto de vista se centra en la eficiencia de los parámetros y el uso eficaz de los recursos computacionales. Las investigaciones que analizan la densidad de parámetros demuestran que los modelos más recientes logran un mejor rendimiento con menos parámetros que los modelos anteriores. Esto indica que las mejoras arquitectónicas, la calidad de los datos y los algoritmos de entrenamiento desempeñan un papel fundamental en la mejora del rendimiento.

Los comentarios técnicos también resaltan la creciente importancia del comportamiento de inferencia y las mejoras posteriores al entrenamiento. En conjunto, estos hallazgos sugieren que los sistemas futuros dependerán de un diseño de modelo eficiente y mejores métodos de entrenamiento, en lugar de una expansión descontrolada del número de parámetros. El énfasis se desplaza de los modelos más grandes a modelos más capaces que utilizan sus parámetros de manera más efectiva.

Limitaciones en la futura ampliación del programa LLM

Límites de computación y energía

Un tema recurrente en la literatura es la gran demanda computacional necesaria para entrenar e implementar modelos de lenguaje de gran tamaño. El entrenamiento de modelos grandes consume importantes recursos computacionales, mientras que la inferencia a gran escala genera costos operativos sustanciales.

Estos factores imponen límites económicos a la escalabilidad, incluso cuando las leyes teóricas de escalabilidad indican mayores beneficios. A medida que los modelos crecen, el consumo de energía y los requisitos de hardware se vuelven cada vez más difíciles de gestionar.

Restricciones en la disponibilidad de datos

Otra limitación es la disponibilidad de datos de alta calidad. Las formulaciones tradicionales de las leyes de escalamiento presuponen el acceso a abundantes datos de entrenamiento, pero esta suposición ya no es fiable.

Diversos análisis señalan la escasez de texto de alta calidad y la creciente necesidad de datos seleccionados o sintéticos . A medida que el tamaño de los datos de entrenamiento se convierte en un factor limitante, la calidad de los datos se vuelve tan crucial como el número de parámetros para determinar el rendimiento del modelo.

Restricciones económicas y presupuestarias

La escalabilidad práctica se ve limitada no solo por factores técnicos, sino también por consideraciones financieras y organizativas. Las investigaciones centradas en la predicción del rendimiento demuestran que la planificación del presupuesto computacional es fundamental para determinar qué ciclos de entrenamiento son viables.

Los análisis sobre las prácticas del sector ponen de manifiesto el creciente coste de la computación y la necesidad de que las organizaciones asignen sus recursos con cautela. Estos factores limitan el grado de escalabilidad que se puede alcanzar en entornos reales.

Restricciones algorítmicas y arquitectónicas

Las investigaciones sobre leyes de escalado destacan que las mejoras predecibles solo se producen cuando los modelos se entrenan en regímenes equilibrados. Los estudios que analizan la eficiencia de los parámetros demuestran que los avances arquitectónicos pueden modificar la relación entre el tamaño del modelo y su rendimiento.

Comentarios adicionales demuestran que los algoritmos de entrenamiento influyen en la eficacia con la que se aplican las leyes de escalado. Estas conclusiones implican que el simple escalado de parámetros no puede continuar indefinidamente y que el progreso dependerá cada vez más de nuevos métodos de entrenamiento y arquitecturas de modelos.

Preguntas frecuentes

Los modelos de lenguaje de gran tamaño se entrenan como modelos neuronales que predicen el siguiente token en lenguaje natural. El término leyes de escalado de modelos de lenguaje de gran tamaño describe regularidades empíricas que vinculan el rendimiento del modelo con su tamaño, los datos de entrenamiento y los recursos computacionales. Estas relaciones se definen como funciones de ley de potencias en la literatura académica. Implican que el rendimiento del modelo de lenguaje mejora de forma predecible cuando los investigadores asignan más recursos computacionales a los parámetros del modelo y al tamaño de los datos de entrenamiento.

La idea fundamental en la literatura es que la pérdida del modelo disminuye cuando se le proporcionan más parámetros, más tokens de entrenamiento y más capacidad de cómputo. Estas reglas han influido en cómo los investigadores entrenan modelos más grandes y evalúan el equilibrio entre el número de parámetros y la disponibilidad de datos de entrenamiento suficientes. También respaldan las decisiones sobre cómo asignar el presupuesto de cómputo entre las arquitecturas del modelo y los datos de entrenamiento disponibles.

Comprender estas relaciones es fundamental, ya que las organizaciones se basan en las leyes de escalado de los modelos de lenguaje para predecir las mejoras de rendimiento que se pueden lograr al escalar los parámetros del modelo o recopilar más datos de entrenamiento. También ayudan a los equipos a identificar cuándo los modelos más pequeños, entrenados con más datos, pueden ofrecer un rendimiento similar al de los modelos más grandes que no han recibido suficiente entrenamiento.

Deben verificar si los proveedores ajustan los parámetros del modelo a la cantidad de datos de entrenamiento y considerar el costo de inferencia durante la selección. Los modelos entrenados con escalado computacionalmente óptimo suelen igualar el rendimiento de modelos más grandes, a la vez que reducen los costos operativos.

Los equipos pueden entrenar modelos más pequeños y ajustar leyes de escalado para predecir el rendimiento de modelos más grandes. El escalado basado en múltiples habilidades demuestra que unas pocas habilidades subyacentes impulsan el rendimiento en diferentes pruebas comparativas, lo que ayuda a evitar entrenamientos improductivos y a orientar la asignación de recursos computacionales.

Deben realizar un seguimiento de las tendencias de eficiencia de los parámetros para identificar modelos que ofrezcan un mejor rendimiento con menos parámetros. Las mejoras en la arquitectura y los algoritmos de entrenamiento desempeñan un papel fundamental, por lo que la selección de modelos debe centrarse en las mejoras generales del rendimiento, en lugar de solo en la cantidad de parámetros.

Sıla Ermut
Sıla Ermut
Analista de la industria
Sıla Ermut es analista de la industria en AIMultiple, especializada en marketing por correo electrónico y vídeos de ventas. Anteriormente trabajó como reclutadora en empresas de gestión de proyectos y consultoría. Sıla es licenciada en Psicología Social y en Relaciones Internacionales.
Ver perfil completo

Sé el primero en comentar

Tu dirección de correo electrónico no será publicada. Todos los campos son obligatorios.

0/450