Inteligencia artificial reproducible: por qué es importante y cómo mejorarla.

actualizado el Mar 13, 2026

La reproducibilidad es un aspecto fundamental de los métodos científicos, que permite a los investigadores replicar un experimento o estudio y obtener resultados consistentes utilizando la misma metodología. Este principio es igualmente vital en las aplicaciones de inteligencia artificial (IA) y aprendizaje automático (AA), donde la capacidad de reproducir resultados garantiza una inferencia estable en diferentes entornos de modelos. Sin embargo:

Aproximadamente el 5% de los investigadores de IA comparten el código fuente y menos de un tercio de ellos comparten datos de prueba en sus artículos de investigación. ¹
Menos de un tercio de la investigación en inteligencia artificial es reproducible, es decir, verificable. ²

Esto se conoce comúnmente como la crisis de reproducibilidad o replicación en la IA. ³ Analizar por qué la reproducibilidad es importante para la IA y cómo las empresas pueden mejorar la reproducibilidad en sus aplicaciones de IA.

¿Qué es la reproducibilidad en la inteligencia artificial?

La reproducibilidad de la IA es la capacidad de lograr resultados iguales o similares utilizando el mismo conjunto de datos y el mismo algoritmo de IA dentro del mismo entorno.

El conjunto de datos es el conjunto de entrenamiento que utiliza el algoritmo de IA para hacer predicciones.
El algoritmo de IA consta de tipo de modelo, parámetros del modelo e hiperparámetros, características y otro código.
El entorno se refiere al software y al hardware utilizados para ejecutar el algoritmo.

Para lograr la reproducibilidad en los sistemas de IA, es necesario realizar un seguimiento y registrar los cambios en los tres componentes.

¿Por qué es importante la reproducibilidad en la IA?

La reproducibilidad es crucial tanto para la investigación en IA como para las aplicaciones de IA en la empresa porque:

En la investigación sobre IA/aprendizaje automático , el progreso científico depende de la capacidad de los investigadores independientes para analizar y reproducir los resultados de un estudio. ⁴ El aprendizaje automático no puede mejorarse ni aplicarse en otros ámbitos si sus componentes esenciales no están documentados para garantizar su reproducibilidad. La falta de reproducibilidad difumina la línea entre la producción científica y la comercialización.

Para las aplicaciones de IA en los negocios , la reproducibilidad permitiría construir sistemas de IA menos propensos a errores. Menos errores beneficiarían a las empresas y a sus clientes al aumentar la fiabilidad y la previsibilidad, ya que las empresas podrían comprender qué componentes conducen a determinados resultados. Esto es necesario para convencer a los responsables de la toma de decisiones de que escalen los sistemas de IA y permitan que más usuarios se beneficien de ellos.

¿Cuáles son los retos relacionados con la IA reproducible?

Desafío	Ejemplo
Aleatoriedad	Resultados diferentes del descenso de gradiente estocástico (SGD) en el aprendizaje profundo
Falta de estandarización en el preprocesamiento	Diferentes métodos de eliminación de palabras vacías en PLN afectan el rendimiento del modelo.
Hardware/Software no determinista	Diferencias en los resultados entre la GPU NVIDIA y la GPU AMD
Ajuste de hiperparámetros	Las diferencias en la tasa de aprendizaje en XGBoost cambian drásticamente el rendimiento.
Falta de documentación/compartición de código	Los modelos Transformer carecen de una implementación detallada de la normalización de capas.
Problemas de versiones	Cambios en la API de TensorFlow 1.x frente a TensorFlow 2.x que afectan a la reproducibilidad
Disponibilidad/Variabilidad del conjunto de datos	Conjuntos de datos sanitarios de propiedad exclusiva que no son accesibles para su replicación.
Recursos computacionales	Los modelos de última generación como GPT-4 requieren enormes clústeres de GPU para replicar el entrenamiento.
Sobreajuste a conjuntos de prueba específicos	Informar resultados solo en divisiones específicas del conjunto de datos, sobreajuste a los datos de prueba.
Resultados sesgados/seleccionados a conveniencia	Informar únicamente sobre la mejor ejecución experimental sin revelar otros resultados.

1. Aleatoriedad y naturaleza estocástica de los algoritmos

Muchos modelos de IA, especialmente los algoritmos de aprendizaje profundo, incorporan aleatoriedad durante sus procesos de entrenamiento e inferencia. Por ejemplo, la inicialización aleatoria de pesos, las capas de abandono (dropout) y el descenso de gradiente estocástico (SGD) contribuyen a la variabilidad incluso cuando se utiliza el mismo conjunto de datos, código fuente y entorno.

Este problema se manifiesta especialmente en los modelos de lenguaje grandes (LLM, por sus siglas en inglés), como GPT-5, Gemini o LLaMA, que son inherentemente probabilísticos. Incluso con la misma entrada y configuración, pueden generar resultados diferentes, sobre todo si se ajustan los parámetros de temperatura o de muestreo top-k. Estos ajustes controlan la aleatoriedad de la generación de resultados:

La temperatura ajusta la distribución de probabilidad utilizada durante el muestreo de tokens. Una temperatura más alta (por ejemplo, 1,0) produce resultados más diversos y creativos, mientras que una temperatura más baja (por ejemplo, 0,2) genera respuestas más deterministas.
El muestreo Top-k o Top-p (núcleo) controla aún más la aleatoriedad al limitar el rango de tokens considerados en cada paso.

Si se le pide a un modelo LLM que resuma el mismo párrafo dos veces con una temperatura de 0,9, es posible que se obtengan resúmenes significativamente diferentes. Esta variabilidad dificulta la verificación o reproducción del comportamiento del modelo, a menos que la configuración esté fija y documentada explícitamente.

En aplicaciones empresariales , como la generación de resúmenes de contratos, las respuestas de chatbots o los asistentes de codificación de IA , esta imprevisibilidad plantea desafíos para la depuración, el cumplimiento normativo y el control de calidad. Los equipos pueden tener dificultades para determinar qué configuración generó un resultado específico a menos que todos los parámetros, incluyendo la semilla aleatoria y la temperatura, se registren de forma consistente.

Por ejemplo, el Laboratorio de Máquinas Pensantes explicó que el fallo de invariancia por lotes es una fuente importante de no determinismo en la inferencia de modelos de lenguaje natural (LLM). Idealmente, un modelo debería producir el mismo resultado para una solicitud dada, independientemente de si se procesa sola o junto con otras solicitudes. Sin embargo, los sistemas de servidor modernos agrupan dinámicamente las solicitudes para mejorar la eficiencia de la GPU, y muchos núcleos de GPU varían sus patrones de ejecución según el tamaño o la disposición del lote.

Debido a que las operaciones de punto flotante no son perfectamente asociativas, pequeños cambios en el orden de cálculo pueden alterar ligeramente los logits. Durante la decodificación, estas pequeñas diferencias pueden llevar al modelo a seleccionar tokens distintos, lo que genera resultados diferentes incluso con configuraciones deterministas (por ejemplo, temperatura = 0). En efecto, el resultado del modelo depende de qué otras solicitudes comparten el lote, lo que hace que la inferencia parezca no determinista. ⁵

2. Falta de estandarización en el preprocesamiento de datos

Los pasos de preprocesamiento, como el aumento de datos, la normalización y la extracción de características, a menudo no se documentan ni se comparten de forma consistente. Pequeños cambios en la forma en que se preprocesan los datos, incluso los aparentemente insignificantes como los errores de redondeo, pueden generar resultados diferentes. Esto es especialmente cierto en tareas de procesamiento de imágenes o procesamiento del lenguaje natural, donde la variabilidad de los datos es alta.

3. Hardware y software no deterministas

La ejecución de algoritmos de IA puede variar entre diferentes plataformas (CPU, GPU , TPU) e incluso dentro de la misma plataforma, debido a procesos no deterministas subyacentes en las bibliotecas. Las diferencias entre las versiones de estas bibliotecas pueden introducir una mayor variabilidad, incluso cuando el código y los datos son idénticos.

Por ejemplo, PyTorch 2.10 introdujo varias mejoras centradas en el determinismo y la depuración de problemas numéricos en los flujos de trabajo de aprendizaje automático modernos.

A medida que el aprendizaje por refuerzo distribuido y los procesos de post-entrenamiento a gran escala se vuelven más comunes, garantizar una ejecución reproducible y diagnosticar divergencias numéricas sutiles se ha vuelto cada vez más importante. Para abordar esto, la versión incorporó nuevas capacidades de depuración, como el Modo de depuración, que rastrea las llamadas enviadas y ayuda a identificar las fuentes de inestabilidad numérica durante la ejecución. ⁶

4. Ajuste de hiperparámetros

Muchos modelos de IA dependen de hiperparámetros, como la tasa de aprendizaje, el tamaño del lote o la intensidad de la regularización, que requieren un ajuste preciso. A menudo, estos parámetros no se describen con suficiente detalle o su selección no se explica con rigor, lo que dificulta la reproducción de los resultados. Además, pequeños cambios en los hiperparámetros pueden generar resultados de rendimiento muy diferentes.

Incluso cuando los artículos de investigación proporcionan código, este puede no estar completo ni coincidir totalmente con los resultados publicados. Algunos elementos cruciales, como bibliotecas específicas, ponderaciones del modelo o flujos de datos, podrían no divulgarse, lo que dificulta su reproducción exacta.

6. Problemas de versiones

La naturaleza dinámica de los ecosistemas de software de IA implica que las bibliotecas y los marcos de trabajo evolucionan constantemente. Un modelo entrenado con una versión específica de una biblioteca podría no tener el mismo rendimiento al ejecutarse en una versión posterior, incluso si el código permanece sin cambios. Mantener un registro de las versiones de todas las dependencias puede resultar difícil, y la documentación de versiones suele ser deficiente.

7. Disponibilidad y variabilidad de los conjuntos de datos

Algunos conjuntos de datos utilizados en la investigación de IA son de propiedad privada o no están disponibles públicamente, lo que imposibilita la replicación de los estudios. Incluso cuando los conjuntos de datos están disponibles, pueden existir variaciones debido al muestreo, las actualizaciones o las diferentes técnicas de preprocesamiento aplicadas en el momento de la investigación.

8. Recursos computacionales

Reproducir modelos de IA de última generación suele requerir importantes recursos computacionales, incluyendo hardware especializado como GPU o TPU. Los investigadores o profesionales que no dispongan del mismo nivel de recursos pueden tener dificultades para replicar los resultados.

9. Sobreajuste a conjuntos de prueba específicos

En algunos casos, los modelos se sobreajustan inadvertidamente a conjuntos de datos de prueba o puntos de referencia específicos. Cuando estos modelos se prueban en entornos diferentes o con conjuntos de datos ligeramente modificados, los resultados pueden no ser generalizables, lo que dificulta la reproducibilidad.

10. Sesgo en la presentación de informes y selección sesgada de resultados.

Los investigadores pueden informar sobre la versión con mejor rendimiento de un modelo tras múltiples ejecuciones sin especificar la variabilidad entre ellas ni revelar el número total de experimentos realizados. Esta presentación selectiva de resultados distorsiona la percepción de la reproducibilidad de los mismos.

El papel de los investigadores de IA para abordar la reproducibilidad

Los investigadores de IA desarrollan modelos de vanguardia, pero también son responsables de garantizar que su trabajo sea verificable y fiable. A pesar de los llamamientos a la transparencia, muchos resultados de la investigación aún no cumplen con este requisito en la práctica.

Un análisis de los artículos presentados en NeurIPS (Conferencia sobre Sistemas de Procesamiento de Información Neuronal) reveló que solo el 42% incluía código y apenas el 23% proporcionaba enlaces a conjuntos de datos.
La mayoría de los estudios sobre IA carecen de detalles suficientes para poder reproducirse de forma independiente, a menudo debido a la documentación inadecuada de los hiperparámetros, las condiciones de entrenamiento y los protocolos de evaluación.
Casi el 70% de los investigadores de IA admitieron haber tenido dificultades para reproducir los resultados de otros, incluso dentro del mismo subcampo.

Para superar estos problemas, la comunidad de investigación en IA debe:

Adoptar prácticas de ciencia abierta: compartir código, datos y registros detallados de experimentos permite la verificación por pares y la integridad científica.
Estandarizar los informes: Seguir formatos estructurados como la Lista de verificación de reproducibilidad del aprendizaje automático ayuda a garantizar que se documenten los detalles esenciales.
Fomentar la validación interinstitucional: Alentar la replicación independiente por parte de otros equipos de investigación ayuda a identificar la generalización y la fiabilidad.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

¿Cómo mejorar la reproducibilidad en la IA?

La mejor manera de lograr la reproducibilidad de la IA en la empresa es aprovechando las mejores prácticas de MLOps . MLOps implica optimizar el ciclo de vida de la inteligencia artificial y el aprendizaje automático mediante la automatización y un marco unificado dentro de la organización.

Algunas herramientas y técnicas de MLOps que facilitan la reproducibilidad son:

Seguimiento de experimentos : Las herramientas de seguimiento de experimentos ayudan a mantener un registro estructurado de la información importante sobre estos experimentos.
Linaje de datos : El linaje de datos realiza un seguimiento del origen de los datos, lo que les sucede y su recorrido a lo largo del ciclo de vida de los datos, mediante grabaciones y visualizaciones.
Control de versiones de modelos : Del mismo modo, las herramientas de control de versiones de datos ayudan a realizar un seguimiento de las diferentes versiones de modelos de IA con diferentes tipos de modelos, parámetros, hiperparámetros, etc., y permiten a las empresas compararlos.
Registro de modelos : El registro de modelos es un repositorio central para todos los modelos y sus metadatos. Esto permite a los científicos de datos acceder a diferentes modelos y sus propiedades en distintos momentos.

Además de las herramientas, MLOps también ayuda a las empresas a mejorar la reproducibilidad al facilitar la comunicación entre científicos de datos, personal de TI, expertos en la materia y profesionales de operaciones.

¿Qué significa IA fiable y cómo se relaciona con la IA reproducible?

La IA confiable se refiere a sistemas que funcionan de manera consistente y correcta en diversas condiciones. Esto incluye generar resultados precisos, justos y seguros en diferentes entornos y con distintos datos de entrada. Un pilar fundamental de la confiabilidad es la reproducibilidad: la capacidad de recrear los mismos resultados utilizando los mismos datos de entrada y métodos, incluso cuando el sistema se implementa en nuevos contextos o por equipos diferentes.

Consistencia entre ejecuciones: La IA reproducible garantiza que el entrenamiento o la inferencia repetidos bajo las mismas condiciones produzcan los mismos resultados, lo cual es fundamental para validar la fiabilidad.
Depuración y auditoría: Los sistemas fiables deben ser transparentes y responsables. La reproducibilidad permite a las partes interesadas rastrear cómo se tomó una decisión y verificarla de forma independiente.
Pruebas rigurosas: Para garantizar la fiabilidad, la IA debe someterse a pruebas en múltiples condiciones. La reproducibilidad permite estandarizar los procedimientos de prueba para validar las afirmaciones sobre su rendimiento.
Generación de confianza: Cuando los resultados se pueden reproducir de forma consistente, es más probable que los usuarios y los reguladores confíen en la fiabilidad y la seguridad de la IA.
Integridad científica: En la investigación de IA, la reproducibilidad es esencial para la revisión por pares y el progreso. Los sistemas fiables dependen de este fundamento para garantizar que la solidez teórica se traduzca en fiabilidad práctica.

Ejemplos fiables de IA

Jamba2

Jamba2 es una familia de modelos de lenguaje de código abierto, desarrollada por AI21, que prioriza la fiabilidad, la capacidad de control y la eficiencia para aplicaciones empresariales. Estos modelos se basan en la arquitectura híbrida SSM-Transformer de AI21, que combina capas de espacio de estados (al estilo Mamba) con capas Transformer para lograr un alto rendimiento sin comprometer la eficiencia de la memoria.

AI21 posiciona a Jamba2 como una alternativa orientada a la empresa frente a los grandes modelos de razonamiento, centrándose en la respuesta precisa a preguntas, respuestas fundamentadas y el seguimiento de instrucciones sin la gran carga computacional de los tokens de razonamiento.

Su tamaño compacto permite a los desarrolladores ejecutar modelos localmente (incluso en dispositivos de consumo como teléfonos o portátiles) al tiempo que admite cargas de trabajo de producción como flujos de trabajo RAG y el procesamiento de documentos técnicos. ⁷

IBM

IBM presentó Sovereign Core como una plataforma de software "soberana por diseño y preparada para la IA" que permite a las empresas y los gobiernos implementar entornos de IA con control total sobre los datos, las operaciones y la gobernanza. ⁸

Mistral AI

La empresa Mistral AI consiguió un importante acuerdo marco de defensa francés para el suministro de modelos de IA generativa, cuyo contrato especificaba el alojamiento en infraestructura francesa "para preservar el control nacional sobre datos y tecnología sensibles". ⁹

Enlaces de referencia

Artificial intelligence faces reproducibility crisis | Science

State of the Art: Reproducibility in Artificial Intelligence | Proceedings of the AAAI Conference on Artificial Intelligence

AI is wrestling with a replication crisis | MIT Technology Review

MIT Technology Review

Transparency and reproducibility in artificial intelligence | Nature

Nature Publishing Group UK

Defeating Nondeterminism in LLM Inference - Thinking Machines Lab

PyTorch 2.10 Release Blog – PyTorch

Jamba2: Open Source LLMs for Enterprise Reliability

AI21 Labs

Introducing IBM Sovereign Core: A new software foundation for sovereignty

Mistral AI wins French defence AI framework agreement

Generation Digital

Cem Dilmegani

Analista principal

Cem ha sido el analista principal de AIMultiple desde 2017. AIMultiple informa a cientos de miles de empresas (según similarWeb), incluyendo el 55% de las empresas Fortune 500 cada mes. El trabajo de Cem ha sido citado por importantes publicaciones globales como Business Insider, Forbes, Washington Post, firmas globales como Deloitte, HPE y ONG como el Foro Económico Mundial y organizaciones supranacionales como la Comisión Europea. Puede consultar más empresas y recursos de renombre que citan a AIMultiple. A lo largo de su carrera, Cem se desempeñó como consultor, comprador y emprendedor tecnológico. Asesoró a empresas en sus decisiones tecnológicas en McKinsey & Company y Altman Solon durante más de una década. También publicó un informe de McKinsey sobre digitalización. Lideró la estrategia y adquisición de tecnología de una empresa de telecomunicaciones, reportando directamente al CEO. Asimismo, lideró el crecimiento comercial de la empresa de tecnología avanzada Hypatos, que alcanzó ingresos recurrentes anuales de siete cifras y una valoración de nueve cifras partiendo de cero en tan solo dos años. El trabajo de Cem en Hypatos fue reseñado por importantes publicaciones tecnológicas como TechCrunch y Business Insider. Cem participa regularmente como ponente en conferencias internacionales de tecnología. Se graduó en ingeniería informática por la Universidad de Bogazici y posee un MBA de la Columbia Business School.

Ver perfil completo

Comentarios 2

Comparte tus ideas

Tu dirección de correo electrónico no será publicada. Todos los campos son obligatorios.

Richard Rudd-Orthner

Oct 04, 2023 at 09:14

I have been working on this and have achieved it with on CPU. Repeatable determinism or reproducibility is a key stone of dependable systems and when applied in convolutional network can have higher accuracy. These are some of the academically peer-reviewed publications made in the IEEE. • [1] R. Rudd-Orthner and L. Mihaylova, “Non-Random weight initialisation in deep learning networks for repeatable determinism,” in Peer Reviewed Proc. of the 10th IEEE International Conference Dependable Systems Services and Technologies (DESSERT-19), Leeds, UK, 2019. o This conference paper proved that an alternative to the random initialisation was possible and provided an almost equal performance but with reproducibility. Presented at the UK Ukraine and Northen Island IEEE branches conference in Leeds. • [2] R. Rudd-Orthner and L. Milhaylova, “Repeatable determinism using non-random weight initialisations in smart city applications of deep learning,” Journal of Reliable Intelligent Environments in a Smart Cities special edition, vol. 6, no. 1, pp. 31-49, 2020. o This Journal paper enhanced the performance to an equivalent performance by using the limits from He and Xavier and made the previous reproducibility a more general case for general use, although it was limited to Dense layers. • [3] R. Rudd-Orthner and L. Milhaylova, “Non-random weight initialisation in deep convolutional networks applied to safety critical artificial intelligence,” in Peer Reviewed Proc. of the 13th International Conference on Developments in eSystems Engineering (DeSe), Liverpool, UK, 2020. o This conference paper proved an approach to Convolutional layers that as alternative to the random initialisation and provided a higher performance with reproducibility. Presented at the UK and UAE IEEE branches conference in Liverpool held virtually. • [4] R. Rudd-Orthner and L. Milhaylova, “Deep convnet: non-random weight initialization for repeatable determinism with FSGM,” Sensors, vol. 21, no. 14, p. 4772, 2021. o This Journal paper extended the work into colour images proofs and used the cyber FSGM attack as a method for measuring effect in transferred learning. • [5] R. Rudd-Orthner and L. Milhaylova, “Multi-type aircraft of remote sensing images: MTARSI2,” Zenodo, 30 June 2021. [Online]. Available: https://zenodo.org/record/5044950#.YcWalmDP2Ul. [Accessed 30 June 2021]. o This was the colour dataset used. • [6] R. Rudd-Orthner, “Artificial Intelligence Methods for Security and Cyber Security Systems,” University of Sheffield, Sheffield, UK, 2022. o This is the final full write up in the context and with other approaches.

Richard Rudd-Orthner

Oct 04, 2023 at 09:13

I have been working on this and have achieved it with on CPU. Repeatable determinism or reproducibility is a key stone of dependable systems and when applied in convolutional network can have higher accuracy. These are some of the academically peer-reviewed publications made in the IEEE etc about Safety Critical AI. • [1] R. Rudd-Orthner and L. Mihaylova, “Non-Random weight initialisation in deep learning networks for repeatable determinism,” in Peer Reviewed Proc. of the 10th IEEE International Conference Dependable Systems Services and Technologies (DESSERT-19), Leeds, UK, 2019. o This conference paper proved that an alternative to the random initialisation was possible and provided an almost equal performance but with reproducibility. Presented at the UK Ukraine and Northen Island IEEE branches conference in Leeds. • [2] R. Rudd-Orthner and L. Milhaylova, “Repeatable determinism using non-random weight initialisations in smart city applications of deep learning,” Journal of Reliable Intelligent Environments in a Smart Cities special edition, vol. 6, no. 1, pp. 31-49, 2020. o This Journal paper enhanced the performance to an equivalent performance by using the limits from He and Xavier and made the previous reproducibility a more general case for general use, although it was limited to Dense layers. • [3] R. Rudd-Orthner and L. Milhaylova, “Non-random weight initialisation in deep convolutional networks applied to safety critical artificial intelligence,” in Peer Reviewed Proc. of the 13th International Conference on Developments in eSystems Engineering (DeSe), Liverpool, UK, 2020. o This conference paper proved an approach to Convolutional layers that as alternative to the random initialisation and provided a higher performance with reproducibility. Presented at the UK and UAE IEEE branches conference in Liverpool held virtually. • [4] R. Rudd-Orthner and L. Milhaylova, “Deep convnet: non-random weight initialization for repeatable determinism with FSGM,” Sensors, vol. 21, no. 14, p. 4772, 2021. o This Journal paper extended the work into colour images proofs and used the cyber FSGM attack as a method for measuring effect in transferred learning. • [5] R. Rudd-Orthner and L. Milhaylova, “Multi-type aircraft of remote sensing images: MTARSI2,” Zenodo, 30 June 2021. [Online]. Available: https://zenodo.org/record/5044950#.YcWalmDP2Ul. [Accessed 30 June 2021]. o This was the colour dataset used. • [6] R. Rudd-Orthner, “Artificial Intelligence Methods for Security and Cyber Security Systems,” University of Sheffield, Sheffield, UK, 2022. o This is the final full write up in the context and with other approaches.