Inteligência Artificial Reproduzível: Por Que é Importante e Como Aprimorá-la

atualizado em Mar 13, 2026

A reprodutibilidade é um aspecto fundamental dos métodos científicos, permitindo que os pesquisadores repliquem um experimento ou estudo e obtenham resultados consistentes usando a mesma metodologia. Esse princípio é igualmente vital em aplicações de inteligência artificial (IA) e aprendizado de máquina (ML), onde a capacidade de reproduzir resultados garante inferências estáveis em diferentes ambientes de modelos. No entanto:

Aproximadamente 5% dos pesquisadores de IA compartilham o código-fonte e menos de um terço deles compartilham dados de teste em seus artigos de pesquisa. ¹
Menos de um terço da pesquisa em IA é reproduzível, ou seja, verificável. ²

Isso é comumente chamado de crise de reprodutibilidade ou replicação em IA. ³ Explore por que a reprodutibilidade é importante para a IA e como as empresas podem melhorar a reprodutibilidade em suas aplicações de IA.

O que é reprodutibilidade em inteligência artificial?

A reprodutibilidade da IA é a capacidade de obter resultados iguais ou semelhantes usando o mesmo conjunto de dados e algoritmo de IA no mesmo ambiente.

O conjunto de dados é o conjunto de treinamento que o algoritmo de IA usa para fazer previsões.
O algoritmo de IA consiste em tipo de modelo, parâmetros e hiperparâmetros do modelo, características e outros códigos.
O ambiente se refere ao software e ao hardware usados para executar o algoritmo.

Para alcançar a reprodutibilidade em sistemas de IA, as alterações em todos os três componentes devem ser rastreadas e registradas.

Por que a reprodutibilidade é importante em IA?

A reprodutibilidade é crucial tanto para a pesquisa em IA quanto para as aplicações de IA nas empresas porque:

Para a pesquisa em IA/ML , o progresso científico depende da capacidade de pesquisadores independentes de analisar e reproduzir os resultados de um estudo. ⁴ O aprendizado de máquina não pode ser aprimorado ou aplicado em outras áreas se seus componentes essenciais não forem documentados para garantir a reprodutibilidade. A falta de reprodutibilidade torna tênue a linha divisória entre a produção científica e o marketing.

Para aplicações de IA em negócios , a reprodutibilidade permitiria a construção de sistemas de IA menos propensos a erros. Menos erros beneficiariam as empresas e seus clientes, aumentando a confiabilidade e a previsibilidade, uma vez que as empresas poderiam entender quais componentes levam a determinados resultados. Isso é necessário para convencer os tomadores de decisão a escalar os sistemas de IA e permitir que mais usuários se beneficiem deles.

Quais são os desafios relacionados à IA reproduzível?

Desafio	Exemplo
Aleatoriedade	Resultados diferentes da descida de gradiente estocástica (SGD) em aprendizado profundo.
Falta de padronização no pré-processamento	Diferentes métodos de remoção de stopwords em PNL afetam o desempenho do modelo.
Hardware/Software não determinístico	Diferenças nos resultados na GPU NVIDIA vs. GPU AMD
Ajuste de hiperparâmetros	Diferenças na taxa de aprendizado do XGBoost alteram drasticamente o desempenho.
Falta de documentação/compartilhamento de código	Modelos Transformer que não possuem implementação detalhada de normalização de camadas.
Problemas de versionamento	Alterações na API do TensorFlow 1.x em comparação com o TensorFlow 2.x que afetam a reprodutibilidade
Disponibilidade/Variabilidade do Conjunto de Dados	Conjuntos de dados proprietários da área da saúde que não estão acessíveis para replicação.
Recursos computacionais	Modelos de última geração como GPT-4 exigem clusters massivos de GPUs para replicar o treinamento.
Sobreajuste a conjuntos de teste específicos	A apresentação de resultados apenas em divisões específicas do conjunto de dados leva a um sobreajuste aos dados de teste.
Resultados tendenciosos/selecionados	Relatar apenas o melhor resultado do experimento, sem divulgar os demais resultados.

1. Aleatoriedade e natureza estocástica dos algoritmos

Muitos modelos de IA, especialmente algoritmos de aprendizado profundo, incorporam aleatoriedade durante seus processos de treinamento e inferência. Por exemplo, inicialização aleatória de pesos, camadas de dropout e descida de gradiente estocástica (SGD) contribuem para a variabilidade mesmo quando se utiliza o mesmo conjunto de dados, código-fonte e ambiente.

Esse problema é especialmente acentuado em Modelos de Linguagem Grandes (LLMs), como Gemini ou LLaMA, que são inerentemente probabilísticos. Mesmo quando solicitados com a mesma entrada e configuração, eles podem gerar saídas diferentes, principalmente se os parâmetros de temperatura ou de amostragem top-k forem ajustados. Essas configurações controlam a aleatoriedade da geração de saída:

A temperatura ajusta a distribuição de probabilidade usada durante a amostragem de tokens. Uma temperatura mais alta (por exemplo, 1,0) produz resultados mais diversos e criativos, enquanto uma temperatura mais baixa (por exemplo, 0,2) gera respostas mais determinísticas.
A amostragem top-k ou top-p (núcleo) controla ainda mais a aleatoriedade, limitando o intervalo de tokens considerados em cada etapa.

Solicitar a um modelo de regressão logística (LLM) que resuma o mesmo parágrafo duas vezes com uma temperatura de 0,9 pode gerar resumos significativamente diferentes. Essa variabilidade dificulta a verificação ou reprodução do comportamento do modelo, a menos que as configurações sejam fixas e explicitamente documentadas.

Em aplicações empresariais , como resumo de contratos, respostas de chatbots ou assistentes de codificação com IA , essa imprevisibilidade representa desafios para depuração, conformidade e garantia de qualidade. As equipes podem ter dificuldades para rastrear qual configuração levou a uma saída específica, a menos que todos os parâmetros, incluindo a semente aleatória e a temperatura, sejam registrados de forma consistente.

Por exemplo, o Thinking Machines Lab explicou a falha na invariância de lote como uma das principais fontes de não determinismo na inferência de modelos de lógica latente (LLM). Idealmente, um modelo deveria produzir a mesma saída para uma determinada solicitação, independentemente de ser processado sozinho ou em conjunto com outras solicitações. No entanto, os sistemas de processamento modernos agrupam solicitações dinamicamente para melhorar a eficiência da GPU, e muitos kernels de GPU variam seus padrões de execução dependendo do tamanho ou layout do lote.

Como as operações de ponto flutuante não são perfeitamente associativas, pequenas alterações na ordem de computação podem alterar ligeiramente os logits. Durante a decodificação, essas pequenas diferenças podem eventualmente levar o modelo a selecionar tokens diferentes, causando saídas diferentes mesmo com configurações determinísticas (por exemplo, temperatura = 0). Na prática, o resultado do modelo depende de quais outras solicitações compartilham o lote, fazendo com que a inferência pareça não determinística. ⁵

2. Falta de padronização no pré-processamento de dados

Etapas de pré-processamento, como aumento de dados, normalização e extração de características, muitas vezes não são documentadas ou compartilhadas de forma consistente. Pequenas alterações na forma como os dados são pré-processados, mesmo as aparentemente insignificantes, como erros de arredondamento, podem levar a resultados diferentes. Isso é particularmente verdadeiro para tarefas de processamento de imagens ou processamento de linguagem natural, onde a variabilidade dos dados é alta.

3. Hardware e software não determinísticos

A execução de algoritmos de IA pode variar em diferentes hardwares (CPUs, GPUs , TPUs) e até mesmo no mesmo hardware, devido a processos não determinísticos subjacentes nas bibliotecas. Diferenças nas versões dessas bibliotecas podem introduzir ainda mais variabilidade, mesmo quando o código e os dados são idênticos.

Por exemplo, o PyTorch 2.10 introduziu diversas melhorias focadas no determinismo e na depuração de problemas numéricos em fluxos de trabalho de aprendizado de máquina modernos.

Com a crescente popularidade do aprendizado por reforço distribuído e de pipelines de pós-treinamento em larga escala, garantir a execução reproduzível e diagnosticar divergências numéricas sutis tornou-se cada vez mais importante. Para solucionar isso, esta versão adicionou novos recursos de depuração, como o DebugMode, que rastreia as chamadas despachadas e ajuda a identificar as fontes de instabilidade numérica durante a execução. ⁶

4. Ajuste de hiperparâmetros

Muitos modelos de IA dependem de hiperparâmetros, como taxa de aprendizado, tamanho do lote ou intensidade da regularização, que precisam ser ajustados com precisão. Frequentemente, esses parâmetros não são compartilhados com detalhes suficientes, ou sua seleção não é explicada rigorosamente, dificultando a reprodução dos resultados. Além disso, pequenas alterações nos hiperparâmetros podem resultar em desempenhos muito diferentes.

Mesmo quando artigos de pesquisa fornecem código, ele pode não estar completo ou totalmente alinhado com os resultados publicados. Alguns elementos críticos, como bibliotecas específicas, pesos do modelo ou fluxos de dados, podem não ser divulgados, dificultando a reprodução exata.

6. Problemas de versionamento

A natureza dinâmica dos ecossistemas de software de IA significa que bibliotecas e frameworks estão em constante evolução. Um modelo treinado com uma versão específica de uma biblioteca pode não apresentar o mesmo desempenho quando executado em uma versão posterior, mesmo que o código permaneça inalterado. Manter o controle das versões de todas as dependências pode ser difícil, e o versionamento geralmente é mal documentado.

7. Disponibilidade e variabilidade do conjunto de dados

Alguns conjuntos de dados usados em pesquisas de IA são proprietários ou não estão disponíveis publicamente, o que impossibilita a replicação dos estudos. Mesmo quando os conjuntos de dados estão disponíveis, podem ocorrer variações devido à amostragem, atualizações ou diferentes técnicas de pré-processamento aplicadas no momento da pesquisa.

8. Recursos computacionais

A reprodução de modelos de IA de última geração geralmente exige recursos computacionais significativos, incluindo hardware especializado como GPUs ou TPUs. Pesquisadores ou profissionais sem acesso ao mesmo nível de recursos podem ter dificuldade em replicar os resultados.

9. Sobreajuste a conjuntos de teste específicos

Em alguns casos, os modelos são inadvertidamente sobreajustados a conjuntos de teste ou benchmarks específicos. Quando esses modelos são testados em ambientes diferentes ou em conjuntos de dados ligeiramente alterados, os resultados podem não ser generalizáveis, dificultando a reprodutibilidade.

10. Viés na divulgação e seleção tendenciosa de resultados

Os pesquisadores podem relatar a versão de melhor desempenho de um modelo após múltiplas execuções sem especificar a variabilidade entre as execuções ou divulgar o número total de experimentos realizados. Essa divulgação seletiva distorce a percepção da reprodutibilidade dos resultados.

O papel dos pesquisadores de IA no enfrentamento da reprodutibilidade

Os pesquisadores de IA desenvolvem modelos de ponta, mas também têm a responsabilidade de garantir que seu trabalho possa ser verificado e confiável. Apesar dos apelos por transparência, muitos resultados de pesquisa ainda deixam a desejar na prática:

Uma análise dos artigos da NeurIPS (Conferência sobre Sistemas de Processamento de Informação Neural) revelou que apenas 42% incluíam código e somente 23% forneciam links para conjuntos de dados.
A maioria dos estudos de IA carece de detalhes suficientes para serem reproduzidos de forma independente, frequentemente devido à documentação inadequada de hiperparâmetros, condições de treinamento e protocolos de avaliação.
Quase 70% dos pesquisadores de IA admitiram ter tido dificuldades para reproduzir os resultados de outros pesquisadores, mesmo dentro da mesma subárea.

Para superar esses problemas, a comunidade de pesquisa em IA deve:

Adote práticas de ciência aberta: o compartilhamento de código, dados e registros detalhados de experimentos permite a verificação por pares e a integridade científica.
Padronizar a elaboração de relatórios: Seguir formatos estruturados, como a Lista de Verificação de Reprodutibilidade de Aprendizado de Máquina, ajuda a garantir que os detalhes essenciais sejam documentados.
Promover a validação interinstitucional: Incentivar a replicação independente por outras equipes de pesquisa ajuda a identificar a generalização e a confiabilidade dos resultados.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Como melhorar a reprodutibilidade em IA?

A melhor maneira de alcançar a reprodutibilidade da IA na empresa é aproveitando as melhores práticas de MLOps . MLOps envolve a otimização do ciclo de vida da inteligência artificial e do aprendizado de máquina com automação e uma estrutura unificada dentro da organização.

Algumas ferramentas e técnicas de MLOps que facilitam a reprodutibilidade são:

Rastreamento de experimentos : As ferramentas de rastreamento de experimentos ajudam a manter o controle de informações importantes sobre esses experimentos de maneira estruturada.
Linhagem de dados : A linhagem de dados rastreia a origem dos dados, o que acontece com eles e para onde vão ao longo do seu ciclo de vida, por meio de registros e visualizações.
Versionamento de modelos : Da mesma forma, as ferramentas de versionamento de dados ajudam a rastrear diferentes versões de modelos de IA com diferentes tipos de modelo, parâmetros, hiperparâmetros etc., permitindo que as empresas os comparem.
Registro de modelos : O registro de modelos é um repositório central para todos os modelos e seus metadados. Isso ajuda os cientistas de dados a acessar diferentes modelos e suas propriedades em momentos distintos.

Além das ferramentas, o MLOps também ajuda as empresas a melhorar a reprodutibilidade, facilitando a comunicação entre cientistas de dados, equipe de TI, especialistas no assunto e profissionais de operações.

O que significa IA confiável e como isso se relaciona com IA reproduzível?

A Inteligência Artificial confiável refere-se a sistemas que funcionam de forma consistente e correta em diversas condições. Isso inclui produzir resultados precisos, justos e seguros em diferentes ambientes e com diferentes entradas de dados. Um pilar fundamental da confiabilidade é a reprodutibilidade, ou seja, a capacidade de recriar os mesmos resultados usando as mesmas entradas e métodos, mesmo quando o sistema é implementado em novos contextos ou por equipes diferentes.

Consistência entre execuções: A IA reproduzível garante que o treinamento ou a inferência repetidos sob as mesmas condições produzam os mesmos resultados, o que é fundamental para validar a confiabilidade.
Depuração e auditoria: Sistemas confiáveis devem ser transparentes e responsáveis. A reprodutibilidade permite que as partes interessadas rastreiem como uma decisão foi tomada e a verifiquem de forma independente.
Testes robustos: Para garantir a confiabilidade, a IA deve ser testada em múltiplas condições. A reprodutibilidade permite que procedimentos de teste padronizados validem as alegações de desempenho.
Construção de confiança: Quando os resultados podem ser reproduzidos de forma consistente, os usuários e os órgãos reguladores tendem a confiar mais na confiabilidade e segurança da IA.
Integridade científica: Na pesquisa em IA, a reprodutibilidade é essencial para a revisão por pares e o avanço da área. Sistemas confiáveis dependem dessa base para garantir que a solidez teórica se traduza em confiabilidade prática.

Exemplos confiáveis de IA

Jamba2

Jamba2 é uma família de modelos de linguagem de código aberto lançada pela AI21 que prioriza confiabilidade, controlabilidade e eficiência para aplicações corporativas. Os modelos são construídos sobre a arquitetura híbrida SSM-Transformer da AI21, que combina camadas de espaço de estado (estilo Mamba) com camadas Transformer para alcançar alto desempenho, mantendo a eficiência de memória.

A AI21 posiciona o Jamba2 como uma alternativa voltada para empresas em relação a grandes modelos de raciocínio, com foco em respostas precisas a perguntas, respostas fundamentadas e seguimento de instruções, sem a pesada sobrecarga computacional dos tokens de raciocínio.

Seu formato compacto permite que os desenvolvedores executem modelos localmente (mesmo em dispositivos de consumo, como celulares ou laptops), ao mesmo tempo que oferece suporte a cargas de trabalho de produção, como pipelines RAG e processamento de documentos técnicos. ⁷

IBM

A Sovereign Core foi apresentada como uma plataforma de software "soberana por design e pronta para IA" que permite que empresas e governos implementem ambientes de IA com controle total sobre dados, operações e governança. ⁸

Mistral AI

O projeto Mistral AI garantiu um importante acordo-quadro de defesa francês para o fornecimento de modelos generativos de IA, com o contrato especificando a hospedagem em infraestrutura francesa "para preservar o controle nacional sobre dados e tecnologia sensíveis". ⁹

Links de referência

Artificial intelligence faces reproducibility crisis | Science

State of the Art: Reproducibility in Artificial Intelligence | Proceedings of the AAAI Conference on Artificial Intelligence

AI is wrestling with a replication crisis | MIT Technology Review

MIT Technology Review

Transparency and reproducibility in artificial intelligence | Nature

Nature Publishing Group UK

Defeating Nondeterminism in LLM Inference - Thinking Machines Lab

PyTorch 2.10 Release Blog – PyTorch

Jamba2: Open Source LLMs for Enterprise Reliability

AI21 Labs

Introducing IBM Sovereign Core: A new software foundation for sovereignty

Mistral AI wins French defence AI framework agreement

Generation Digital

Cem Dilmegani

Analista Principal

Cem é o analista principal da AIMultiple desde 2017. A AIMultiple fornece informações para centenas de milhares de empresas (segundo o SimilarWeb), incluindo 55% das empresas da Fortune 500, todos os meses. O trabalho de Cem foi citado por importantes publicações globais, como Business Insider, Forbes e Washington Post, além de empresas globais como Deloitte e HPE, ONGs como o Fórum Econômico Mundial e organizações supranacionais como a Comissão Europeia. Você pode ver mais empresas e recursos renomados que mencionaram a AIMultiple. Ao longo de sua carreira, Cem atuou como consultor de tecnologia, comprador de tecnologia e empreendedor na área. Ele assessorou empresas em suas decisões tecnológicas na McKinsey & Company e na Altman Solon por mais de uma década. Também publicou um relatório da McKinsey sobre digitalização. Liderou a estratégia de tecnologia e a área de compras de uma empresa de telecomunicações, reportando-se diretamente ao CEO. Além disso, liderou o crescimento comercial da empresa de tecnologia avançada Hypatos, que atingiu uma receita recorrente anual de sete dígitos e uma avaliação de nove dígitos, partindo de zero, em apenas dois anos. O trabalho de Cem no Hypatos foi noticiado por importantes publicações de tecnologia, como TechCrunch e Business Insider. Cem participa regularmente como palestrante em conferências internacionais de tecnologia. Ele se formou em engenharia da computação pela Universidade Bogazici e possui um MBA pela Columbia Business School.

Ver perfil completo

Comentários 2

Compartilhe suas ideias

Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios.

Richard Rudd-Orthner

Oct 04, 2023 at 09:14

I have been working on this and have achieved it with on CPU. Repeatable determinism or reproducibility is a key stone of dependable systems and when applied in convolutional network can have higher accuracy. These are some of the academically peer-reviewed publications made in the IEEE. • [1] R. Rudd-Orthner and L. Mihaylova, “Non-Random weight initialisation in deep learning networks for repeatable determinism,” in Peer Reviewed Proc. of the 10th IEEE International Conference Dependable Systems Services and Technologies (DESSERT-19), Leeds, UK, 2019. o This conference paper proved that an alternative to the random initialisation was possible and provided an almost equal performance but with reproducibility. Presented at the UK Ukraine and Northen Island IEEE branches conference in Leeds. • [2] R. Rudd-Orthner and L. Milhaylova, “Repeatable determinism using non-random weight initialisations in smart city applications of deep learning,” Journal of Reliable Intelligent Environments in a Smart Cities special edition, vol. 6, no. 1, pp. 31-49, 2020. o This Journal paper enhanced the performance to an equivalent performance by using the limits from He and Xavier and made the previous reproducibility a more general case for general use, although it was limited to Dense layers. • [3] R. Rudd-Orthner and L. Milhaylova, “Non-random weight initialisation in deep convolutional networks applied to safety critical artificial intelligence,” in Peer Reviewed Proc. of the 13th International Conference on Developments in eSystems Engineering (DeSe), Liverpool, UK, 2020. o This conference paper proved an approach to Convolutional layers that as alternative to the random initialisation and provided a higher performance with reproducibility. Presented at the UK and UAE IEEE branches conference in Liverpool held virtually. • [4] R. Rudd-Orthner and L. Milhaylova, “Deep convnet: non-random weight initialization for repeatable determinism with FSGM,” Sensors, vol. 21, no. 14, p. 4772, 2021. o This Journal paper extended the work into colour images proofs and used the cyber FSGM attack as a method for measuring effect in transferred learning. • [5] R. Rudd-Orthner and L. Milhaylova, “Multi-type aircraft of remote sensing images: MTARSI2,” Zenodo, 30 June 2021. [Online]. Available: https://zenodo.org/record/5044950#.YcWalmDP2Ul. [Accessed 30 June 2021]. o This was the colour dataset used. • [6] R. Rudd-Orthner, “Artificial Intelligence Methods for Security and Cyber Security Systems,” University of Sheffield, Sheffield, UK, 2022. o This is the final full write up in the context and with other approaches.

Richard Rudd-Orthner

Oct 04, 2023 at 09:13

I have been working on this and have achieved it with on CPU. Repeatable determinism or reproducibility is a key stone of dependable systems and when applied in convolutional network can have higher accuracy. These are some of the academically peer-reviewed publications made in the IEEE etc about Safety Critical AI. • [1] R. Rudd-Orthner and L. Mihaylova, “Non-Random weight initialisation in deep learning networks for repeatable determinism,” in Peer Reviewed Proc. of the 10th IEEE International Conference Dependable Systems Services and Technologies (DESSERT-19), Leeds, UK, 2019. o This conference paper proved that an alternative to the random initialisation was possible and provided an almost equal performance but with reproducibility. Presented at the UK Ukraine and Northen Island IEEE branches conference in Leeds. • [2] R. Rudd-Orthner and L. Milhaylova, “Repeatable determinism using non-random weight initialisations in smart city applications of deep learning,” Journal of Reliable Intelligent Environments in a Smart Cities special edition, vol. 6, no. 1, pp. 31-49, 2020. o This Journal paper enhanced the performance to an equivalent performance by using the limits from He and Xavier and made the previous reproducibility a more general case for general use, although it was limited to Dense layers. • [3] R. Rudd-Orthner and L. Milhaylova, “Non-random weight initialisation in deep convolutional networks applied to safety critical artificial intelligence,” in Peer Reviewed Proc. of the 13th International Conference on Developments in eSystems Engineering (DeSe), Liverpool, UK, 2020. o This conference paper proved an approach to Convolutional layers that as alternative to the random initialisation and provided a higher performance with reproducibility. Presented at the UK and UAE IEEE branches conference in Liverpool held virtually. • [4] R. Rudd-Orthner and L. Milhaylova, “Deep convnet: non-random weight initialization for repeatable determinism with FSGM,” Sensors, vol. 21, no. 14, p. 4772, 2021. o This Journal paper extended the work into colour images proofs and used the cyber FSGM attack as a method for measuring effect in transferred learning. • [5] R. Rudd-Orthner and L. Milhaylova, “Multi-type aircraft of remote sensing images: MTARSI2,” Zenodo, 30 June 2021. [Online]. Available: https://zenodo.org/record/5044950#.YcWalmDP2Ul. [Accessed 30 June 2021]. o This was the colour dataset used. • [6] R. Rudd-Orthner, “Artificial Intelligence Methods for Security and Cyber Security Systems,” University of Sheffield, Sheffield, UK, 2022. o This is the final full write up in the context and with other approaches.