Intelligenza artificiale riproducibile: perché è importante e come migliorarla

aggiornato il Mar 13, 2026

La riproducibilità è un aspetto fondamentale dei metodi scientifici, che consente ai ricercatori di replicare un esperimento o uno studio e ottenere risultati coerenti utilizzando la stessa metodologia. Questo principio è altrettanto vitale nelle applicazioni di intelligenza artificiale (IA) e apprendimento automatico (ML), dove la capacità di riprodurre i risultati garantisce un'inferenza stabile in diversi ambienti di modellazione. Tuttavia:

Circa il 5% dei ricercatori nel campo dell'IA condivide il codice sorgente e meno di un terzo di essi condivide i dati di test nei propri articoli di ricerca. ¹
Meno di un terzo della ricerca sull'intelligenza artificiale è riproducibile, ovvero verificabile. ²

Questo fenomeno viene comunemente definito crisi di riproducibilità o di replicabilità nell'intelligenza artificiale. ³ Esplora perché la riproducibilità è importante per l'IA e come le aziende possono migliorarla nelle loro applicazioni di IA.

Che cos'è la riproducibilità nell'intelligenza artificiale?

La riproducibilità dell'IA è la capacità di ottenere risultati identici o simili utilizzando lo stesso set di dati e lo stesso algoritmo di IA all'interno dello stesso ambiente.

Il dataset è il set di addestramento che l'algoritmo di intelligenza artificiale utilizza per fare previsioni.
L' algoritmo di intelligenza artificiale è costituito da tipo di modello, parametri e iperparametri del modello, caratteristiche e altro codice.
Per ambiente si intendono il software e l'hardware utilizzati per eseguire l'algoritmo.

Per garantire la riproducibilità nei sistemi di intelligenza artificiale, è necessario tracciare e registrare le modifiche apportate a tutte e tre le componenti.

Perché la riproducibilità è importante nell'intelligenza artificiale?

La riproducibilità è fondamentale sia per la ricerca sull'IA che per le applicazioni di IA in ambito aziendale perché:

Nella ricerca sull'IA/ML , il progresso scientifico dipende dalla capacità dei ricercatori indipendenti di esaminare e riprodurre i risultati di uno studio. ⁴ L'apprendimento automatico non può essere migliorato o applicato in altri ambiti se i suoi componenti essenziali non sono documentati per garantirne la riproducibilità. La mancanza di riproducibilità confonde il confine tra produzione scientifica e marketing.

Per le applicazioni di IA in ambito aziendale , la riproducibilità consentirebbe di costruire sistemi di IA meno soggetti a errori. Un minor numero di errori porterebbe vantaggi sia alle aziende che ai loro clienti, aumentando l'affidabilità e la prevedibilità, poiché le aziende potrebbero comprendere quali componenti portano a determinati risultati. Questo è fondamentale per convincere i responsabili delle decisioni ad adottare sistemi di IA su larga scala e permettere a un maggior numero di utenti di beneficiarne.

Quali sono le sfide relative all'intelligenza artificiale riproducibile?

Sfida	Esempio
Casualità	Risultati diversi dall'algoritmo di discesa del gradiente stocastico (SGD) nell'apprendimento profondo
Mancanza di standardizzazione nella preelaborazione	Diversi metodi di rimozione delle stopword nell'elaborazione del linguaggio naturale influenzano le prestazioni del modello.
Hardware/Software non deterministico	Differenze nei risultati sulla GPU NVIDIA rispetto alla GPU AMD
Ottimizzazione degli iperparametri	Le differenze nel tasso di apprendimento in XGBoost modificano drasticamente le prestazioni.
Mancanza di documentazione/condivisione del codice	Modelli Transformer privi di implementazione dettagliata della normalizzazione dei layer
Problemi di versione	Modifiche all'API di TensorFlow 1.x vs. TensorFlow 2.x che influiscono sulla riproducibilità
Disponibilità/Variabilità del set di dati	Set di dati sanitari proprietari non accessibili per la replicazione
Risorse computazionali	Modelli all'avanguardia come GPT-4 che richiedono enormi cluster GPU per replicare l'addestramento
Sovraadattamento a set di test specifici	Riportare i risultati solo su specifiche suddivisioni del dataset, sovradattando i dati di test
Risultati distorti/selezionati in modo arbitrario	Riportare solo i risultati sperimentali migliori senza rivelare gli altri esiti.

1. Casualità e natura stocastica degli algoritmi

Molti modelli di intelligenza artificiale, in particolare gli algoritmi di deep learning, incorporano elementi di casualità durante i processi di addestramento e inferenza. Ad esempio, l'inizializzazione casuale dei pesi, i layer di dropout e la discesa del gradiente stocastico (SGD) contribuiscono alla variabilità anche quando si utilizzano lo stesso set di dati, codice sorgente e ambiente.

Questo problema è particolarmente evidente nei Large Language Models (LLM), come GPT-5, Gemini o LLaMA, che sono intrinsecamente probabilistici. Anche con lo stesso input e la stessa configurazione, possono generare output diversi, soprattutto se si modificano i parametri di temperatura o di campionamento top-k. Queste impostazioni controllano la casualità della generazione dell'output:

La temperatura regola la distribuzione di probabilità utilizzata durante il campionamento dei token. Una temperatura più elevata (ad esempio, 1,0) produce risultati più diversificati e creativi, mentre una temperatura più bassa (ad esempio, 0,2) produce risposte più deterministiche.
Il campionamento top-k o top-p (nucleo) controlla ulteriormente la casualità limitando l'intervallo di token considerati in ogni fase.

Chiedere a un modello LLM di riassumere lo stesso paragrafo due volte con una temperatura di 0,9 può produrre riassunti significativamente diversi. Questa variabilità rende difficile verificare o riprodurre il comportamento del modello a meno che le impostazioni non siano fisse e documentate esplicitamente.

Nelle applicazioni aziendali , come la sintesi di contratti, le risposte dei chatbot o gli assistenti di programmazione basati sull'IA , questa imprevedibilità pone delle sfide per il debug, la conformità e la garanzia della qualità. I team potrebbero avere difficoltà a risalire alla configurazione che ha portato a un determinato risultato, a meno che tutti i parametri, inclusi il seed casuale e la temperatura, non vengano registrati in modo coerente.

Ad esempio, il Thinking Machines Lab ha spiegato il fallimento dell'invarianza di batch come una delle principali fonti di non determinismo nell'inferenza LLM. Idealmente, un modello dovrebbe produrre lo stesso output per un dato prompt indipendentemente dal fatto che venga elaborato da solo o insieme ad altre richieste. Tuttavia, i moderni sistemi di gestione dei server raggruppano dinamicamente le richieste in batch per migliorare l'efficienza della GPU, e molti kernel GPU variano i loro schemi di esecuzione a seconda della dimensione o della struttura del batch.

Poiché le operazioni in virgola mobile non sono perfettamente associative, piccole modifiche nell'ordine di calcolo possono alterare leggermente i logit. Durante la decodifica, queste minime differenze possono indurre il modello a selezionare token diversi, causando output differenti anche con impostazioni deterministiche (ad esempio, temperatura = 0). Di fatto, il risultato del modello dipende dalle altre richieste che condividono il batch, rendendo l'inferenza apparentemente non deterministica. ⁵

2. Mancanza di standardizzazione nella preelaborazione dei dati

Le fasi di preelaborazione, come l'aumento dei dati, la normalizzazione e l'estrazione delle caratteristiche, spesso non vengono documentate o condivise in modo coerente. Anche piccole modifiche al modo in cui i dati vengono preelaborati, persino quelle apparentemente minori come gli errori di arrotondamento, possono portare a risultati diversi. Ciò è particolarmente vero per le attività di elaborazione delle immagini o di elaborazione del linguaggio naturale, dove la variabilità dei dati è elevata.

3. Hardware e software non deterministici

L'esecuzione degli algoritmi di intelligenza artificiale può variare a seconda dell'hardware (CPU, GPU , TPU) e persino sullo stesso hardware, a causa dei processi non deterministici sottostanti nelle librerie. Le differenze tra le versioni di queste librerie possono introdurre ulteriore variabilità, anche quando codice e dati sono identici.

Ad esempio, PyTorch 2.10 ha introdotto diversi miglioramenti incentrati sul determinismo e sul debug dei problemi numerici nei moderni flussi di lavoro di apprendimento automatico.

Con la crescente diffusione dell'apprendimento per rinforzo distribuito e delle pipeline di post-addestramento su larga scala, garantire un'esecuzione riproducibile e diagnosticare sottili divergenze numeriche è diventato sempre più importante. Per affrontare questo problema, la nuova versione ha introdotto nuove funzionalità di debug, come DebugMode, che tiene traccia delle chiamate inviate e aiuta a identificare le fonti di instabilità numerica durante l'esecuzione. ⁶

4. Ottimizzazione degli iperparametri

Molti modelli di intelligenza artificiale si basano su iperparametri, come il tasso di apprendimento, la dimensione del batch o la forza di regolarizzazione, che devono essere ottimizzati. Spesso, questi parametri non vengono forniti in modo sufficientemente dettagliato, oppure la loro selezione non è spiegata in modo rigoroso, rendendo difficile la riproduzione dei risultati. Inoltre, lievi modifiche agli iperparametri possono portare a risultati prestazionali molto diversi.

Anche quando gli articoli di ricerca forniscono il codice, questo potrebbe non essere completo o non essere perfettamente allineato con i risultati pubblicati. Alcuni elementi critici, come librerie specifiche, pesi del modello o pipeline di dati, potrebbero non essere divulgati, ostacolando la riproduzione esatta.

6. Problemi di versione

La natura dinamica degli ecosistemi software di intelligenza artificiale implica che librerie e framework siano in continua evoluzione. Un modello addestrato utilizzando una versione specifica di una libreria potrebbe non avere le stesse prestazioni se eseguito su una versione successiva, anche se il codice rimane invariato. Tenere traccia delle versioni di tutte le dipendenze può essere difficile e la documentazione relativa alle versioni è spesso carente.

7. Disponibilità e variabilità del set di dati

Alcuni set di dati utilizzati nella ricerca sull'IA sono proprietari o non disponibili pubblicamente, il che rende impossibile replicare gli studi. Anche quando i set di dati sono disponibili, possono esserci variazioni dovute al campionamento, agli aggiornamenti o alle diverse tecniche di preelaborazione applicate al momento della ricerca.

8. Risorse computazionali

La riproduzione di modelli di intelligenza artificiale all'avanguardia spesso richiede notevoli risorse computazionali, tra cui hardware specializzato come GPU o TPU. Ricercatori o professionisti che non dispongono dello stesso livello di risorse potrebbero avere difficoltà a replicare i risultati.

9. Overfitting a set di test specifici

In alcuni casi, i modelli vengono inavvertitamente sovradattati a specifici set di test o benchmark. Quando questi modelli vengono testati in ambienti diversi o su set di dati leggermente modificati, i risultati potrebbero non essere generalizzabili, rendendo difficile la riproducibilità.

10. Pregiudizi nella presentazione dei risultati e selezione arbitraria degli stessi.

I ricercatori potrebbero riportare la versione di un modello con le migliori prestazioni dopo diverse esecuzioni, senza specificare la variabilità tra le esecuzioni o rivelare il numero totale di esperimenti condotti. Questa selezione dei risultati distorce la percezione della riproducibilità degli stessi.

Il ruolo dei ricercatori di IA nell'affrontare il problema della riproducibilità

I ricercatori nel campo dell'intelligenza artificiale sviluppano modelli all'avanguardia, ma hanno anche la responsabilità di garantire che il loro lavoro sia verificabile e affidabile. Nonostante gli appelli alla trasparenza, molti risultati della ricerca risultano ancora carenti nella pratica:

Un'analisi degli articoli presentati alla conferenza NeurIPS (Conference on Neural Information Processing Systems) ha rilevato che solo il 42% includeva codice e appena il 23% forniva link a set di dati.
La maggior parte degli studi sull'intelligenza artificiale non presenta dettagli sufficienti per essere riprodotti in modo indipendente, spesso a causa di una documentazione inadeguata degli iperparametri, delle condizioni di addestramento e dei protocolli di valutazione.
Quasi il 70% dei ricercatori nel campo dell'intelligenza artificiale ha ammesso di aver avuto difficoltà a riprodurre i risultati di altri, anche all'interno dello stesso sottocampo.

Per superare questi problemi, la comunità di ricerca sull'IA deve:

Adottare pratiche di scienza aperta: la condivisione di codice, dati e registri dettagliati degli esperimenti consente la verifica tra pari e l'integrità scientifica.
Standardizzare la reportistica: l'utilizzo di formati strutturati come la Checklist per la riproducibilità dell'apprendimento automatico contribuisce a garantire che i dettagli essenziali siano documentati.
Promuovere la validazione interistituzionale: incoraggiare la replicazione indipendente da parte di altri gruppi di ricerca aiuta a identificare la generalizzabilità e l'affidabilità dei risultati.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Segui

Come migliorare la riproducibilità nell'IA?

Il modo migliore per ottenere la riproducibilità dell'IA in azienda è sfruttare le best practice di MLOps . MLOps prevede la semplificazione del ciclo di vita dell'intelligenza artificiale e dell'apprendimento automatico attraverso l'automazione e un framework unificato all'interno dell'organizzazione.

Alcuni strumenti e tecniche MLOps che facilitano la riproducibilità sono:

Tracciamento degli esperimenti : gli strumenti di tracciamento degli esperimenti aiutano a tenere traccia delle informazioni importanti relative a questi esperimenti in modo strutturato.
Tracciabilità della provenienza dei dati : la tracciabilità della provenienza dei dati tiene traccia dell'origine dei dati, di cosa succede loro e di dove vanno durante il loro ciclo di vita, attraverso registrazioni e visualizzazioni.
Versioning dei modelli : Allo stesso modo, gli strumenti di versioning dei dati aiutano a tenere traccia delle diverse versioni dei modelli di IA con diversi tipi di modello, parametri, iperparametri, ecc. e consentono alle aziende di confrontarli.
Registro dei modelli : Il registro dei modelli è un archivio centrale per tutti i modelli e i relativi metadati. Questo permette agli scienziati dei dati di accedere a diversi modelli e alle loro proprietà in momenti diversi.

Oltre agli strumenti, MLOps aiuta le aziende a migliorare la riproducibilità facilitando la comunicazione tra data scientist, personale IT, esperti in materia e professionisti delle operazioni.

Cosa si intende per IA affidabile e in che modo si relaziona all'IA riproducibile?

Per IA affidabile si intendono i sistemi che funzionano in modo coerente e corretto in diverse condizioni. Ciò include la produzione di output accurati, equi e sicuri in ambienti e con input di dati differenti. Un pilastro fondamentale dell'affidabilità è la riproducibilità, ovvero la capacità di ricreare gli stessi risultati utilizzando gli stessi input e metodi, anche quando il sistema viene implementato in nuovi contesti o da team diversi.

Coerenza tra le esecuzioni: l'IA riproducibile garantisce che l'addestramento o l'inferenza ripetuti nelle stesse condizioni producano gli stessi risultati, aspetto fondamentale per convalidare l'affidabilità.
Debugging e auditing: i sistemi affidabili devono essere trasparenti e responsabili. La riproducibilità consente alle parti interessate di risalire al processo decisionale e di verificarlo in modo indipendente.
Test rigorosi: per garantire l'affidabilità, l'IA deve essere testata in molteplici condizioni. La riproducibilità consente di standardizzare le procedure di test per convalidare le dichiarazioni sulle prestazioni.
Creazione di fiducia: quando i risultati possono essere riprodotti in modo coerente, è più probabile che utenti e autorità di regolamentazione si fidino dell'affidabilità e della sicurezza dell'IA.
Integrità scientifica: nella ricerca sull'IA, la riproducibilità è essenziale per la revisione paritaria e il progresso. I sistemi affidabili si basano su questo principio per garantire che la solidità teorica si traduca in affidabilità pratica.

Esempi affidabili di IA

Jamba2

Jamba2 è una famiglia di modelli linguistici open-source rilasciati da AI21 che privilegiano affidabilità, gestibilità ed efficienza per le applicazioni aziendali. I modelli sono basati sull'architettura ibrida SSM-Transformer di AI21, che combina livelli di spazio degli stati (in stile Mamba) con livelli Transformer per ottenere prestazioni elevate pur mantenendo un utilizzo efficiente della memoria.

AI21 posiziona Jamba2 come un'alternativa orientata alle aziende rispetto ai modelli di ragionamento complessi, concentrandosi su risposte precise alle domande, risposte fondate e capacità di seguire le istruzioni senza l'elevato carico computazionale dei token di ragionamento.

Le sue dimensioni compatte consentono agli sviluppatori di eseguire i modelli localmente (anche su dispositivi di consumo come telefoni o laptop) supportando al contempo carichi di lavoro di produzione come pipeline RAG ed elaborazione di documenti tecnici. ⁷

IBM

IBM ha presentato Sovereign Core come una piattaforma software "sovrana per progettazione e predisposta per l'IA" che consente ad aziende e governi di implementare ambienti di IA con il pieno controllo su dati, operazioni e governance. ⁸

Mistral AI

Mistral AI si è aggiudicata un importante accordo quadro di difesa francese per la fornitura di modelli di intelligenza artificiale generativa, con il contratto che specifica l'hosting su infrastrutture francesi "per preservare il controllo nazionale su dati e tecnologie sensibili". ⁹

Collegamenti di riferimento

Artificial intelligence faces reproducibility crisis | Science

State of the Art: Reproducibility in Artificial Intelligence | Proceedings of the AAAI Conference on Artificial Intelligence

AI is wrestling with a replication crisis | MIT Technology Review

MIT Technology Review

Transparency and reproducibility in artificial intelligence | Nature

Nature Publishing Group UK

Defeating Nondeterminism in LLM Inference - Thinking Machines Lab

PyTorch 2.10 Release Blog – PyTorch

Jamba2: Open Source LLMs for Enterprise Reliability

AI21 Labs

Introducing IBM Sovereign Core: A new software foundation for sovereignty

Mistral AI wins French defence AI framework agreement

Generation Digital

Cem Dilmegani

Analista principale

Segui

Cem è analista principale presso AIMultiple dal 2017. AIMultiple fornisce informazioni a centinaia di migliaia di aziende (secondo SimilarWeb), tra cui il 55% delle aziende Fortune 500, ogni mese. Il lavoro di Cem è stato citato da importanti pubblicazioni globali come Business Insider, Forbes, Washington Post, società globali come Deloitte e HPE, ONG come il World Economic Forum e organizzazioni sovranazionali come la Commissione Europea. È possibile consultare l'elenco di altre aziende e risorse autorevoli che hanno citato AIMultiple. Nel corso della sua carriera, Cem ha lavorato come consulente tecnologico, responsabile acquisti tecnologici e imprenditore nel settore tecnologico. Ha fornito consulenza alle aziende sulle loro decisioni tecnologiche presso McKinsey & Company e Altman Solon per oltre un decennio. Ha anche pubblicato un report di McKinsey sulla digitalizzazione. Ha guidato la strategia tecnologica e gli acquisti di un'azienda di telecomunicazioni, riportando direttamente al CEO. Ha inoltre guidato la crescita commerciale dell'azienda deep tech Hypatos, che ha raggiunto un fatturato annuo ricorrente a 7 cifre e una valutazione a 9 cifre partendo da zero in soli 2 anni. Il lavoro di Cem in Hypatos è stato oggetto di articoli su importanti pubblicazioni tecnologiche come TechCrunch e Business Insider. Cem partecipa regolarmente come relatore a conferenze internazionali di settore. Si è laureato in ingegneria informatica presso l'Università di Bogazici e ha conseguito un MBA presso la Columbia Business School.

Visualizza il profilo completo

Commenti 2

Condividi i tuoi pensieri

Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori.

Richard Rudd-Orthner

Oct 04, 2023 at 09:14

I have been working on this and have achieved it with on CPU. Repeatable determinism or reproducibility is a key stone of dependable systems and when applied in convolutional network can have higher accuracy. These are some of the academically peer-reviewed publications made in the IEEE. • [1] R. Rudd-Orthner and L. Mihaylova, “Non-Random weight initialisation in deep learning networks for repeatable determinism,” in Peer Reviewed Proc. of the 10th IEEE International Conference Dependable Systems Services and Technologies (DESSERT-19), Leeds, UK, 2019. o This conference paper proved that an alternative to the random initialisation was possible and provided an almost equal performance but with reproducibility. Presented at the UK Ukraine and Northen Island IEEE branches conference in Leeds. • [2] R. Rudd-Orthner and L. Milhaylova, “Repeatable determinism using non-random weight initialisations in smart city applications of deep learning,” Journal of Reliable Intelligent Environments in a Smart Cities special edition, vol. 6, no. 1, pp. 31-49, 2020. o This Journal paper enhanced the performance to an equivalent performance by using the limits from He and Xavier and made the previous reproducibility a more general case for general use, although it was limited to Dense layers. • [3] R. Rudd-Orthner and L. Milhaylova, “Non-random weight initialisation in deep convolutional networks applied to safety critical artificial intelligence,” in Peer Reviewed Proc. of the 13th International Conference on Developments in eSystems Engineering (DeSe), Liverpool, UK, 2020. o This conference paper proved an approach to Convolutional layers that as alternative to the random initialisation and provided a higher performance with reproducibility. Presented at the UK and UAE IEEE branches conference in Liverpool held virtually. • [4] R. Rudd-Orthner and L. Milhaylova, “Deep convnet: non-random weight initialization for repeatable determinism with FSGM,” Sensors, vol. 21, no. 14, p. 4772, 2021. o This Journal paper extended the work into colour images proofs and used the cyber FSGM attack as a method for measuring effect in transferred learning. • [5] R. Rudd-Orthner and L. Milhaylova, “Multi-type aircraft of remote sensing images: MTARSI2,” Zenodo, 30 June 2021. [Online]. Available: https://zenodo.org/record/5044950#.YcWalmDP2Ul. [Accessed 30 June 2021]. o This was the colour dataset used. • [6] R. Rudd-Orthner, “Artificial Intelligence Methods for Security and Cyber Security Systems,” University of Sheffield, Sheffield, UK, 2022. o This is the final full write up in the context and with other approaches.

Richard Rudd-Orthner

Oct 04, 2023 at 09:13

I have been working on this and have achieved it with on CPU. Repeatable determinism or reproducibility is a key stone of dependable systems and when applied in convolutional network can have higher accuracy. These are some of the academically peer-reviewed publications made in the IEEE etc about Safety Critical AI. • [1] R. Rudd-Orthner and L. Mihaylova, “Non-Random weight initialisation in deep learning networks for repeatable determinism,” in Peer Reviewed Proc. of the 10th IEEE International Conference Dependable Systems Services and Technologies (DESSERT-19), Leeds, UK, 2019. o This conference paper proved that an alternative to the random initialisation was possible and provided an almost equal performance but with reproducibility. Presented at the UK Ukraine and Northen Island IEEE branches conference in Leeds. • [2] R. Rudd-Orthner and L. Milhaylova, “Repeatable determinism using non-random weight initialisations in smart city applications of deep learning,” Journal of Reliable Intelligent Environments in a Smart Cities special edition, vol. 6, no. 1, pp. 31-49, 2020. o This Journal paper enhanced the performance to an equivalent performance by using the limits from He and Xavier and made the previous reproducibility a more general case for general use, although it was limited to Dense layers. • [3] R. Rudd-Orthner and L. Milhaylova, “Non-random weight initialisation in deep convolutional networks applied to safety critical artificial intelligence,” in Peer Reviewed Proc. of the 13th International Conference on Developments in eSystems Engineering (DeSe), Liverpool, UK, 2020. o This conference paper proved an approach to Convolutional layers that as alternative to the random initialisation and provided a higher performance with reproducibility. Presented at the UK and UAE IEEE branches conference in Liverpool held virtually. • [4] R. Rudd-Orthner and L. Milhaylova, “Deep convnet: non-random weight initialization for repeatable determinism with FSGM,” Sensors, vol. 21, no. 14, p. 4772, 2021. o This Journal paper extended the work into colour images proofs and used the cyber FSGM attack as a method for measuring effect in transferred learning. • [5] R. Rudd-Orthner and L. Milhaylova, “Multi-type aircraft of remote sensing images: MTARSI2,” Zenodo, 30 June 2021. [Online]. Available: https://zenodo.org/record/5044950#.YcWalmDP2Ul. [Accessed 30 June 2021]. o This was the colour dataset used. • [6] R. Rudd-Orthner, “Artificial Intelligence Methods for Security and Cyber Security Systems,” University of Sheffield, Sheffield, UK, 2022. o This is the final full write up in the context and with other approaches.