La reproductibilité est un aspect fondamental des méthodes scientifiques, permettant aux chercheurs de reproduire une expérience ou une étude et d'obtenir des résultats cohérents en utilisant la même méthodologie. Ce principe est tout aussi vital dans les applications d'intelligence artificielle (IA) et d'apprentissage automatique (AA), où la capacité à reproduire les résultats garantit la stabilité des inférences dans différents environnements de modélisation. Cependant :
- Environ 5 % des chercheurs en IA partagent leur code source et moins d'un tiers d'entre eux partagent des données de test dans leurs articles de recherche. 1
- Moins d'un tiers des recherches en IA sont reproductibles, c'est-à-dire vérifiables. 2
On parle généralement de crise de la reproductibilité ou de la réplication en IA. 3 Découvrez pourquoi la reproductibilité est importante pour l'IA et comment les entreprises peuvent améliorer la reproductibilité de leurs applications d'IA.
Qu’est-ce que la reproductibilité en intelligence artificielle ?
La reproductibilité de l'IA est la capacité à obtenir des résultats identiques ou similaires en utilisant le même ensemble de données et le même algorithme d'IA dans le même environnement.
- L' ensemble de données est l'ensemble d'entraînement que l'algorithme d'IA utilise pour effectuer des prédictions.
- L' algorithme d'IA se compose du type de modèle, des paramètres et hyperparamètres du modèle, des fonctionnalités et d'autres éléments de code.
- L' environnement désigne les logiciels et le matériel utilisés pour exécuter l'algorithme.
Pour garantir la reproductibilité des systèmes d'IA, les modifications apportées aux trois composantes doivent être suivies et enregistrées.
Pourquoi la reproductibilité est-elle importante en IA ?
La reproductibilité est cruciale tant pour la recherche en IA que pour les applications d'IA en entreprise car :
Dans le domaine de la recherche en IA/ML , le progrès scientifique dépend de la capacité des chercheurs indépendants à examiner et à reproduire les résultats d'une étude. 4 L’apprentissage automatique ne peut être amélioré ni appliqué à d’autres domaines si ses composantes essentielles ne sont pas documentées en vue de leur reproductibilité. Un manque de reproductibilité brouille la frontière entre production scientifique et commercialisation.
Pour les applications d'IA en entreprise , la reproductibilité permettrait de concevoir des systèmes d'IA moins sujets aux erreurs. La réduction des erreurs profiterait aux entreprises et à leurs clients en améliorant la fiabilité et la prévisibilité, car les entreprises pourraient identifier les composants à l'origine de certains résultats. Cet élément est essentiel pour convaincre les décideurs de déployer les systèmes d'IA à grande échelle et permettre à un plus grand nombre d'utilisateurs d'en bénéficier.
Quels sont les défis liés à l'IA reproductible ?
Défi | Exemple |
|---|---|
Aléatoire | Résultats différents de la descente de gradient stochastique (SGD) en apprentissage profond |
Manque de normalisation dans le prétraitement | L'élimination des mots vides en NLP influence les performances du modèle |
Matériel/logiciel non déterministe | Différences de résultats entre le GPU NVIDIA et le GPU AMD |
Réglage des hyperparamètres | Les différences de taux d'apprentissage dans XGBoost modifient considérablement les performances |
Manque de documentation/partage de code | Les modèles Transformer ne comportent pas d'implémentation détaillée de la normalisation des couches. |
Problèmes de version | Changements d'API entre TensorFlow 1.x et TensorFlow 2.x affectant la reproductibilité |
Disponibilité/variabilité des ensembles de données | Des ensembles de données de santé propriétaires qui ne sont pas accessibles à la réplication |
Ressources informatiques | Les modèles de pointe comme GPT-4 nécessitent des clusters GPU massifs pour répliquer l'entraînement |
Surapprentissage sur des ensembles de test spécifiques | Le fait de ne présenter les résultats que sur des sous-ensembles de données spécifiques entraîne un surapprentissage sur les données de test. |
Résultats biaisés/de sélection biaisée | Ne rapportant que le meilleur résultat expérimental sans divulguer les autres résultats. |
1. Caractère aléatoire et stochastique des algorithmes
De nombreux modèles d'IA, notamment les algorithmes d'apprentissage profond, intègrent de l'aléatoire lors de leurs processus d'entraînement et d'inférence. Par exemple, l'initialisation aléatoire des poids, les couches de dropout et la descente de gradient stochastique (SGD) contribuent à la variabilité, même avec un même jeu de données, un même code source et un même environnement.
Ce problème est particulièrement marqué dans les grands modèles de langage (LLM), tels que GPT-5, Gemini ou LLaMA, qui sont intrinsèquement probabilistes. Même avec les mêmes entrées et la même configuration, ils peuvent générer des sorties différentes, notamment si les paramètres de température ou d'échantillonnage top-k sont modifiés. Ces paramètres contrôlent le caractère aléatoire de la génération des sorties.
- La température modifie la distribution de probabilité utilisée lors de l'échantillonnage des jetons. Une température plus élevée (par exemple, 1,0) produit des résultats plus diversifiés et créatifs, tandis qu'une température plus basse (par exemple, 0,2) donne des réponses plus déterministes.
- L'échantillonnage Top-k ou Top-p (noyau) contrôle davantage l'aléatoire en limitant la gamme de jetons considérés à chaque étape.
Demander à un étudiant en droit de résumer deux fois le même paragraphe avec une température de 0,9 peut produire des résumés très différents. Cette variabilité rend difficile la vérification ou la reproduction du comportement du modèle, à moins que les paramètres ne soient fixes et explicitement documentés.
Dans les applications d'entreprise , telles que la synthèse de contrats, les réponses de chatbots ou les assistants de codage IA , cette imprévisibilité pose des problèmes de débogage, de conformité et d'assurance qualité. Les équipes peuvent avoir du mal à identifier la configuration ayant conduit à un résultat spécifique si tous les paramètres, y compris la graine aléatoire et la température, ne sont pas systématiquement consignés.
Par exemple, le laboratoire Thinking Machines a expliqué que le défaut d'invariance par lots est une source majeure de non-déterminisme dans l'inférence des modèles linéaires. Idéalement, un modèle devrait produire la même sortie pour une requête donnée, qu'elle soit traitée seule ou avec d'autres requêtes. Cependant, les systèmes de traitement modernes regroupent dynamiquement les requêtes par lots afin d'améliorer l'efficacité du GPU, et de nombreux noyaux GPU adaptent leurs schémas d'exécution en fonction de la taille ou de la disposition des lots.
Les opérations en virgule flottante n'étant pas parfaitement associatives, de légères modifications de l'ordre de calcul peuvent altérer les logits. Lors du décodage, ces infimes différences peuvent conduire le modèle à sélectionner des jetons différents, engendrant des résultats différents même avec des paramètres déterministes (par exemple, température = 0). De fait, le résultat du modèle dépend des autres requêtes incluses dans le lot, ce qui donne l'impression que l'inférence est non déterministe. 5
2. Manque de normalisation dans le prétraitement des données
Les étapes de prétraitement, telles que l'augmentation des données, la normalisation et l'extraction de caractéristiques, sont souvent mal documentées et peu partagées. De petites modifications dans le prétraitement des données, même apparemment mineures comme les erreurs d'arrondi, peuvent entraîner des résultats différents. Cela est particulièrement vrai pour le traitement d'images ou le traitement automatique du langage naturel, où la variabilité des données est élevée.
3. Matériel et logiciel non déterministes
L'exécution des algorithmes d'IA peut varier selon le matériel (CPU, GPU , TPU) et même sur un même matériel, en raison des processus non déterministes sous-jacents des bibliothèques. Les différences de versions de ces bibliothèques peuvent introduire une variabilité supplémentaire, même lorsque le code et les données sont identiques.
Par exemple, PyTorch 2.10 a introduit plusieurs améliorations axées sur le déterminisme et le débogage des problèmes numériques dans les flux de travail ML modernes.
Avec la généralisation de l'apprentissage par renforcement distribué et des pipelines de post-entraînement à grande échelle, garantir une exécution reproductible et diagnostiquer les divergences numériques subtiles est devenu primordial. Pour répondre à ce besoin, cette version intègre de nouvelles fonctionnalités de débogage, comme le mode débogage, qui suit les appels effectués et aide à identifier les sources d'instabilité numérique pendant l'exécution. 6
4. Optimisation des hyperparamètres
De nombreux modèles d'IA reposent sur des hyperparamètres, tels que le taux d'apprentissage, la taille des lots ou l'intensité de la régularisation, qui nécessitent un réglage précis. Souvent, ces paramètres ne sont pas communiqués avec suffisamment de détails, ou leur choix n'est pas expliqué avec rigueur, ce qui rend la reproduction des résultats difficile. De plus, de légères modifications des hyperparamètres peuvent entraîner des performances très différentes.
5. Manque de documentation détaillée et de partage de code
Même lorsque les articles de recherche fournissent du code, celui-ci peut être incomplet ou ne pas correspondre exactement aux résultats publiés. Certains éléments essentiels, tels que les bibliothèques spécifiques, les pondérations des modèles ou les pipelines de données, peuvent ne pas être divulgués, ce qui empêche une reproduction exacte.
6. Problèmes de versionnage
La nature dynamique des écosystèmes logiciels d'IA implique que les bibliothèques et les frameworks évoluent constamment. Un modèle entraîné avec une version spécifique d'une bibliothèque peut ne pas fonctionner de la même manière avec une version ultérieure, même si le code reste inchangé. Le suivi des versions de toutes les dépendances peut s'avérer complexe, et la gestion des versions est souvent mal documentée.
7. Disponibilité et variabilité des ensembles de données
Certains jeux de données utilisés en recherche en IA sont propriétaires ou non accessibles au public, ce qui rend impossible la réplication des études. Même lorsque des jeux de données sont disponibles, des variations peuvent survenir en raison de l'échantillonnage, des mises à jour ou des différentes techniques de prétraitement appliquées au moment de la recherche.
8. Ressources informatiques
La reproduction de modèles d'IA de pointe exige souvent d'importantes ressources de calcul, notamment du matériel spécialisé comme les GPU ou les TPU. Les chercheurs ou les praticiens ne disposant pas de ressources équivalentes peuvent avoir des difficultés à reproduire les résultats.
9. Surapprentissage sur des ensembles de test spécifiques
Dans certains cas, les modèles sont involontairement surajustés à des ensembles de test ou des benchmarks spécifiques. Lorsqu'ils sont testés dans des environnements différents ou sur des ensembles de données légèrement modifiés, les résultats peuvent ne pas être généralisables, ce qui rend la reproductibilité difficile.
10. Biais dans la publication des résultats et sélection arbitraire de ceux-ci
Il arrive que les chercheurs présentent la version la plus performante d'un modèle après plusieurs essais, sans préciser la variabilité entre les essais ni divulguer le nombre total d'expériences réalisées. Ce type de publication sélective biaise la perception de la reproductibilité des résultats.
Le rôle des chercheurs en IA dans l'amélioration de la reproductibilité
Les chercheurs en IA développent des modèles de pointe, mais il leur incombe également de veiller à ce que leurs travaux soient vérifiables et dignes de confiance. Malgré les appels à la transparence, de nombreux résultats de recherche restent insuffisants dans la pratique.
- Une analyse des articles de NeurIPS (Conférence sur les systèmes de traitement de l'information neuronale) a révélé que seulement 42 % d' entre eux incluaient du code et que seulement 23 % fournissaient des liens vers des ensembles de données.
- La plupart des études sur l'IA manquent de détails suffisants pour être reproduites indépendamment, souvent en raison d'une documentation insuffisante des hyperparamètres, des conditions d'entraînement et des protocoles d'évaluation.
- Près de 70 % des chercheurs en IA ont admis avoir eu du mal à reproduire les résultats d'autres chercheurs, même au sein du même sous-domaine.
Pour surmonter ces problèmes, la communauté de recherche en IA doit :
- Adoptez les pratiques de la science ouverte : le partage du code, des données et des journaux d’expériences détaillés permet la vérification par les pairs et l’intégrité scientifique.
- Standardiser les rapports : le respect de formats structurés comme la liste de contrôle de reproductibilité de l’apprentissage automatique permet de garantir que les détails essentiels sont documentés.
- Promouvoir la validation interinstitutionnelle : encourager la réplication indépendante par d’autres équipes de recherche contribue à identifier la généralisabilité et la fiabilité.
Comment améliorer la reproductibilité en IA ?
La meilleure façon d'assurer la reproductibilité de l'IA en entreprise est d'adopter les bonnes pratiques MLOps . Le MLOps consiste à rationaliser le cycle de vie de l'intelligence artificielle et de l'apprentissage automatique grâce à l'automatisation et à un cadre unifié au sein de l'organisation.
Voici quelques outils et techniques MLOps qui facilitent la reproductibilité :
- Suivi des expériences : Les outils de suivi des expériences permettent de conserver de manière structurée les informations importantes concernant ces expériences.
- Traçabilité des données : La traçabilité des données permet de suivre l'origine des données, leur devenir et leur parcours tout au long de leur cycle de vie, grâce à des enregistrements et des visualisations.
- Gestion des versions des modèles : De même, les outils de gestion des versions des données permettent de suivre les différentes versions des modèles d’IA avec différents types de modèles, paramètres, hyperparamètres, etc., et permettent aux entreprises de les comparer.
- Registre de modèles : Le registre de modèles est un référentiel central regroupant tous les modèles et leurs métadonnées. Il permet aux data scientists d’accéder à différents modèles et à leurs propriétés à différents moments.
Outre les outils, le MLOps aide également les entreprises à améliorer la reproductibilité en facilitant la communication entre les data scientists, le personnel informatique, les experts métiers et les professionnels des opérations.
Que signifie l'IA fiable et quel est son lien avec l'IA reproductible ?
L'IA fiable désigne les systèmes qui fonctionnent de manière constante et correcte dans des conditions variées. Cela inclut la production de résultats précis, équitables et sûrs, quels que soient l'environnement et les données d'entrée. La reproductibilité, c'est-à-dire la capacité à obtenir les mêmes résultats avec les mêmes données d'entrée et les mêmes méthodes, même lorsque le système est déployé dans de nouveaux contextes ou par des équipes différentes, est un pilier fondamental de la fiabilité.
- Cohérence des résultats : L'IA reproductible garantit que des entraînements ou des inférences répétés dans les mêmes conditions donnent les mêmes résultats, ce qui est essentiel pour valider la fiabilité.
- Débogage et audit : les systèmes fiables doivent être transparents et responsables. La reproductibilité permet aux parties prenantes de retracer le processus décisionnel et de le vérifier indépendamment.
- Tests rigoureux : pour garantir sa fiabilité, l’IA doit être testée dans de multiples conditions. La reproductibilité permet de standardiser les procédures de test afin de valider les performances annoncées.
- Instauration d'un climat de confiance : lorsque les résultats peuvent être reproduits de manière constante, les utilisateurs et les organismes de réglementation sont plus susceptibles de faire confiance à la fiabilité et à la sécurité de l'IA.
- Intégrité scientifique : en recherche en IA, la reproductibilité est essentielle à l’évaluation par les pairs et au progrès. La fiabilité des systèmes repose sur ce fondement pour garantir que la rigueur théorique se traduise par une fiabilité pratique.
Exemples d'IA fiables
Jamba2
Jamba2 est une famille de modèles de langage open source développée par AI21, qui privilégie la fiabilité, la maniabilité et l'efficacité pour les applications d'entreprise. Ces modèles reposent sur l'architecture hybride SSM-Transformer d'AI21, qui combine des couches d'espace d'état (de type Mamba) avec des couches Transformer afin d'obtenir des performances élevées tout en optimisant l'utilisation de la mémoire.
AI21 positionne Jamba2 comme une alternative orientée entreprise aux grands modèles de raisonnement, en se concentrant sur la réponse précise aux questions, les réponses fondées et le suivi des instructions sans la lourde surcharge de calcul des jetons de raisonnement.
Son format compact permet aux développeurs d'exécuter des modèles localement (même sur des appareils grand public comme des téléphones ou des ordinateurs portables) tout en prenant en charge les charges de travail de production telles que les pipelines RAG et le traitement des documents techniques. 7
IBM
IBM a introduit Sovereign Core comme une plateforme logicielle « prête pour l’IA et souveraine par conception » qui permet aux entreprises et aux gouvernements de déployer des environnements d’IA avec un contrôle total sur les données, les opérations et la gouvernance. 8
Mistral AI
Mistral AI a obtenu un important accord-cadre de défense français pour la fourniture de modèles d'IA génératifs, le contrat spécifiant un hébergement sur une infrastructure française « afin de préserver le contrôle national sur les données et technologies sensibles ». 9
Commentaires 2
Partagez vos idées
Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.
I have been working on this and have achieved it with on CPU. Repeatable determinism or reproducibility is a key stone of dependable systems and when applied in convolutional network can have higher accuracy. These are some of the academically peer-reviewed publications made in the IEEE. • [1] R. Rudd-Orthner and L. Mihaylova, “Non-Random weight initialisation in deep learning networks for repeatable determinism,” in Peer Reviewed Proc. of the 10th IEEE International Conference Dependable Systems Services and Technologies (DESSERT-19), Leeds, UK, 2019. o This conference paper proved that an alternative to the random initialisation was possible and provided an almost equal performance but with reproducibility. Presented at the UK Ukraine and Northen Island IEEE branches conference in Leeds. • [2] R. Rudd-Orthner and L. Milhaylova, “Repeatable determinism using non-random weight initialisations in smart city applications of deep learning,” Journal of Reliable Intelligent Environments in a Smart Cities special edition, vol. 6, no. 1, pp. 31-49, 2020. o This Journal paper enhanced the performance to an equivalent performance by using the limits from He and Xavier and made the previous reproducibility a more general case for general use, although it was limited to Dense layers. • [3] R. Rudd-Orthner and L. Milhaylova, “Non-random weight initialisation in deep convolutional networks applied to safety critical artificial intelligence,” in Peer Reviewed Proc. of the 13th International Conference on Developments in eSystems Engineering (DeSe), Liverpool, UK, 2020. o This conference paper proved an approach to Convolutional layers that as alternative to the random initialisation and provided a higher performance with reproducibility. Presented at the UK and UAE IEEE branches conference in Liverpool held virtually. • [4] R. Rudd-Orthner and L. Milhaylova, “Deep convnet: non-random weight initialization for repeatable determinism with FSGM,” Sensors, vol. 21, no. 14, p. 4772, 2021. o This Journal paper extended the work into colour images proofs and used the cyber FSGM attack as a method for measuring effect in transferred learning. • [5] R. Rudd-Orthner and L. Milhaylova, “Multi-type aircraft of remote sensing images: MTARSI2,” Zenodo, 30 June 2021. [Online]. Available: https://zenodo.org/record/5044950#.YcWalmDP2Ul. [Accessed 30 June 2021]. o This was the colour dataset used. • [6] R. Rudd-Orthner, “Artificial Intelligence Methods for Security and Cyber Security Systems,” University of Sheffield, Sheffield, UK, 2022. o This is the final full write up in the context and with other approaches.
I have been working on this and have achieved it with on CPU. Repeatable determinism or reproducibility is a key stone of dependable systems and when applied in convolutional network can have higher accuracy. These are some of the academically peer-reviewed publications made in the IEEE etc about Safety Critical AI. • [1] R. Rudd-Orthner and L. Mihaylova, “Non-Random weight initialisation in deep learning networks for repeatable determinism,” in Peer Reviewed Proc. of the 10th IEEE International Conference Dependable Systems Services and Technologies (DESSERT-19), Leeds, UK, 2019. o This conference paper proved that an alternative to the random initialisation was possible and provided an almost equal performance but with reproducibility. Presented at the UK Ukraine and Northen Island IEEE branches conference in Leeds. • [2] R. Rudd-Orthner and L. Milhaylova, “Repeatable determinism using non-random weight initialisations in smart city applications of deep learning,” Journal of Reliable Intelligent Environments in a Smart Cities special edition, vol. 6, no. 1, pp. 31-49, 2020. o This Journal paper enhanced the performance to an equivalent performance by using the limits from He and Xavier and made the previous reproducibility a more general case for general use, although it was limited to Dense layers. • [3] R. Rudd-Orthner and L. Milhaylova, “Non-random weight initialisation in deep convolutional networks applied to safety critical artificial intelligence,” in Peer Reviewed Proc. of the 13th International Conference on Developments in eSystems Engineering (DeSe), Liverpool, UK, 2020. o This conference paper proved an approach to Convolutional layers that as alternative to the random initialisation and provided a higher performance with reproducibility. Presented at the UK and UAE IEEE branches conference in Liverpool held virtually. • [4] R. Rudd-Orthner and L. Milhaylova, “Deep convnet: non-random weight initialization for repeatable determinism with FSGM,” Sensors, vol. 21, no. 14, p. 4772, 2021. o This Journal paper extended the work into colour images proofs and used the cyber FSGM attack as a method for measuring effect in transferred learning. • [5] R. Rudd-Orthner and L. Milhaylova, “Multi-type aircraft of remote sensing images: MTARSI2,” Zenodo, 30 June 2021. [Online]. Available: https://zenodo.org/record/5044950#.YcWalmDP2Ul. [Accessed 30 June 2021]. o This was the colour dataset used. • [6] R. Rudd-Orthner, “Artificial Intelligence Methods for Security and Cyber Security Systems,” University of Sheffield, Sheffield, UK, 2022. o This is the final full write up in the context and with other approaches.