Évaluation en Monde Ouvert

57 ensembles de données pour les modèles ML et IA

avec

mis à jour le 10 juin 2026

Les données sont nécessaires pour exploiter ou développer l'IA générative ou les solutions d'IA conversationnelle. Vous pouvez utiliser des ensembles de données existants disponibles sur le marché ou engager un service de collecte de données.

Nous avons identifié 57 ensembles de données pour entraîner et évaluer des modèles d'apprentissage automatique et d'IA.

Modèles de langage de grande taille (LLM) et ensembles de données d'IA agentic

Ensemble de données / Benchmark	Description	Gratuit / Payant	Dernière mise à jour
MMLU (Massive Multitask Language Understanding)	Benchmark pour le raisonnement général et les connaissances académiques	Gratuit	En cours
HumanEval+	Benchmark de codage Python pour le code génératif	Gratuit	En cours
FineWeb	Hugging Face's dataset for LLM pre-training	Gratuit	En cours
FineWeb-Edu	Sous-ensemble éducatif de FineWeb	Gratuit	En cours
Superior-Reasoning-SFT	Ensemble de données de raisonnement Long-CoT d'Alibaba-Apsara	Gratuit	2026
MMMU (Massive Multi-disciplinary Multimodal Understanding)	Benchmark multimodal (raisonnement image + texte)	Gratuit	2025
Humanity's Last Exam (HLE)	Benchmark multimodal pour tester les LLM de pointe au-delà de MMLU	Gratuit	2025
IA Idea Bench (2025)	Teste la capacité des LLM à synthétiser de nouvelles idées de recherche	Gratuit (recherche)	2025
Harvard Public Domain Books Dataset	Plus de 1 million de livres pour l'entraînement préalable et la génération de texte	Gratuit	2025
Generative-IA-Tools-Platforms-2025	Métadonnées sur les outils GenAI et les API	Gratuit	2025

Cette catégorie comprend des ensembles de données et des benchmarks conçus pour l'entraînement et l'évaluation de langages et de modèles multimodaux avancés. Ces ensembles de données aident à évaluer les capacités des modèles en matière de raisonnement, de génération de texte, de réponse aux questions et de tâches créatives.

Benchmarks de modèles de langage de grande taille tels que MMLU et GPQA mesurent le raisonnement général et scientifique.
Ensembles de données multimodaux, tels que LAION-5B, combinent texte et images pour entraîner des modèles capables de gérer les deux formats.
Évaluations de pointe, telles que Humanity's Last Exam et IA Idea Bench, testent la créativité des modèles, leur exactitude factuelle et leur adaptabilité à des invites complexes.

Ensembles de données de codage IA et d'ingénierie logicielle

Ensemble de données	Description	Gratuit / Payant	Dernière mise à jour
CodeNet (IBM)	14 millions d'échantillons de code dans plus de 50 langages	Gratuit	En cours
HumanEval	Benchmark d'évaluation de la génération de code	Gratuit	En cours
APPS (Code Problems Dataset)	Paires problème-solution de programmation	Gratuit	En cours
CodeSearchNet	Ensemble de données code + docstring	Gratuit	En cours
Terminal-Bench	Tâches CLI/terminal pour les agents IA	Gratuit	2026
The Heap (2025)	Ensemble de données de code multilingue gratuit	Gratuit	2025
Amazon CodeWhisperer Dataset	Ensemble de données de suggestions de code propriétaire	Payant	2025
GitHub Copilot Telemetry Data	Propriétaire ; utilisé en interne pour le fine-tuning	Payant / Fermé	2025
The Stack v2	Code source de 619 langages (PR GitHub, notebooks Jupyter, documentation)	Gratuit	2024
StarCoder2 Training Corpus	Tokens curatés à partir de The Stack v2	Gratuit	2024

Cette catégorie couvre les ensembles de données pour la génération, la compréhension, le débogage et la traduction de code. Ils sont utilisés pour construire et évaluer des systèmes qui assistent les programmeurs ou automatisent les tâches de développement logiciel.

Des ensembles de données tels que The Heap et MADE-WIC contiennent du code multilingue et annoté pour évaluer la précision du codage et la dette technique.
HumanEval et APPS fournissent des problèmes de codage avec des solutions de référence pour évaluer la qualité de la génération de code.
Des ensembles de données propriétaires, tels que ceux de Amazon CodeWhisperer et GitHub Copilot, soutiennent les assistants de codage commerciaux.

Ces ensembles de données permettent des tests cohérents des modèles de codage et soutiennent la création d'outils capables d'analyser ou de générer des logiciels efficacement.

Ensembles de données de cybersécurité et de sécurité des données

Ensemble de données	Description	Gratuit / Payant	Dernière mise à jour
VirusShare / VirusTotal	Binaires et métadonnées de logiciels malveillants	Freemium / Payant	En cours
CVE-MITRE Database	Métadonnées publiques sur les vulnérabilités et les exploits	Gratuit	En cours
CIC-IIoT-2025 (DataSense)	Ensemble de données de benchmark basé sur des capteurs	Gratuit	2025
Adversarial ML Threat Dataset (AdvBench)	Attaques synthétiques (empoisonnement, évasion)	Gratuit	2025
Defender IA Logs (Microsoft)	Données de télémétrie de sécurité pour l'IA d'entreprise	Payant	2025
OWASP Top 10 for LLMs 2025	Lignes directrices/taxonomie pour la sécurité GenAI	Gratuit	2024
CICIDS2017	Ensemble de données de détection d'intrusion réseau	Gratuit	2024
TON_IoT	Ensemble de données de sécurité IoT (réseau + journaux de télémétrie)	Gratuit	2024
EMBER	Ensemble de données de fonctionnalités de logiciels malveillants pour l'analyse statique	Gratuit	2023
MalNet	Graphes d'appels de fonction de logiciels malveillants Android	Gratuit	2021

Les ensembles de données de cybersécurité fournissent des informations pour détecter, classifier et prévenir les menaces numériques. Ils incluent des journaux de trafic réseau, des échantillons de logiciels malveillants et des bases de données de vulnérabilités.

CICIDS2017 et TON_IoT sont largement utilisés pour entraîner des systèmes de détection d'intrusion et d'anomalies.
Les ensembles de données EMBER et VirusShare contiennent des données de logiciels malveillants étiquetées pour la classification basée sur des modèles.
La base de données CVE-MITRE fournit des informations structurées sur les vulnérabilités logicielles connues.

Ces ensembles de données soutiennent la recherche et l'entraînement de modèles en cybersécurité, permettant aux systèmes d'apprendre à partir de modèles d'attaque réels et d'améliorer l'identification des menaces.

Données, données synthétiques et ensembles de données de confidentialité

Ensemble de données / Plateforme	Description	Gratuit / Payant	Dernière mise à jour
Kaggle Datasets	Données ouvertes dans tous les domaines	Gratuit	En cours
Google Dataset Search	Moteur de recherche pour les ensembles de données ouverts	Gratuit	En cours
Data.gov / Data.gov.uk / EU Open Data Portal	Dépôts de données gouvernementales	Gratuit	En cours
Mostly IA / Gretel.ai	Plateformes de données synthétiques	Payant	2025
GitHub Datasets List	Bibliothèque d'ensembles de données de domaines mixtes	Gratuit et Payant	2025
Appen	Ensembles de données générés par l'homme pour le ML	Payant	2025
Telus International	Fournisseur d'ensembles de données humains et synthétiques	Payant	2024
Prolific	Données de réponse humaine pour la recherche	Payant	2024
LXT	Collecte de données crowdsourcée	Payant	2024
Hazy (Synthetic Data)	Données structurées synthétiques pour les entreprises	Payant	2024

Cette catégorie comprend des ensembles de données ouverts et synthétiques qui aident les organisations à entraîner des modèles tout en maintenant la confidentialité et la qualité des données. Les données synthétiques reproduisent les distributions du monde réel sans exposer d'informations personnelles ou propriétaires.

Des plateformes telles que Appen, Amazon Mechanical Turk, et Telus International fournissent des ensembles de données générés par l'homme pour l'apprentissage supervisé.
Hazy et Gretel.ai génèrent des données structurées synthétiques pour une utilisation en entreprise.
Des dépôts ouverts comme Kaggle Datasets et Google Dataset Search fournissent des données accessibles au public dans plusieurs domaines.

Ces ensembles de données garantissent que les modèles d'apprentissage automatique ont accès à des données diversifiées et représentatives tout en respectant les normes de confidentialité.

Laissez notre équipe automatiser l'un de vos processus métier avec des agents IA, gratuitement.

Automatiser un processus

Ensembles de données spécifiques à un domaine et à une industrie

Domaine	Ensemble de données	Description	Gratuit / Payant	Dernière mise à jour
Santé	MIMIC-IV	Dossiers de patients en soins intensifs (anonymisés)	Gratuit (recherche uniquement)	En cours
Santé	PhysioNet	Signaux biomédicaux et données physiologiques	Gratuit	En cours
Santé	HealthData.gov	Ensembles de données de santé du gouvernement américain	Gratuit	En cours
Conduite autonome	Waymo Open Dataset	Vidéos étiquetées / données LiDAR	Gratuit (non commercial)	En cours
Conduite autonome	ApolloScape / KITTI / nuScenes	Perception des scènes routières	Gratuit	En cours
Finance / Économie	World Bank / IMF / OECD Open Data	Séries temporelles macroéconomiques	Gratuit	En cours
Éducation / Langue	Common Voice	Données de parole crowdsourcées	Gratuit	En cours
Musique / Audio	Free Music Archive (FMA)	Pistes musicales + métadonnées	Gratuit	En cours
Climat / Durabilité	NASA EarthData / Copernicus	Imagerie climatique, indicateurs environnementaux	Gratuit	En cours
Robotique	10Kh-RealOmin-OpenData	Ensemble de données d'IA incarnée de GenRobot IA avec manipulation bimanuelle	Gratuit	2026

Les ensembles de données spécifiques à un domaine se concentrent sur des applications dans des secteurs particuliers tels que la santé, la finance, la robotique et la conduite autonome. Ils fournissent des données spécialisées et étiquetées pour entraîner des modèles dans des tâches pertinentes pour l'industrie.

MIMIC-IV et PhysioNet soutiennent la recherche médicale et l'analyse de la santé.
Waymo Open Dataset et KITTI sont utilisés pour la vision par ordinateur dans les véhicules autonomes.
World Bank Open Data et les ensembles de données de l'OCDE fournissent des indicateurs économiques et financiers.
Common Voice et Free Music Archive soutiennent le développement de modèles audio et de langage.

Ces ensembles de données aident les organisations et les chercheurs à développer des modèles adaptés aux défis de l'industrie et à des environnements de données spécifiques.

Qu'est-ce qu'un ensemble de données ML ?

Un ensemble de données d'apprentissage automatique est une collecte de données structurée spécifiquement rassemblée et préparée pour entraîner des modèles d'apprentissage automatique. Ces ensembles de données pour le ML servent d'exemples qui aident le modèle à apprendre des modèles, à extraire des caractéristiques significatives et à faire des prédictions sur des données non vues.

En fonction de la tâche, l'ensemble de données d'apprentissage automatique peut être composé de divers types de données, notamment :

Données textuelles : Utilisées dans des applications telles que le traitement du langage naturel, l'analyse de sentiments et la traduction automatique.
Données d'images : Couramment utilisées en vision par ordinateur et dans les réseaux de neurones convolutifs pour des tâches telles que la reconnaissance de chiffres manuscrits ou la détection de défauts de plaques d'acier.
Données audio : Pour la reconnaissance vocale ou les tâches de classification sonore.
Données vidéo : Pour le suivi d'objets ou l'analyse vidéo en temps réel
Données numériques : Utilisées dans des tâches de régression ou de classification, provenant parfois de données de spectrométrie de masse ou de journaux d'horodatage.

La plupart des projets d'apprentissage automatique commencent par des données brutes, qui sont ensuite étiquetées ou annotées. Cette étiquetage aide le système d'apprentissage automatique à comprendre le résultat attendu pour la classification, la régression ou d'autres tâches prédictives.

Un bon ensemble de données, souvent issu de dépôts d'apprentissage automatique ouverts, publics ou spécialisés, peut considérablement améliorer les performances du modèle.

Pourquoi préparer des ensembles de données pour l'apprentissage automatique ?

La préparation et le choix d'ensembles de données de haute qualité sont l'une des étapes les plus cruciales dans le développement de systèmes d'intelligence artificielle. De nombreuses organisations reconnaissent que la préparation des données peut faire ou défaire leurs projets d'apprentissage automatique.

La qualité des données d'entraînement affecte la capacité des modèles à se généraliser à des scénarios du monde réel et la précision avec laquelle ils traitent des problèmes spécifiques. Il existe trois objectifs clés d'un ensemble de données d'apprentissage automatique :

Pour entraîner le modèle

L'ensemble d'entraînement enseigne à la machine les relations et les modèles au sein des données. Cela implique de fournir des données annotées ou étiquetées, permettant au modèle d'ajuster ses paramètres et d'améliorer ses prédictions sur des entrées similaires.

Pour mesurer la précision du modèle

Après l'entraînement, l'ensemble de données de test (ou ensemble de test) est utilisé pour évaluer la performance du modèle. Cela aide à déterminer dans quelle mesure le modèle gère les données non vues et s'il surajuste l'ensemble d'entraînement ou apprend des modèles significatifs.

Pour améliorer le modèle après le déploiement

Une fois déployés, les modèles d'apprentissage automatique sont souvent affinés à l'aide de données supplémentaires collectées, les aidant à s'adapter à de nouvelles conditions ou classes. Les ensembles de validation aident également à régler et à prévenir le surajustement.

Ne manquez pas nos benchmarks et analyses basées sur les données. Le bouton ouvre Google ; sélectionner AIMultiple confirme que vous souhaitez voir AIMultiple plus souvent dans les résultats de recherche Google.

Ajouter comme source préférée

Travailler avec un partenaire de données

La préparation des ensembles de données peut être gourmande en ressources, surtout lorsqu'il s'agit de collections étendues, de valeurs manquantes ou d'annotations complexes. De nombreuses organisations gèrent ce processus avec un fournisseur de services de collecte ou de génération de données.

Vous pouvez collaborer avec une plateforme de crowdsourcing de données ou une entreprise spécialisée dans les services de science des données pour créer des ensembles de données spécifiques à un domaine, que vous ayez besoin d'ensembles de données d'apprentissage automatique pour l'analyse de sentiments, la classification de texte ou des tâches basées sur des images comme l'identification de cent espèces de plantes.

Parfois, les données sont collectées par web scraping ou accessibles via des outils tels que Google Dataset Search ou des initiatives de données ouvertes.

Pour des besoins spécialisés, tels que des ensembles de données pour des modèles d'apprentissage profond ou des systèmes de vision par ordinateur, s'appuyer sur des ensembles de données publics curatés ou des ensembles de données gratuit garantit que les données d'entraînement couvrent la gamme nécessaire d'exemples et de classes.

Vous pouvez également sélectionner un partenaire de données en fonction de types de données spécifiques :

Types d'ensembles de données ML

L'ensemble des données collectées est séparé en trois sous-ensembles, comme suit :

1. Ensemble de données d'entraînement

Répartition des ensembles de données pour le ML : l'ensemble d'entraînement représente 60 %

C'est l'un des sous-ensembles les plus importants de l'ensemble de données global, proxy environ 60 %. Cet ensemble est composé des données initialement utilisées pour entraîner le modèle. En d'autres termes, il aide à enseigner à l'algorithme ce qu'il faut rechercher dans les données.

Par exemple, un système de reconnaissance de plaques d'immatriculation de véhicules sera entraîné avec des données d'images comportant des étiquettes indiquant l'emplacement (par exemple, avant ou arrière de la voiture) et le format des données des plaques d'immatriculation des véhicules et d'objets similaires pour apprendre ce qu'il faut détecter et ce qu'il faut éviter.

Figure 1. Exemple d'ensemble de données pour un système de détection de plaques d'immatriculation.¹

2. Ensemble de données de validation

Répartition des ensembles de données pour le ML : l'ensemble de validation représente 20 %

Ce sous-ensemble représente environ 20 % de l'ensemble de données total et est utilisé pour évaluer tous les paramètres du modèle après la phase d'entraînement. Les données de validation sont des données connues qui aident à identifier les lacunes du modèle. Ces données sont également utilisées pour déterminer si le modèle surajuste ou sous-ajuste.

3. Ensemble de données de test

Répartition des ensembles de données pour le ML : l'ensemble de test représente 20 %

Ce sous-ensemble est introduit à l'étape finale du processus d'entraînement et représente les 20 % restants de l'ensemble de données. Les données de ce sous-ensemble sont inconnues du modèle et sont utilisées pour tester la précision du modèle. Cet ensemble de données montrera à quel point votre modèle a appris à partir des deux sous-ensembles précédents.

Conclusion

Le choix du bon ensemble de données est une étape fondamentale dans tout projet d'apprentissage automatique ou d'IA. Que vous optiez pour des données générées par l'homme, des données synthétiques générées par des machines ou des ensembles de données ouverts disponibles gratuitement, l'essentiel est d'aligner votre choix de données sur les objectifs et les défis spécifiques de votre projet.

Des ensembles de données de haute qualité et bien préparés influencent directement l'efficacité avec laquelle un modèle apprend, se généralise et performe dans des applications du monde réel.

Les organisations et les praticiens peuvent mieux naviguer dans les complexités du développement de l'IA en comprenant les types et les rôles des ensembles de données, des ensembles d'entraînement, de validation et de test, et en explorant le riche écosystème des sources de données disponibles.

Une attention particulière à la qualité, à la pertinence et à la diversité des données garantit que les modèles sont précis et adaptables aux besoins évolutifs.

FAQ

Pour trouver des ensembles de données pour l'apprentissage automatique, les data scientists peuvent explorer divers dépôts de données offrant des ensembles de données diversifiés, notamment des données démographiques, économiques et financières, et des données gouvernementales publiques. Ces ensembles de données curatés couvrent une gamme d'applications, telles que le traitement du langage naturel, l'analyse de sentiments, la vision par ordinateur et la santé.

Des ressources telles que des ensembles de données ouverts, des ensembles de données gratuit et des ensembles de données publics fournissent des données d'entraînement de haute qualité, des ensembles de données de validation et des ensembles de données de test dans divers formats de données tels que des fichiers CSV. Les sources populaires incluent des portails gouvernementaux, des institutions académiques et des organisations telles que le Fonds monétaire international, offrant d'importantes collections d'ensembles de données pour des projets ML, des modèles prédictifs et des algorithmes d'apprentissage profond.

Un bon ensemble de données d'apprentissage automatique est un ensemble de données de haute qualité et diversifié avec des métadonnées riches, adapté à des tâches spécifiques telles que le traitement du langage naturel, la classification d'images ou l'analyse de sentiments, et est souvent disponible à partir de dépôts de données publics ou d'ensembles de données ouverts.

Citer cette recherche

Choisissez le format qui correspond à votre lieu de publication. Coller la version avec lien dans votre CMS préserve le lien retour.

Cem Dilmegani and Sıla Ermut (2026) - "57 ensembles de données pour les modèles ML et IA". Publié en ligne sur AIMultiple.com. Consulté le 10 Juin 2026, à : https://aimultiple.com/datasets-for-ml [Ressource en ligne]

Dilmegani, C., & Ermut, S. (2026, 10 Juin). 57 ensembles de données pour les modèles ML et IA. AIMultiple. https://aimultiple.com/datasets-for-ml

@misc{dilmegani2026,
  author = {Dilmegani, Cem and Ermut, Sıla},
  title  = {{57 ensembles de données pour les modèles ML et IA}},
  year   = {2026},
  month  = jun,
  howpublished    = {\url{https://aimultiple.com/datasets-for-ml}},
  note   = {AIMultiple. Consulté le 10 Juin 2026}
}

Liens de référence

ResearchGate - Temporarily Unavailable

Cem Dilmegani

Analyste principal

Suivre

Cem est analyste principal chez AIMultiple depuis 2017. AIMultiple informe des centaines de milliers d'entreprises (selon SimilarWeb) dont 60 % du Fortune 500 chaque mois.

Les travaux de Cem ont été cités par des publications internationales de premier plan telles que Business Insider, Forbes, Washington Post, des entreprises mondiales comme Deloitte, HPE et des ONG comme le Forum économique mondial et des organisations supranationales comme la Commission européenne.

Tout au long de sa carrière, Cem a exercé en tant que consultant tech, acheteur tech et entrepreneur tech. Il a conseillé des entreprises sur leurs décisions technologiques chez McKinsey & Company et Altman Solon pendant plus d'une décennie. Il a également publié un rapport McKinsey sur la numérisation.

Il a dirigé la stratégie technologique et les achats d'un opérateur télécom tout en rendant compte au PDG. Il a également mené la croissance commerciale de l'entreprise deep tech Hypatos qui a atteint un chiffre d'affaires récurrent annuel à 7 chiffres et une valorisation à 9 chiffres à partir de 0 en 2 ans. Le travail de Cem chez Hypatos a été couvert par des publications technologiques de premier plan comme TechCrunch et Business Insider.

Cem intervient régulièrement lors de conférences technologiques internationales. Il est diplômé de la Bogazici University en tant qu'ingénieur informatique et détient un MBA de la Columbia Business School.

Voir le profil complet

Recherche effectuée par

Sıla Ermut

Analyste Sectorielle

Suivre

Sıla Ermut est analyste sectorielle chez AIMultiple, spécialisée dans le marketing par email et les vidéos de vente. Elle a précédemment travaillé comme recruteuse dans des cabinets de gestion de projet et de conseil. Sıla est titulaire d'un Master of Science en psychologie sociale et d'un Bachelor of Arts en relations internationales.

Voir le profil complet