Analyse

200+ Principaux Benchmarks d'IA

mis à jour le 8 juil. 2026

Nous avons compilé une liste de plus de 200 benchmarks d'IA pour les LLMs, GPUs, GPUs cloud, agents IA, IA tabulaire et la cybersécurité qui ne sont pas encore saturés.

Croissance des benchmarks d'IA

Loading Chart

Nous avons constaté que l'activité de benchmarking est restée relativement faible et stable de 2024 à 2025, puis a augmenté au début de 2026. Cela reflète la croissance rapide des systèmes d'IA nécessitant une évaluation, d'autant plus que les modèles sont devenus plus performants en matière de codage, de raisonnement, de tâches multimodales, de capacités d'agents et de cas d'utilisation en entreprise.

Benchmarks d'IA par catégories

Nous avons classé les benchmarks d'IA en fonction de leurs catégories principales. Les benchmarks LLM sont en tête en termes de nombre de benchmarks.

Benchmarks d'IA par sous-catégories

Laissez notre équipe automatiser l'un de vos processus métier avec des agents IA, gratuitement.

Automatiser un processus

Liste des benchmarks d'IA

Benchmark	Catégorie	Sous-catégorie	Métrique	Dernière mesure	Fréq.	Performance	Prix	Latence	Fiabilité	Résistant à la contamination	Source de contamination
BenchLM Weighted Score	LLM	Intelligence	Intelligence	05-26	Continu	T	T	F	F	F	benchlm.ai/methodology
Humanity's Last Exam	LLM	Raisonnement	Raisonnement	05-26	Continu	T	F	F	F	T	labs.scale.com/leaderboard/humanitys_last_exam
ARC-AGI-2	LLM	Raisonnement	Raisonnement	05-26	Continu	T	T	F	F	T	arcprize.org/guide/1
SimpleBench	LLM	Raisonnement	Raisonnement	05-26	Par version	T	F	F	F	T	simple-bench.com
CritPt	LLM	Raisonnement	Raisonnement	05-26	Par version	T	F	F	F	T	artificialanalysis.ai
FrontierMath	LLM	Mathématiques	Raisonnement mathématique	05-26	Par version	T	F	F	F	T	epoch.ai/frontiermath
FrontierMath Tier 4	LLM	Mathématiques	Raisonnement mathématique	05-26	Par version	T	F	F	F	T	epoch.ai
AIME 2025	LLM	Mathématiques	Mathématiques	04-26	Par version	T	F	F	F	F	matharena.ai
AIME 2026	LLM	Mathématiques	Mathématiques	04-26	Annuel	T	F	F	F	T	matharena.ai
USAMO 2026	LLM	Mathématiques	Preuve mathématique	03-26	Annuel	T	F	F	F	T	matharena.ai

Lisez notre méthodologie pour savoir comment nous avons constitué cette liste.

Notes sur la façon de lire la liste :

Les quatre colonnes avec des indicateurs booléens (T = vrai, F = faux) indiquent quelle dimension d'évaluation chaque benchmark couvre. Chaque indicateur répond à une question oui/non concernant la portée du benchmark :

Performance (T/F) : Le benchmark évalue-t-il la capacité ou la qualité, comme la précision des résultats, l'achèvement des tâches ou l'intelligence ? Cet indicateur est T pour presque tous les benchmarks, car la plupart évaluent les performances d'un modèle ou d'un système. Il est F pour les benchmarks qui se concentrent uniquement sur le coût ou la vitesse et n'évaluent pas la qualité des résultats.
Prix (T/F) : Le benchmark inclut-il des facteurs liés au coût, tels que le prix par token, le prix par débit ou le coût par tâche ?
Latence (T/F) : Le benchmark mesure-t-il la vitesse, comme les tokens par seconde, le temps jusqu'au premier token, le débit ou le temps de réponse ? Il est F pour les benchmarks qui évaluent la justesse, quelle que soit la durée de la réponse.
Fiabilité (T/F) : Le benchmark évalue-t-il la cohérence ou la fiabilité, comme la variance entre les exécutions, la stabilité des taux de réussite ou la robustesse ? C'est l'indicateur le moins courant. Il est T pour les benchmarks conçus à cet effet, notamment HAL Reliability, tau-bench/tau2-bench, METR Time Horizons et plusieurs benchmarks d'agents où la cohérence du taux de réussite est centrale. Il est F pour la plupart des classements qui rapportent un score global unique.
Résistant à la contamination (T/F) : Indique si le benchmark est conçu pour réduire le risque de contamination des données, où les questions de test apparaissent dans les données d'entraînement d'un modèle et où celui-ci obtient des scores élevés par mémorisation plutôt que par une capacité réelle. T signifie que le benchmark dispose d'une défense significative, comme un ensemble de validation caché, des questions nouvellement générées ou renouvelées, des rafraîchissements mensuels, des éléments auto-générés ou des problèmes de compétition publiés après la date limite d'entraînement d'un modèle. F signifie que le benchmark est un jeu de données public fixe qui est en ligne depuis des années et qui a pu être absorbé dans les corpus d'entraînement. Dans ces cas, les scores élevés doivent être interprétés avec plus de prudence.

En pratique, une ligne marquée T/F/F/F représente un benchmark de qualité pure. En revanche, un benchmark marqué T/T/T/T/F évalue à la fois la qualité, le coût et la vitesse. Ces indicateurs fournissent une taxonomie compacte montrant lesquels des quatre axes d'évaluation chaque benchmark couvre.

Pourquoi certaines cellules sont-elles vides ?

Résistant à la contamination et Source de contamination : Ces deux champs sont généralement vides pour les mêmes types de lignes, en particulier les benchmarks GPU, cloud GPU, de vitesse et de tarification. La résistance à la contamination est pertinente pour les benchmarks de connaissances et de raisonnement, où un modèle pourrait avoir mémorisé des questions de test à partir des données d'entraînement. Pour les benchmarks de débit matériel, de latence ou de tarification, il n'y a pas de questions de test à contaminer, donc le champ est laissé vide plutôt que marqué T ou F.

Méthodologie des benchmarks d'IA

Nous avons collecté les données des benchmarks par un processus de recherche en ligne et de validation. L'objectif était de construire une liste structurée de benchmarks technologiques qui restent utiles pour comparer les systèmes et infrastructures d'IA actuels, couvrant les LLMs, les GPUs, les cloud GPUs, les agents IA, l'IA tabulaire et la cybersécurité.

Nous avons commencé par définir la portée du jeu de données. Nous sommes concentrés sur les benchmarks qui mesurent la capacité des modèles, la performance de l'infrastructure, le coût, la latence, la fiabilité ou la résistance à la contamination. La liste initiale des sources comprenait des fournisseurs majeurs de benchmarks et d'analyses tels que Artificial Analysis, SemiAnalysis, Vals IA, LMArena, AIMultiple et Epoch IA, ainsi que des sites web officiels de benchmarks, des dépôts GitHub, des articles académiques, des pages de classement et des agrégateurs de benchmarks tiers pertinents.

Pour chaque benchmark, nous avons enregistré à la fois des champs descriptifs et évaluatifs. Les champs descriptifs indiquent ce qu'est le benchmark, ce qu'il mesure, quels produits ou modèles sont évalués et à quelle fréquence il est mis à jour. Les champs évaluatifs classent si le benchmark mesure la performance, le prix, la latence ou la fiabilité. Nous avons également collecté des informations sur la structure du benchmark et l'intégrité des données.

Nous avons priorisé les sources primaires chaque fois que possible. Celles-ci comprenaient les pages officielles de méthodologie des benchmarks, les pages de classement, les dépôts GitHub, les articles de benchmarks et la documentation des fournisseurs. Lorsqu'une source primaire ne fournissait pas un champ spécifique, nous avons utilisé des sources secondaires réputées ou des agrégateurs pour combler les lacunes, en particulier pour les meilleurs scores, la couverture actuelle des modèles et les dates de mesure récentes. Des colonnes de source ont été incluses dans tout le jeu de données afin que la preuve de chaque valeur puisse être tracée jusqu'à sa source.

Ne manquez pas nos benchmarks et analyses basées sur les données. Le bouton ouvre Google ; sélectionner AIMultiple confirme que vous souhaitez voir AIMultiple plus souvent dans les résultats de recherche Google.

Ajouter comme source préférée

Citer cette recherche

Choisissez le format qui correspond à votre lieu de publication. Coller la version avec lien dans votre CMS préserve le lien retour.

Sıla Ermut (2026) - "200+ Principaux Benchmarks d'IA". Publié en ligne sur AIMultiple.com. Consulté le 8 Juillet 2026, à : https://aimultiple.com/ai-benchmarks [Ressource en ligne]

Ermut, S. (2026, 8 Juillet). 200+ Principaux Benchmarks d'IA. AIMultiple. https://aimultiple.com/ai-benchmarks

@misc{ermut2026,
  author = {Ermut, Sıla},
  title  = {{200+ Principaux Benchmarks d'IA}},
  year   = {2026},
  month  = jul,
  howpublished    = {\url{https://aimultiple.com/ai-benchmarks}},
  note   = {AIMultiple. Consulté le 8 Juillet 2026}
}

Sıla Ermut

Analyste Sectorielle

Suivre

Sıla Ermut est analyste sectorielle chez AIMultiple, spécialisée dans le marketing par email et les vidéos de vente. Elle a précédemment travaillé comme recruteuse dans des cabinets de gestion de projet et de conseil. Sıla est titulaire d'un Master of Science en psychologie sociale et d'un Bachelor of Arts en relations internationales.

Voir le profil complet