Test de performance simultanée des GPU : H100 vs H200 vs B200 vs MI300X

avec

mis à jour le Mar 12, 2026

J'ai consacré les 20 dernières années à l'optimisation des performances de calcul au niveau système. Nous avons évalué les performances des GPU les plus récents (référence NVIDIA), notamment les H100, H200 et B200 (référence NVIDIA) et le MI300X (référence AMD), afin d'analyser leur passage à l'échelle en cas de concurrence. À l'aide du framework vLLM et du modèle gpt-oss-20b , nous avons testé la gestion de 1 à 512 requêtes simultanées par ces GPU. En mesurant le débit de sortie du système, la vitesse de réponse par requête et la latence de bout en bout, nous présentons nos résultats afin de mieux comprendre les performances des GPU pour les charges de travail d'IA.

Résultats des tests de performance en matière de concurrence

Débit de sortie du système vs concurrence

Loading Chart

Ce graphique illustre le nombre total de jetons de sortie générés par seconde par le système à chaque niveau de concurrence.

Vitesse de réponse par requête vs concurrence

Cette métrique illustre la vitesse de traitement d'une requête (en jetons par seconde) lorsque le système est plus sollicité. Elle est calculée à partir de la latence de bout en bout pour une sortie de 1 000 jetons.

Latence de bout en bout vs concurrence

Ce graphique affiche le temps moyen (en millisecondes) nécessaire pour exécuter une requête du début à la fin à différents niveaux de concurrence.

Jetons par seconde par dollar vs. Concurrence

Ce graphique évalue le rapport coût-efficacité de chaque GPU en mesurant le nombre de jetons générés par seconde pour chaque dollar dépensé en location horaire. Cet indicateur est essentiel pour comprendre le retour sur investissement de chaque option matérielle, notamment pour les déploiements à budget limité.

Remarque : Les prix sont basés sur les tarifs horaires à la demande de la plateforme cloud Runpod en vigueur en mars 2026. Les prix sont susceptibles de changer et peuvent varier en fonction de la disponibilité et du type d'instance.

Vous pouvez en savoir plus sur notre méthodologie d'évaluation comparative de la concurrence .

Qu'est-ce que la concurrence ?

La concurrence désigne la capacité d'un GPU à traiter plusieurs requêtes simultanément, un facteur clé pour les charges de travail d'IA telles que l'inférence de modèles de langage complexes. Dans notre évaluation des performances, les niveaux de concurrence correspondent au nombre de requêtes simultanées (de 1 à 512) envoyées au GPU lors des tests. Un niveau de concurrence élevé teste la capacité du GPU à gérer des tâches parallèles sans dégradation des performances, en optimisant le débit et la latence.

Comprendre la gestion de la concurrence permet aux utilisateurs de choisir le GPU le plus adapté à leurs charges de travail, qu'elles présentent des variations de charge ou des besoins de traitement par lots. Lors de tests graphiques ou d'exécutions de benchmarks GPU, les performances en matière de concurrence peuvent varier considérablement d'un GPU à l'autre. Il est donc essentiel pour les consommateurs et les acheteurs de comparer les résultats des tests sur différentes configurations système et à différents niveaux de prix.

Qu'est-ce que vLLM ?

vLLM est une bibliothèque open source rapide et facile à utiliser pour l'inférence et le déploiement de grands modèles de langage (LLM), soutenue par une communauté de contributeurs. Elle gère les déploiements LLM dans le cloud et sur serveur dédié en optimisant la mémoire, le traitement des requêtes simultanées et le déploiement efficace de modèles tels que gpt-oss-20b. Pour les LLM sur serveur dédié, vLLM simplifie le déploiement grâce à des fonctionnalités comme PagedAttention. ¹ pour la gestion de la mémoire, le traitement par lots continu et la prise en charge des GPU NVIDIA et AMD, permettant plusieurs requêtes simultanées sur le matériel local.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Suivre

Méthodologie d'évaluation comparative de la concurrence

Nous avons testé les dernières architectures GPU hautes performances de NVIDIA et AMD afin d'évaluer leurs capacités de montée en charge en concurrence pour les charges de travail d'inférence IA. Notre test de performance a comparé les GPU H100, H200 et B200 de NVIDIA au MI300X de AMD, en exécutant le modèle gpt-oss-20b de OpenAI via vLLM sous différentes conditions de charge concurrente. Grâce à la mesure des métriques de débit, des distributions de latence et des modèles d'utilisation des ressources, cette analyse vise à fournir des informations précieuses pour les déploiements d'inférence IA.

Infrastructure de test

Nous avons déployé nos tests sur l'infrastructure cloud de Runpod, en utilisant les architectures GPU les plus avancées de NVIDIA et le framework vLLM.

Plateforme GPU : Runpod infrastructure cloud (H100, H200, B200 et MI300X)
Modèle : OpenAI GPT-OSS-20B via le framework vLLM

Environnement logiciel

NVIDIA GPU (H100, H200, B200) :

Modèle RunPod : runpod/pytorch:1.0.2-cu1281-torch280-ubuntu2404
Installation de vLLM : vllm[flashinfer]==0.11.0

AMD GPU (MI300X) :

Image Docker : rocm/vllm-dev:open-mi300-08052025

configuration du serveur vLLM

Différents paramètres vLLM ont été utilisés pour optimiser les performances de chaque architecture matérielle.

Pour les GPU NVIDIA H100, H200 et B200 , le serveur a été lancé avec la commande suivante :

Pour le GPU MI300X AMD , une version vLLM optimisée pour ROCm a été utilisée avec des paramètres spécifiques pour l'architecture :

Remarque : ce test de performance a été réalisé avec vLLM v0.11.0. La version vLLM v1.0, publiée début 2025, introduit des modifications architecturales susceptibles d’entraîner des résultats de débit différents.

Configuration de référence

Chaque GPU a été testé sur 9 niveaux de concurrence différents avec des paramètres standardisés afin de garantir des résultats cohérents.

Niveaux de concurrence : 1, 4, 8, 16, 32, 64, 128, 256, 512 requêtes simultanées
Durée du test : phase de mesure de 180 secondes avec une montée en puissance et une descente en température de 30 secondes.
Taille de la requête : 1 000 jetons d'entrée/sortie par requête

Note sur la validation des résultats : Avant d’enregistrer les mesures finales, nous avons effectué de nombreux tests afin de déterminer la configuration optimale pour chaque GPU. Une fois celle-ci identifiée, le test de performance a été exécuté trois fois de suite pour en vérifier la stabilité. Les résultats de débit sont restés constants lors de ces exécutions, avec une variation inférieure à 0,1 %. Les valeurs présentées dans cette analyse sont basées sur le dernier résultat de ces trois exécutions consécutives.

Indicateurs clés

Nous avons suivi les performances selon de multiples dimensions afin de fournir une vue d'ensemble des capacités du GPU en charge.

Débit : nombre de jetons produits par le système par seconde, nombre de requêtes réussies par seconde et vitesse de génération des jetons de requête individuels
Latence : Délai d'obtention du premier jeton (TTFT), latence de bout en bout avec percentiles P50/P95/P99, latence moyenne par requête
Fiabilité : Taux de réussite (en pourcentage), classification des erreurs de délai d'attente et autres erreurs

Considérations relatives à la pile logicielle

Les performances ne dépendent pas uniquement du matériel. Des frameworks comme vLLM offrent une prise en charge plus aboutie et optimisée de l' écosystème CUDA ( référence 991259_1761) que celle de ROCm (référence 991259_1691). Les différences de performances observées sur MI300X peuvent refléter en partie l'état actuel de l'optimisation logicielle plutôt que le potentiel théorique du matériel.

Feuille de route du matériel de nouvelle génération

Les GPU testés dans ce benchmark, les B200, H200, H100 et MI300X, représentent la génération actuelle de matériel d'inférence IA. Les successeurs de NVIDIA et AMD ont été annoncés ; cette information est importante pour les équipes qui planifient leurs investissements d'infrastructure à partir de 2026.

Du côté de NVIDIA, Jensen Huang a annoncé au CES 2026 que la plateforme Vera Rubin NVL72 est entrée en production complète, les premiers systèmes devant être livrés au cours du second semestre 2026. ² Selon NVIDIA, le GPU Rubin offre environ 50 PFLOPS de performances d'inférence FP4, soit environ cinq fois plus que les systèmes basés sur Blackwell comme le B200 testé ici. ³

Du côté AMD, l'Instinct MI400, basé sur l'architecture CDNA 5, est prévu pour 2026 et devrait doubler approximativement les performances de calcul du MI350 tout en introduisant 432 Go de mémoire HBM4. ⁴ AMD a également annoncé que Meta déploiera des serveurs Instinct personnalisés basés sur MI450 d'une capacité allant jusqu'à 6 gigawatts, les livraisons commençant au cours du second semestre 2026. ⁵ Oracle offrira en outre un supercluster d'IA accessible au public alimenté par environ 50 000 GPU de la série MI450 à partir du troisième trimestre 2026. ⁶

Pour les équipes évaluant les GPU dans ce test de performance en vue de déploiements à court terme, les B200 et MI300X restent les options les plus performantes actuellement disponibles. Pour les projets à plus long terme, la feuille de route 2026 prévoit une nette amélioration du débit et du rapport coût-efficacité chez les deux fournisseurs.

Conclusion

Le B200 offre un débit élevé et une excellente scalabilité pour l'inférence par lots. Le MI300X garantit les temps de réponse les plus rapides en cas de faible concurrence, ce qui le rend plus adapté aux applications temps réel comme les chatbots. Les H100 et H200 se situent entre les deux, couvrant les charges de travail générales sans exceller dans aucun domaine.

Le compromis fondamental reste valable pour tous les matériels : une concurrence accrue augmente le débit du système, mais accroît la latence par requête. Choisissez en fonction de si votre charge de travail privilégie le volume ou la rapidité de réponse.

Pour en savoir plus

Explorez d'autres recherches sur le matériel d'IA, telles que :

Liens de référence

https://arxiv.org/pdf/2309.06180

Nvidia CEO confirms Vera Rubin NVL72 is now in production — Jensen Huang uses CES keynote to announce the milestone | Tom's Hardware

Tom's Hardware

Nvidia CEO confirms Vera Rubin NVL72 is now in production — Jensen Huang uses CES keynote to announce the milestone | Tom's Hardware

Tom's Hardware

AMD and its Partners Share their Vision for AI Everywhere, for Everyone at CES 2026

Advanced Micro Devices (AMD)

AMD and Meta Announce Expanded Strategic Partnership to Deploy 6 Gigawatts of AMD GPUs

Advanced Micro Devices (AMD)

Oracle and AMD Expand Partnership to Help Customers Achieve Next-Generation AI Scale | Oracle Middle East Regional

Sedat Dogan

CTO

Suivre

Sedat est un expert en technologies et sécurité de l'information, fort d'une expérience en développement logiciel, collecte de données web et cybersécurité. Sedat : - Possède 20 ans d'expérience en tant que hacker éthique et expert en développement, avec une vaste expertise des langages de programmation et des architectures serveur. - Conseille les dirigeants et membres du conseil d'administration d'entreprises dont les opérations technologiques critiques et à fort trafic sont telles que les infrastructures de paiement. - Allie un sens aigu des affaires à son expertise technique.

Voir le profil complet

Recherche effectuée par

Ekrem Sarı

Chercheur en IA

Suivre

Ekrem est chercheur en IA chez AIMultiple, spécialisé dans l'automatisation intelligente, les GPU, les agents IA et les frameworks RAG.

Voir le profil complet

Soyez le premier à commenter

Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.

Test de performance simultanée des GPU : H100 vs H200 vs B200 vs MI300X

Résultats des tests de performance en matière de concurrence

Débit de sortie du système vs concurrence

Vitesse de réponse par requête vs concurrence

Latence de bout en bout vs concurrence

Jetons par seconde par dollar vs. Concurrence

Qu'est-ce que la concurrence ?

Qu'est-ce que vLLM ?

Méthodologie d'évaluation comparative de la concurrence

Infrastructure de test

Environnement logiciel

configuration du serveur vLLM

Configuration de référence

Indicateurs clés

Considérations relatives à la pile logicielle

Feuille de route du matériel de nouvelle génération

Conclusion

Pour en savoir plus

Liens de référence

Soyez le premier à commenter

À lire ensuite

Indice des prix de location de GPU cloud

Comparaison des 5 meilleurs aspirateurs d'avis Yelp

Agents d'utilisation informatique : analyse comparative et architecture

DGX Spark vs Mac Studio et Halo : Comparaison des performances et alternatives

Analyse comparative et revue de la documentation informatique

Comparatif multi-GPU : B200 vs H200 vs H100 vs MI300X