Test de performance simultanée des GPU : H100 vs H200 vs B200 vs MI300X
J'ai consacré les 20 dernières années à l'optimisation des performances de calcul au niveau système. Nous avons évalué les performances des GPU les plus récents (référence NVIDIA), notamment les H100, H200 et B200 (référence NVIDIA) et le MI300X (référence AMD), afin d'analyser leur passage à l'échelle en cas de concurrence. À l'aide du framework vLLM et du modèle gpt-oss-20b , nous avons testé la gestion de 1 à 512 requêtes simultanées par ces GPU. En mesurant le débit de sortie du système, la vitesse de réponse par requête et la latence de bout en bout, nous présentons nos résultats afin de mieux comprendre les performances des GPU pour les charges de travail d'IA.
Résultats des tests de performance en matière de concurrence
Débit de sortie du système vs concurrence
Ce graphique illustre le nombre total de jetons de sortie générés par seconde par le système à chaque niveau de concurrence.
Vitesse de réponse par requête vs concurrence
Cette métrique illustre la vitesse de traitement d'une requête (en jetons par seconde) lorsque le système est plus sollicité. Elle est calculée à partir de la latence de bout en bout pour une sortie de 1 000 jetons.
Latence de bout en bout vs concurrence
Ce graphique affiche le temps moyen (en millisecondes) nécessaire pour exécuter une requête du début à la fin à différents niveaux de concurrence.
Jetons par seconde par dollar vs. Concurrence
Ce graphique évalue le rapport coût-efficacité de chaque GPU en mesurant le nombre de jetons générés par seconde pour chaque dollar dépensé en location horaire. Cet indicateur est essentiel pour comprendre le retour sur investissement de chaque option matérielle, notamment pour les déploiements à budget limité.
Remarque : Les prix sont basés sur les tarifs horaires à la demande de la plateforme cloud Runpod en vigueur en mars 2026. Les prix sont susceptibles de changer et peuvent varier en fonction de la disponibilité et du type d'instance.
Vous pouvez en savoir plus sur notre méthodologie d'évaluation comparative de la concurrence .
Qu'est-ce que la concurrence ?
La concurrence désigne la capacité d'un GPU à traiter plusieurs requêtes simultanément, un facteur clé pour les charges de travail d'IA telles que l'inférence de modèles de langage complexes. Dans notre évaluation des performances, les niveaux de concurrence correspondent au nombre de requêtes simultanées (de 1 à 512) envoyées au GPU lors des tests. Un niveau de concurrence élevé teste la capacité du GPU à gérer des tâches parallèles sans dégradation des performances, en optimisant le débit et la latence.
Comprendre la gestion de la concurrence permet aux utilisateurs de choisir le GPU le plus adapté à leurs charges de travail, qu'elles présentent des variations de charge ou des besoins de traitement par lots. Lors de tests graphiques ou d'exécutions de benchmarks GPU, les performances en matière de concurrence peuvent varier considérablement d'un GPU à l'autre. Il est donc essentiel pour les consommateurs et les acheteurs de comparer les résultats des tests sur différentes configurations système et à différents niveaux de prix.
Qu'est-ce que vLLM ?
vLLM est une bibliothèque open source rapide et facile à utiliser pour l'inférence et le déploiement de grands modèles de langage (LLM), soutenue par une communauté de contributeurs. Elle gère les déploiements LLM dans le cloud et sur serveur dédié en optimisant la mémoire, le traitement des requêtes simultanées et le déploiement efficace de modèles tels que gpt-oss-20b. Pour les LLM sur serveur dédié, vLLM simplifie le déploiement grâce à des fonctionnalités comme PagedAttention. 1 pour la gestion de la mémoire, le traitement par lots continu et la prise en charge des GPU NVIDIA et AMD, permettant plusieurs requêtes simultanées sur le matériel local.
Méthodologie d'évaluation comparative de la concurrence
Nous avons testé les dernières architectures GPU hautes performances de NVIDIA et AMD afin d'évaluer leurs capacités de montée en charge en concurrence pour les charges de travail d'inférence IA. Notre test de performance a comparé les GPU H100, H200 et B200 de NVIDIA au MI300X de AMD, en exécutant le modèle gpt-oss-20b de OpenAI via vLLM sous différentes conditions de charge concurrente. Grâce à la mesure des métriques de débit, des distributions de latence et des modèles d'utilisation des ressources, cette analyse vise à fournir des informations précieuses pour les déploiements d'inférence IA.
Infrastructure de test
Nous avons déployé nos tests sur l'infrastructure cloud de Runpod, en utilisant les architectures GPU les plus avancées de NVIDIA et le framework vLLM.
- Plateforme GPU : Runpod infrastructure cloud (H100, H200, B200 et MI300X)
- Modèle : OpenAI GPT-OSS-20B via le framework vLLM
Environnement logiciel
NVIDIA GPU (H100, H200, B200) :
- Modèle RunPod :
runpod/pytorch:1.0.2-cu1281-torch280-ubuntu2404 - Installation de vLLM :
vllm[flashinfer]==0.11.0
AMD GPU (MI300X) :
- Image Docker :
rocm/vllm-dev:open-mi300-08052025
configuration du serveur vLLM
Différents paramètres vLLM ont été utilisés pour optimiser les performances de chaque architecture matérielle.
- Pour les GPU NVIDIA H100, H200 et B200 , le serveur a été lancé avec la commande suivante :
- Pour le GPU MI300X AMD , une version vLLM optimisée pour ROCm a été utilisée avec des paramètres spécifiques pour l'architecture :
Remarque : ce test de performance a été réalisé avec vLLM v0.11.0. La version vLLM v1.0, publiée début 2025, introduit des modifications architecturales susceptibles d’entraîner des résultats de débit différents.
Configuration de référence
Chaque GPU a été testé sur 9 niveaux de concurrence différents avec des paramètres standardisés afin de garantir des résultats cohérents.
- Niveaux de concurrence : 1, 4, 8, 16, 32, 64, 128, 256, 512 requêtes simultanées
- Durée du test : phase de mesure de 180 secondes avec une montée en puissance et une descente en température de 30 secondes.
- Taille de la requête : 1 000 jetons d'entrée/sortie par requête
Note sur la validation des résultats : Avant d’enregistrer les mesures finales, nous avons effectué de nombreux tests afin de déterminer la configuration optimale pour chaque GPU. Une fois celle-ci identifiée, le test de performance a été exécuté trois fois de suite pour en vérifier la stabilité. Les résultats de débit sont restés constants lors de ces exécutions, avec une variation inférieure à 0,1 %. Les valeurs présentées dans cette analyse sont basées sur le dernier résultat de ces trois exécutions consécutives.
Indicateurs clés
Nous avons suivi les performances selon de multiples dimensions afin de fournir une vue d'ensemble des capacités du GPU en charge.
- Débit : nombre de jetons produits par le système par seconde, nombre de requêtes réussies par seconde et vitesse de génération des jetons de requête individuels
- Latence : Délai d'obtention du premier jeton (TTFT), latence de bout en bout avec percentiles P50/P95/P99, latence moyenne par requête
- Fiabilité : Taux de réussite (en pourcentage), classification des erreurs de délai d'attente et autres erreurs
Considérations relatives à la pile logicielle
Les performances ne dépendent pas uniquement du matériel. Des frameworks comme vLLM offrent une prise en charge plus aboutie et optimisée de l' écosystème CUDA ( référence 991259_1761) que celle de ROCm (référence 991259_1691). Les différences de performances observées sur MI300X peuvent refléter en partie l'état actuel de l'optimisation logicielle plutôt que le potentiel théorique du matériel.
Feuille de route du matériel de nouvelle génération
Les GPU testés dans ce benchmark, les B200, H200, H100 et MI300X, représentent la génération actuelle de matériel d'inférence IA. Les successeurs de NVIDIA et AMD ont été annoncés ; cette information est importante pour les équipes qui planifient leurs investissements d'infrastructure à partir de 2026.
Du côté de NVIDIA, Jensen Huang a annoncé au CES 2026 que la plateforme Vera Rubin NVL72 est entrée en production complète, les premiers systèmes devant être livrés au cours du second semestre 2026. 2 Selon NVIDIA, le GPU Rubin offre environ 50 PFLOPS de performances d'inférence FP4, soit environ cinq fois plus que les systèmes basés sur Blackwell comme le B200 testé ici. 3
Du côté AMD, l'Instinct MI400, basé sur l'architecture CDNA 5, est prévu pour 2026 et devrait doubler approximativement les performances de calcul du MI350 tout en introduisant 432 Go de mémoire HBM4. 4 AMD a également annoncé que Meta déploiera des serveurs Instinct personnalisés basés sur MI450 d'une capacité allant jusqu'à 6 gigawatts, les livraisons commençant au cours du second semestre 2026. 5 Oracle offrira en outre un supercluster d'IA accessible au public alimenté par environ 50 000 GPU de la série MI450 à partir du troisième trimestre 2026. 6
Pour les équipes évaluant les GPU dans ce test de performance en vue de déploiements à court terme, les B200 et MI300X restent les options les plus performantes actuellement disponibles. Pour les projets à plus long terme, la feuille de route 2026 prévoit une nette amélioration du débit et du rapport coût-efficacité chez les deux fournisseurs.
Conclusion
Le B200 offre un débit élevé et une excellente scalabilité pour l'inférence par lots. Le MI300X garantit les temps de réponse les plus rapides en cas de faible concurrence, ce qui le rend plus adapté aux applications temps réel comme les chatbots. Les H100 et H200 se situent entre les deux, couvrant les charges de travail générales sans exceller dans aucun domaine.
Le compromis fondamental reste valable pour tous les matériels : une concurrence accrue augmente le débit du système, mais accroît la latence par requête. Choisissez en fonction de si votre charge de travail privilégie le volume ou la rapidité de réponse.
Pour en savoir plus
Explorez d'autres recherches sur le matériel d'IA, telles que :
- Les 20 principaux fabricants de puces IA : NVIDIA et ses concurrents
- GPU cloud pour l'apprentissage profond : disponibilité et prix/performances
- Les 10 meilleurs clouds GPU sans serveur et 14 GPU économiques
- Test de performance multi-GPU
Soyez le premier à commenter
Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.