GPU-Parallelitäts-Benchmark: H100 vs. H200 vs. B200 vs. MI300X

mit

aktualisiert am Mär 12, 2026

Ich habe die letzten 20 Jahre der Optimierung der Rechenleistung auf Systemebene gewidmet. Wir haben die neuesten GPUs (NVIDIA), darunter die Modelle H100, H200 und B200 (NVIDIA) sowie die MI300X (AMD), hinsichtlich ihrer Skalierungsfähigkeit bei gleichzeitigen Anfragen getestet. Mithilfe des vLLM-Frameworks und des gpt-oss-20b-Modells haben wir untersucht, wie diese GPUs mit 1 bis 512 gleichzeitigen Anfragen umgehen. Durch die Messung des Systemdurchsatzes, der Ausgabegeschwindigkeit pro Anfrage und der End-to-End-Latenz teilen wir unsere Ergebnisse, um das Verständnis der GPU-Leistung für KI-Workloads zu verbessern.

Ergebnisse des Parallelitäts-Benchmarks

Systemdurchsatz vs. Parallelität

Loading Chart

Dieses Diagramm zeigt die Gesamtzahl der vom System pro Sekunde generierten Ausgabetoken auf jeder Parallelitätsstufe.

Ausgabegeschwindigkeit pro Abfrage im Vergleich zur Parallelität

Diese Kennzahl veranschaulicht, wie schnell eine einzelne Anfrage (in Token pro Sekunde) verarbeitet wird, wenn das System stärker ausgelastet ist. Sie wird anhand der End-to-End-Latenz für eine Ausgabe von 1.000 Token berechnet.

End-to-End-Latenz vs. Parallelität

Dieses Diagramm zeigt die durchschnittliche Zeit (in Millisekunden), die für die Bearbeitung einer Anfrage von Anfang bis Ende bei unterschiedlichen Parallelitätsgraden benötigt wird.

Token pro Sekunde pro Dollar vs. Gleichzeitigkeit

Diese Grafik bewertet die Kosteneffizienz jeder GPU, indem sie misst, wie viele Token pro Sekunde für jeden ausgegebenen Dollar an Stundenmiete generiert werden. Diese Kennzahl ist entscheidend, um den Return on Investment (ROI) der einzelnen Hardwareoptionen zu verstehen, insbesondere bei budgetbewussten Implementierungen.

Hinweis: Die Preisgestaltung basiert auf den On-Demand-Stundensätzen der Cloud-Plattform Runpod ab März 2026. Die Preise können sich ändern und je nach Verfügbarkeit und Instanztyp variieren.

Sie können mehr über unsere Benchmark-Methodik für Parallelität lesen.

Was ist Parallelverarbeitung?

Parallelverarbeitung bezeichnet die Fähigkeit einer GPU, mehrere Anfragen gleichzeitig zu bearbeiten – ein Schlüsselfaktor für KI-Workloads wie die Inferenz großer Sprachmodelle. In unserer Leistungsbewertung geben die Parallelverarbeitungsstufen die Anzahl der gleichzeitig an die GPU gesendeten Anfragen (von 1 bis 512) während der Testläufe an. Höhere Parallelverarbeitungsstufen testen die Fähigkeit der GPU, parallele Aufgaben ohne Leistungseinbußen zu bewältigen und dabei Durchsatz und Latenz in Einklang zu bringen.

Das Verständnis von Parallelverarbeitung hilft Nutzern, die passende GPU für Workloads mit unterschiedlichen Anforderungen oder Batchverarbeitungsanforderungen zu finden. Bei Grafiktests oder GPU-Benchmark-Suites kann die Parallelverarbeitungsleistung zwischen verschiedenen GPUs erheblich variieren. Daher ist es für Verbraucher und Käufer unerlässlich, Testergebnisse über verschiedene Systemkonfigurationen und Preisklassen hinweg zu vergleichen.

Was ist vLLM?

vLLM ist eine schnelle und benutzerfreundliche Open-Source-Bibliothek für die Inferenz und Bereitstellung großer Sprachmodelle (LLMs), die von einer aktiven Community unterstützt wird. Sie eignet sich sowohl für Cloud- als auch für selbstgehostete LLM- Bereitstellungen und verwaltet Speicher, verarbeitet parallele Anfragen und stellt Modelle wie gpt-oss-20b effizient bereit. Für selbstgehostete LLMs vereinfacht vLLM die Bereitstellung durch Funktionen wie PagedAttention. ¹ für Speichermanagement, kontinuierliche Stapelverarbeitung und Unterstützung sowohl für NVIDIA als auch AMD GPUs, wodurch mehrere gleichzeitige Anfragen auf lokaler Hardware ermöglicht werden.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Folgen auf

Methodik zur Berechnung von Parallelitäts-Benchmarks

Wir haben die neuesten Hochleistungs-GPU-Architekturen von NVIDIA und AMD getestet, um ihre Skalierbarkeit für KI-Inferenz-Workloads zu evaluieren. Unser Benchmark-Test umfasste die GPUs H100, H200 und B200 von NVIDIA sowie die MI300X von AMD. Dabei wurde das gpt-oss-20b-Modell von OpenAI über vLLM unter verschiedenen Lastbedingungen ausgeführt. Die Analyse von Durchsatzmetriken, Latenzverteilungen und Ressourcennutzungsmustern liefert Erkenntnisse für den Einsatz in KI-Inferenz-Anwendungen.

Testinfrastruktur

Wir haben unsere Tests auf der Cloud-Infrastruktur von Runpod durchgeführt und dabei die fortschrittlichsten GPU-Architekturen von NVIDIA sowie das vLLM-Framework genutzt.

GPU-Plattform : Runpod Cloud-Infrastruktur (H100, H200, B200 und MI300X)
Modell : OpenAI GPT-OSS-20B via vLLM-Framework

Softwareumgebung

NVIDIA GPUs (H100, H200, B200):

RunPod-Vorlage: runpod/pytorch:1.0.2-cu1281-torch280-ubuntu2404
vLLM-Installation: vllm[flashinfer]==0.11.0

AMD GPU (MI300X):

Docker-Image: rocm/vllm-dev:open-mi300-08052025

vLLM-Serverkonfiguration

Zur Optimierung der Leistung für jede Hardwarearchitektur wurden unterschiedliche vLLM-Einstellungen verwendet.

Für die GPUs NVIDIA H100, H200 und B200 wurde der Server mit folgendem Befehl gestartet:

Für die AMD MI300X GPU wurde ein ROCm-optimierter vLLM-Build mit spezifischen Einstellungen für die Architektur verwendet:

Hinweis: Dieser Benchmark wurde mit vLLM v0.11.0 durchgeführt. vLLM v1.0, das Anfang 2025 veröffentlicht wird, führt architektonische Änderungen ein, die zu anderen Durchsatzergebnissen führen können.

Benchmark-Konfiguration

Jede GPU wurde auf neun verschiedenen Parallelitätsstufen mit standardisierten Parametern getestet, um konsistente Ergebnisse zu gewährleisten.

Gleichzeitigkeitsstufen : 1, 4, 8, 16, 32, 64, 128, 256, 512 gleichzeitige Anfragen
Testdauer : 180 Sekunden Messphase mit 30 Sekunden Aufheiz-/Abkühlphase
Anfragegröße : 1.000 Eingabe-/Ausgabe-Token pro Anfrage

Hinweis zur Ergebnisvalidierung: Vor der Erfassung der endgültigen Messwerte führten wir zahlreiche Tests durch, um die optimale Konfiguration für jede GPU zu ermitteln. Nach deren Festlegung wurde der Benchmark dreimal hintereinander ausgeführt, um die Stabilität zu überprüfen. Die Durchsatzergebnisse waren über diese Durchläufe hinweg konsistent, mit einer Abweichung von weniger als 0,1 %. Die in dieser Analyse dargestellten Werte basieren auf dem letzten Ergebnis dieser drei aufeinanderfolgenden Ausführungen.

Wichtige Kennzahlen

Wir haben die Leistung über mehrere Dimensionen hinweg verfolgt, um einen umfassenden Überblick über die GPU-Fähigkeiten unter Last zu erhalten.

Durchsatz : Systemausgabetoken pro Sekunde, erfolgreiche Anfragen pro Sekunde und Tokengenerierungsgeschwindigkeit für einzelne Anfragen
Latenz : Zeit bis zum ersten Token (TTFT), End-to-End-Latenz mit P50/P95/P99-Perzentilen, durchschnittliche Latenz pro Anfrage
Zuverlässigkeit : Erfolgsquote in Prozent, Timeout vs. andere Fehlerklassifizierung

Überlegungen zum Software-Stack

Die Leistung hängt nicht allein von der Hardware ab. Frameworks wie vLLM bieten eine ausgereiftere und hochoptimierte Unterstützung für das CUDA-Ökosystem im Vergleich zu ROCm. Die in den MI300X-Ergebnissen beobachteten Leistungsunterschiede spiegeln möglicherweise teilweise den aktuellen Stand der Softwareoptimierung wider und nicht das theoretische Potenzial der Hardware.

Roadmap für Hardware der nächsten Generation

Die in diesem Benchmark getesteten GPUs – B200, H200, H100 und MI300X – repräsentieren die aktuelle Generation von Hardware für KI-Inferenz. Sowohl NVIDIA als auch AMD haben ihre Nachfolger angekündigt. Dies ist ein relevanter Kontext für Teams, die Infrastrukturinvestitionen für 2026 und darüber hinaus planen.

Auf der Seite NVIDIA gab Jensen Huang auf der CES 2026 bekannt, dass die Vera Rubin NVL72-Plattform in die Serienproduktion gegangen ist, wobei die ersten Systeme voraussichtlich in der zweiten Jahreshälfte 2026 ausgeliefert werden. ² Laut NVIDIA liefert die Rubin-GPU eine FP4-Inferenzleistung von etwa 50 PFLOPs, was ungefähr dem Fünffachen der Leistung von Blackwell-basierten Systemen wie dem hier getesteten B200 entspricht. ³

Auf der anderen Seite (AMD) ist der Instinct MI400 geplant, der auf der CDNA 5-Architektur basiert und voraussichtlich die Rechenleistung des MI350 etwa verdoppeln und gleichzeitig 432 GB HBM4-Speicher bieten wird. ⁴ AMD hat außerdem angekündigt, dass Meta kundenspezifische MI450-basierte Instinct-Server mit einer Kapazität von bis zu 6 Gigawatt einsetzen wird, wobei die Auslieferungen in der zweiten Hälfte des Jahres 2026 beginnen sollen. ⁵ Oracle wird zusätzlich ab dem dritten Quartal 2026 einen öffentlich zugänglichen KI-Supercluster anbieten, der mit etwa 50.000 GPUs der MI450-Serie betrieben wird. ⁶

Für Teams, die die GPUs in diesem Benchmark für kurzfristige Einsätze evaluieren, sind die B200 und die MI300X weiterhin die leistungsstärksten Optionen. Für einen längeren Planungshorizont deutet die Roadmap 2026 auf einen deutlichen Fortschritt hinsichtlich Durchsatz und Kosteneffizienz beider Hersteller hin.

Abschluss

Der B200 bietet den höchsten Durchsatz und eignet sich hervorragend für Batch-Inferenz. Der MI300X zeichnet sich durch schnellste Reaktionszeiten bei geringer Parallelität aus und ist daher besser für Echtzeitanwendungen wie Chatbots geeignet. H100 und H200 liegen dazwischen und decken allgemeine Workloads ab, ohne in einer der beiden Dimensionen herausragend zu sein.

Der grundlegende Zielkonflikt gilt für alle Hardwarekomponenten: Höhere Parallelität steigert den Systemdurchsatz, erhöht aber die Latenz pro Anfrage. Wählen Sie die Hardware entsprechend Ihrer Prioritäten: Datenvolumen oder Antwortzeit?

Weiterführende Literatur

Erkunden Sie weitere Forschungsarbeiten im Bereich KI-Hardware, wie zum Beispiel:

Referenzlinks

https://arxiv.org/pdf/2309.06180

Nvidia CEO confirms Vera Rubin NVL72 is now in production — Jensen Huang uses CES keynote to announce the milestone | Tom's Hardware

Tom's Hardware

Nvidia CEO confirms Vera Rubin NVL72 is now in production — Jensen Huang uses CES keynote to announce the milestone | Tom's Hardware

Tom's Hardware

AMD and its Partners Share their Vision for AI Everywhere, for Everyone at CES 2026

Advanced Micro Devices (AMD)

AMD and Meta Announce Expanded Strategic Partnership to Deploy 6 Gigawatts of AMD GPUs

Advanced Micro Devices (AMD)

Oracle and AMD Expand Partnership to Help Customers Achieve Next-Generation AI Scale | Oracle Middle East Regional

Sedat Dogan

CTO

Folgen auf

Sedat ist ein führender Experte für Technologie und Informationssicherheit mit Erfahrung in Softwareentwicklung, Web-Datenerfassung und Cybersicherheit. Sedat: – Verfügt über 20 Jahre Erfahrung als White-Hat-Hacker und Entwicklungsexperte mit umfassenden Kenntnissen in Programmiersprachen und Serverarchitekturen. – Berät Führungskräfte und Vorstandsmitglieder von Unternehmen mit hohem Datenverkehr und geschäftskritischen Technologieanwendungen wie Zahlungsinfrastruktur. – Besitzt neben seiner technischen Expertise auch ausgeprägtes betriebswirtschaftliches Verständnis.

Vollständiges Profil anzeigen

Recherchiert von