IA Hardware per l'intelligenza artificiale

Benchmark di concorrenza GPU: H100 vs H200 vs B200 vs MI300X

Sedat Dogan

con

Ekrem Sarı

aggiornato il Mar 12, 2026

Guarda il nostro norme etiche

Negli ultimi 20 anni mi sono concentrato sull'ottimizzazione delle prestazioni computazionali a livello di sistema. Abbiamo eseguito benchmark sulle più recenti GPU NVIDIA, incluse le H100, H200 e B200 di NVIDIA e la MI300X di AMD, per l'analisi della scalabilità della concorrenza. Utilizzando il framework vLLM con il modello gpt-oss-20b , abbiamo testato come queste GPU gestiscono le richieste concorrenti, da 1 a 512. Misurando il throughput di output del sistema, la velocità di output per query e la latenza end-to-end, condividiamo i risultati per aiutare a comprendere le prestazioni delle GPU per i carichi di lavoro di intelligenza artificiale.

Risultati del benchmark di concorrenza

Velocità di trasmissione dell'output del sistema rispetto alla concorrenza

Loading Chart

Questo grafico mostra il numero totale di token di output generati al secondo dal sistema per ciascun livello di concorrenza.

Velocità di output per query rispetto alla concorrenza

Questa metrica illustra la velocità di elaborazione di una singola query (in token al secondo) all'aumentare del carico di lavoro del sistema. Viene calcolata in base alla latenza end-to-end per un output di 1.000 token.

Latenza end-to-end vs concorrenza

Questo grafico mostra il tempo medio (in millisecondi) necessario per completare una richiesta dall'inizio alla fine a diversi livelli di concorrenza.

Token al secondo per dollaro vs. Concorrenza

Questo grafico valuta il rapporto costo-efficacia di ciascuna GPU misurando quanti token vengono generati al secondo per ogni dollaro speso per il noleggio orario. Questa metrica è fondamentale per comprendere il ritorno sull'investimento di ciascuna opzione hardware, soprattutto per le implementazioni con budget limitati.

Nota: i prezzi si basano sulle tariffe orarie on-demand della piattaforma cloud Runpod a partire da marzo 2026. I prezzi sono soggetti a modifiche e possono variare in base alla disponibilità e al tipo di istanza.

Puoi leggere ulteriori informazioni sulla nostra metodologia di benchmarking della concorrenza .

Che cos'è la concorrenza?

La concorrenza si riferisce alla capacità di una GPU di elaborare più richieste simultaneamente, un fattore chiave per i carichi di lavoro di intelligenza artificiale come l'inferenza di modelli linguistici di grandi dimensioni. Nella nostra valutazione delle prestazioni, i livelli di concorrenza rappresentano il numero di richieste simultanee (da 1 a 512) inviate alla GPU durante le esecuzioni dei test. Una concorrenza più elevata mette alla prova la capacità della GPU di gestire attività parallele senza degradare le prestazioni, bilanciando throughput e latenza.

Comprendere la concorrenza aiuta gli utenti a determinare la GPU più adatta ai carichi di lavoro con esigenze di elaborazione batch variabili. Quando si eseguono test grafici o benchmark per GPU, le prestazioni in termini di concorrenza possono differire significativamente tra le diverse GPU, rendendo essenziale per i consumatori e gli acquirenti confrontare i risultati dei test su diverse configurazioni di sistema e fasce di prezzo.

Che cos'è vLLM?

vLLM è una libreria open-source veloce e facile da usare per l'inferenza e la distribuzione di modelli linguistici di grandi dimensioni (LLM), supportata da una comunità di contributori. Gestisce sia le implementazioni LLM in cloud che quelle self-hosted , gestendo la memoria, elaborando richieste simultanee e distribuendo modelli come gpt-oss-20b in modo efficiente. Per gli LLM self-hosted, vLLM semplifica l'implementazione con funzionalità come PagedAttention. ¹ per la gestione della memoria, il batching continuo e il supporto per le GPU NVIDIA e AMD, consentendo più richieste simultanee sull'hardware locale.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Segui

Metodologia di benchmarking della concorrenza

Abbiamo testato le più recenti architetture GPU ad alte prestazioni di NVIDIA e AMD per valutarne le capacità di scalabilità della concorrenza per i carichi di lavoro di inferenza AI. Il nostro benchmark ha testato le GPU H100, H200 e B200 di NVIDIA insieme alla MI300X di AMD, eseguendo il modello gpt-oss-20b di OpenAI tramite vLLM in diverse condizioni di carico concorrente. Attraverso la misurazione delle metriche di throughput, delle distribuzioni di latenza e dei modelli di utilizzo delle risorse, questa analisi mira a fornire spunti per le implementazioni di inferenza AI.

infrastrutture di prova

Abbiamo implementato i nostri test sull'infrastruttura cloud di Runpod, utilizzando le architetture GPU più avanzate di NVIDIA e il framework vLLM.

Piattaforma GPU : infrastruttura cloud Runpod (H100, H200, B200 e MI300X)
Modello : OpenAI GPT-OSS-20B tramite framework vLLM

Ambiente software

GPU (H100, H200, B200): NVIDIA

Modello RunPod: runpod/pytorch:1.0.2-cu1281-torch280-ubuntu2404
Installazione vLLM: vllm[flashinfer]==0.11.0

AMD GPU (MI300X):

Immagine Docker: rocm/vllm-dev:open-mi300-08052025

configurazione del server vLLM

Sono state utilizzate diverse impostazioni di vLLM per ottimizzare le prestazioni per ciascuna architettura hardware.

Per le GPU H100, H200 e B200 (991259-1761) , il server è stato avviato con il seguente comando:

Per la GPU AMD MI300X , è stata utilizzata una build vLLM ottimizzata per ROCm con impostazioni specifiche per l'architettura:

Nota: questo benchmark è stato condotto utilizzando vLLM v0.11.0. vLLM v1.0, rilasciato all'inizio del 2025, introduce modifiche architetturali che potrebbero produrre risultati di throughput diversi.

Configurazione di riferimento

Ciascuna GPU è stata testata su 9 diversi livelli di concorrenza con parametri standardizzati per garantire risultati coerenti.

Livelli di concorrenza : 1, 4, 8, 16, 32, 64, 128, 256, 512 richieste simultanee
Durata del test : fase di misurazione di 180 secondi con 30 secondi di fase di riscaldamento/raffreddamento.
Dimensione della richiesta : 1.000 token di input/output per richiesta

Nota sulla convalida dei risultati: prima di registrare le metriche finali, abbiamo eseguito numerosi test per determinare la configurazione ottimale per ciascuna GPU. Una volta identificata, il benchmark è stato eseguito tre volte consecutive per verificarne la stabilità. I risultati di throughput sono risultati coerenti tra queste esecuzioni, con una varianza inferiore allo 0,1%. I valori riportati in questa analisi si basano sull'ultimo di questi tre test consecutivi.

Indicatori chiave

Abbiamo monitorato le prestazioni su più dimensioni per fornire una visione completa delle capacità della GPU sotto carico.

Throughput : Token di sistema prodotti al secondo, richieste riuscite al secondo e velocità di generazione dei token per singola richiesta.
Latenza : tempo al primo token (TTFT), latenza end-to-end con percentili P50/P95/P99, latenza media per richiesta
Affidabilità : percentuale di successo, timeout rispetto ad altre classificazioni di errore

Considerazioni sullo stack software

Le prestazioni non dipendono esclusivamente dall'hardware. Framework come vLLM offrono un supporto più maturo e altamente ottimizzato per l'ecosistema CUDA di NVIDIA rispetto a ROCm di AMD. Le differenze di prestazioni osservate nei risultati di MI300X potrebbero in parte riflettere lo stato attuale dell'ottimizzazione del software piuttosto che il potenziale teorico dell'hardware.

Roadmap hardware di prossima generazione

Le GPU testate in questo benchmark, B200, H200, H100 e MI300X, rappresentano l'attuale generazione di hardware per l'inferenza AI. Sia NVIDIA che AMD hanno già annunciato i loro successori, un contesto rilevante per i team che pianificano investimenti infrastrutturali per il 2026 e oltre.

Sul fronte NVIDIA, Jensen Huang ha annunciato al CES 2026 che la piattaforma Vera Rubin NVL72 è entrata in piena produzione, con le prime consegne previste per la seconda metà del 2026. ² Secondo NVIDIA, la GPU Rubin offre circa 50 PFLOPs di prestazioni di inferenza FP4, circa cinque volte superiori a quelle dei sistemi basati su Blackwell come il B200 utilizzato nel benchmark. ³

Sul fronte AMD, l'Instinct MI400, basato sull'architettura CDNA 5, è previsto per il 2026 e si prevede che raddoppierà approssimativamente le prestazioni di calcolo dell'MI350, introducendo al contempo 432 GB di memoria HBM4. ⁴ AMD ha anche annunciato che Meta implementerà server Instinct personalizzati basati su MI450 con una capacità fino a 6 gigawatt, con spedizioni a partire dalla seconda metà del 2026. ⁵ Oracle offrirà inoltre un supercluster AI accessibile al pubblico, alimentato da circa 50.000 GPU della serie MI450, a partire dal terzo trimestre del 2026. ⁶

Per i team che valutano le GPU in questo benchmark per implementazioni a breve termine, le B200 e le MI300X rimangono le opzioni con le prestazioni migliori attualmente disponibili. Per orizzonti di pianificazione più lunghi, la roadmap del 2026 suggerisce un significativo salto di qualità sia in termini di throughput che di efficienza dei costi da parte di entrambi i fornitori.

Conclusione

Il B200 eccelle in termini di throughput e si adatta bene all'inferenza batch. Il MI300X offre i tempi di risposta più rapidi a bassa concorrenza, risultando più adatto ad applicazioni in tempo reale come i chatbot. L'H100 e l'H200 si posizionano a metà strada, coprendo carichi di lavoro generici senza eccellere in nessuna delle due dimensioni.

Il compromesso fondamentale rimane valido per tutti i tipi di hardware: una maggiore concorrenza aumenta la velocità di elaborazione del sistema, ma incrementa anche la latenza per singola richiesta. La scelta dipende dal fatto che il carico di lavoro privilegi il volume o il tempo di risposta.

Per approfondire

Esplora altre ricerche sull'hardware basato sull'intelligenza artificiale, come ad esempio:

Collegamenti di riferimento

https://arxiv.org/pdf/2309.06180

Nvidia CEO confirms Vera Rubin NVL72 is now in production — Jensen Huang uses CES keynote to announce the milestone | Tom's Hardware

Tom's Hardware

Nvidia CEO confirms Vera Rubin NVL72 is now in production — Jensen Huang uses CES keynote to announce the milestone | Tom's Hardware

Tom's Hardware

AMD and its Partners Share their Vision for AI Everywhere, for Everyone at CES 2026

Advanced Micro Devices (AMD)

AMD and Meta Announce Expanded Strategic Partnership to Deploy 6 Gigawatts of AMD GPUs

Advanced Micro Devices (AMD)

Oracle and AMD Expand Partnership to Help Customers Achieve Next-Generation AI Scale | Oracle Middle East Regional

Sedat Dogan

CTO

Segui

Sedat è un leader nel settore della tecnologia e della sicurezza informatica, con esperienza nello sviluppo software, nella raccolta di dati web e nella sicurezza informatica. Sedat: - Ha 20 anni di esperienza come hacker etico e guru dello sviluppo, con una vasta competenza nei linguaggi di programmazione e nelle architetture server. - È consulente di dirigenti di alto livello e membri del consiglio di amministrazione di aziende con operazioni tecnologiche ad alto traffico e di importanza critica, come le infrastrutture di pagamento. - Possiede una solida competenza commerciale oltre alla sua competenza tecnica.

Visualizza il profilo completo

Ricercato da

Ekrem Sarı

Ricercatore di intelligenza artificiale

Segui

Ekrem è un ricercatore di intelligenza artificiale presso AIMultiple, specializzato in automazione intelligente, GPU, agenti di intelligenza artificiale e framework RAG.

Visualizza il profilo completo