Negli ultimi 20 anni mi sono concentrato sull'ottimizzazione delle prestazioni computazionali a livello di sistema. Abbiamo eseguito benchmark sulle più recenti GPU NVIDIA, incluse le H100, H200 e B200 di NVIDIA e la MI300X di AMD, per l'analisi della scalabilità della concorrenza. Utilizzando il framework vLLM con il modello gpt-oss-20b , abbiamo testato come queste GPU gestiscono le richieste concorrenti, da 1 a 512. Misurando il throughput di output del sistema, la velocità di output per query e la latenza end-to-end, condividiamo i risultati per aiutare a comprendere le prestazioni delle GPU per i carichi di lavoro di intelligenza artificiale.
Risultati del benchmark di concorrenza
Velocità di trasmissione dell'output del sistema rispetto alla concorrenza
Questo grafico mostra il numero totale di token di output generati al secondo dal sistema per ciascun livello di concorrenza.
Velocità di output per query rispetto alla concorrenza
Questa metrica illustra la velocità di elaborazione di una singola query (in token al secondo) all'aumentare del carico di lavoro del sistema. Viene calcolata in base alla latenza end-to-end per un output di 1.000 token.
Latenza end-to-end vs concorrenza
Questo grafico mostra il tempo medio (in millisecondi) necessario per completare una richiesta dall'inizio alla fine a diversi livelli di concorrenza.
Token al secondo per dollaro vs. Concorrenza
Questo grafico valuta il rapporto costo-efficacia di ciascuna GPU misurando quanti token vengono generati al secondo per ogni dollaro speso per il noleggio orario. Questa metrica è fondamentale per comprendere il ritorno sull'investimento di ciascuna opzione hardware, soprattutto per le implementazioni con budget limitati.
Nota: i prezzi si basano sulle tariffe orarie on-demand della piattaforma cloud Runpod a partire da marzo 2026. I prezzi sono soggetti a modifiche e possono variare in base alla disponibilità e al tipo di istanza.
Puoi leggere ulteriori informazioni sulla nostra metodologia di benchmarking della concorrenza .
Che cos'è la concorrenza?
La concorrenza si riferisce alla capacità di una GPU di elaborare più richieste simultaneamente, un fattore chiave per i carichi di lavoro di intelligenza artificiale come l'inferenza di modelli linguistici di grandi dimensioni. Nella nostra valutazione delle prestazioni, i livelli di concorrenza rappresentano il numero di richieste simultanee (da 1 a 512) inviate alla GPU durante le esecuzioni dei test. Una concorrenza più elevata mette alla prova la capacità della GPU di gestire attività parallele senza degradare le prestazioni, bilanciando throughput e latenza.
Comprendere la concorrenza aiuta gli utenti a determinare la GPU più adatta ai carichi di lavoro con esigenze di elaborazione batch variabili. Quando si eseguono test grafici o benchmark per GPU, le prestazioni in termini di concorrenza possono differire significativamente tra le diverse GPU, rendendo essenziale per i consumatori e gli acquirenti confrontare i risultati dei test su diverse configurazioni di sistema e fasce di prezzo.
Che cos'è vLLM?
vLLM è una libreria open-source veloce e facile da usare per l'inferenza e la distribuzione di modelli linguistici di grandi dimensioni (LLM), supportata da una comunità di contributori. Gestisce sia le implementazioni LLM in cloud che quelle self-hosted , gestendo la memoria, elaborando richieste simultanee e distribuendo modelli come gpt-oss-20b in modo efficiente. Per gli LLM self-hosted, vLLM semplifica l'implementazione con funzionalità come PagedAttention. 1 per la gestione della memoria, il batching continuo e il supporto per le GPU NVIDIA e AMD, consentendo più richieste simultanee sull'hardware locale.
Metodologia di benchmarking della concorrenza
Abbiamo testato le più recenti architetture GPU ad alte prestazioni di NVIDIA e AMD per valutarne le capacità di scalabilità della concorrenza per i carichi di lavoro di inferenza AI. Il nostro benchmark ha testato le GPU H100, H200 e B200 di NVIDIA insieme alla MI300X di AMD, eseguendo il modello gpt-oss-20b di OpenAI tramite vLLM in diverse condizioni di carico concorrente. Attraverso la misurazione delle metriche di throughput, delle distribuzioni di latenza e dei modelli di utilizzo delle risorse, questa analisi mira a fornire spunti per le implementazioni di inferenza AI.
infrastrutture di prova
Abbiamo implementato i nostri test sull'infrastruttura cloud di Runpod, utilizzando le architetture GPU più avanzate di NVIDIA e il framework vLLM.
- Piattaforma GPU : infrastruttura cloud Runpod (H100, H200, B200 e MI300X)
- Modello : OpenAI GPT-OSS-20B tramite framework vLLM
Ambiente software
GPU (H100, H200, B200): NVIDIA
- Modello RunPod:
runpod/pytorch:1.0.2-cu1281-torch280-ubuntu2404 - Installazione vLLM:
vllm[flashinfer]==0.11.0
AMD GPU (MI300X):
- Immagine Docker:
rocm/vllm-dev:open-mi300-08052025
configurazione del server vLLM
Sono state utilizzate diverse impostazioni di vLLM per ottimizzare le prestazioni per ciascuna architettura hardware.
- Per le GPU H100, H200 e B200 (991259-1761) , il server è stato avviato con il seguente comando:
- Per la GPU AMD MI300X , è stata utilizzata una build vLLM ottimizzata per ROCm con impostazioni specifiche per l'architettura:
Nota: questo benchmark è stato condotto utilizzando vLLM v0.11.0. vLLM v1.0, rilasciato all'inizio del 2025, introduce modifiche architetturali che potrebbero produrre risultati di throughput diversi.
Configurazione di riferimento
Ciascuna GPU è stata testata su 9 diversi livelli di concorrenza con parametri standardizzati per garantire risultati coerenti.
- Livelli di concorrenza : 1, 4, 8, 16, 32, 64, 128, 256, 512 richieste simultanee
- Durata del test : fase di misurazione di 180 secondi con 30 secondi di fase di riscaldamento/raffreddamento.
- Dimensione della richiesta : 1.000 token di input/output per richiesta
Nota sulla convalida dei risultati: prima di registrare le metriche finali, abbiamo eseguito numerosi test per determinare la configurazione ottimale per ciascuna GPU. Una volta identificata, il benchmark è stato eseguito tre volte consecutive per verificarne la stabilità. I risultati di throughput sono risultati coerenti tra queste esecuzioni, con una varianza inferiore allo 0,1%. I valori riportati in questa analisi si basano sull'ultimo di questi tre test consecutivi.
Indicatori chiave
Abbiamo monitorato le prestazioni su più dimensioni per fornire una visione completa delle capacità della GPU sotto carico.
- Throughput : Token di sistema prodotti al secondo, richieste riuscite al secondo e velocità di generazione dei token per singola richiesta.
- Latenza : tempo al primo token (TTFT), latenza end-to-end con percentili P50/P95/P99, latenza media per richiesta
- Affidabilità : percentuale di successo, timeout rispetto ad altre classificazioni di errore
Considerazioni sullo stack software
Le prestazioni non dipendono esclusivamente dall'hardware. Framework come vLLM offrono un supporto più maturo e altamente ottimizzato per l'ecosistema CUDA di NVIDIA rispetto a ROCm di AMD. Le differenze di prestazioni osservate nei risultati di MI300X potrebbero in parte riflettere lo stato attuale dell'ottimizzazione del software piuttosto che il potenziale teorico dell'hardware.
Roadmap hardware di prossima generazione
Le GPU testate in questo benchmark, B200, H200, H100 e MI300X, rappresentano l'attuale generazione di hardware per l'inferenza AI. Sia NVIDIA che AMD hanno già annunciato i loro successori, un contesto rilevante per i team che pianificano investimenti infrastrutturali per il 2026 e oltre.
Sul fronte NVIDIA, Jensen Huang ha annunciato al CES 2026 che la piattaforma Vera Rubin NVL72 è entrata in piena produzione, con le prime consegne previste per la seconda metà del 2026. 2 Secondo NVIDIA, la GPU Rubin offre circa 50 PFLOPs di prestazioni di inferenza FP4, circa cinque volte superiori a quelle dei sistemi basati su Blackwell come il B200 utilizzato nel benchmark. 3
Sul fronte AMD, l'Instinct MI400, basato sull'architettura CDNA 5, è previsto per il 2026 e si prevede che raddoppierà approssimativamente le prestazioni di calcolo dell'MI350, introducendo al contempo 432 GB di memoria HBM4. 4 AMD ha anche annunciato che Meta implementerà server Instinct personalizzati basati su MI450 con una capacità fino a 6 gigawatt, con spedizioni a partire dalla seconda metà del 2026. 5 Oracle offrirà inoltre un supercluster AI accessibile al pubblico, alimentato da circa 50.000 GPU della serie MI450, a partire dal terzo trimestre del 2026. 6
Per i team che valutano le GPU in questo benchmark per implementazioni a breve termine, le B200 e le MI300X rimangono le opzioni con le prestazioni migliori attualmente disponibili. Per orizzonti di pianificazione più lunghi, la roadmap del 2026 suggerisce un significativo salto di qualità sia in termini di throughput che di efficienza dei costi da parte di entrambi i fornitori.
Conclusione
Il B200 eccelle in termini di throughput e si adatta bene all'inferenza batch. Il MI300X offre i tempi di risposta più rapidi a bassa concorrenza, risultando più adatto ad applicazioni in tempo reale come i chatbot. L'H100 e l'H200 si posizionano a metà strada, coprendo carichi di lavoro generici senza eccellere in nessuna delle due dimensioni.
Il compromesso fondamentale rimane valido per tutti i tipi di hardware: una maggiore concorrenza aumenta la velocità di elaborazione del sistema, ma incrementa anche la latenza per singola richiesta. La scelta dipende dal fatto che il carico di lavoro privilegi il volume o il tempo di risposta.
Per approfondire
Esplora altre ricerche sull'hardware basato sull'intelligenza artificiale, come ad esempio:
- I 20 principali produttori di chip per l'intelligenza artificiale: NVIDIA e i suoi concorrenti
- GPU cloud per il deep learning: disponibilità e prezzo/prestazioni
- Le 10 migliori piattaforme cloud GPU serverless e 14 GPU economiche
- Benchmark multi-GPU
Sii il primo a commentare
Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori.