Teste comparativo de concorrência de GPUs: H100 vs H200 vs B200 vs MI300X

com

atualizado em Mar 12, 2026

Passei os últimos 20 anos me dedicando à otimização do desempenho computacional em nível de sistema. Realizamos benchmarks das GPUs mais recentes, incluindo os modelos H100, H200 e B200, e a MI300X, para análise de escalabilidade em concorrência. Utilizando o framework vLLM com o modelo gpt-oss-20b , testamos como essas GPUs lidam com requisições simultâneas, de 1 a 512. Ao medir a taxa de transferência de saída do sistema, a velocidade de saída por consulta e a latência de ponta a ponta, compartilhamos nossas descobertas para ajudar a compreender o desempenho de GPUs em cargas de trabalho de IA.

Resultados do teste de desempenho de concorrência

Taxa de transferência de saída do sistema versus concorrência

Loading Chart

Este gráfico mostra o número total de tokens de saída gerados por segundo pelo sistema em cada nível de concorrência.

Velocidade de resposta por consulta versus concorrência

Essa métrica ilustra a velocidade de processamento de uma consulta individual (em tokens por segundo) à medida que o sistema fica mais ocupado. Ela é calculada com base na latência de ponta a ponta para uma saída de 1.000 tokens.

Latência de ponta a ponta versus concorrência

Este gráfico exibe o tempo médio (em milissegundos) necessário para concluir uma solicitação do início ao fim em diferentes níveis de concorrência.

Tokens por segundo por dólar vs. Concorrência

Este gráfico avalia a relação custo-benefício de cada GPU, medindo quantos tokens são gerados por segundo para cada dólar gasto no aluguel por hora. Essa métrica é crucial para entender o retorno sobre o investimento de cada opção de hardware, especialmente para implantações com orçamento limitado.

Observação: Os preços são baseados em tarifas horárias sob demanda da plataforma de nuvem Runpod a partir de março de 2026. Os preços estão sujeitos a alterações e podem variar de acordo com a disponibilidade e o tipo de instância.

Você pode ler mais sobre nossa metodologia de avaliação comparativa de concorrência .

O que é concorrência?

Concorrência refere-se à capacidade de uma GPU processar múltiplas requisições simultaneamente, um fator crucial para cargas de trabalho de IA, como a inferência de grandes modelos de linguagem. Em nossa avaliação de desempenho, os níveis de concorrência representam o número de requisições simultâneas (de 1 a 512) enviadas à GPU durante as execuções dos testes. Níveis mais altos de concorrência testam a capacidade da GPU de gerenciar tarefas paralelas sem degradar o desempenho, equilibrando taxa de transferência e latência.

Compreender a concorrência ajuda os usuários a determinar a GPU ideal para cargas de trabalho com demandas variáveis ou necessidades de processamento em lote. Ao executar testes gráficos ou conjuntos de benchmarks de GPU, o desempenho em concorrência pode variar significativamente entre as GPUs, tornando essencial que consumidores e compradores comparem os resultados dos testes em diferentes configurações de sistema e faixas de preço.

O que é vLLM?

vLLM é uma biblioteca de código aberto rápida e fácil de usar para inferência e disponibilização de grandes modelos de linguagem (LLM), com suporte de uma comunidade de colaboradores. Ela lida com implantações de LLM tanto em nuvem quanto em servidores próprios , gerenciando memória, processando solicitações simultâneas e disponibilizando modelos como o gpt-oss-20b de forma eficiente. Para LLMs autohospedados, o vLLM simplifica a implantação com recursos como PagedAttention. ¹ para gerenciamento de memória, processamento em lote contínuo e suporte para GPUs NVIDIA e AMD, permitindo múltiplas solicitações simultâneas no hardware local.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Metodologia de avaliação comparativa de concorrência

Testamos as mais recentes arquiteturas de GPU de alto desempenho da NVIDIA e da AMD para avaliar suas capacidades de escalonamento de concorrência para cargas de trabalho de inferência de IA. Nosso benchmark testou as GPUs H100, H200 e B200 da NVIDIA juntamente com a MI300X da AMD, executando o modelo gpt-oss-20b da OpenAI via vLLM sob diferentes condições de carga concorrente. Por meio da medição de métricas de throughput, distribuição de latência e padrões de utilização de recursos, esta análise visa fornecer insights para implantações de inferência de IA.

Infraestrutura de teste

Implementamos nossos testes na infraestrutura de nuvem da Runpod, utilizando as arquiteturas de GPU mais avançadas da NVIDIA e a estrutura vLLM.

Plataforma GPU : Runpod infraestrutura em nuvem (H100, H200, B200 e MI300X)
Modelo : OpenAI GPT-OSS-20B via framework vLLM

Ambiente de software

NVIDIA GPUs (H100, H200, B200):

Modelo RunPod: runpod/pytorch:1.0.2-cu1281-torch280-ubuntu2404
Instalação do vLLM: vllm[flashinfer]==0.11.0

AMD GPU (MI300X):

Imagem Docker: rocm/vllm-dev:open-mi300-08052025

Configuração do servidor vLLM

Foram utilizadas diferentes configurações de vLLM para otimizar o desempenho de cada arquitetura de hardware.

Para as GPUs NVIDIA H100, H200 e B200 , o servidor foi iniciado com o seguinte comando:

Para a GPU MI300X (AMD) , foi utilizada uma versão do vLLM otimizada para ROCm com configurações específicas para a arquitetura:

Nota: Este teste comparativo foi realizado usando o vLLM v0.11.0. O vLLM v1.0, lançado no início de 2025, introduz alterações arquitetônicas que podem produzir resultados de desempenho diferentes.

Configuração de referência

Cada GPU foi testada em 9 níveis diferentes de concorrência com parâmetros padronizados para garantir resultados consistentes.

Níveis de concorrência : 1, 4, 8, 16, 32, 64, 128, 256, 512 solicitações simultâneas
Duração do teste : fase de medição de 180 segundos com rampa de aquecimento/resfriamento de 30 segundos.
Tamanho da solicitação : 1.000 tokens de entrada/saída por solicitação

Nota sobre a validação dos resultados: Antes de registrar as métricas finais, realizamos diversos testes para determinar a configuração ideal para cada GPU. Após a identificação da configuração ideal, o benchmark foi executado três vezes consecutivas para verificar a estabilidade. Os resultados de desempenho foram consistentes entre as três execuções, com uma variação inferior a 0,1%. Os valores apresentados nesta análise são baseados no resultado final dessas três execuções consecutivas.

Métricas principais

Monitoramos o desempenho em múltiplas dimensões para fornecer uma visão abrangente das capacidades da GPU sob carga.

Taxa de transferência : Tokens de saída do sistema por segundo, solicitações bem-sucedidas por segundo e velocidade de geração de tokens de solicitação individual.
Latência : Tempo até o primeiro token (TTFT), latência de ponta a ponta com percentis P50/P95/P99, latência média por solicitação.
Confiabilidade : Percentual de taxa de sucesso, tempo limite versus classificação de outros erros

Considerações sobre a pilha de software

O desempenho não depende exclusivamente do hardware. Frameworks como o vLLM possuem suporte mais maduro e altamente otimizado para o ecossistema CUDA do NVIDIA em comparação com o ROCm do AMD. As diferenças de desempenho observadas nos resultados do MI300X podem refletir, em parte, o estado atual da otimização do software, e não o potencial teórico do hardware.

Roteiro de hardware de próxima geração

As GPUs testadas neste benchmark, B200, H200, H100 e MI300X, representam a geração atual de hardware de inferência de IA. Tanto a NVIDIA quanto a AMD já anunciaram seus sucessores, o que é um contexto relevante para equipes que planejam investimentos em infraestrutura para 2026 e além.

Do lado do NVIDIA, a Jensen Huang anunciou na CES 2026 que a plataforma Vera Rubin NVL72 entrou em produção plena, com os primeiros sistemas previstos para serem enviados no segundo semestre de 2026. ² De acordo com NVIDIA, a GPU Rubin oferece aproximadamente 50 PFLOPs de desempenho de inferência FP4, cerca de cinco vezes mais do que os sistemas baseados em Blackwell, como o B200, avaliado aqui. ³

Do lado do AMD, o Instinct MI400, baseado na arquitetura CDNA 5, está previsto para 2026 e espera-se que praticamente dobre o desempenho computacional do MI350, ao mesmo tempo que introduz 432 GB de memória HBM4. ⁴ AMD também anunciou que Meta implantará servidores Instinct personalizados baseados em MI450 com capacidade de até 6 gigawatts, com remessas começando no segundo semestre de 2026. ⁵ Oracle oferecerá adicionalmente um supercluster de IA disponível ao público, alimentado por aproximadamente 50.000 GPUs da série MI450, a partir do terceiro trimestre de 2026. ⁶

Para equipes que avaliam as GPUs neste benchmark para implantações de curto prazo, a B200 e a MI300X continuam sendo as opções de melhor desempenho disponíveis atualmente. Para horizontes de planejamento mais longos, o roteiro de 2026 sugere uma mudança significativa tanto em termos de desempenho quanto de custo-benefício por parte de ambos os fornecedores.

Conclusão

O B200 lidera em taxa de transferência e escala bem para inferência em lote. O MI300X oferece os tempos de resposta mais rápidos com baixa concorrência, tornando-o mais adequado para aplicações em tempo real, como chatbots. O H100 e o H200 ficam em uma posição intermediária, atendendo a cargas de trabalho de uso geral sem se destacarem em nenhuma das duas dimensões.

A principal relação de compromisso se aplica a todos os hardwares: maior concorrência aumenta a taxa de transferência do sistema, mas eleva a latência por requisição. A escolha deve ser baseada em se a sua carga de trabalho prioriza volume ou tempo de resposta.

Leitura complementar

Explore outras pesquisas sobre hardware de IA, como:

Links de referência

https://arxiv.org/pdf/2309.06180

Nvidia CEO confirms Vera Rubin NVL72 is now in production — Jensen Huang uses CES keynote to announce the milestone | Tom's Hardware

Tom's Hardware

Nvidia CEO confirms Vera Rubin NVL72 is now in production — Jensen Huang uses CES keynote to announce the milestone | Tom's Hardware

Tom's Hardware

AMD and its Partners Share their Vision for AI Everywhere, for Everyone at CES 2026

Advanced Micro Devices (AMD)

AMD and Meta Announce Expanded Strategic Partnership to Deploy 6 Gigawatts of AMD GPUs

Advanced Micro Devices (AMD)

Oracle and AMD Expand Partnership to Help Customers Achieve Next-Generation AI Scale | Oracle Middle East Regional

Sedat Dogan

CTO

Sedat é um líder em tecnologia e segurança da informação com experiência em desenvolvimento de software, coleta de dados web e cibersegurança. Sedat: - Possui 20 anos de experiência como hacker ético e guru de desenvolvimento, com vasta expertise em linguagens de programação e arquiteturas de servidores. - É consultor de executivos de alto nível e membros do conselho de administração de empresas com operações tecnológicas de alto tráfego e missão crítica, como infraestrutura de pagamentos. - Possui grande perspicácia comercial, além de sua expertise técnica.

Ver perfil completo

Pesquisado por