Por mais de duas décadas, a otimização do desempenho computacional tem sido um pilar do meu trabalho. Realizamos testes de desempenho computacional com as GPUs B200, H200 e H100 de NVIDIA e com a MI300X de AMD para avaliar o quão bem elas escalam para inferência de Modelos de Linguagem de Grande Porte (LLM). Usando o framework vLLM com o modelo meta-llama/Llama-3.1-8B-Instruct, executamos testes com 1, 2, 4 e 8 GPUs.
Analisamos a taxa de transferência e a eficiência de escalabilidade para ilustrar como cada arquitetura de GPU lida com cargas de trabalho paralelizadas e com uso intensivo de computação.
Resultados de benchmark multi-GPU
Taxa de transferência total versus número de GPUs
- Taxa de transferência total (tokens/segundo): Essa métrica representa o poder de processamento bruto de todo o sistema multi-GPU. Ela mede o número total de tokens de entrada e saída processados por segundo, tornando-se o indicador mais importante de desempenho máximo sob uma carga de trabalho offline e saturada.
Para entender como calculamos a pontuação, consulte nossa metodologia de benchmark multi-GPU .
Principais indicadores de desempenho:
Análise de desempenho : O modelo NVIDIA H200 oferece a maior taxa de transferência em todas as configurações testadas, com melhorias de desempenho de 9 a 10% em relação ao H100. O sistema atinge 99,8% de eficiência de escalabilidade com configurações de GPU dupla, indicando uma utilização de recursos quase ideal.
Características de desempenho do MI300X : O MI300X atinge uma taxa de transferência de 18.752 tokens por segundo com uma única GPU, representando aproximadamente 74% do desempenho do H200. O sistema mantém eficiências de escalabilidade de 95% e 81% para configurações com duas e quatro GPUs, respectivamente.
Latência média de inferência versus número de GPUs
- Latência média de inferência (milissegundos): Esta métrica mede o tempo médio necessário para processar uma única solicitação do início ao fim. Uma latência menor se traduz em uma experiência mais rápida e responsiva para os usuários finais.
Principais indicadores de desempenho:
Análise de desempenho de latência : O modelo NVIDIA B200 apresenta as menores medições de latência em todas as configurações avaliadas, atingindo 2,40 ms com implementações de oito GPUs. Essas características de desempenho o posicionam para aplicações que exigem tempos de resposta mínimos, como sistemas interativos em tempo real, onde a latência inferior a 3 ms é um requisito de projeto.
Observações sobre a eficiência de escalabilidade : A análise revela retornos decrescentes na redução da latência à medida que o número de GPUs aumenta em todas as plataformas. A maior redução de latência ocorre durante a transição de configurações com uma única GPU para configurações com duas GPUs (aproximadamente 50% em todas as plataformas). Configurações com mais de 4 GPUs apresentam melhorias de latência progressivamente menores.
Análise comparativa entre H200 e H100 : O H200 demonstra uma latência 5 a 8% menor que a do H100 em todas as escalas, com a diferença absoluta diminuindo em contagens mais altas de GPUs (2,81 ms contra 2,86 ms com oito GPUs, uma diferença de 0,05 ms). Essa diferença marginal de desempenho, quando comparada com a diferença de preço de 41%, sugere que o H100 pode oferecer características de custo-benefício mais favoráveis para implantações sensíveis à latência.
Características de latência do MI300X : O MI300X demonstra valores de latência 37-75% maiores que o H200 em todas as configurações testadas, o que pode ser atribuído às diferenças atuais na maturidade da pilha de software entre as implementações vLLM ROCm e CUDA. Em uma escala de oito GPUs, o MI300X atinge uma latência de 4,20 ms, que permanece dentro dos parâmetros aceitáveis para diversas aplicações de produção, apesar da diferença de desempenho em relação às plataformas NVIDIA.
Desempenho versus preço: uma análise de custo-benefício.
Embora as métricas de desempenho bruto sejam cruciais, a decisão final para qualquer organização depende da relação custo-benefício. Para analisar o retorno sobre o investimento (ROI) de cada plataforma, comparamos nossos resultados de throughput com os preços por hora sob demanda da RunPod no momento dos testes. Isso nos permite calcular uma pontuação de "desempenho por dólar", revelando qual configuração oferece o maior poder computacional pelo menor custo.
Nota: Todas as informações de preços refletem as taxas sob demanda disponíveis na plataforma RunPod Cloud no momento da avaliação comparativa (setembro de 2025) e estão sujeitas a alterações. Os custos são apresentados para fins de análise comparativa e não incluem taxas de armazenamento ou de rede.
Como calculamos a produtividade por dólar
Para gerar este gráfico, processamos nossos dados brutos de desempenho em relação aos custos por hora. A fórmula de cálculo é:
- Preparação dos dados: Para cada ponto de dados em nossa tabela de resultados, recuperamos o custo por hora correspondente à configuração específica da GPU (por exemplo, 4x H100 custa US$ 10,76).
- Cálculo: Em seguida, aplicamos a fórmula para calcular o valor de throughput_per_dollar. Por exemplo, o H100 com 1x GPU entregou 23.243 tokens/s a um custo de US$ 2,69/hora, resultando em uma pontuação de 8.642 tokens/s por dólar.
Essa pontuação de eficiência fornece uma ferramenta de tomada de decisão, mudando a discussão de "qual é o mais rápido?" para "qual é o investimento mais inteligente para nossa carga de trabalho?".
O que é escalonamento multi-GPU?
O escalonamento multi-GPU refere-se à capacidade de um sistema aumentar seu desempenho distribuindo uma única tarefa grande por várias GPUs. Para inferência LLM, isso pode ser alcançado por meio de paralelismo de dados , onde cópias independentes do modelo são executadas em cada GPU, com um balanceador de carga distribuindo as solicitações recebidas entre todas as instâncias.
Idealmente, o uso de duas GPUs proporcionaria o dobro do desempenho de uma única GPU (aceleração de 2x). No entanto, na prática, os ganhos de desempenho são limitados por gargalos de CPU e sistema, pelo tempo que o sistema host gasta gerenciando múltiplos processos simultâneos, por restrições de largura de banda de memória e pela disputa por recursos. Nosso benchmark mede a eficiência com que cada plataforma gerencia essas restrições de nível de sistema, um fator crítico para a construção de servidores de inferência de IA de alto desempenho e baixo custo para modelos de pequeno a médio porte.
Quais são os desafios nos testes de escalonamento com múltiplas GPUs?
A avaliação comparativa de sistemas multi-GPU apresenta desafios únicos que podem afetar significativamente o desempenho.
Sobrecarga de comunicação e gargalos de interconexão
Quando um modelo é dividido entre GPUs, a interconexão, como o NVLink da GPU NVIDIA ou o Infinity Fabric da GPU AMD, torna-se um gargalo crítico de desempenho. A eficiência da comunicação entre GPUs impacta diretamente a escalabilidade. Se o tempo gasto aguardando dados de outra GPU exceder o tempo economizado pela paralelização da computação, os ganhos de desempenho diminuirão. Esse efeito é particularmente pronunciado em modelos que não são grandes o suficiente para saturar completamente a capacidade computacional de cada GPU.
Maturidade do ecossistema de software
O desempenho não depende exclusivamente do hardware. A pilha de software, incluindo drivers, bibliotecas de comunicação (como NCCL para NVIDIA e RCCL para AMD) e o mecanismo de inferência (vLLM), desempenha um papel fundamental. Descobrimos que o desempenho de uma plataforma está profundamente ligado à maturidade do seu suporte de software. Um ecossistema consolidado como o CUDA do NVIDIA geralmente se beneficia de anos de ajustes e otimizações, o que pode resultar em uma eficiência de escalabilidade superior em comparação com integrações mais recentes como o ROCm do AMD, mesmo em hardware potente.
Otimizações específicas da plataforma
Como nossos testes revelaram, alcançar o desempenho ideal geralmente requer configurações específicas para cada plataforma. Usar uma abordagem genérica, do tipo "tamanho único", pode levar a um desempenho enganosamente baixo. A imagem Docker correta, as variáveis de ambiente (por exemplo, habilitar kernels personalizados AMD) e até mesmo os tipos de dados do modelo (por exemplo, bfloat16 para Blackwell) são essenciais para liberar o verdadeiro potencial do hardware. Isso torna comparações justas, "de maçã para maçã", um desafio técnico significativo.
Metodologia de benchmark multi-GPU
Testamos as mais recentes arquiteturas de GPU de alto desempenho, tanto da NVIDIA quanto da AMD, para avaliar suas capacidades de escalabilidade. Nosso benchmark mediu o desempenho de configurações com uma única GPU e com múltiplas GPUs (1x, 2x, 4x, 8x) usando as instruções padrão meta-llama/Llama-3.1-8B-Instruct. 1 modelo e o vLLM 2 Mecanismo de inferência.
Ambiente e processo de teste
- Plataforma : Todos os testes de desempenho foram executados no RunPod Cloud para garantir acesso consistente ao hardware.
- Mecanismo de inferência : O vLLM (ferramenta de análise de desempenho do vllm) foi usado como mecanismo padronizado.
- Modelo : meta-lhama/Llama-3.1-8B-Instruct.
- Conjunto de dados : Conjunto de dados ShareGPT Vicuna (25.000 prompts) para simular uma carga de trabalho conversacional.
- Estratégia : Paralelismo de dados; cada teste com múltiplas GPUs executou uma instância independente do vLLM em cada GPU. A carga total de solicitações foi distribuída uniformemente entre as instâncias, que foram executadas simultaneamente para simular um ambiente de produção com balanceamento de carga. Essa abordagem elimina a comunicação entre GPUs (NVLink/PCIe) como gargalo, transferindo as limitações de desempenho para o sistema host (CPU, RAM).
- Automação : Scripts Bash personalizados foram usados para automatizar a configuração do ambiente, a execução de testes, o monitoramento de recursos (nvidia-smi, rocm-smi) e a agregação de resultados.
Configurações específicas da plataforma
Para alcançar o desempenho ideal, foram necessárias configurações personalizadas para cada arquitetura.
NVIDIA plataformas (H100, H200, B200)
- Imagem base : runpod/pytorch:2.8.0-py3.11-cuda12.8.1.
- Instalação do vLLM :
- H100/H200 (Hopper) : Instalação padrão via pip install vllm.
- B200 (Blackwell) : O vLLM foi compilado a partir do código-fonte (pip install -e .) para habilitar o suporte nativo à nova arquitetura, resolvendo erros de "nenhuma imagem de kernel".
- Parâmetros principais :
- Variável Ambiental Crítica :
Plataforma AMD (MI300X)
- Imagem base : rocm/vllm:rocm6.4.1_vllm_0.10.1_20250909
- Instalação do vLLM : Não foi necessária nenhuma instalação, pois a versão otimizada já estava incluída na imagem.
- Parâmetros e otimizações principais : Um ajuste extensivo identificou as seguintes configurações não padrão como essenciais para atingir o máximo desempenho:
- Variáveis de ambiente específicas para AMD :
- Visibilidade do dispositivo : ROCR_VISIBLE_DEVICES foi usado em vez do equivalente do CUDA para atribuir instâncias a GPUs específicas.
Fases de execução de referência
Cada teste de desempenho seguiu um protocolo de execução em três fases para garantir resultados precisos e reproduzíveis:
Fase 1: Aquecimento
Antes de cada teste de configuração multi-GPU, realizamos uma fase de aquecimento dedicada para eliminar os efeitos de inicialização a frio:
- Duração: 100 solicitações processadas na GPU 0
- Finalidade: Carregamento de modelos, inicialização do cache KV e compilação do kernel CUDA/ROCm.
- Saída: Descartada (não incluída nas medições)
- Comportamento específico da plataforma:
- NVIDIA (CUDA): Compilação do kernel e otimização do grafo CUDA (aproximadamente 30-60 segundos)
- AMD (ROCm): Compilação do kernel e ajuste opcional do TunableOp (varia de acordo com a configuração
PYTORCH_TUNABLEOP_ENABLED)
Fase 2: Inicialização do monitoramento da GPU
Simultaneamente à execução dos benchmarks, iniciamos processos de monitoramento dedicados para cada GPU:
- Taxa de amostragem: intervalos de 1 segundo
- Métricas coletadas: utilização da GPU, uso de memória, temperatura, consumo de energia.
- Ferramentas:
nvidia-smi(NVIDIA) ourocm-smi(AMD) - Saída: Registros CSV para pós-análise
Fase 3: Execução paralela de benchmarks
Após a conclusão do aquecimento, todas as instâncias da GPU foram iniciadas simultaneamente:
- Cada GPU processou uma parte igual do total de 25.000 solicitações.
- Todas as instâncias foram iniciadas no mesmo segundo para simular o balanceamento de carga de produção.
- A taxa de transferência total é medida como a soma de todas as saídas da GPU.
- Tempo de execução medido desde o início da primeira instância até a conclusão da última instância.
Impacto do desempenho no mundo real decorrente dos testes
Nossos testes revelaram que pequenos erros de configuração podem levar a resultados de desempenho significativamente enganosos. A tabela a seguir ilustra o impacto de configurações incorretas específicas da plataforma:
Conclusão
Para servidores de modelos da classe 8B-13B, o paralelismo de dados é uma estratégia altamente eficiente. A escolha do hardware depende das prioridades específicas de implementação.
Para cargas de trabalho onde a relação custo-benefício é uma consideração primordial, o NVIDIA H100 oferece características favoráveis, equilibrando métricas de desempenho, custos de aquisição e comportamento de escalabilidade previsível.
Quando a maximização da produção é o principal objetivo, sem restrições orçamentárias, o NVIDIA H200 apresenta os melhores resultados entre as plataformas avaliadas.
O MI300X (AMD) apresenta características notáveis para estratégias de implantação de longo prazo e ambientes de infraestrutura baseados em AMD. Melhorias de desempenho são esperadas por meio de iterações de otimização de software, e a substancial capacidade de VRAM da plataforma permite a acomodação de arquiteturas de modelos maiores.
O modelo NVIDIA B200 demonstra limitações nesta configuração de carga de trabalho específica, apresentando restrições de desempenho relacionadas à CPU e custo-benefício abaixo do ideal. A arquitetura parece mais adequada para implementações que utilizam modelos de grande escala com estratégias de paralelismo tensorial.
Leitura complementar
Explore outras pesquisas sobre hardware de IA, como:
- Os 20 principais fabricantes de chips de IA: NVIDIA e seus concorrentes
- GPUs na nuvem para aprendizado profundo: disponibilidade, preço e desempenho.
- As 10 melhores nuvens de GPU sem servidor e 14 GPUs com bom custo-benefício
- Benchmark de Concorrência de GPU
Seja o primeiro a comentar
Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios.