Prueba de rendimiento multi-GPU: B200 vs H200 vs H100 vs MI300X

con

actualizado el Abr 15, 2026

Durante más de dos décadas, la optimización del rendimiento computacional ha sido un pilar fundamental de mi trabajo. Realizamos pruebas comparativas de los procesadores B200, H200 y H100 de NVIDIA, y del procesador MI300X de AMD para evaluar su escalabilidad en la inferencia de modelos de lenguaje a gran escala (LLM). Utilizando el marco de trabajo vLLM con el modelo meta-llama/Llama-3.1-8B-Instruct, ejecutamos pruebas en 1, 2, 4 y 8 GPU.

Analizamos el rendimiento y la eficiencia de escalado para ilustrar cómo cada arquitectura de GPU maneja cargas de trabajo paralelizadas y de gran intensidad computacional.

Resultados de pruebas de rendimiento con múltiples GPU

Rendimiento total frente a número de GPU

Loading Chart

Rendimiento total (tokens/segundo): Esta métrica representa la potencia de procesamiento bruta de todo el sistema multi-GPU. Mide el número total de tokens de entrada y salida procesados por segundo, lo que la convierte en el indicador más importante del rendimiento máximo bajo una carga de trabajo saturada y sin conexión.

Para comprender cómo calculamos la puntuación, consulte nuestra metodología de evaluación comparativa multi-GPU .

Información clave sobre el rendimiento:

Análisis de rendimiento : El H200 (NVIDIA) ofrece el mayor rendimiento en todas las configuraciones probadas, con mejoras de rendimiento del 9-10% respecto al H100. El sistema alcanza una eficiencia de escalado del 99,8% con configuraciones de doble GPU, lo que indica una utilización de recursos casi óptima.

Características de rendimiento del AMD MI300X : El AMD MI300X alcanza un rendimiento de GPU única de 18.752 tokens por segundo, lo que representa aproximadamente el 74% del rendimiento del H200. El sistema mantiene eficiencias de escalado del 95% y del 81% para configuraciones de dos y cuatro GPU, respectivamente.

Latencia de inferencia promedio frente al número de GPU

Latencia media de inferencia (milisegundos): Esta métrica mide el tiempo medio que tarda en procesarse una solicitud de principio a fin. Una menor latencia se traduce en una experiencia más rápida y fluida para los usuarios finales.

Información clave sobre el rendimiento:

Análisis del rendimiento de latencia : El procesador NVIDIA B200 presenta las mediciones de latencia más bajas entre todas las configuraciones evaluadas, alcanzando 2,40 ms con implementaciones de ocho GPU. Estas características de rendimiento lo posicionan para aplicaciones que requieren tiempos de respuesta mínimos, como sistemas interactivos en tiempo real donde una latencia inferior a 3 ms es un requisito de diseño.

Observaciones sobre la eficiencia de escalado : El análisis revela rendimientos decrecientes en la reducción de latencia a medida que aumenta el número de GPU en todas las plataformas. La mayor reducción de latencia se produce durante la transición de configuraciones de una sola GPU a configuraciones de dos GPU (aproximadamente un 50 % en todas las plataformas). Las configuraciones con más de 4 GPU muestran mejoras de latencia progresivamente menores.

Análisis comparativo de H200 y H100 : El H200 presenta una latencia entre un 5 % y un 8 % menor que el H100 en todas las escalas, y la diferencia absoluta disminuye a medida que aumenta el número de GPU (2,81 ms frente a 2,86 ms con ocho GPU, una diferencia de 0,05 ms). Esta diferencia de rendimiento marginal, en comparación con la diferencia de precio del 41 %, sugiere que el H100 podría ofrecer una relación coste-rendimiento más favorable para implementaciones donde la latencia es un factor crítico.

Características de latencia del MI300X : El MI300X muestra valores de latencia entre un 37 % y un 75 % superiores a los del H200 en todas las configuraciones probadas, lo que puede atribuirse a las diferencias actuales en la madurez de la pila de software entre las implementaciones vLLM ROCm y CUDA. A escala de ocho GPU, el MI300X alcanza una latencia de 4,20 ms, que se mantiene dentro de parámetros aceptables para numerosas aplicaciones de producción a pesar de la diferencia de rendimiento con respecto a las plataformas NVIDIA.

Rendimiento frente a precio: Un análisis de rentabilidad

Si bien las métricas de rendimiento son cruciales, la decisión final para cualquier organización se basa en la rentabilidad. Para analizar el retorno de la inversión (ROI) de cada plataforma, comparamos nuestros resultados de rendimiento con los precios por hora bajo demanda de RunPod vigentes durante las pruebas. Esto nos permite calcular una puntuación de "rendimiento por dólar", que revela qué configuración ofrece la mayor potencia de cálculo al menor coste.

Nota: Toda la información sobre precios refleja las tarifas bajo demanda disponibles en la plataforma RunPod Cloud al momento de la evaluación comparativa (septiembre de 2025) y está sujeta a cambios. Los costos se presentan con fines comparativos y no incluyen cargos por almacenamiento ni red.

Cómo calculamos el rendimiento por dólar

Para generar este gráfico, procesamos nuestros datos brutos de rendimiento en relación con los costos por hora. La fórmula de cálculo es:

Preparación de datos: Para cada punto de datos en nuestra tabla de resultados, obtuvimos el costo por hora correspondiente para la configuración específica de GPU (por ejemplo, 4x H100 cuestan $10.76).
Cálculo: Luego aplicamos la fórmula para calcular el valor de rendimiento por dólar. Por ejemplo, el H100 con 1 GPU entregó 23.243 tokens/s a un costo de $2,69/hora, lo que resultó en una puntuación de 8.642 tokens/s por dólar.

Esta puntuación de eficiencia proporciona una herramienta para la toma de decisiones, cambiando el enfoque de la conversación de "¿cuál es el más rápido?" a "¿cuál es la inversión más inteligente para nuestra carga de trabajo?".

¿Qué es el escalado multi-GPU?

El escalado multi-GPU se refiere a la capacidad de un sistema para aumentar su rendimiento distribuyendo una única tarea grande entre varias GPU. En el caso de la inferencia LLM, esto se puede lograr mediante el paralelismo de datos , donde copias independientes del modelo se ejecutan en cada GPU, con un balanceador de carga que distribuye las solicitudes entrantes entre todas las instancias.

Idealmente, usar dos GPU ofrecería el doble de rendimiento que una sola (una aceleración de 2x). Sin embargo, en la práctica, las mejoras de rendimiento se ven limitadas por los cuellos de botella de la CPU y del sistema, el tiempo que el sistema anfitrión dedica a gestionar múltiples procesos concurrentes, las limitaciones de ancho de banda de la memoria y la contención de recursos. Nuestra prueba de rendimiento mide la eficiencia con la que cada plataforma gestiona estas limitaciones del sistema, un factor crítico para construir servidores de inferencia de IA rentables y de alto rendimiento para modelos pequeños y medianos.

¿Cuáles son los desafíos en las pruebas de escalado multi-GPU?

La evaluación comparativa de sistemas multi-GPU plantea desafíos únicos que pueden afectar significativamente al rendimiento.

Sobrecarga de comunicación y cuellos de botella de interconexión

Cuando un modelo se distribuye entre varias GPU, la interconexión, como NVLink (NVIDIA) o Infinity Fabric (AMD), se convierte en un cuello de botella crítico para el rendimiento. La eficiencia de la comunicación entre GPU influye directamente en la escalabilidad. Si el tiempo de espera para recibir datos de otra GPU supera el tiempo ahorrado al paralelizar el cálculo, las mejoras de rendimiento disminuirán. Este efecto es especialmente notable en modelos que no son lo suficientemente grandes como para aprovechar al máximo la capacidad de cálculo de cada GPU.

Madurez del ecosistema de software

El rendimiento no depende únicamente del hardware. El conjunto de software, incluidos los controladores, las bibliotecas de comunicación (como NCCL para NVIDIA y RCCL para AMD) y el motor de inferencia (vLLM), desempeña un papel fundamental. Descubrimos que el rendimiento de una plataforma está estrechamente ligado a la madurez de su soporte de software. Un ecosistema consolidado como CUDA de NVIDIA suele beneficiarse de años de ajuste y optimización, lo que puede traducirse en una eficiencia de escalado superior en comparación con integraciones más recientes como ROCm de AMD, incluso en hardware potente.

Optimizaciones específicas de la plataforma

Como revelaron nuestras pruebas, lograr un rendimiento óptimo a menudo requiere configuraciones específicas para cada plataforma. Un enfoque genérico e indiscriminado puede resultar en un rendimiento engañosamente bajo. La imagen Docker correcta, las variables de entorno (por ejemplo, habilitar kernels personalizados AMD) e incluso los tipos de datos del modelo (por ejemplo, bfloat16 para Blackwell) son esenciales para aprovechar al máximo el potencial del hardware. Esto convierte las comparaciones justas entre sistemas similares en un desafío técnico significativo.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Metodología de evaluación comparativa para múltiples GPU

Probamos las últimas arquitecturas de GPU de alto rendimiento de NVIDIA y AMD para evaluar sus capacidades de escalado. Nuestro benchmark midió el rendimiento de configuraciones de una sola GPU y de múltiples GPU (1x, 2x, 4x, 8x) utilizando la instrucción estándar meta-llama/Llama-3.1-8B-Instruct. ¹ modelo y el vLLM ² motores de inferencia.

Entorno y proceso de prueba

Plataforma : Todas las pruebas de rendimiento se realizaron en RunPod Cloud para garantizar un acceso consistente al hardware.
Motor de inferencia : Se utilizó vLLM (herramienta de evaluación de rendimiento de vllm bench) como motor estandarizado.
Modelo : meta-llama/Llama-3.1-8B-Instruct.
Conjunto de datos : Conjunto de datos Vicuna de ShareGPT (25.000 indicaciones) para simular una carga de trabajo conversacional.
Estrategia : Paralelismo de datos; cada prueba multi-GPU ejecutó una instancia vLLM independiente en cada GPU. La carga total de solicitudes se distribuyó uniformemente entre las instancias, que se ejecutaron simultáneamente para simular un entorno de producción con equilibrio de carga. Este enfoque elimina la comunicación entre GPU (NVLink/PCIe) como cuello de botella, trasladando las limitaciones de rendimiento al sistema anfitrión (CPU, RAM).
Automatización : Se utilizaron scripts Bash personalizados para automatizar la configuración del entorno, la ejecución de pruebas, la monitorización de recursos (nvidia-smi, rocm-smi) y la agregación de resultados.

Configuraciones específicas de la plataforma

Para lograr un rendimiento óptimo, se requerían configuraciones personalizadas para cada arquitectura.

Plataformas NVIDIA (H100, H200, B200)

Imagen base : runpod/pytorch:2.8.0-py3.11-cuda12.8.1.
Instalación de vLLM :
- H100/H200 (Tolva) : Instalación estándar mediante pip install vllm.
- B200 (Blackwell) : vLLM se compiló desde el código fuente (pip install -e .) para habilitar la compatibilidad nativa con la nueva arquitectura, resolviendo los errores de "no hay imagen del kernel".
Parámetros clave :

Variable ambiental crítica :

Plataforma AMD (MI300X)

Imagen base : rocm/vllm:rocm6.4.1_vllm_0.10.1_20250909
Instalación de vLLM : No fue necesaria ninguna instalación, ya que la versión optimizada estaba incluida en la imagen.
Parámetros clave y optimizaciones : Un ajuste exhaustivo identificó las siguientes configuraciones no predeterminadas como críticas para lograr el máximo rendimiento:

Variables de entorno específicas de AMD :

Visibilidad del dispositivo : se utilizó ROCR_VISIBLE_DEVICES en lugar del equivalente de CUDA para asignar instancias a GPU específicas.

Fases de ejecución de referencia

Cada prueba de rendimiento siguió un protocolo de ejecución de tres fases para garantizar resultados precisos y reproducibles:

Fase 1: Calentamiento

Antes de cada prueba de configuración multi-GPU, realizamos una fase de calentamiento específica para eliminar los efectos del arranque en frío:

Duración: 100 solicitudes procesadas en la GPU 0
Objetivo: Carga de modelos, inicialización de caché KV y compilación de kernels CUDA/ROCm.
Salida: Descartado (no incluido en las mediciones)
Comportamiento específico de la plataforma:
- NVIDIA (CUDA): Compilación del kernel y optimización del grafo CUDA (~30-60 segundos)
- AMD (ROCm): Compilación del kernel y ajuste opcional de TunableOp (varía según la configuración PYTORCH_TUNABLEOP_ENABLED)

Fase 2: Inicialización de la monitorización de la GPU

Simultáneamente a la ejecución de las pruebas de rendimiento, iniciamos procesos de monitorización específicos para cada GPU:

Frecuencia de muestreo: intervalos de 1 segundo
Métricas recopiladas: utilización de la GPU, uso de memoria, temperatura, consumo de energía.
Herramientas: nvidia-smi (NVIDIA) o rocm-smi (AMD)
Salida: Registros CSV para análisis posterior

Fase 3: Ejecución de pruebas de rendimiento en paralelo

Una vez finalizado el calentamiento, todas las instancias de GPU se iniciaron simultáneamente:

Cada GPU procesó una parte igual de las 25.000 solicitudes totales.
Todas las instancias se iniciaron en el mismo segundo para simular el equilibrio de carga en producción.
El rendimiento total se mide como la suma de todas las salidas de la GPU.
Tiempo de ejecución medido desde el inicio de la primera instancia hasta la finalización de la última instancia.

Impacto en el rendimiento en el mundo real derivado de las pruebas

Nuestras pruebas revelaron que errores de configuración menores pueden generar resultados de rendimiento significativos y engañosos. La siguiente tabla ilustra el impacto de las configuraciones incorrectas específicas de la plataforma:

Conclusión

Para dar servicio a modelos de la clase 8B-13B, el paralelismo de datos es una estrategia altamente eficiente. La elección del hardware depende de las prioridades de implementación específicas.

Para cargas de trabajo donde la rentabilidad es una consideración primordial, el NVIDIA H100 ofrece características favorables, equilibrando las métricas de rendimiento, los costos de adquisición y un comportamiento de escalado predecible.

Cuando el objetivo principal es maximizar el rendimiento sin restricciones presupuestarias, el NVIDIA H200 muestra las mediciones de rendimiento más altas entre las plataformas evaluadas.

El MI300X (modelo AMD) presenta características destacadas para estrategias de despliegue a largo plazo y entornos de infraestructura basados en dicho modelo. Se prevén mejoras en el rendimiento mediante iteraciones de optimización del software, y la considerable capacidad de VRAM de la plataforma permite la compatibilidad con arquitecturas de modelos de mayor tamaño.

El procesador NVIDIA B200 muestra limitaciones en esta configuración de carga de trabajo específica, presentando restricciones de rendimiento relacionadas con la CPU y una relación coste-eficiencia subóptima. La arquitectura parece más adecuada para implementaciones que utilizan modelos a gran escala con estrategias de paralelismo tensorial.

Lecturas adicionales

Explore otras investigaciones sobre hardware de IA, como por ejemplo:

Enlaces de referencia

meta-llama/Llama-3.1-8B-Instruct · Hugging Face

https://docs.vllm.ai/en/latest/

Sedat Dogan

CTO

Sedat es un líder en tecnología y seguridad de la información con experiencia en desarrollo de software, recopilación de datos web y ciberseguridad. Sedat: - Cuenta con 20 años de experiencia como hacker ético y experto en desarrollo, con amplia experiencia en lenguajes de programación y arquitecturas de servidores. - Asesora a ejecutivos de alto nivel y miembros de juntas directivas de corporaciones con operaciones tecnológicas críticas y de alto tráfico, como la infraestructura de pagos. - Posee una sólida visión para los negocios, además de su experiencia técnica.

Ver perfil completo

Investigado por

Ekrem Sarı

Investigador de IA

Ekrem es investigador de IA en AIMultiple, donde se centra en la automatización inteligente, las GPU, los agentes de IA y los marcos de trabajo RAG.