Prueba de rendimiento de concurrencia de GPU: H100 vs H200 vs B200 vs MI300X

con

actualizado el Mar 12, 2026

Durante los últimos 20 años me he centrado en la optimización del rendimiento computacional a nivel de sistema. Realizamos pruebas de rendimiento con las últimas GPU NVIDIA, incluidas las H100, H200 y B200 de NVIDIA, y la MI300X de AMD, para analizar la escalabilidad de la concurrencia. Utilizando el marco vLLM con el modelo gpt-oss-20b , probamos cómo estas GPU manejan las solicitudes concurrentes, desde 1 hasta 512. Al medir el rendimiento de salida del sistema, la velocidad de salida por consulta y la latencia de extremo a extremo, compartimos los resultados para ayudar a comprender el rendimiento de las GPU para cargas de trabajo de IA.

Resultados de la prueba de concurrencia

Rendimiento de salida del sistema frente a concurrencia

Loading Chart

Este gráfico muestra el número total de tokens de salida generados por segundo por el sistema en cada nivel de concurrencia.

Velocidad de salida por consulta frente a concurrencia

Esta métrica ilustra la velocidad de procesamiento de una consulta individual (en tokens por segundo) a medida que el sistema se sobrecarga. Se calcula en función de la latencia de extremo a extremo para una salida de 1000 tokens.

Latencia de extremo a extremo frente a concurrencia

Este gráfico muestra el tiempo promedio (en milisegundos) que se tarda en completar una solicitud de principio a fin en diferentes niveles de concurrencia.

Tokens por segundo por dólar frente a concurrencia

Este gráfico evalúa la rentabilidad de cada GPU midiendo cuántos tokens se generan por segundo por cada dólar invertido en su alquiler por hora. Esta métrica es fundamental para comprender el retorno de la inversión de cada opción de hardware, especialmente en implementaciones con presupuestos ajustados.

Nota: Los precios se basan en las tarifas por hora bajo demanda de la plataforma en la nube Runpod a partir de marzo de 2026. Los precios están sujetos a cambios y pueden variar según la disponibilidad y el tipo de instancia.

Puedes leer más sobre nuestra metodología de evaluación comparativa de concurrencia .

¿Qué es la concurrencia?

La concurrencia se refiere a la capacidad de una GPU para procesar múltiples solicitudes simultáneamente, un factor clave para cargas de trabajo de IA como la inferencia de modelos de lenguaje complejos. En nuestra evaluación de rendimiento, los niveles de concurrencia representan el número de solicitudes simultáneas (de 1 a 512) enviadas a la GPU durante las pruebas. Una mayor concurrencia pone a prueba la capacidad de la GPU para gestionar tareas paralelas sin degradar el rendimiento, equilibrando el rendimiento y la latencia.

Comprender la concurrencia ayuda a los usuarios a determinar la GPU adecuada para cargas de trabajo con diferentes niveles de demanda o necesidades de procesamiento por lotes. Al ejecutar pruebas gráficas o conjuntos de pruebas de rendimiento de GPU, el rendimiento de la concurrencia puede variar significativamente entre las distintas GPU, por lo que resulta fundamental que los consumidores y compradores comparen los resultados de las pruebas en diferentes configuraciones de sistema y rangos de precios.

¿Qué es vLLM?

vLLM es una biblioteca de código abierto rápida y fácil de usar para la inferencia y el servicio de modelos de lenguaje (LLM) de gran tamaño, respaldada por una comunidad de colaboradores. Gestiona implementaciones de LLM tanto en la nube como en servidores propios , administrando la memoria, procesando solicitudes concurrentes y sirviendo modelos como gpt-oss-20b de manera eficiente. Para los LLM alojados en servidores propios, vLLM simplifica la implementación con funciones como PagedAttention. ¹ para la gestión de memoria, el procesamiento por lotes continuo y la compatibilidad con las GPU NVIDIA y AMD, lo que permite múltiples solicitudes concurrentes en el hardware local.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Metodología de evaluación comparativa de concurrencia

Probamos las arquitecturas de GPU de alto rendimiento más recientes de NVIDIA y AMD para evaluar sus capacidades de escalado de concurrencia para cargas de trabajo de inferencia de IA. Nuestra prueba de rendimiento comparó las GPU H100, H200 y B200 de NVIDIA con la MI300X de AMD, ejecutando el modelo gpt-oss-20b de OpenAI a través de vLLM bajo diversas condiciones de carga concurrente. Mediante la medición de métricas de rendimiento, distribuciones de latencia y patrones de utilización de recursos, este análisis busca brindar información valiosa para implementaciones de inferencia de IA.

Infraestructura de prueba

Implementamos nuestras pruebas en la infraestructura en la nube de Runpod, utilizando las arquitecturas de GPU más avanzadas de NVIDIA y el marco vLLM.

Plataforma GPU : Runpod infraestructura en la nube (H100, H200, B200 y MI300X)
Modelo : OpenAI GPT-OSS-20B a través del marco vLLM

Entorno de software

NVIDIA GPU (H100, H200, B200):

Plantilla RunPod: runpod/pytorch:1.0.2-cu1281-torch280-ubuntu2404
Instalación de vLLM: vllm[flashinfer]==0.11.0

GPU (MI300X): AMD

Imagen de Docker: rocm/vllm-dev:open-mi300-08052025

Configuración del servidor vLLM

Se utilizaron diferentes configuraciones de vLLM para optimizar el rendimiento en cada arquitectura de hardware.

Para las GPU NVIDIA H100, H200 y B200 , el servidor se inició con el siguiente comando:

Para la GPU MI300X AMD , se utilizó una compilación vLLM optimizada por ROCm con configuraciones específicas para la arquitectura:

Nota: Esta prueba de rendimiento se realizó utilizando vLLM v0.11.0. vLLM v1.0, que se lanzará a principios de 2025, introduce cambios arquitectónicos que pueden producir resultados de rendimiento diferentes.

Configuración de referencia

Cada GPU se probó en 9 niveles de concurrencia diferentes con parámetros estandarizados para garantizar resultados consistentes.

Niveles de concurrencia : 1, 4, 8, 16, 32, 64, 128, 256, 512 solicitudes concurrentes
Duración de la prueba : fase de medición de 180 segundos con 30 segundos de calentamiento/enfriamiento.
Tamaño de la solicitud : 1000 tokens de entrada/salida por solicitud

Nota sobre la validación de resultados: Antes de registrar las métricas finales, realizamos numerosas pruebas para determinar la configuración óptima para cada GPU. Una vez identificada, la prueba de rendimiento se ejecutó tres veces consecutivas para verificar su estabilidad. Los resultados de rendimiento fueron consistentes en todas las ejecuciones, con una variación inferior al 0,1 %. Las cifras presentadas en este análisis se basan en el resultado final de estas tres ejecuciones consecutivas.

Indicadores clave

Realizamos un seguimiento del rendimiento en múltiples dimensiones para proporcionar una visión completa de las capacidades de la GPU bajo carga.

Rendimiento : Tokens de salida del sistema por segundo, solicitudes exitosas por segundo y velocidad de generación de tokens de solicitud individual.
Latencia : Tiempo hasta el primer token (TTFT), latencia de extremo a extremo con percentiles P50/P95/P99, latencia promedio por solicitud.
Fiabilidad : Porcentaje de tasa de éxito, tiempo de espera frente a otras clasificaciones de errores

Consideraciones sobre la pila de software

El rendimiento no depende únicamente del hardware. Los frameworks como vLLM ofrecen una compatibilidad más madura y optimizada con el ecosistema CUDA de NVIDIA en comparación con ROCm de AMD. Las diferencias de rendimiento observadas en los resultados de MI300X podrían reflejar, en parte, el estado actual de la optimización del software más que el potencial teórico del hardware.

Hoja de ruta del hardware de próxima generación

Las GPU probadas en esta evaluación comparativa (B200, H200, H100 y MI300X) representan la generación actual de hardware para inferencia de IA. Tanto NVIDIA como AMD han anunciado sus sucesoras, lo cual es un dato relevante para los equipos que planifican inversiones en infraestructura para 2026 y años posteriores.

Por su parte, Jensen Huang anunció en el CES 2026 que la plataforma Vera Rubin NVL72 ha entrado en plena producción, y se espera que los primeros sistemas se envíen en la segunda mitad de 2026. ² Según NVIDIA, la GPU Rubin ofrece aproximadamente 50 PFLOPs de rendimiento de inferencia FP4, aproximadamente cinco veces más que los sistemas basados en Blackwell como el B200 evaluado aquí. ³

Por otra parte, el Instinct MI400, basado en la arquitectura CDNA 5, está previsto para 2026 y se espera que duplique aproximadamente el rendimiento de cálculo del MI350, a la vez que introduce 432 GB de memoria HBM4. ⁴ AMD también ha anunciado que Meta desplegará servidores Instinct personalizados basados en MI450 con una capacidad de hasta 6 gigavatios, y los envíos comenzarán en la segunda mitad de 2026. ⁵ Oracle ofrecerá además un supercluster de IA disponible públicamente impulsado por aproximadamente 50 000 GPU de la serie MI450 a partir del tercer trimestre de 2026. ⁶

Para los equipos que evalúan las GPU en esta comparativa para implementaciones a corto plazo, las B200 y MI300X siguen siendo las opciones de mayor rendimiento disponibles actualmente. Para horizontes de planificación más amplios, la hoja de ruta de 2026 sugiere un cambio significativo tanto en el rendimiento como en la rentabilidad por parte de ambos proveedores.

Conclusión

El B200 destaca por su rendimiento y escalabilidad para inferencias por lotes. El MI300X ofrece los tiempos de respuesta más rápidos con baja concurrencia, lo que lo hace más adecuado para aplicaciones en tiempo real como los chatbots. Los H100 y H200 se sitúan en un punto intermedio, cubriendo cargas de trabajo de propósito general sin sobresalir en ninguno de los dos aspectos.

La disyuntiva fundamental se mantiene en todos los tipos de hardware: una mayor concurrencia aumenta el rendimiento del sistema, pero incrementa la latencia por solicitud. Elija en función de si su carga de trabajo prioriza el volumen o el tiempo de respuesta.

Lecturas adicionales

Explore otras investigaciones sobre hardware de IA, como por ejemplo:

Enlaces de referencia

https://arxiv.org/pdf/2309.06180

Nvidia CEO confirms Vera Rubin NVL72 is now in production — Jensen Huang uses CES keynote to announce the milestone | Tom's Hardware

Tom's Hardware

Nvidia CEO confirms Vera Rubin NVL72 is now in production — Jensen Huang uses CES keynote to announce the milestone | Tom's Hardware

Tom's Hardware

AMD and its Partners Share their Vision for AI Everywhere, for Everyone at CES 2026

Advanced Micro Devices (AMD)

AMD and Meta Announce Expanded Strategic Partnership to Deploy 6 Gigawatts of AMD GPUs

Advanced Micro Devices (AMD)

Oracle and AMD Expand Partnership to Help Customers Achieve Next-Generation AI Scale | Oracle Middle East Regional

Sedat Dogan

CTO

Sedat es un líder en tecnología y seguridad de la información con experiencia en desarrollo de software, recopilación de datos web y ciberseguridad. Sedat: - Cuenta con 20 años de experiencia como hacker ético y experto en desarrollo, con amplia experiencia en lenguajes de programación y arquitecturas de servidores. - Asesora a ejecutivos de alto nivel y miembros de juntas directivas de corporaciones con operaciones tecnológicas críticas y de alto tráfico, como la infraestructura de pagos. - Posee una sólida visión para los negocios, además de su experiencia técnica.

Ver perfil completo

Investigado por