Why does the same provider list the same GPU model at multiple prices?

A single GPU model name often covers multiple physical SKUs. H100 ships in PCIe, SXM, SXM5, and NVL variants at different prices and interconnect bandwidths. A100 ships at 40GB and 80GB VRAM; V100 ships at 16GB and 32GB. Within a provider, the listed rate also varies by host CPU class, bundled RAM and storage, and region. The pricing tables above split SKUs by interconnect and VRAM where the source data allows, so each row is a single physical card rather than a model-name aggregate.

How do I read the throughput-per-dollar number in the component above?

The component runs a fixed workload (image or text generation, finetuning, or inference) on each GPU instance and divides the total output by the instance's hourly cost. A higher number is cheaper per output for that workload. The ranking shifts with the workload: A card optimized for FP8 inference can outrank a higher-VRAM card on text generation but lose on a large image-model finetune. Pick the workload tab that matches your job before reading the leaderboard.

How often are these prices updated?

The pricing tables refresh on a monthly catalog crawl.

AI Hardware de IA

GPU en la nube para aprendizaje profundo: disponibilidad y precio/rendimiento

Cem Dilmegani

con

Ekrem Sarı

actualizado el May 19, 2026

Vea nuestra normas éticas

Si no tiene inconvenientes con el modelo de GPU, identifique la GPU en la nube más rentable según nuestra comparativa de 10 modelos de GPU en escenarios de generación y ajuste fino de imágenes y texto.

Si prefiere un modelo específico (por ejemplo, el A100), identifique el proveedor de GPU en la nube de menor costo que lo ofrezca.
Si no se decide entre la implementación local y la nube, explore la posibilidad de comprar o alquilar GPU en la nube .
O bien, aprenda nuestra metodología de evaluación comparativa de GPU en la nube para identificar la GPU más rentable.

Precio de GPU en la nube por rendimiento

Dos modelos de precios comunes para las GPU son las instancias "bajo demanda" y las instancias "spot". Consulta la GPU más rentable para tu carga de trabajo según los precios bajo demanda de los 3 principales proveedores de hiperescala:

Consulte la metodología de evaluación comparativa de GPU en la nube para obtener más detalles.

El modelo de precios bajo demanda es el más sencillo, en el que se paga por la capacidad de procesamiento por hora o por segundo, según el uso que se le dé, sin compromisos a largo plazo ni pagos por adelantado.

Estas instancias se recomiendan para usuarios que prefieren la flexibilidad de una plataforma GPU en la nube sin pagos iniciales ni compromisos a largo plazo. Las instancias bajo demanda suelen ser más caras que las instancias spot, pero ofrecen capacidad garantizada e ininterrumpida.

GPU bajo demanda de otros proveedores de servicios en la nube

* La memoria y el modelo de GPU no son los únicos parámetros. Las CPU y la RAM también pueden ser importantes, pero no son los criterios principales que determinan el rendimiento de las GPU en la nube. Por lo tanto, para simplificar, no hemos incluido el número de CPU ni de RAM en estas tablas.

** El rendimiento del entrenamiento es una buena métrica para medir la efectividad relativa de la GPU. Mide la cantidad de tokens procesados por segundo por la GPU para un modelo de lenguaje (es decir, bert_base_squad). ¹ Tenga en cuenta que estos valores de rendimiento deben considerarse como pautas generales. El mismo hardware tendría un rendimiento significativamente diferente para su carga de trabajo, ya que existe una diferencia considerable incluso entre LLM que se ejecutan en el mismo hardware. ²

*** No incluye el costo de almacenamiento, el rendimiento de la red, el tráfico de entrada/salida , etc. Este es solo el costo de la GPU. ³

GPU Spot

En todas estas tablas de rendimiento por dólar:

No se enumeran todas las configuraciones posibles; se incluyen las más utilizadas y las centradas en el aprendizaje profundo.
Se utilizaron regiones del oeste o centro de Estados Unidos siempre que fue posible.
Estos son los precios de lista para cada categoría; los compradores de grandes volúmenes posiblemente obtengan mejores precios.

Finalmente, conviene aclarar qué significa “spot”. Los recursos spot son:

Es susceptible a interrupciones, por lo que los usuarios deben registrar su progreso constantemente. Por ejemplo, Amazon EC2 P3, que ofrece V100 de 32 GB, es uno de los servicios de instancias spot de Amazon que se interrumpen con mayor frecuencia. ⁴
Se ofrece de forma dinámica, según las condiciones del mercado . El precio de estos recursos de GPU puede fluctuar en función de la oferta y la demanda, y los usuarios suelen pujar por la capacidad disponible. Si la puja de un usuario supera el precio actual, se ejecutarán las instancias solicitadas.

Los precios de alquiler de GPU en el mercado spot aumentaron a principios de 2026 debido a picos de demanda, con una disponibilidad limitada incluso para las generaciones más antiguas de GPU. El CEO de Nvidia, Jensen Huang, señaló en enero de 2026 que las tarifas de alquiler de GPU en el mercado spot están subiendo drásticamente en todas las generaciones, no solo en los modelos más recientes. ⁵

Costos y disponibilidad de GPU en la nube

Ordenar por precio más bajo. Para otras opciones de bajo costo, puede consultar los mercados de GPU en la nube .

En enero de 2026, AWS aumentó los precios en aproximadamente un 15 % en sus instancias GPU de gama más alta, específicamente las instancias EC2 P5e 48xlarge equipadas con 8 GPU NVIDIA H200. ⁶

Disponibilidad de GPU

Introduce el modelo que deseas en el cuadro de búsqueda para identificar todos los proveedores de servicios en la nube que lo ofrecen:

*** Precio bajo demanda *($) por GPU individual. No incluye costos de almacenamiento, rendimiento de red, entrada/salida, etc. Este es solo el costo de la GPU.

**** Valores calculados. Esto fue necesario cuando no se disponía de instancias con una sola GPU. ⁷ ⁸

Otras consideraciones sobre las GPU en la nube

Disponibilidad : Es posible que no todas las GPU mencionadas anteriormente estén disponibles debido a las limitaciones de capacidad de los proveedores de la nube y a la creciente demanda de IA generativa.

Seguridad de los datos : Por ejemplo, los mercados de GPU en la nube como Vast.ai ofrecen precios significativamente más bajos, pero dependiendo del recurso específico solicitado, la seguridad de los datos de la carga de trabajo podría verse comprometida, lo que permitiría a los proveedores de alojamiento acceder a ella. Dado que priorizamos las necesidades de GPU empresariales, Vast.ai no se incluyó en esta evaluación comparativa.

Facilidad de uso : La calidad de la documentación es una métrica subjetiva, pero los desarrolladores prefieren la documentación de algunos proveedores de nube a la de otros. En esta discusión, se mencionó que la documentación de GCP era de menor calidad que la de otros gigantes tecnológicos. ⁹

Familiaridad : Si bien los proveedores de servicios en la nube se esfuerzan por facilitar el uso de sus servicios, existe una curva de aprendizaje. Por ello, los principales proveedores cuentan con sistemas de certificación. En consecuencia, para cargas de trabajo pequeñas, el ahorro que supone utilizar un proveedor de bajo coste puede ser menor que el coste de oportunidad del tiempo que un desarrollador invierte en aprender a utilizar su servicio de GPU en la nube .

Optimización de costes: Las tecnologías de agrupación de GPU pueden reducir significativamente el uso y los costos de las GPU en la nube al compartir los recursos de computación entre múltiples modelos.

El sistema Aegaeon de Alibaba afirma una reducción del 82 % en el uso de GPU para servir LLM a través del autoescalado a nivel de token que permite que las GPU cambien entre modelos durante la generación en lugar de esperar a que se completen las respuestas completas.

Durante una fase beta de tres meses en el mercado de Alibaba Cloud, Aegaeon redujo los requisitos de GPU de H2O de 1192 a 213, al tiempo que daba servicio a docenas de modelos con hasta 72 mil millones de parámetros, con GPU individuales que admitían hasta 7 modelos y una latencia de conmutación que disminuyó en un 97 %. ¹⁰

Orquestación multi-nube: Shopify utiliza interfaces portátiles en diferentes nubes, imponiendo la propiedad de los costos y las cuotas a través de archivos de configuración YAML con cuotas de costos, y utiliza herramientas de orquestación como SkyPilot tanto para la capacitación como para entornos de desarrollo interactivos de GPU. ¹¹

Compra GPU o alquila GPU en la nube.

Comprar tiene sentido

Si su empresa tiene los conocimientos y la preferencia para alojar los servidores o administrar servidores en centros de datos .
Para cargas de trabajo ininterrumpibles : Para el volumen de GPU para las que se puede garantizar una alta utilización (por ejemplo, más del 80 %) durante un año o más. ¹²
Para cargas de trabajo interrumpibles : el período de alta utilización citado anteriormente debe ser varias veces más largo, ya que los precios bajo demanda (computación ininterrumpible) tienden a ser varias veces más caros que los precios spot (computación interrumpible).

Nuestra recomendación para empresas con cargas de trabajo intensivas en GPU es una combinación de GPU propias y alquiladas, donde la demanda garantizada se ejecuta en las GPU propias y la demanda variable en la nube. Por eso, gigantes tecnológicos como Facebook están creando sus propios clústeres de GPU con cientos de unidades. ¹³

Los compradores podrían verse tentados a considerar las GPU para consumidores, que ofrecen una mejor relación precio/rendimiento; sin embargo, el contrato de licencia de usuario final (EULA) de su software prohíbe su uso en centros de datos. ¹⁴ Por lo tanto, no son adecuados para el aprendizaje automático, excepto para cargas de trabajo de prueba menores en las máquinas de los científicos de datos.

Comparación del rendimiento de los proveedores de servicios en la nube

Para comprender si la elección de un proveedor de nube afecta el rendimiento de hardware idéntico, realizamos una prueba de rendimiento específica en la GPU MI300X de 192 GB (AMD) , ejecutando las mismas cargas de trabajo de generación de texto e imágenes tanto en Digital Ocean como en Runpod .

Nuestros hallazgos revelan que, si bien el rendimiento es en general similar, existen diferencias menores pero medibles, como se muestra en el siguiente gráfico:

Observaciones clave:

Para la generación de texto , Digital Ocean demostró un rendimiento ligeramente superior, procesando aproximadamente un 0,4 % más de tokens por segundo.
Por el contrario, para la generación de imágenes , Runpod mostró una ventaja marginal, procesando aproximadamente un 0,4% más de imágenes por segundo.

Es probable que estas pequeñas variaciones se deban a diferencias en la arquitectura del servidor, la infraestructura de red o las configuraciones específicas de virtualización y controladores del proveedor.

Si bien este nivel de diferencia puede no ser crítico para todos los casos de uso, pone de relieve que, para las cargas de trabajo que requieren la máxima optimización, la elección del proveedor de la nube puede ser un factor relevante en la optimización del rendimiento, incluso cuando se utiliza el mismo modelo de GPU.

Metodología de evaluación comparativa de GPU en la nube

Precios: Los precios de las GPU en la nube se actualizan mensualmente.

Esta sección detalla la metodología utilizada para medir el rendimiento y la rentabilidad de nuestras pruebas comparativas de GPU en la nube. Se utilizó cuantización de punto flotante de 4 bits en todas las pruebas, salvo que se especifique lo contrario.

Ajuste fino del texto (Rendimiento)

Esta métrica mide la velocidad de procesamiento bruta para entrenar un modelo de lenguaje, calculada en tokens por segundo. Responde a la pregunta: "¿Cuántos tokens puede procesar esta GPU por segundo durante el ajuste fino?".

Modelo: Llama 3.2
Conjunto de datos: Las primeras 5.000 conversaciones del conjunto de datos FineTome.
Proceso: El modelo se ajustó durante 5 épocas utilizando un total de 1 millón de tokens.
Cálculo: El rendimiento se calcula como (Tokens totales * Número de épocas) / Tiempo total de ajuste fino. La métrica final es tokens por segundo (tokens/s) .
Marco de trabajo: Unsloth

Optimización del texto (Eficiencia)

Esta métrica mide la rentabilidad del ajuste fino, calculada en tokens por dólar. Responde a la pregunta: "¿Cuántos tokens se pueden procesar por cada dólar invertido en esta GPU?".

Cálculo: Este valor se obtiene de la prueba de rendimiento. Se calcula dividiendo el número total de tokens procesados entre el coste por hora de la instancia de GPU. La métrica final es tokens por dólar (tokens/$) .

Inferencia de texto (Rendimiento)

Esta métrica mide la velocidad bruta de generación de texto con un modelo entrenado, calculada en tokens por segundo. Es fundamental para aplicaciones en tiempo real.

Proceso: Se generó un total de 1 millón de tokens, incluyendo tanto tokens de entrada como de salida.
Cálculo: El rendimiento se calcula dividiendo el número total de tokens entre la duración total. La métrica final es tokens por segundo (tokens/s) .
Framework: llama-cpp-python

Inferencia de texto (Eficiencia)

Esta métrica mide la rentabilidad de la generación de texto, calculada en tokens por dólar.

Cálculo: Este valor se deriva de la prueba de inferencia. Se calcula dividiendo el número total de tokens generados por el costo por hora de la instancia de GPU. La métrica final es tokens por dólar (tokens/$) .

Ajuste fino de imágenes (rendimiento)

Esta métrica mide la velocidad de procesamiento bruta para entrenar un modelo de reconocimiento de imágenes, calculada en imágenes por segundo.

Modelo: YOLOv9
Conjunto de datos: 100 imágenes del conjunto de datos SkyFusion.
Proceso: El modelo fue entrenado con este conjunto de datos durante 4 épocas.
Cálculo: El rendimiento se mide en imágenes por segundo (imagen/s) procesadas durante el entrenamiento.
Marco de trabajo: Unsloth

Ajuste fino de imagen (eficiencia)

Esta métrica mide la rentabilidad del entrenamiento de un modelo de imagen, calculada en imágenes por dólar.

Cálculo: Este valor se obtiene de la prueba de ajuste fino de imágenes. Se calcula dividiendo el número total de imágenes procesadas entre el coste por hora de la instancia de GPU. La métrica final es imágenes por dólar (imagen/$) .

Inferencia de imágenes (Rendimiento)

Esta métrica mide la velocidad bruta de análisis de imágenes con un modelo entrenado, calculada en imágenes por segundo.

Modelo: El modelo YOLOv9 ajustado con el proceso descrito anteriormente.
Conjunto de datos: Aproximadamente 500 imágenes con una resolución de 640×640 píxeles.
Cálculo: El rendimiento se mide por el número de imágenes por segundo (imagen/s) que el modelo puede procesar.

Inferencia de imágenes (eficiencia)

Esta métrica mide la rentabilidad del análisis de imágenes, calculada en imágenes por dólar.

Cálculo: Este valor se obtiene de la prueba de inferencia de imágenes. Se calcula dividiendo el número total de imágenes procesadas entre el coste por hora de la instancia de GPU. La métrica final es imágenes por dólar (imagen/$) .

Próximos pasos:

Se aumentará la frecuencia de recopilación de datos.
Ampliaremos la cobertura de GPU, incluiremos más métricas y actualizaremos nuestra medición del rendimiento con el tiempo.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

¿Cuáles son los mejores dispositivos GPU para la nube?

AMD está implementando sus GPU de la serie Instinct MI450 con arquitectura CDNA 4 y la plataforma de rack Helios para competir con NVIDIA en cargas de trabajo de entrenamiento e inferencia de IA a gran escala. En febrero de 2026, Meta anunció una asociación plurianual para implementar hasta 6 gigavatios de GPU Instinct AMD, una implementación históricamente grande. ¹⁵

La próxima arquitectura Rubin de NVIDIA (por ejemplo, la GPU Rubin NVL-144) incorpora NVLink 6 y memoria HBM4 para cargas de trabajo de entrenamiento en la nube. Debido a las restricciones a la exportación, se informa que las empresas chinas de IA están alquilando instancias de GPU Rubin a través de proveedores de servicios en la nube extranjeros para acceder al hardware. ¹⁶

Para ver los proveedores de GPU en la nube que ofrecen GPU que no son de Nvidia, consulte la lista de proveedores de GPU en la nube .

Lea sobre todos los chips/hardware de IA .

¿Qué son los mercados de GPU en la nube?

Las plataformas de computación en la nube distribuidas, como Salad, Vast.ai y Clore.ai, ofrecen acceso a potencia de cálculo GPU descentralizada mediante un modelo de mercado. Los usuarios con hardware inactivo pueden alquilar sus GPU, mientras que quienes necesitan potencia de cálculo GPU pueden elegir entre los recursos disponibles a diferentes precios. Estas plataformas facilitan la conexión entre la oferta y la demanda sin depender de proveedores de nube centralizados. Ofrecen soluciones rentables y flexibles para tareas que requieren un uso intensivo de GPU.

Salad : red descentralizada para tareas como el entrenamiento de IA o la minería de criptomonedas, centrada en las recompensas para el usuario y la facilidad de uso.
Vast.ai : Conecta a proveedores de GPU con usuarios que necesitan recursos computacionales asequibles y escalables. Se centra en cargas de trabajo de IA y aprendizaje automático.
Clore.ai : Un mercado distribuido de GPU en la nube centrado en cargas de trabajo de IA y HPC.
Kryptex : Una plataforma que permite a los usuarios ganar criptomonedas alquilando sus GPU. Su objetivo principal es realizar tareas como la minería de criptomonedas o el procesamiento de cálculos complejos.

¿Cuáles son las principales plataformas de GPU en la nube?

Los principales proveedores de GPU en la nube son:

AWS
Microsoft Azure
CoreWeave
Google Plataforma en la nube (GCP)
IBM Nube
Laboratorios Jarvis
Lambda Laboratorios
Oracle Infraestructura en la nube (OCI)
Paperspace CORE de DigitalOcean
Runpod.io
Nube Crusoe

Si no está seguro de las GPU en la nube, explore otras opciones como las GPU sin servidor .

Notas

Los proveedores de servicios en la nube actualizan constantemente su oferta, por lo que esta investigación también se actualizará constantemente.

Preguntas frecuentes

A diferencia de una CPU, que puede tener un número relativamente pequeño de núcleos optimizados para el procesamiento secuencial en serie, una GPU puede tener cientos o incluso miles de núcleos más pequeños diseñados para el procesamiento multihilo y el manejo de cargas de trabajo de procesamiento paralelo.

Una GPU en la nube proporciona acceso remoto a recursos de computación GPU a través de la nube, eliminando la necesidad de hardware local. Al igual que los servicios en la nube tradicionales, una GPU en la nube permite acceder a recursos de computación de alto rendimiento de forma puntual o bajo demanda, sin necesidad de una inversión inicial en hardware.

Aprendizaje automático e inteligencia artificial

Las GPU son especialmente eficaces para gestionar los cálculos complejos necesarios para los modelos de aprendizaje automático (ML) e inteligencia artificial (IA). Pueden procesar múltiples cálculos en paralelo, lo que las hace idóneas para entrenar grandes redes neuronales y algoritmos.

– Aprendizaje profundo: El aprendizaje profundo es un subcampo del aprendizaje automático. Las cargas de trabajo de aprendizaje profundo, en particular el entrenamiento e inferencia de modelos grandes, son el principal motor de la demanda de GPU en la nube.

Proceso de datos

– Análisis de datos : Las GPU se utilizan para acelerar las tareas de computación y procesamiento de datos, como el análisis de macrodatos y la analítica en tiempo real. Pueden gestionar tareas de procesamiento paralelo de alto rendimiento de forma más eficiente que las CPU.

– Computación científica: En la investigación científica, las GPU en la nube pueden gestionar cálculos para simulaciones, bioinformática, química cuántica, modelado meteorológico y mucho más.

Juegos y entretenimiento

Las GPU en la nube se utilizan para proporcionar servicios de juegos en la nube, como Stadia de Google o GeForce Now de NVIDIA, donde el juego se ejecuta en un servidor en la nube y los fotogramas renderizados se transmiten al dispositivo del jugador. Esto permite disfrutar de juegos de alta calidad sin necesidad de un equipo local potente.

– Renderizado de gráficos: Las GPU se diseñaron inicialmente para gestionar gráficos por computadora y aún destacan en este ámbito. Las GPU en la nube se utilizan para modelado y renderizado 3D, visualizaciones 3D, realidad virtual (RV), diseño asistido por computadora (CAD) e imágenes generadas por computadora (CGI).

– Procesamiento de vídeo: Se utilizan en la codificación y decodificación de vídeo, edición de vídeo, corrección de color, renderizado de efectos y otras tareas de procesamiento de vídeo.

Minería de criptomonedas

Las GPU también se utilizan en tareas como la minería de criptomonedas. Sin embargo, los circuitos integrados de aplicación específica (ASIC) ofrecen una mejor rentabilidad para las criptomonedas que se minan con mayor frecuencia.

Enlaces de referencia

Cem Dilmegani

Analista principal

Cem ha sido el analista principal de AIMultiple desde 2017. AIMultiple informa a cientos de miles de empresas (según similarWeb), incluyendo el 55% de las empresas Fortune 500 cada mes. El trabajo de Cem ha sido citado por importantes publicaciones globales como Business Insider, Forbes, Washington Post, firmas globales como Deloitte, HPE y ONG como el Foro Económico Mundial y organizaciones supranacionales como la Comisión Europea. Puede consultar más empresas y recursos de renombre que citan a AIMultiple. A lo largo de su carrera, Cem se desempeñó como consultor, comprador y emprendedor tecnológico. Asesoró a empresas en sus decisiones tecnológicas en McKinsey & Company y Altman Solon durante más de una década. También publicó un informe de McKinsey sobre digitalización. Lideró la estrategia y adquisición de tecnología de una empresa de telecomunicaciones, reportando directamente al CEO. Asimismo, lideró el crecimiento comercial de la empresa de tecnología avanzada Hypatos, que alcanzó ingresos recurrentes anuales de siete cifras y una valoración de nueve cifras partiendo de cero en tan solo dos años. El trabajo de Cem en Hypatos fue reseñado por importantes publicaciones tecnológicas como TechCrunch y Business Insider. Cem participa regularmente como ponente en conferencias internacionales de tecnología. Se graduó en ingeniería informática por la Universidad de Bogazici y posee un MBA de la Columbia Business School.

Ver perfil completo

Revisado técnicamente por