Why does the same provider list the same GPU model at multiple prices?

A single GPU model name often covers multiple physical SKUs. H100 ships in PCIe, SXM, SXM5, and NVL variants at different prices and interconnect bandwidths. A100 ships at 40GB and 80GB VRAM; V100 ships at 16GB and 32GB. Within a provider, the listed rate also varies by host CPU class, bundled RAM and storage, and region. The pricing tables above split SKUs by interconnect and VRAM where the source data allows, so each row is a single physical card rather than a model-name aggregate.

How do I read the throughput-per-dollar number in the component above?

The component runs a fixed workload (image or text generation, finetuning, or inference) on each GPU instance and divides the total output by the instance's hourly cost. A higher number is cheaper per output for that workload. The ranking shifts with the workload: A card optimized for FP8 inference can outrank a higher-VRAM card on text generation but lose on a large image-model finetune. Pick the workload tab that matches your job before reading the leaderboard.

How often are these prices updated?

The pricing tables refresh on a monthly catalog crawl.

IA Hardware de IA

GPUs na nuvem para aprendizado profundo: disponibilidade, preço e desempenho.

Cem Dilmegani

com

Ekrem Sarı

atualizado em Mai 19, 2026

Veja o nosso normas éticas

Se você tiver flexibilidade em relação ao modelo de GPU, identifique a GPU em nuvem mais econômica com base em nossa avaliação comparativa de 10 modelos de GPU em cenários de geração e ajuste fino de imagens e textos.

Se você preferir um modelo específico (por exemplo, A100), identifique o provedor de nuvem com GPU de menor custo que o ofereça.
Se estiver indeciso entre uma solução local e a nuvem, explore a possibilidade de comprar ou alugar GPUs na nuvem .
Ou aprenda nossa metodologia de benchmark de GPUs na nuvem para identificar a GPU mais econômica.

Preço da GPU na nuvem por taxa de transferência

Dois modelos comuns de precificação para GPUs são as instâncias "sob demanda" e as instâncias "spot". Veja qual GPU é a opção mais econômica para sua carga de trabalho, com base nos preços sob demanda dos 3 principais provedores de hiperescala:

Consulte a metodologia de benchmark de GPUs na nuvem para obter detalhes.

O modelo sob demanda é o mais simples em termos de precificação, no qual você paga pela capacidade computacional por hora ou segundo, dependendo do seu uso, sem compromissos de longo prazo ou pagamentos antecipados.

Essas instâncias são recomendadas para usuários que preferem a flexibilidade de uma plataforma de GPU em nuvem sem pagamento inicial ou compromisso de longo prazo. Instâncias sob demanda geralmente são mais caras do que instâncias spot, mas oferecem capacidade ininterrupta garantida.

GPUs sob demanda de outros provedores de nuvem

* A memória e o modelo da GPU não são os únicos parâmetros. CPUs e RAM também podem ser importantes, porém, não são os critérios principais que definem o desempenho da GPU na nuvem. Portanto, para simplificar, não incluímos o número de CPUs ou RAM nessas tabelas.

** A taxa de transferência de treinamento é uma boa métrica para medir a eficácia relativa da GPU. Ela mede o número de tokens processados por segundo pela GPU para um modelo de linguagem (por exemplo, bert_base_squad). Observe que esses valores de taxa de transferência devem servir como diretrizes gerais. O ¹ hardware apresentaria uma taxa de transferência significativamente diferente para sua carga de trabalho, visto que há uma diferença considerável de taxa de transferência mesmo entre LLMs executados no mesmo hardware. ²

*** Não inclui custos de armazenamento, desempenho de rede, entrada/saída de dados etc. Este valor refere-se apenas ao custo da GPU. ³

GPUs Spot

Em todas essas tabelas de produtividade por dólar:

Nem todas as configurações possíveis estão listadas; as configurações mais comuns, focadas em aprendizado profundo, estão incluídas.
Foram utilizadas as regiões do oeste ou centro dos EUA sempre que possível.
Estes são os preços de tabela para cada categoria; compradores de grande volume podem conseguir preços melhores.

Por fim, é importante esclarecer o que significa “spot”. Recursos spot são:

É um serviço interrompível , o que significa que os usuários precisam continuar registrando seu progresso. Por exemplo, o Amazon EC2 P3, que oferece V100 32 GB, é um dos serviços spot da Amazon mais frequentemente interrompidos. ⁴
Oferecidos de forma dinâmica e orientada pelo mercado . O preço desses recursos de GPU pode flutuar com base na oferta e na demanda, e os usuários normalmente dão lances na capacidade disponível. Se o lance de um usuário for maior que o preço atual da capacidade disponível, as instâncias solicitadas serão executadas.

Os preços de aluguel de GPUs no mercado spot aumentaram no início de 2026 devido a picos de demanda, com disponibilidade restrita mesmo para gerações mais antigas de GPUs. O CEO da Nvidia, Jensen Huang, observou em janeiro de 2026 que as taxas de aluguel de GPUs no mercado spot estão subindo acentuadamente em todas as gerações, não apenas nos modelos mais recentes. ⁵

Custos e disponibilidade de GPUs na nuvem

Ordenando por menor preço. Para outras opções de baixo custo, você pode consultar os mercados de GPUs na nuvem .

Em janeiro de 2026, a AWS aumentou os preços em aproximadamente 15% em suas instâncias de GPU de ponta, especificamente as instâncias EC2 P5e 48xlarge equipadas com 8 GPUs H200. ⁶

disponibilidade de GPU

Insira o modelo desejado na caixa de pesquisa para identificar todos os provedores de nuvem que o oferecem:

*** Preço sob demanda *($) por GPU individual. Não inclui custos de armazenamento, desempenho de rede, entrada/saída etc. Este é apenas o custo da GPU.

**** Valores calculados. Isso era necessário quando instâncias de GPU únicas não estavam disponíveis. ⁷ ⁸

Outras considerações sobre GPUs na nuvem

Disponibilidade : Nem todas as GPUs listadas acima podem estar disponíveis devido às limitações de capacidade dos provedores de nuvem e à crescente demanda por IA generativa.

Segurança de dados : Por exemplo, marketplaces de GPUs em nuvem como o Vast.ai oferecem preços significativamente mais baixos, mas, dependendo do recurso específico solicitado, a segurança dos dados da carga de trabalho pode ser afetada, dando aos provedores a capacidade de acessar as cargas de trabalho. Como priorizamos as necessidades de GPUs corporativas, o Vast.ai não foi incluído neste benchmark.

Facilidade de uso : A qualidade da documentação é uma métrica subjetiva, mas os desenvolvedores preferem a documentação de alguns provedores de nuvem em relação a outros. Nesta discussão, a documentação do GCP foi mencionada como sendo de qualidade inferior à de outras gigantes da tecnologia. ⁹

Familiaridade : Embora os provedores de nuvem invistam bastante em tornar seus serviços fáceis de usar, existe uma curva de aprendizado. É por isso que os principais provedores de nuvem possuem sistemas de certificação. Portanto, para cargas de trabalho pequenas, a economia de custos ao usar um provedor de baixo custo pode ser menor do que o custo de oportunidade do tempo que um desenvolvedor leva para aprender a usar a oferta de GPU em nuvem .

Otimização de custos: As tecnologias de agrupamento de GPUs podem reduzir significativamente o uso e os custos de GPUs na nuvem, compartilhando recursos computacionais entre vários modelos.

O sistema Aegaeon da Alibaba afirma uma redução de 82% no uso de GPUs para servir modelos de lógica de longo prazo (LLMs) por meio de escalonamento automático em nível de token, que permite que as GPUs alternem entre modelos durante a geração, em vez de esperar que as respostas completas sejam concluídas.

Durante um período beta de três meses no marketplace da Alibaba Cloud, a Aegaeon reduziu os requisitos de GPU do H20 de 1.192 para 213, enquanto atendia dezenas de modelos com até 72 bilhões de parâmetros, com GPUs individuais suportando até 7 modelos e a latência de troca caindo 97%. ¹⁰

Orquestração multicloud: a Shopify utiliza interfaces portáteis em diferentes nuvens, aplicando controle de custos e cotas por meio de arquivos de configuração YAML com cotas de custo, e utiliza ferramentas de orquestração como o SkyPilot para ambientes de treinamento e desenvolvimento interativo com GPUs. ¹¹

Compre GPUs ou alugue GPUs na nuvem.

Comprar faz sentido

Se a sua empresa tiver o conhecimento técnico e a preferência para hospedar os servidores ou gerenciar servidores em colocation .
Para cargas de trabalho ininterruptas : Para o volume de GPUs para o qual você pode garantir uma alta utilização (por exemplo, mais de 80%) por um ano ou mais. ¹²
Para cargas de trabalho interrompíveis : O período de alta utilização mencionado acima precisa ser algumas vezes maior, visto que os preços sob demanda (computação ininterrupta) tendem a ser algumas vezes mais caros do que os preços à vista (computação interrompível).

Nossa recomendação para empresas com cargas de trabalho intensivas em GPUs é uma combinação de GPUs próprias e alugadas, onde a demanda garantida é atendida pelas GPUs próprias e a demanda variável é atendida pela nuvem. É por isso que gigantes da tecnologia como o Facebook estão construindo seus próprios clusters de GPUs, incluindo centenas de GPUs. ¹³

Os compradores podem ser tentados a considerar GPUs para consumidores que oferecem uma melhor relação custo-benefício; no entanto, o contrato de licença de usuário final (EULA) do software proíbe seu uso em data centers. ¹⁴ Portanto, eles não são adequados para aprendizado de máquina, exceto para cargas de trabalho de teste menores em máquinas de cientistas de dados.

comparação de desempenho de provedores de nuvem

Para entender se a escolha de um provedor de nuvem afeta o desempenho de hardware idêntico, realizamos um benchmark específico na GPU MI300X de 192 GB (AMD) , executando as mesmas cargas de trabalho de geração de texto e imagem em Digital Ocean e Runpod .

Nossos resultados revelam que, embora o desempenho seja amplamente semelhante, existem diferenças pequenas, porém mensuráveis, conforme mostrado no gráfico abaixo:

Principais observações:

Para geração de texto , Digital Ocean demonstrou uma taxa de transferência ligeiramente maior, processando aproximadamente 0,4% mais tokens por segundo.
Por outro lado, para geração de imagens , Runpod apresentou uma vantagem marginal, processando cerca de 0,4% mais imagens por segundo.

Essas pequenas variações provavelmente podem ser atribuídas a diferenças na arquitetura do servidor, na infraestrutura de rede ou nas configurações específicas de virtualização e drivers do provedor.

Embora esse nível de diferença possa não ser crítico para todos os casos de uso, ele destaca que, para cargas de trabalho que exigem otimização máxima, a escolha do provedor de nuvem pode ser um fator relevante no ajuste de desempenho, mesmo ao usar o mesmo modelo de GPU.

Metodologia de benchmark de GPU na nuvem

Preços: Os preços de GPUs na nuvem são monitorados mensalmente.

Esta seção detalha a metodologia utilizada para medir o desempenho e a relação custo-benefício de nossos benchmarks de GPUs em nuvem. A quantização de ponto flutuante de 4 bits foi utilizada em todos os testes, salvo indicação em contrário.

Ajuste fino de texto (Taxa de transferência)

Essa métrica mede a velocidade bruta de processamento para o treinamento de um modelo de linguagem, calculada em tokens por segundo. Ela responde à pergunta: "Quantos tokens essa GPU consegue processar por segundo durante o ajuste fino?"

Modelo: Lhama 3.2
Conjunto de dados: As primeiras 5.000 conversas do conjunto de dados FineTome.
Processo: O modelo foi ajustado ao longo de 5 épocas, utilizando um total de 1 milhão de tokens.
Cálculo: A taxa de transferência é calculada como (Total de Tokens * Número de Épocas) / Tempo Total de Ajuste Fino. A métrica final é tokens por segundo (tokens/s) .
Framework: Unsloth

Otimização de texto (eficiência)

Essa métrica mede a relação custo-benefício do ajuste fino, calculada em tokens por dólar. Ela responde à pergunta: "Quantos tokens podem ser processados para cada dólar gasto nessa GPU?"

Cálculo: Este valor é derivado do teste de throughput. É calculado dividindo-se o número total de tokens processados pelo custo por hora da instância da GPU. A métrica final é tokens por dólar (tokens/$) .

Inferência de texto (Taxa de transferência)

Essa métrica mede a velocidade bruta de geração de texto com um modelo treinado, calculada em tokens por segundo. Ela é crucial para aplicações em tempo real.

Processo: Um total de 1 milhão de tokens foram gerados, incluindo tokens de entrada e de saída.
Cálculo: A taxa de transferência é calculada dividindo-se o número total de tokens pela duração total. A métrica final é tokens por segundo (tokens/s) .
Framework: llama-cpp-python

Inferência de texto (eficiência)

Essa métrica mede a relação custo-benefício da geração de texto, calculada em tokens por dólar.

Cálculo: Este valor é derivado do teste de inferência. É calculado dividindo-se o número total de tokens gerados pelo custo por hora da instância da GPU. A métrica final é tokens por dólar (tokens/$) .

Ajuste fino de imagem (taxa de transferência)

Essa métrica mede a velocidade bruta de processamento para o treinamento de um modelo de reconhecimento de imagens, calculada em imagens por segundo.

Modelo: YOLOv9
Conjunto de dados: 100 imagens do conjunto de dados SkyFusion.
Processo: O modelo foi treinado neste conjunto de dados durante 4 épocas.
Cálculo: O desempenho é medido em imagens por segundo (imagem/s) processadas durante o treinamento.
Framework: Unsloth

Ajuste fino de imagem (eficiência)

Essa métrica mede a relação custo-benefício do treinamento de um modelo de imagem, calculada em imagens por dólar.

Cálculo: Este valor é derivado do teste de ajuste fino de imagem. É calculado dividindo-se o número total de imagens processadas pelo custo por hora da instância da GPU. A métrica final é imagens por dólar (imagem/$) .

Inferência de imagem (Taxa de transferência)

Essa métrica mede a velocidade bruta de análise de imagens com um modelo treinado, calculada em imagens por segundo.

Modelo: O modelo YOLOv9 ajustado com o processo descrito acima.
Conjunto de dados: Aproximadamente 500 imagens com resolução de 640×640.
Cálculo: O desempenho é medido pelo número de imagens por segundo (imagem/s) que o modelo consegue processar.

Inferência de imagem (eficiência)

Essa métrica mede a relação custo-benefício da análise de imagens, calculada em imagens por dólar.

Cálculo: Este valor é derivado do teste de inferência de imagem. É calculado dividindo-se o número total de imagens processadas pelo custo por hora da instância da GPU. A métrica final é imagens por dólar (imagem/$) .

Próximos passos:

A frequência da coleta de dados será aumentada.
Ao longo do tempo, aumentaremos a cobertura de GPUs, incluiremos mais métricas e atualizaremos nossa medição de desempenho.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Quais são os melhores hardwares de GPU para nuvem?

A AMD está implementando suas GPUs Instinct MI450 com arquitetura CDNA 4 e a plataforma de rack Helios para competir com a NVIDIA em cargas de trabalho de treinamento e inferência de IA em larga escala. Em fevereiro de 2026, a Meta anunciou uma parceria plurianual para implementar até 6 gigawatts de GPUs Instinct da AMD, uma implementação historicamente grande. ¹⁵

A futura arquitetura Rubin da NVIDIA (por exemplo, a GPU Rubin NVL-144) apresenta NVLink 6 e memória HBM4 para cargas de trabalho de treinamento em nuvem. Devido a restrições de exportação, empresas chinesas de IA estariam alugando instâncias de GPU Rubin por meio de provedores de nuvem estrangeiros para acessar o hardware. ¹⁶

Para ver os fornecedores de GPUs em nuvem que oferecem GPUs que não sejam da Nvidia, consulte a lista de fornecedores de GPUs em nuvem .

Leia sobre todos os chips/hardware de IA .

O que são mercados de GPUs na nuvem?

Plataformas de computação em nuvem distribuídas, como Salad, Vast.ai e Clore.ai, oferecem acesso a poder computacional de GPUs descentralizado por meio de um modelo de mercado. Usuários com hardware ocioso podem disponibilizar suas GPUs para aluguel, enquanto aqueles que precisam de poder computacional de GPUs podem escolher entre os recursos disponíveis a preços variados. Essas plataformas facilitam a conexão entre oferta e demanda sem depender de provedores de nuvem centralizados. Elas oferecem soluções econômicas e flexíveis para tarefas que exigem alto poder computacional de GPUs.

Salad : rede descentralizada para tarefas como treinamento de IA ou mineração de criptomoedas, com foco em recompensas para o usuário e facilidade de uso.
Vast.ai : Conecta fornecedores de GPUs com usuários que precisam de recursos computacionais acessíveis e escaláveis. O foco está em cargas de trabalho de IA e aprendizado de máquina.
Clore.ai : Um mercado distribuído para GPUs em nuvem com foco em cargas de trabalho de IA e HPC.
Kryptex : Uma plataforma que permite aos usuários ganhar criptomoedas alugando suas GPUs. O foco principal é realizar tarefas como mineração de criptomoedas ou processamento de cálculos complexos.

Quais são as principais plataformas de GPU em nuvem?

Os principais fornecedores de GPUs em nuvem são:

AWS
Microsoft Azure
CoreWeave
Google Plataforma em Nuvem (GCP)
IBM Nuvem
Laboratórios Jarvis
Lambda Laboratórios
Oracle Infraestrutura em Nuvem (OCI)
Paperspace CORE da DigitalOcean
Runpod.io
Crusoe Nuvem

Se você não tem certeza sobre GPUs na nuvem, explore outras opções como GPUs sem servidor .

Notas

Os provedores de nuvem estão constantemente atualizando suas ofertas, e esta pesquisa será constantemente atualizada.

Perguntas frequentes

Ao contrário de uma CPU, que pode ter um número relativamente pequeno de núcleos otimizados para processamento serial sequencial, uma GPU pode ter centenas ou até milhares de núcleos menores projetados para multithreading e para lidar com cargas de trabalho de processamento paralelo.

Uma GPU em nuvem fornece acesso remoto a recursos de computação gráfica por meio da nuvem, eliminando a necessidade de hardware local. Assim como os serviços de nuvem tradicionais, uma GPU em nuvem permite acessar recursos de computação de alto desempenho de forma pontual ou sob demanda, sem a necessidade de investimento inicial em hardware.

Aprendizado de máquina e IA

As GPUs são particularmente eficazes no processamento dos cálculos complexos necessários para modelos de aprendizado de máquina (ML) e inteligência artificial (IA). Elas podem processar múltiplos cálculos em paralelo, tornando-as adequadas para o treinamento de grandes redes neurais e algoritmos.

– Aprendizado profundo: O aprendizado profundo é um subcampo do aprendizado de máquina. As cargas de trabalho de aprendizado profundo, particularmente o treinamento e a inferência de modelos grandes, são o principal fator de demanda por GPUs na nuvem.

Processamento de dados

– Análise de dados : As GPUs são usadas para acelerar tarefas de computação e processamento de dados, como análise de Big Data e análises em tempo real. Elas conseguem lidar com tarefas de processamento paralelo de alto rendimento de forma mais eficiente do que as CPUs.

– Computação científica: Na pesquisa científica, as GPUs em nuvem podem lidar com cálculos para simulações, bioinformática, química quântica, modelagem climática e muito mais.

Jogos e entretenimento

As GPUs em nuvem são usadas para fornecer serviços de jogos em nuvem, como o Stadia da Google ou o GeForce Now da NVIDIA, onde o jogo roda em um servidor na nuvem e os frames renderizados são transmitidos para o dispositivo do jogador. Isso permite jogos de alta qualidade sem a necessidade de uma máquina local potente.

– Renderização gráfica: As GPUs foram inicialmente projetadas para lidar com computação gráfica e ainda se destacam nessa área. As GPUs em nuvem são usadas para modelagem e renderização 3D, visualizações 3D, realidade virtual (RV), projeto auxiliado por computador (CAD) e imagens geradas por computador (CGI).

– Processamento de vídeo: São utilizados na codificação e decodificação de vídeo, edição de vídeo, correção de cores, renderização de efeitos e outras tarefas de processamento de vídeo.

Mineração de criptomoedas

As GPUs também são usadas em tarefas como mineração de criptomoedas. No entanto, os circuitos integrados de aplicação específica (ASICs) oferecem melhor custo-benefício para as criptomoedas mais comumente mineradas.

Links de referência

Cem Dilmegani

Analista Principal

Cem é o analista principal da AIMultiple desde 2017. A AIMultiple fornece informações para centenas de milhares de empresas (segundo o SimilarWeb), incluindo 55% das empresas da Fortune 500, todos os meses. O trabalho de Cem foi citado por importantes publicações globais, como Business Insider, Forbes e Washington Post, além de empresas globais como Deloitte e HPE, ONGs como o Fórum Econômico Mundial e organizações supranacionais como a Comissão Europeia. Você pode ver mais empresas e recursos renomados que mencionaram a AIMultiple. Ao longo de sua carreira, Cem atuou como consultor de tecnologia, comprador de tecnologia e empreendedor na área. Ele assessorou empresas em suas decisões tecnológicas na McKinsey & Company e na Altman Solon por mais de uma década. Também publicou um relatório da McKinsey sobre digitalização. Liderou a estratégia de tecnologia e a área de compras de uma empresa de telecomunicações, reportando-se diretamente ao CEO. Além disso, liderou o crescimento comercial da empresa de tecnologia avançada Hypatos, que atingiu uma receita recorrente anual de sete dígitos e uma avaliação de nove dígitos, partindo de zero, em apenas dois anos. O trabalho de Cem no Hypatos foi noticiado por importantes publicações de tecnologia, como TechCrunch e Business Insider. Cem participa regularmente como palestrante em conferências internacionais de tecnologia. Ele se formou em engenharia da computação pela Universidade Bogazici e possui um MBA pela Columbia Business School.

Ver perfil completo

Revisado tecnicamente por

Ekrem Sarı

Pesquisador de IA

Ekrem é pesquisador de IA na AIMultiple, com foco em automação inteligente, GPUs, agentes de IA e frameworks RAG.

Ver perfil completo

Comentários 2

Compartilhe suas ideias

Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios.

Ashley Jenkinson

Oct 31, 2024 at 08:54

Cem - great article, I'd love to pick your brain on private networking or direct connects to these GPU instances.

Cem Dilmegani

Nov 10, 2024 at 06:58

Hi Ashley, thank you! Sure, happy to chat.

Harsh Sharma

Oct 06, 2024 at 02:19

Hi there, fantastic article and very well-researched. Would you mind checking out Dataoorts at https://dataoorts.com

Cem Dilmegani

Oct 22, 2024 at 03:18

Sure, we'll review to see if we can include Dataoorts in the next edit.

A seguir, leia

Hardware de IAMai 20

Ekrem Sarı

GPUs na nuvem para aprendizado profundo: disponibilidade, preço e desempenho.

Preço da GPU na nuvem por taxa de transferência

Taxa de transferência e preços de GPUs na nuvem

Verda

Verda

Verda

Verda

Amazon Web Services

Microsoft Azure

Verda

Verda

Google Cloud

Amazon Web Services

Microsoft Azure

Latitude

GPUs sob demanda de outros provedores de nuvem

GPUs Spot

Custos e disponibilidade de GPUs na nuvem

disponibilidade de GPU

Outras considerações sobre GPUs na nuvem

Compre GPUs ou alugue GPUs na nuvem.

comparação de desempenho de provedores de nuvem

Metodologia de benchmark de GPU na nuvem

Ajuste fino de texto (Taxa de transferência)

Otimização de texto (eficiência)

Inferência de texto (Taxa de transferência)

Inferência de texto (eficiência)

Ajuste fino de imagem (taxa de transferência)

Ajuste fino de imagem (eficiência)

Inferência de imagem (Taxa de transferência)

Inferência de imagem (eficiência)

Quais são os melhores hardwares de GPU para nuvem?

O que são mercados de GPUs na nuvem?

Quais são as principais plataformas de GPU em nuvem?

Notas

Perguntas frequentes

O que é uma GPU na nuvem?

Quais são as funções/áreas de aplicação das GPUs na nuvem?

Links de referência

Comentários 2

Compartilhe suas ideias

A seguir, leia

Índice de preços de aluguel de GPUs na nuvem

Comparação dos 6 melhores serviços de GPU gratuitos na nuvem

Oracle Recursos e alternativas do agendador de infraestrutura em nuvem (OCI)

Compare mais de 20 orquestradores de nuvem

As 10 melhores nuvens de GPU sem servidor e 14 GPUs com bom custo-benefício

Os 30 principais fornecedores de GPUs em nuvem e suas GPUs em 2026