Os preços de tabela de Cloud GPU para o mesmo model podem diferir várias vezes de um provedor para outro. Curamos a taxa mais baixa, provedor, faixa de mercado e mediana para mais de 40 configurações de GPU em todos os três níveis de preços, além de um benchmark de throughput por dólar em 10 models.
Preço de Cloud GPU por throughput
Veja a GPU mais econômica para sua carga de trabalho entre 13 provedores hyperscaler e neocloud, classificados por throughput por dólar:
Taxa de transferência e preços de GPUs na nuvem
Atualizado em 5 Julho 2026
Vast AI
Verda
Verda
Verda
Verda
Vast AI
Vast AI
Runpod
Vast AI
Vast AI
Vast AI
Vast AI
Veja a metodologia de benchmark de cloud GPU para detalhes.
On-demand é o model de preços mais simples, onde você paga pela capacidade de computação por hora ou segundo, dependendo do que usar, sem compromissos de longo prazo ou pagamentos antecipados.
Essas instâncias são recomendadas para usuários que preferem a flexibilidade de uma plataforma de cloud GPU sem qualquer pagamento antecipado ou compromisso de longo prazo. Instâncias on-demand são geralmente mais caras que instâncias spot, mas fornecem capacidade ininterrupta garantida.
Preços de cloud GPU on-demand
Ranking: Patrocinadores estão linkados e destacados no topo da tabela. As linhas restantes são classificadas em ordem crescente pelo menor preço on-demand. A Faixa mostra a diferença entre o menor e o maior preço de tabela para o mesmo SKU em todos os provedores. A Mediana é o meio da distribuição de preços em todos os anúncios para aquele SKU e serve como uma âncora de mercado justo. Os preços refletem a atualização semanal mais recente do catálogo.
On-demand é o model de aluguel padrão, pagamento por hora, sem compromisso, capacidade garantida enquanto você mantiver a instância em execução. É o nível mais caro, mas o único sem concessões.
Preços de cloud GPU spot
Ranking: As linhas são classificadas pelo menor preço spot em ordem crescente. A capacidade spot é interruptível. A Mediana é o meio da distribuição de preços spot para aquele SKU.
A capacidade spot é interruptível; o provedor pode recuperar a instância com pouco ou nenhum aviso, geralmente quando a demanda on-demand aumenta. As taxas spot normalmente ficam de 30-60% abaixo do on-demand no mesmo provedor. Use spot para treinamento com checkpoint, inference em lote e trabalhos de avaliação que tolerem reinicializações. Evite-o para inference sensível à latência ou serviços de réplica única sem failover.
Preços de cloud GPU reservada (1 ano)
Ranking: As linhas são classificadas pelo menor preço reservado de 1 ano em ordem crescente. As reservas garantem a capacidade pelo termo. A Mediana é o meio da distribuição de preços reservados para aquele SKU.
As reservas garantem a capacidade por um termo fixo em troca de um desconto em relação ao on-demand. Contratos de um ano normalmente ficam de 20-40% abaixo da tabela on-demand do mesmo provedor. Em alguns casos, as taxas de reserva caem abaixo do spot, porque o provedor de reserva isola o inventário do mercado spot inteiramente.
Comparação de desempenho de provedores de nuvem
O mesmo model de GPU pode ter um desempenho ligeiramente diferente entre provedores devido à escolha da CPU do host, fabric de rede, configuração de driver e overhead de virtualização. Para quantificar isso, executamos cargas de trabalho idênticas de geração de texto e imagem em AMD MI300X 192GB na DigitalOcean e Runpod:
Observações Principais:
- Para geração de texto, a Digital Ocean demonstrou um throughput ligeiramente maior, processando aproximadamente 0,4% mais tokens por segundo.
- Inversamente, para geração de imagem, a Runpod mostrou uma vantagem marginal, processando cerca de 0,4% mais imagens por segundo.
A diferença é pequena o suficiente para não importar para a maioria das cargas de trabalho. Para inference crítica de latência ou treinamento em larga escala, onde cada ponto percentual se acumula em milhões de inferences, faça o benchmark da configuração específica do provedor antes de se comprometer com uma reserva longa.
Comprar on-prem ou alugar na nuvem
Ter a própria infraestrutura faz sentido quando a carga de trabalho é previsível, a equipe tem o know-how operacional e a utilização do hardware permanece acima de ~70% durante a vida útil da GPU. Para demanda variável, picos de treinamento ou experimentos de produto, o aluguel em nuvem vence em eficiência de capital e flexibilidade de escala. O ponto de equilíbrio fica aproximadamente na utilização de 12 meses: acima de 70%, a reserva ou a capacidade própria quase sempre vence o on-demand; abaixo de 50%, o spot ou on-demand vence na flexibilidade; a faixa intermediária depende de quanta interrupção de capacidade sua carga de trabalho tolera.
Um padrão prático em escala: possua um cluster base dimensionado para a demanda de estado estacionário, alugue na nuvem para picos e trabalho exploratório. A Meta anunciou uma parceria plurianual em fevereiro de 2026 para implantar até 6 gigawatts de AMD Instinct GPUs, sinalizando que mesmo operadores em escala de hyperscaler continuam a expandir a capacidade própria enquanto ainda consomem cloud GPU para cargas de trabalho variáveis.
GPUs de consumo (RTX 4090, RTX 5090) entregam o melhor preço por FLOP no papel, mas o EULA da NVIDIA restringe seu uso em data centers comerciais. Elas permanecem úteis para estações de trabalho individuais e trabalhos de prova de conceito, não para implantação em produção.
Metodologia de benchmark de Cloud GPU
Os benchmarks de throughput usam quantização FP de 4 bits em todos os testes. O pipeline executa:
- Finetuning de texto: Llama 3.2 nas primeiras 5.000 conversas do FineTome, 5 épocas, 1M de tokens totais, framework Unsloth. Throughput = (tokens × épocas) / tempo total.
- Inference de texto: 1M de tokens gerados com llama-cpp-python.
- Finetuning de imagem: YOLOv9 em 100 imagens do SkyFusion, 4 épocas, Unsloth.
- Inference de imagem: YOLOv9 com finetuning em ~500 imagens em 640×640.
A métrica de throughput por dólar divide a saída da carga de trabalho pelo custo horário da instância. Os valores de throughput são específicos para a carga de trabalho e servem como diretrizes relativas; o mesmo hardware entregará um throughput materialmente diferente em seu próprio model.
Perguntas frequentes
Um único nome de model de GPU frequentemente cobre múltiplos SKUs físicos. O H100 é enviado em variantes PCIe, SXM, SXM5 e NVL a preços e larguras de banda de interconexão diferentes. O A100 é enviado com 40GB e 80GB de VRAM; o V100 é enviado com 16GB e 32GB. Dentro de um provedor, a taxa listada também varia conforme a classe da CPU do host, RAM e armazenamento incluídos, e a região. As tabelas de preços acima dividem os SKUs por interconexão e VRAM onde os dados de origem permitem, para que cada linha seja uma única placa física em vez de um agregado de nome de model.
O componente executa uma carga de trabalho fixa (geração de imagem ou texto, finetuning ou inference) em cada instância de GPU e divide a saída total pelo custo horário da instância. Um número maior é mais barato por saída para aquela carga de trabalho. O ranking muda com a carga de trabalho: uma placa otimizada para inference FP8 pode superar uma placa com maior VRAM em geração de texto, mas perder em um finetune de model de imagem grande. Escolha a aba de carga de trabalho que corresponde ao seu trabalho antes de ler a tabela de classificação.
As tabelas de preços são atualizadas em um rastreamento mensal de catálogo.
Leitura adicional
- Benchmark Multi-GPU: B200 vs H200 vs H100 vs MI300X
- Top 30 Provedores de Cloud GPU & Suas GPUs
- Benchmark de Concorrência de GPU
- Top 25+ Fabricantes de Chips de IA: NVIDIA & Seus Competidores
- Índice de Preços de Aluguel de Cloud GPU
- DGX Spark vs Mac Studio & Halo: Benchmarks & Alternativas
Cite esta pesquisa
Escolha o formato adequado ao local onde você vai publicar. Colar a versão com link no seu CMS preserva o backlink.
@misc{dilmegani2026,
author = {Dilmegani, Cem and Sarı, Ekrem},
title = {{Preços de Cloud GPU, Desempenho e Comparação de Provedores}},
year = {2026},
month = jun,
howpublished = {\url{https://aimultiple.com/cloud-gpu-pricing}},
note = {AIMultiple. Acessado em 17 Junho 2026}
}
Comentários 2
Compartilhe suas ideias
Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios. Os comentários são deixados em seu idioma original.
Cem - great article, I'd love to pick your brain on private networking or direct connects to these GPU instances.
Hi Ashley, thank you! Sure, happy to chat.
Hi there, fantastic article and very well-researched. Would you mind checking out Dataoorts at https://dataoorts.com
Sure, we'll review to see if we can include Dataoorts in the next edit.