Serviços
Contate-nos

Preços de Cloud GPU, Desempenho e Comparação de Provedores

Cem Dilmegani
Cem Dilmegani
atualizado em 17 jun. 2026

Os preços de tabela de Cloud GPU para o mesmo model podem diferir várias vezes de um provedor para outro. Curamos a taxa mais baixa, provedor, faixa de mercado e mediana para mais de 40 configurações de GPU em todos os três níveis de preços, além de um benchmark de throughput por dólar em 10 models.

Preço de Cloud GPU por throughput

Veja a GPU mais econômica para sua carga de trabalho entre 13 provedores hyperscaler e neocloud, classificados por throughput por dólar:

Taxa de transferência e preços de GPUs na nuvem

Atualizado em 5 Julho 2026

Exibindo 12 de 244

Vast AI

Código
2x-nvidia-v100-32gb
GPU
2 x NVIDIA V100 32 GB
Imagens/s
49
Preço/hora
(On Demand)
$ 0.22
801,818Imagens / $

Verda

Código
2x-nvidia-v100-32gb
GPU
2 x NVIDIA V100 32 GB
Imagens/s
49
Preço/hora
(On Demand)
$ 0.34
518,824Imagens / $

Verda

Código
4x-nvidia-v100-64gb
GPU
4 x NVIDIA V100 64 GB
Imagens/s
98
Preço/hora
(On Demand)
$ 0.68
518,824Imagens / $

Verda

Código
8x-nvidia-v100-128gb
GPU
8 x NVIDIA V100 128 GB
Imagens/s
195
Preço/hora
(On Demand)
$ 1.36
516,176Imagens / $

Verda

Código
1x-nvidia-v100-16gb
GPU
1 x NVIDIA V100 16 GB
Imagens/s
24
Preço/hora
(On Demand)
$ 0.17
508,235Imagens / $

Vast AI

Código
1x-nvidia-t4-15gb
GPU
1 x NVIDIA T4 15 GB
Imagens/s
18
Preço/hora
(On Demand)
$ 0.15
432,000Imagens / $

Vast AI

Código
2x-nvidia-t4-30gb
GPU
2 x NVIDIA T4 30 GB
Imagens/s
35
Preço/hora
(On Demand)
$ 0.30
420,000Imagens / $

Runpod

Código
1x-nvidia-v100-16gb
GPU
1 x NVIDIA V100 16 GB
Imagens/s
24
Preço/hora
(On Demand)
$ 0.23
375,652Imagens / $

Vast AI

Código
1x-nvidia-v100-32gb
GPU
1 x NVIDIA V100 32 GB
Imagens/s
24
Preço/hora
(On Demand)
$ 0.27
320,000Imagens / $

Vast AI

Código
1x-nvidia-a100-40gb
GPU
1 x NVIDIA A100 40 GB
Imagens/s
59
Preço/hora
(On Demand)
$ 0.87
244,138Imagens / $

Vast AI

Código
1x-nvidia-l4-23gb
GPU
1 x NVIDIA L4 23 GB
Imagens/s
23
Preço/hora
(On Demand)
$ 0.36
230,000Imagens / $

Vast AI

Código
2x-nvidia-l4-46gb
GPU
2 x NVIDIA L4 46 GB
Imagens/s
46
Preço/hora
(On Demand)
$ 0.72
230,000Imagens / $
Filtros
Nome da GPU
calculator.gpu_count
Nuvem
calculator.pricing_model

Veja a metodologia de benchmark de cloud GPU para detalhes.

On-demand é o model de preços mais simples, onde você paga pela capacidade de computação por hora ou segundo, dependendo do que usar, sem compromissos de longo prazo ou pagamentos antecipados.

Essas instâncias são recomendadas para usuários que preferem a flexibilidade de uma plataforma de cloud GPU sem qualquer pagamento antecipado ou compromisso de longo prazo. Instâncias on-demand são geralmente mais caras que instâncias spot, mas fornecem capacidade ininterrupta garantida.

Preços de cloud GPU on-demand

Ranking: Patrocinadores estão linkados e destacados no topo da tabela. As linhas restantes são classificadas em ordem crescente pelo menor preço on-demand. A Faixa mostra a diferença entre o menor e o maior preço de tabela para o mesmo SKU em todos os provedores. A Mediana é o meio da distribuição de preços em todos os anúncios para aquele SKU e serve como uma âncora de mercado justo. Os preços refletem a atualização semanal mais recente do catálogo.

On-demand é o model de aluguel padrão, pagamento por hora, sem compromisso, capacidade garantida enquanto você mantiver a instância em execução. É o nível mais caro, mas o único sem concessões.

Preços de cloud GPU spot

Ranking: As linhas são classificadas pelo menor preço spot em ordem crescente. A capacidade spot é interruptível. A Mediana é o meio da distribuição de preços spot para aquele SKU.

A capacidade spot é interruptível; o provedor pode recuperar a instância com pouco ou nenhum aviso, geralmente quando a demanda on-demand aumenta. As taxas spot normalmente ficam de 30-60% abaixo do on-demand no mesmo provedor. Use spot para treinamento com checkpoint, inference em lote e trabalhos de avaliação que tolerem reinicializações. Evite-o para inference sensível à latência ou serviços de réplica única sem failover.

Preços de cloud GPU reservada (1 ano)

Ranking: As linhas são classificadas pelo menor preço reservado de 1 ano em ordem crescente. As reservas garantem a capacidade pelo termo. A Mediana é o meio da distribuição de preços reservados para aquele SKU.

As reservas garantem a capacidade por um termo fixo em troca de um desconto em relação ao on-demand. Contratos de um ano normalmente ficam de 20-40% abaixo da tabela on-demand do mesmo provedor. Em alguns casos, as taxas de reserva caem abaixo do spot, porque o provedor de reserva isola o inventário do mercado spot inteiramente.

Comparação de desempenho de provedores de nuvem

O mesmo model de GPU pode ter um desempenho ligeiramente diferente entre provedores devido à escolha da CPU do host, fabric de rede, configuração de driver e overhead de virtualização. Para quantificar isso, executamos cargas de trabalho idênticas de geração de texto e imagem em AMD MI300X 192GB na DigitalOcean e Runpod:

Observações Principais:

  • Para geração de texto, a Digital Ocean demonstrou um throughput ligeiramente maior, processando aproximadamente 0,4% mais tokens por segundo.
  • Inversamente, para geração de imagem, a Runpod mostrou uma vantagem marginal, processando cerca de 0,4% mais imagens por segundo.

A diferença é pequena o suficiente para não importar para a maioria das cargas de trabalho. Para inference crítica de latência ou treinamento em larga escala, onde cada ponto percentual se acumula em milhões de inferences, faça o benchmark da configuração específica do provedor antes de se comprometer com uma reserva longa.

Não perca os nossos benchmarks e insights baseados em dados. O botão abre o Google; selecionar a AIMultiple confirma que deseja ver a AIMultiple com mais frequência nos resultados de pesquisa do Google.
GoogleAdicionar como fonte preferencial

Comprar on-prem ou alugar na nuvem

Ter a própria infraestrutura faz sentido quando a carga de trabalho é previsível, a equipe tem o know-how operacional e a utilização do hardware permanece acima de ~70% durante a vida útil da GPU. Para demanda variável, picos de treinamento ou experimentos de produto, o aluguel em nuvem vence em eficiência de capital e flexibilidade de escala. O ponto de equilíbrio fica aproximadamente na utilização de 12 meses: acima de 70%, a reserva ou a capacidade própria quase sempre vence o on-demand; abaixo de 50%, o spot ou on-demand vence na flexibilidade; a faixa intermediária depende de quanta interrupção de capacidade sua carga de trabalho tolera.

Um padrão prático em escala: possua um cluster base dimensionado para a demanda de estado estacionário, alugue na nuvem para picos e trabalho exploratório. A Meta anunciou uma parceria plurianual em fevereiro de 2026 para implantar até 6 gigawatts de AMD Instinct GPUs, sinalizando que mesmo operadores em escala de hyperscaler continuam a expandir a capacidade própria enquanto ainda consomem cloud GPU para cargas de trabalho variáveis.

GPUs de consumo (RTX 4090, RTX 5090) entregam o melhor preço por FLOP no papel, mas o EULA da NVIDIA restringe seu uso em data centers comerciais. Elas permanecem úteis para estações de trabalho individuais e trabalhos de prova de conceito, não para implantação em produção.

Metodologia de benchmark de Cloud GPU

Os benchmarks de throughput usam quantização FP de 4 bits em todos os testes. O pipeline executa:

  • Finetuning de texto: Llama 3.2 nas primeiras 5.000 conversas do FineTome, 5 épocas, 1M de tokens totais, framework Unsloth. Throughput = (tokens × épocas) / tempo total.
  • Inference de texto: 1M de tokens gerados com llama-cpp-python.
  • Finetuning de imagem: YOLOv9 em 100 imagens do SkyFusion, 4 épocas, Unsloth.
  • Inference de imagem: YOLOv9 com finetuning em ~500 imagens em 640×640.

A métrica de throughput por dólar divide a saída da carga de trabalho pelo custo horário da instância. Os valores de throughput são específicos para a carga de trabalho e servem como diretrizes relativas; o mesmo hardware entregará um throughput materialmente diferente em seu próprio model.

Perguntas frequentes

Um único nome de model de GPU frequentemente cobre múltiplos SKUs físicos. O H100 é enviado em variantes PCIe, SXM, SXM5 e NVL a preços e larguras de banda de interconexão diferentes. O A100 é enviado com 40GB e 80GB de VRAM; o V100 é enviado com 16GB e 32GB. Dentro de um provedor, a taxa listada também varia conforme a classe da CPU do host, RAM e armazenamento incluídos, e a região. As tabelas de preços acima dividem os SKUs por interconexão e VRAM onde os dados de origem permitem, para que cada linha seja uma única placa física em vez de um agregado de nome de model.

O componente executa uma carga de trabalho fixa (geração de imagem ou texto, finetuning ou inference) em cada instância de GPU e divide a saída total pelo custo horário da instância. Um número maior é mais barato por saída para aquela carga de trabalho. O ranking muda com a carga de trabalho: uma placa otimizada para inference FP8 pode superar uma placa com maior VRAM em geração de texto, mas perder em um finetune de model de imagem grande. Escolha a aba de carga de trabalho que corresponde ao seu trabalho antes de ler a tabela de classificação.

As tabelas de preços são atualizadas em um rastreamento mensal de catálogo.

Leitura adicional

Cite esta pesquisa

Escolha o formato adequado ao local onde você vai publicar. Colar a versão com link no seu CMS preserva o backlink.

Cem Dilmegani and Ekrem Sarı (2026) - "Preços de Cloud GPU, Desempenho e Comparação de Provedores". Publicado on-line em AIMultiple.com. Acessado em 17 Junho 2026, em: https://aimultiple.com/cloud-gpu-pricing [Recurso on-line]

Dilmegani, C., & Sarı, E. (2026, 17 Junho). Preços de Cloud GPU, Desempenho e Comparação de Provedores. AIMultiple. https://aimultiple.com/cloud-gpu-pricing

@misc{dilmegani2026,
  author = {Dilmegani, Cem and Sarı, Ekrem},
  title  = {{Preços de Cloud GPU, Desempenho e Comparação de Provedores}},
  year   = {2026},
  month  = jun,
  howpublished    = {\url{https://aimultiple.com/cloud-gpu-pricing}},
  note   = {AIMultiple. Acessado em 17 Junho 2026}
}
Cem Dilmegani
Cem Dilmegani
Analista Principal
Cem é o analista principal da AIMultiple desde 2017. A AIMultiple fornece informações para centenas de milhares de empresas (segundo o SimilarWeb), incluindo 55% das empresas da Fortune 500, todos os meses. O trabalho de Cem foi citado por importantes publicações globais, como Business Insider, Forbes e Washington Post, além de empresas globais como Deloitte e HPE, ONGs como o Fórum Econômico Mundial e organizações supranacionais como a Comissão Europeia. Você pode ver mais empresas e recursos renomados que mencionaram a AIMultiple. Ao longo de sua carreira, Cem atuou como consultor de tecnologia, comprador de tecnologia e empreendedor na área. Ele assessorou empresas em suas decisões tecnológicas na McKinsey & Company e na Altman Solon por mais de uma década. Também publicou um relatório da McKinsey sobre digitalização. Liderou a estratégia de tecnologia e a área de compras de uma empresa de telecomunicações, reportando-se diretamente ao CEO. Além disso, liderou o crescimento comercial da empresa de tecnologia avançada Hypatos, que atingiu uma receita recorrente anual de sete dígitos e uma avaliação de nove dígitos, partindo de zero, em apenas dois anos. O trabalho de Cem no Hypatos foi noticiado por importantes publicações de tecnologia, como TechCrunch e Business Insider. Cem participa regularmente como palestrante em conferências internacionais de tecnologia. Ele se formou em engenharia da computação pela Universidade Bogazici e possui um MBA pela Columbia Business School.
Ver perfil completo
Revisado tecnicamente por
Ekrem Sarı
Ekrem Sarı
Pesquisador de IA
Ekrem é pesquisador de IA na AIMultiple, com foco em automação inteligente, GPUs, agentes de IA e frameworks RAG.
Ver perfil completo

Comentários 2

Compartilhe suas ideias

Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios. Os comentários são deixados em seu idioma original.

0/450
Ashley Jenkinson
Ashley Jenkinson
Oct 31, 2024 at 08:54

Cem - great article, I'd love to pick your brain on private networking or direct connects to these GPU instances.

Cem Dilmegani
Cem Dilmegani
Nov 10, 2024 at 06:58

Hi Ashley, thank you! Sure, happy to chat.

Harsh Sharma
Harsh Sharma
Oct 06, 2024 at 02:19

Hi there, fantastic article and very well-researched. Would you mind checking out Dataoorts at https://dataoorts.com

Cem Dilmegani
Cem Dilmegani
Oct 22, 2024 at 03:18

Sure, we'll review to see if we can include Dataoorts in the next edit.