GPUs na nuvem para aprendizado profundo: disponibilidade, preço e desempenho.
Se você tiver flexibilidade em relação ao modelo de GPU, identifique a GPU em nuvem mais econômica com base em nossa avaliação comparativa de 10 modelos de GPU em cenários de geração e ajuste fino de imagens e textos.
- Se você preferir um modelo específico (por exemplo, A100), identifique o provedor de nuvem com GPU de menor custo que o ofereça.
- Se estiver indeciso entre uma solução local e a nuvem, explore a possibilidade de comprar ou alugar GPUs na nuvem .
- Ou aprenda nossa metodologia de benchmark de GPUs na nuvem para identificar a GPU mais econômica.
Preço da GPU na nuvem por taxa de transferência
Dois modelos comuns de precificação para GPUs são as instâncias "sob demanda" e as instâncias "spot". Veja qual GPU é a opção mais econômica para sua carga de trabalho, com base nos preços sob demanda dos 3 principais provedores de hiperescala:
Cloud GPU Throughput & Prices
Updated on May 6, 2026
Verda Cloud
Verda Cloud
Verda Cloud
Verda Cloud
Amazon Web Services
Microsoft Azure
Verda Cloud
Verda Cloud
Google Cloud Platform
Amazon Web Services
Microsoft Azure
Latitude
Consulte a metodologia de benchmark de GPUs na nuvem para obter detalhes.
O modelo sob demanda é o mais simples em termos de precificação, no qual você paga pela capacidade computacional por hora ou segundo, dependendo do seu uso, sem compromissos de longo prazo ou pagamentos antecipados.
Essas instâncias são recomendadas para usuários que preferem a flexibilidade de uma plataforma de GPU em nuvem sem pagamento inicial ou compromisso de longo prazo. Instâncias sob demanda geralmente são mais caras do que instâncias spot, mas oferecem capacidade ininterrupta garantida.
GPUs sob demanda de outros provedores de nuvem
* A memória e o modelo da GPU não são os únicos parâmetros. CPUs e RAM também podem ser importantes, porém, não são os critérios principais que definem o desempenho da GPU na nuvem. Portanto, para simplificar, não incluímos o número de CPUs ou RAM nessas tabelas.
** A taxa de transferência de treinamento é uma boa métrica para medir a eficácia relativa da GPU. Ela mede o número de tokens processados por segundo pela GPU para um modelo de linguagem (por exemplo, bert_base_squad). Observe que esses valores de taxa de transferência devem servir como diretrizes gerais. O 1 hardware apresentaria uma taxa de transferência significativamente diferente para sua carga de trabalho, visto que há uma diferença considerável de taxa de transferência mesmo entre LLMs executados no mesmo hardware. 2
*** Não inclui custos de armazenamento, desempenho de rede, entrada/saída de dados etc. Este valor refere-se apenas ao custo da GPU. 3
GPUs Spot
Em todas essas tabelas de produtividade por dólar:
- Nem todas as configurações possíveis estão listadas; as configurações mais comuns, focadas em aprendizado profundo, estão incluídas.
- Foram utilizadas as regiões do oeste ou centro dos EUA sempre que possível.
- Estes são os preços de tabela para cada categoria; compradores de grande volume podem conseguir preços melhores.
Por fim, é importante esclarecer o que significa “spot”. Recursos spot são:
- É um serviço interrompível , o que significa que os usuários precisam continuar registrando seu progresso. Por exemplo, o Amazon EC2 P3, que oferece V100 32 GB, é um dos serviços spot da Amazon mais frequentemente interrompidos. 4
- Oferecidos de forma dinâmica e orientada pelo mercado . O preço desses recursos de GPU pode flutuar com base na oferta e na demanda, e os usuários normalmente dão lances na capacidade disponível. Se o lance de um usuário for maior que o preço atual da capacidade disponível, as instâncias solicitadas serão executadas.
Os preços de aluguel de GPUs no mercado spot aumentaram no início de 2026 devido a picos de demanda, com disponibilidade restrita mesmo para gerações mais antigas de GPUs. O CEO da Nvidia, Jensen Huang, observou em janeiro de 2026 que as taxas de aluguel de GPUs no mercado spot estão subindo acentuadamente em todas as gerações, não apenas nos modelos mais recentes. 5
Custos e disponibilidade de GPUs na nuvem
Ordenando por menor preço. Para outras opções de baixo custo, você pode consultar os mercados de GPUs na nuvem .
Em janeiro de 2026, a AWS aumentou os preços em aproximadamente 15% em suas instâncias de GPU de ponta, especificamente as instâncias EC2 P5e 48xlarge equipadas com 8 GPUs H200. 6
disponibilidade de GPU
Insira o modelo desejado na caixa de pesquisa para identificar todos os provedores de nuvem que o oferecem:
*** Preço sob demanda *($) por GPU individual. Não inclui custos de armazenamento, desempenho de rede, entrada/saída etc. Este é apenas o custo da GPU.
**** Valores calculados. Isso era necessário quando instâncias de GPU únicas não estavam disponíveis. 7 8
Outras considerações sobre GPUs na nuvem
Disponibilidade : Nem todas as GPUs listadas acima podem estar disponíveis devido às limitações de capacidade dos provedores de nuvem e à crescente demanda por IA generativa.
Segurança de dados : Por exemplo, marketplaces de GPUs em nuvem como o Vast.ai oferecem preços significativamente mais baixos, mas, dependendo do recurso específico solicitado, a segurança dos dados da carga de trabalho pode ser afetada, dando aos provedores a capacidade de acessar as cargas de trabalho. Como priorizamos as necessidades de GPUs corporativas, o Vast.ai não foi incluído neste benchmark.
Facilidade de uso : A qualidade da documentação é uma métrica subjetiva, mas os desenvolvedores preferem a documentação de alguns provedores de nuvem em relação a outros. Nesta discussão, a documentação do GCP foi mencionada como sendo de qualidade inferior à de outras gigantes da tecnologia. 9
Familiaridade : Embora os provedores de nuvem invistam bastante em tornar seus serviços fáceis de usar, existe uma curva de aprendizado. É por isso que os principais provedores de nuvem possuem sistemas de certificação. Portanto, para cargas de trabalho pequenas, a economia de custos ao usar um provedor de baixo custo pode ser menor do que o custo de oportunidade do tempo que um desenvolvedor leva para aprender a usar a oferta de GPU em nuvem .
Otimização de custos: As tecnologias de agrupamento de GPUs podem reduzir significativamente o uso e os custos de GPUs na nuvem, compartilhando recursos computacionais entre vários modelos.
O sistema Aegaeon da Alibaba afirma uma redução de 82% no uso de GPUs para servir modelos de lógica de longo prazo (LLMs) por meio de escalonamento automático em nível de token, que permite que as GPUs alternem entre modelos durante a geração, em vez de esperar que as respostas completas sejam concluídas.
Durante um período beta de três meses no marketplace da Alibaba Cloud, a Aegaeon reduziu os requisitos de GPU do H20 de 1.192 para 213, enquanto atendia dezenas de modelos com até 72 bilhões de parâmetros, com GPUs individuais suportando até 7 modelos e a latência de troca caindo 97%. 10
Orquestração multicloud: a Shopify utiliza interfaces portáteis em diferentes nuvens, aplicando controle de custos e cotas por meio de arquivos de configuração YAML com cotas de custo, e utiliza ferramentas de orquestração como o SkyPilot para ambientes de treinamento e desenvolvimento interativo com GPUs. 11
Compre GPUs ou alugue GPUs na nuvem.
Comprar faz sentido
- Se a sua empresa tiver o conhecimento técnico e a preferência para hospedar os servidores ou gerenciar servidores em colocation .
- Para cargas de trabalho ininterruptas : Para o volume de GPUs para o qual você pode garantir uma alta utilização (por exemplo, mais de 80%) por um ano ou mais. 12
- Para cargas de trabalho interrompíveis : O período de alta utilização mencionado acima precisa ser algumas vezes maior, visto que os preços sob demanda (computação ininterrupta) tendem a ser algumas vezes mais caros do que os preços à vista (computação interrompível).
Nossa recomendação para empresas com cargas de trabalho intensivas em GPUs é uma combinação de GPUs próprias e alugadas, onde a demanda garantida é atendida pelas GPUs próprias e a demanda variável é atendida pela nuvem. É por isso que gigantes da tecnologia como o Facebook estão construindo seus próprios clusters de GPUs, incluindo centenas de GPUs. 13
Os compradores podem ser tentados a considerar GPUs para consumidores que oferecem uma melhor relação custo-benefício; no entanto, o contrato de licença de usuário final (EULA) do software proíbe seu uso em data centers. 14 Portanto, eles não são adequados para aprendizado de máquina, exceto para cargas de trabalho de teste menores em máquinas de cientistas de dados.
comparação de desempenho de provedores de nuvem
Para entender se a escolha de um provedor de nuvem afeta o desempenho de hardware idêntico, realizamos um benchmark específico na GPU MI300X de 192 GB (AMD) , executando as mesmas cargas de trabalho de geração de texto e imagem em Digital Ocean e Runpod .
Nossos resultados revelam que, embora o desempenho seja amplamente semelhante, existem diferenças pequenas, porém mensuráveis, conforme mostrado no gráfico abaixo:
Principais observações:
- Para geração de texto , Digital Ocean demonstrou uma taxa de transferência ligeiramente maior, processando aproximadamente 0,4% mais tokens por segundo.
- Por outro lado, para geração de imagens , Runpod apresentou uma vantagem marginal, processando cerca de 0,4% mais imagens por segundo.
Essas pequenas variações provavelmente podem ser atribuídas a diferenças na arquitetura do servidor, na infraestrutura de rede ou nas configurações específicas de virtualização e drivers do provedor.
Embora esse nível de diferença possa não ser crítico para todos os casos de uso, ele destaca que, para cargas de trabalho que exigem otimização máxima, a escolha do provedor de nuvem pode ser um fator relevante no ajuste de desempenho, mesmo ao usar o mesmo modelo de GPU.
Metodologia de benchmark de GPU na nuvem
Preços: Os preços de GPUs na nuvem são monitorados mensalmente.
Esta seção detalha a metodologia utilizada para medir o desempenho e a relação custo-benefício de nossos benchmarks de GPUs em nuvem. A quantização de ponto flutuante de 4 bits foi utilizada em todos os testes, salvo indicação em contrário.
Ajuste fino de texto (Taxa de transferência)
Essa métrica mede a velocidade bruta de processamento para o treinamento de um modelo de linguagem, calculada em tokens por segundo. Ela responde à pergunta: "Quantos tokens essa GPU consegue processar por segundo durante o ajuste fino?"
- Modelo: Lhama 3.2
- Conjunto de dados: As primeiras 5.000 conversas do conjunto de dados FineTome.
- Processo: O modelo foi ajustado ao longo de 5 épocas, utilizando um total de 1 milhão de tokens.
- Cálculo: A taxa de transferência é calculada como (Total de Tokens * Número de Épocas) / Tempo Total de Ajuste Fino. A métrica final é tokens por segundo (tokens/s) .
- Framework: Unsloth
Otimização de texto (eficiência)
Essa métrica mede a relação custo-benefício do ajuste fino, calculada em tokens por dólar. Ela responde à pergunta: "Quantos tokens podem ser processados para cada dólar gasto nessa GPU?"
- Cálculo: Este valor é derivado do teste de throughput. É calculado dividindo-se o número total de tokens processados pelo custo por hora da instância da GPU. A métrica final é tokens por dólar (tokens/$) .
Inferência de texto (Taxa de transferência)
Essa métrica mede a velocidade bruta de geração de texto com um modelo treinado, calculada em tokens por segundo. Ela é crucial para aplicações em tempo real.
- Processo: Um total de 1 milhão de tokens foram gerados, incluindo tokens de entrada e de saída.
- Cálculo: A taxa de transferência é calculada dividindo-se o número total de tokens pela duração total. A métrica final é tokens por segundo (tokens/s) .
- Framework: llama-cpp-python
Inferência de texto (eficiência)
Essa métrica mede a relação custo-benefício da geração de texto, calculada em tokens por dólar.
- Cálculo: Este valor é derivado do teste de inferência. É calculado dividindo-se o número total de tokens gerados pelo custo por hora da instância da GPU. A métrica final é tokens por dólar (tokens/$) .
Ajuste fino de imagem (taxa de transferência)
Essa métrica mede a velocidade bruta de processamento para o treinamento de um modelo de reconhecimento de imagens, calculada em imagens por segundo.
- Modelo: YOLOv9
- Conjunto de dados: 100 imagens do conjunto de dados SkyFusion.
- Processo: O modelo foi treinado neste conjunto de dados durante 4 épocas.
- Cálculo: O desempenho é medido em imagens por segundo (imagem/s) processadas durante o treinamento.
- Framework: Unsloth
Ajuste fino de imagem (eficiência)
Essa métrica mede a relação custo-benefício do treinamento de um modelo de imagem, calculada em imagens por dólar.
- Cálculo: Este valor é derivado do teste de ajuste fino de imagem. É calculado dividindo-se o número total de imagens processadas pelo custo por hora da instância da GPU. A métrica final é imagens por dólar (imagem/$) .
Inferência de imagem (Taxa de transferência)
Essa métrica mede a velocidade bruta de análise de imagens com um modelo treinado, calculada em imagens por segundo.
- Modelo: O modelo YOLOv9 ajustado com o processo descrito acima.
- Conjunto de dados: Aproximadamente 500 imagens com resolução de 640×640.
- Cálculo: O desempenho é medido pelo número de imagens por segundo (imagem/s) que o modelo consegue processar.
Inferência de imagem (eficiência)
Essa métrica mede a relação custo-benefício da análise de imagens, calculada em imagens por dólar.
- Cálculo: Este valor é derivado do teste de inferência de imagem. É calculado dividindo-se o número total de imagens processadas pelo custo por hora da instância da GPU. A métrica final é imagens por dólar (imagem/$) .
Próximos passos:
- A frequência da coleta de dados será aumentada.
- Ao longo do tempo, aumentaremos a cobertura de GPUs, incluiremos mais métricas e atualizaremos nossa medição de desempenho.
Quais são os melhores hardwares de GPU para nuvem?
A AMD está implementando suas GPUs Instinct MI450 com arquitetura CDNA 4 e a plataforma de rack Helios para competir com a NVIDIA em cargas de trabalho de treinamento e inferência de IA em larga escala. Em fevereiro de 2026, a Meta anunciou uma parceria plurianual para implementar até 6 gigawatts de GPUs Instinct da AMD, uma implementação historicamente grande. 15
A futura arquitetura Rubin da NVIDIA (por exemplo, a GPU Rubin NVL-144) apresenta NVLink 6 e memória HBM4 para cargas de trabalho de treinamento em nuvem. Devido a restrições de exportação, empresas chinesas de IA estariam alugando instâncias de GPU Rubin por meio de provedores de nuvem estrangeiros para acessar o hardware. 16
Para ver os fornecedores de GPUs em nuvem que oferecem GPUs que não sejam da Nvidia, consulte a lista de fornecedores de GPUs em nuvem .
Leia sobre todos os chips/hardware de IA .
O que são mercados de GPUs na nuvem?
Plataformas de computação em nuvem distribuídas, como Salad, Vast.ai e Clore.ai, oferecem acesso a poder computacional de GPUs descentralizado por meio de um modelo de mercado. Usuários com hardware ocioso podem disponibilizar suas GPUs para aluguel, enquanto aqueles que precisam de poder computacional de GPUs podem escolher entre os recursos disponíveis a preços variados. Essas plataformas facilitam a conexão entre oferta e demanda sem depender de provedores de nuvem centralizados. Elas oferecem soluções econômicas e flexíveis para tarefas que exigem alto poder computacional de GPUs.
- Salad : rede descentralizada para tarefas como treinamento de IA ou mineração de criptomoedas, com foco em recompensas para o usuário e facilidade de uso.
- Vast.ai : Conecta fornecedores de GPUs com usuários que precisam de recursos computacionais acessíveis e escaláveis. O foco está em cargas de trabalho de IA e aprendizado de máquina.
- Clore.ai : Um mercado distribuído para GPUs em nuvem com foco em cargas de trabalho de IA e HPC.
- Kryptex : Uma plataforma que permite aos usuários ganhar criptomoedas alugando suas GPUs. O foco principal é realizar tarefas como mineração de criptomoedas ou processamento de cálculos complexos.
Quais são as principais plataformas de GPU em nuvem?
Os principais fornecedores de GPUs em nuvem são:
- AWS
- Microsoft Azure
- CoreWeave
- Google Plataforma em Nuvem (GCP)
- IBM Nuvem
- Laboratórios Jarvis
- Lambda Laboratórios
- Oracle Infraestrutura em Nuvem (OCI)
- Paperspace CORE da DigitalOcean
- Runpod.io
- Crusoe Nuvem
Se você não tem certeza sobre GPUs na nuvem, explore outras opções como GPUs sem servidor .
Notas
Os provedores de nuvem estão constantemente atualizando suas ofertas, e esta pesquisa será constantemente atualizada.
Perguntas frequentes
Ao contrário de uma CPU, que pode ter um número relativamente pequeno de núcleos otimizados para processamento serial sequencial, uma GPU pode ter centenas ou até milhares de núcleos menores projetados para multithreading e para lidar com cargas de trabalho de processamento paralelo.
Uma GPU em nuvem fornece acesso remoto a recursos de computação gráfica por meio da nuvem, eliminando a necessidade de hardware local. Assim como os serviços de nuvem tradicionais, uma GPU em nuvem permite acessar recursos de computação de alto desempenho de forma pontual ou sob demanda, sem a necessidade de investimento inicial em hardware.
Aprendizado de máquina e IA
As GPUs são particularmente eficazes no processamento dos cálculos complexos necessários para modelos de aprendizado de máquina (ML) e inteligência artificial (IA). Elas podem processar múltiplos cálculos em paralelo, tornando-as adequadas para o treinamento de grandes redes neurais e algoritmos.
– Aprendizado profundo: O aprendizado profundo é um subcampo do aprendizado de máquina. As cargas de trabalho de aprendizado profundo, particularmente o treinamento e a inferência de modelos grandes, são o principal fator de demanda por GPUs na nuvem.
Processamento de dados
– Análise de dados : As GPUs são usadas para acelerar tarefas de computação e processamento de dados, como análise de Big Data e análises em tempo real. Elas conseguem lidar com tarefas de processamento paralelo de alto rendimento de forma mais eficiente do que as CPUs.
– Computação científica: Na pesquisa científica, as GPUs em nuvem podem lidar com cálculos para simulações, bioinformática, química quântica, modelagem climática e muito mais.
Jogos e entretenimento
As GPUs em nuvem são usadas para fornecer serviços de jogos em nuvem, como o Stadia da Google ou o GeForce Now da NVIDIA, onde o jogo roda em um servidor na nuvem e os frames renderizados são transmitidos para o dispositivo do jogador. Isso permite jogos de alta qualidade sem a necessidade de uma máquina local potente.
– Renderização gráfica: As GPUs foram inicialmente projetadas para lidar com computação gráfica e ainda se destacam nessa área. As GPUs em nuvem são usadas para modelagem e renderização 3D, visualizações 3D, realidade virtual (RV), projeto auxiliado por computador (CAD) e imagens geradas por computador (CGI).
– Processamento de vídeo: São utilizados na codificação e decodificação de vídeo, edição de vídeo, correção de cores, renderização de efeitos e outras tarefas de processamento de vídeo.
Mineração de criptomoedas
As GPUs também são usadas em tarefas como mineração de criptomoedas. No entanto, os circuitos integrados de aplicação específica (ASICs) oferecem melhor custo-benefício para as criptomoedas mais comumente mineradas.
Comentários 2
Compartilhe suas ideias
Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios.
Cem - great article, I'd love to pick your brain on private networking or direct connects to these GPU instances.
Hi Ashley, thank you! Sure, happy to chat.
Hi there, fantastic article and very well-researched. Would you mind checking out Dataoorts at https://dataoorts.com
Sure, we'll review to see if we can include Dataoorts in the next edit.