GPU cloud pour l'apprentissage profond : disponibilité et prix/performances
Si vous êtes flexible quant au modèle de GPU, identifiez le GPU cloud le plus rentable en vous basant sur notre analyse comparative de 10 modèles de GPU dans des scénarios de génération et de réglage fin d'images et de textes.
- Si vous préférez un modèle spécifique (par exemple A100), identifiez le fournisseur de cloud GPU le moins cher qui le propose.
- Si vous hésitez entre une solution sur site et le cloud, étudiez la possibilité d' acheter ou de louer des GPU sur le cloud .
- Ou découvrez notre méthodologie d'évaluation comparative des GPU dans le cloud pour identifier le GPU le plus rentable.
Prix du GPU cloud par débit
Deux modèles de tarification courants pour les GPU sont les instances « à la demande » et les instances « spot ». Découvrez le GPU le plus rentable pour votre charge de travail en fonction des prix à la demande des 3 principaux hyperscalers :
Cloud GPU Throughput & Prices
Updated on May 6, 2026
Verda Cloud
Verda Cloud
Verda Cloud
Verda Cloud
Amazon Web Services
Microsoft Azure
Verda Cloud
Verda Cloud
Google Cloud Platform
Amazon Web Services
Microsoft Azure
Latitude
Consultez la méthodologie d'évaluation des performances des GPU dans le cloud pour plus de détails.
Le modèle à la demande est le plus simple : vous payez la capacité de calcul à l'heure ou à la seconde, selon votre utilisation, sans engagement à long terme ni paiement initial.
Ces instances sont recommandées aux utilisateurs qui privilégient la flexibilité d'une plateforme GPU cloud sans paiement initial ni engagement à long terme. Les instances à la demande sont généralement plus chères que les instances spot, mais elles garantissent une capacité ininterrompue.
GPU à la demande provenant d'autres fournisseurs de cloud
La mémoire et le modèle de GPU ne sont pas les seuls paramètres. Le processeur et la RAM peuvent également être importants, mais ils ne constituent pas les principaux critères déterminant les performances du GPU dans le cloud. Par souci de simplicité, nous n'avons donc pas inclus le nombre de processeurs ni la RAM dans ces tableaux.
** Le débit d'entraînement est une bonne mesure de l'efficacité relative du GPU. Il mesure le nombre de jetons traités par seconde par le GPU pour un modèle de langage (par exemple, bert_base_squad). 1 Veuillez noter que ces valeurs de débit ne sont données qu'à titre indicatif. Le débit d'un même matériel peut varier considérablement selon la charge de travail, car même entre des LLM exécutés sur le même matériel, le débit peut varier significativement. 2
*** Hors coûts de stockage, performances réseau, trafic entrant/sortant, etc. Ceci ne concerne que le coût du GPU. 3
Spot GPUs
Dans tous ces tableaux de débit par dollar :
- Toutes les configurations possibles ne sont pas répertoriées ; seules les configurations les plus couramment utilisées et axées sur l'apprentissage profond sont incluses.
- Les régions de l'ouest ou du centre des États-Unis ont été utilisées lorsque cela était possible.
- Voici les prix de référence pour chaque catégorie ; les acheteurs en gros volumes peuvent bénéficier de tarifs préférentiels.
Enfin, il convient de préciser ce que signifie « spot ». Les ressources relatives aux spots sont les suivantes :
- Ce service étant susceptible d'être interrompu , les utilisateurs doivent consigner régulièrement leur progression. Par exemple, Amazon EC2 P3, qui fournit 32 Go de V100, est l'un des services spot d'Amazon les plus fréquemment interrompus. 4
- Proposées selon un modèle dynamique et dicté par le marché , les ressources GPU voient leur prix fluctuer en fonction de l'offre et de la demande. Les utilisateurs enchérissent généralement sur la capacité disponible. Si l'enchère d'un utilisateur est supérieure au prix spot actuel, les instances demandées seront exécutées.
Les prix de location au comptant des GPU ont augmenté début 2026 en raison de pics de demande, la disponibilité étant limitée même pour les générations de GPU plus anciennes. Le PDG de Nvidia, Jensen Huang, a indiqué en janvier 2026 que les tarifs de location sur le marché au comptant des GPU augmentaient fortement pour toutes les générations, et pas seulement pour les modèles les plus récents. 5
Coûts et disponibilité des GPU dans le cloud
Tri par prix décroissant. Pour d'autres options économiques, consultez les plateformes de vente de GPU en nuage .
En janvier 2026, AWS a augmenté les prix d'environ 15 % sur ses instances GPU haut de gamme, en particulier les instances EC2 P5e 48xlarge équipées de 8 GPU H200. 6
Disponibilité du GPU
Saisissez le modèle souhaité dans le champ de recherche pour identifier tous les fournisseurs de cloud qui le proposent :
*** Prix à la demande *($) par GPU. Hors coûts de stockage, performances réseau, flux d'entrée/sortie, etc. Ce prix correspond uniquement au coût du GPU.
**** Valeurs calculées. Ceci était nécessaire lorsque les instances GPU uniques n'étaient pas disponibles. 7 8
Autres considérations relatives aux GPU dans le cloud
Disponibilité : Il est possible que certaines des cartes graphiques mentionnées ci-dessus ne soient pas disponibles en raison des contraintes de capacité des fournisseurs de services cloud et de la demande croissante en matière d'IA générative.
Sécurité des données : Par exemple, les plateformes de GPU cloud comme Vast.ai proposent des prix nettement inférieurs, mais selon la ressource demandée, la sécurité des données de la charge de travail peut être compromise, permettant ainsi aux hébergeurs d'y accéder. Étant donné que nous avons privilégié les besoins des entreprises en matière de GPU, Vast.ai n'a pas été inclus dans ce test.
Facilité d'utilisation : La qualité de la documentation est un critère subjectif, mais les développeurs ont des préférences pour la documentation de certains fournisseurs de cloud. Dans cette discussion, la documentation de GCP a été jugée de qualité inférieure à celle d'autres géants du secteur. 9
Familiarité : Bien que les fournisseurs de services cloud déploient des efforts considérables pour rendre leurs services faciles d’utilisation, un temps d’apprentissage est nécessaire. C’est pourquoi les principaux fournisseurs de services cloud ont mis en place des systèmes de certification. Par conséquent, pour les charges de travail modestes, les économies réalisées en optant pour un fournisseur à bas coût peuvent être inférieures au coût d’opportunité lié au temps nécessaire à un développeur pour apprendre à utiliser son offre de GPU cloud .
Optimisation des coûts : Les technologies de mise en commun des GPU peuvent réduire considérablement l'utilisation et les coûts des GPU dans le cloud en partageant les ressources de calcul entre plusieurs modèles.
Le système Aegaeon d'Alibaba revendique une réduction de 82 % de l'utilisation des GPU pour la diffusion des LLM grâce à une mise à l'échelle automatique au niveau des jetons qui permet aux GPU de basculer entre les modèles pendant la génération plutôt que d'attendre que les réponses complètes soient terminées.
Au cours d'une bêta de trois mois sur la place de marché de Alibaba Cloud, Aegaeon a réduit les exigences GPU H20 de 1 192 à 213 tout en servant des dizaines de modèles jusqu'à 72 milliards de paramètres, avec des GPU uniques prenant en charge jusqu'à 7 modèles et une latence de commutation diminuant de 97 %. 10
Orchestration multicloud : Shopify utilise des interfaces portables entre les clouds, en appliquant la responsabilité des coûts et les quotas via des fichiers de configuration YAML avec des quotas de coûts, et utilise des outils d’orchestration comme SkyPilot pour les environnements de formation et de développement GPU interactifs. 11
Acheter des GPU ou louer des GPU dans le cloud
L'achat est logique
- Si votre entreprise possède le savoir-faire et la préférence nécessaires pour héberger les serveurs ou gérer des serveurs en colocation .
- Pour les charges de travail ininterrompues : Pour le volume de GPU pour lequel vous pouvez garantir une utilisation élevée (par exemple plus de 80 %) pendant un an ou plus. 12
- Pour les charges de travail interruptibles : la période de forte utilisation mentionnée ci-dessus doit être plusieurs fois plus longue, car les prix à la demande (calcul non interruptible) ont tendance à être plusieurs fois plus élevés que les prix au comptant (calcul interruptible).
Pour les entreprises dont la charge de travail GPU est importante, nous recommandons une solution hybride combinant GPU en propre et GPU en location : les GPU en propre prennent en charge les demandes garanties, tandis que les demandes variables sont gérées par le cloud. C’est pourquoi des géants de la tech comme Facebook construisent leurs propres clusters de GPU, composés de centaines de cartes graphiques. 13
Les acheteurs pourraient être tentés d'opter pour des GPU grand public offrant un meilleur rapport prix/performances ; cependant, le CLUF de leur logiciel interdit leur utilisation dans les centres de données. 14 Par conséquent, ils ne sont pas adaptés à l'apprentissage automatique, sauf pour des charges de travail de test mineures sur les machines des data scientists.
Comparaison des performances des fournisseurs de cloud
Pour comprendre si le choix d'un fournisseur de cloud affecte les performances d'un matériel identique, nous avons effectué un test de performance spécifique sur le GPU MI300X 192 Go AMD , en exécutant les mêmes charges de travail de génération de texte et d'image sur les deux Digital Ocean et Runpod .
Nos résultats révèlent que, malgré des performances globalement similaires, il existe des différences mineures mais mesurables, comme le montre le graphique ci-dessous :
Observations clés :
- Pour la génération de texte , Digital Ocean a démontré un débit légèrement supérieur, traitant environ 0,4 % de jetons de plus par seconde.
- À l'inverse, pour la génération d'images , Runpod a montré un avantage marginal, traitant environ 0,4 % d'images de plus par seconde.
Ces petites variations peuvent probablement être attribuées à des différences dans l'architecture du serveur, l'infrastructure réseau ou les configurations spécifiques de virtualisation et de pilotes du fournisseur.
Bien que ce niveau de différence ne soit pas forcément critique dans tous les cas d'utilisation, il souligne que pour les charges de travail exigeant une optimisation maximale, le choix du fournisseur de cloud peut être un facteur pertinent dans le réglage des performances, même en utilisant le même modèle de GPU.
Méthodologie d'évaluation des GPU dans le cloud
Tarifs : Les prix des GPU cloud sont relevés mensuellement.
Cette section décrit la méthodologie utilisée pour mesurer les performances et le rapport coût-efficacité de nos tests de performances GPU dans le cloud. La quantification FP 4 bits a été utilisée pour tous les tests, sauf indication contraire.
Optimisation du texte (Débit)
Cette métrique mesure la vitesse de traitement brute pour l'entraînement d'un modèle de langage, calculée en jetons par seconde. Elle répond à la question : « Combien de jetons ce GPU peut-il traiter par seconde pendant la phase de réglage fin ? »
- Modèle : Llama 3.2
- Ensemble de données : Les 5 000 premières conversations de l’ensemble de données FineTome.
- Processus : Le modèle a été affiné sur 5 époques en utilisant un total de 1 million de jetons.
- Calcul : Le débit est calculé comme suit : (Nombre total de jetons * Nombre d’époques) / Temps total de réglage fin. La métrique finale est exprimée en jetons par seconde (jetons/s) .
- Cadre : Unsloth
Optimisation du texte (efficacité)
Cet indicateur mesure le rapport coût-efficacité du réglage fin, calculé en jetons par dollar. Il répond à la question : « Combien de jetons peuvent être traités pour chaque dollar dépensé sur ce GPU ? »
- Calcul : Cette valeur est issue du test de débit. Elle est calculée en divisant le nombre total de jetons traités par le coût horaire de l’instance GPU. La métrique finale est exprimée en jetons par dollar (jetons/$) .
Inférence textuelle (débit)
Cette métrique mesure la vitesse brute de génération de texte avec un modèle entraîné, calculée en jetons par seconde. Elle est essentielle pour les applications en temps réel.
- Processus : Un total de 1 million de jetons ont été générés, incluant les jetons d'entrée et de sortie.
- Calcul : Le débit est calculé en divisant le nombre total de jetons par la durée totale. La mesure finale est exprimée en jetons par seconde (jetons/s) .
- Framework : llama-cpp-python
Inférence textuelle (efficacité)
Cet indicateur mesure le rapport coût-efficacité de la génération de texte, calculé en jetons par dollar.
- Calcul : Cette valeur est issue du test d’inférence. Elle est calculée en divisant le nombre total de jetons générés par le coût horaire de l’instance GPU. La métrique finale est exprimée en jetons par dollar (jetons/$) .
Réglage fin de l'image (débit)
Cette métrique mesure la vitesse de traitement brute pour l'entraînement d'un modèle de reconnaissance d'images, calculée en images par seconde.
- Modèle : YOLOv9
- Ensemble de données : 100 images issues de l’ensemble de données SkyFusion.
- Processus : Le modèle a été entraîné sur cet ensemble de données pendant 4 époques.
- Calcul : Les performances sont mesurées en images par seconde (image/s) traitées pendant l'entraînement.
- Cadre : Unsloth
Réglage fin de l'image (efficacité)
Cet indicateur mesure le rapport coût-efficacité de l'entraînement d'un modèle d'image, calculé en nombre d'images par dollar.
- Calcul : Cette valeur est issue du test d’optimisation d’image. Elle est calculée en divisant le nombre total d’images traitées par le coût horaire de l’instance GPU. La métrique finale est exprimée en images par dollar (image/$) .
Inférence d'images (débit)
Cette métrique mesure la vitesse brute d'analyse d'images avec un modèle entraîné, calculée en images par seconde.
- Modèle : Le modèle YOLOv9 affiné grâce au processus décrit ci-dessus.
- Ensemble de données : Environ 500 images d’une résolution de 640×640.
- Calcul : Les performances sont mesurées par le nombre d' images par seconde (image/s) que le modèle peut traiter.
Inférence d'images (efficacité)
Cet indicateur mesure le rapport coût-efficacité de l'analyse d'images, calculé en nombre d'images par dollar.
- Calcul : Cette valeur est issue du test d’inférence d’images. Elle est calculée en divisant le nombre total d’images traitées par le coût horaire de l’instance GPU. La métrique finale est exprimée en images par dollar (images/$) .
Prochaines étapes :
- La fréquence de collecte des données sera augmentée.
- Nous allons étendre la couverture GPU, inclure davantage de métriques et actualiser progressivement nos mesures de performance.
Quelles sont les meilleures cartes graphiques pour le cloud ?
AMD déploie ses GPU Instinct série MI450 basés sur l'architecture CDNA 4 et sa plateforme rack Helios pour concurrencer NVIDIA sur le marché des charges de travail d'entraînement et d'inférence IA à grande échelle. En février 2026, Meta a annoncé un partenariat pluriannuel portant sur le déploiement d'une puissance allant jusqu'à 6 gigawatts de GPU Instinct AMD, un déploiement d'une ampleur historique. 15
La future architecture Rubin (par exemple, le GPU Rubin NVL-144) intègre NVLink 6 et de la mémoire HBM4 pour les charges de travail d'entraînement dans le cloud. En raison des restrictions à l'exportation, les entreprises chinoises spécialisées en IA loueraient des instances de GPU Rubin auprès de fournisseurs de cloud étrangers pour accéder au matériel. 16
Pour consulter la liste des fournisseurs de GPU cloud proposant des GPU non-Nvidia, veuillez vous référer à la liste des fournisseurs de GPU cloud .
Découvrez tous les composants et matériels d'IA .
Que sont les places de marché de GPU dans le cloud ?
Les plateformes de cloud distribué telles que Salad, Vast.ai et Clore.ai offrent un accès à la puissance de calcul GPU décentralisée via un modèle de marché. Les utilisateurs disposant de matériel inutilisé peuvent proposer leurs GPU à la location, tandis que ceux qui ont besoin de puissance GPU peuvent choisir parmi les ressources disponibles à différents prix. Ces plateformes facilitent la mise en relation de l'offre et de la demande sans dépendre de fournisseurs de cloud centralisés. Elles proposent des solutions économiques et flexibles pour les tâches gourmandes en ressources GPU.
- Salad : réseau décentralisé pour des tâches telles que l'entraînement de l'IA ou le minage de cryptomonnaies, axé sur les récompenses des utilisateurs et la facilité d'utilisation.
- Vast.ai met en relation les fournisseurs de GPU avec les utilisateurs ayant besoin de ressources de calcul abordables et évolutives. L'accent est mis sur les charges de travail liées à l'IA et à l'apprentissage automatique.
- Clore.ai : Une plateforme distribuée pour les GPU cloud axée sur les charges de travail d'IA et de HPC.
- Kryptex : Une plateforme permettant aux utilisateurs de gagner des cryptomonnaies en louant leurs GPU. Elle est principalement utilisée pour des tâches telles que le minage de cryptomonnaies ou le traitement de calculs complexes.
Quelles sont les meilleures plateformes GPU dans le cloud ?
Les principaux fournisseurs de GPU cloud sont :
- AWS
- Microsoft Azure
- CoreWeave
- Google Plateforme Cloud (GCP)
- IBM Nuage
- Laboratoires Jarvis
- Lambda Laboratoires
- Oracle Infrastructure cloud (OCI)
- Paperspace CORE par DigitalOcean
- Runpod.io
- Crusoe Nuage
Si vous n'êtes pas sûr des GPU cloud, explorez d'autres options comme les GPU sans serveur .
Notes
Les fournisseurs de services cloud mettent constamment à jour leur offre ; cette étude sera donc constamment mise à jour.
FAQ
Contrairement à un processeur (CPU), qui peut avoir un nombre relativement restreint de cœurs optimisés pour le traitement séquentiel, un processeur graphique (GPU) peut avoir des centaines, voire des milliers, de cœurs plus petits conçus pour le multithreading et la gestion des charges de travail de traitement parallèle.
Un GPU cloud offre un accès distant aux ressources de calcul GPU via le cloud, éliminant ainsi le besoin de matériel local. À l'instar des services cloud traditionnels, un GPU cloud permet d'accéder à des ressources de calcul haute performance ponctuellement ou à la demande, sans investissement initial en matériel.
Apprentissage automatique et intelligence artificielle
Les GPU sont particulièrement performants pour gérer les calculs complexes nécessaires aux modèles d'apprentissage automatique (ML) et d'intelligence artificielle (IA). Ils peuvent effectuer de nombreux calculs en parallèle, ce qui les rend adaptés à l'entraînement de grands réseaux neuronaux et d'algorithmes.
– Apprentissage profond : L’apprentissage profond est un sous-domaine de l’apprentissage automatique. Les charges de travail d’apprentissage profond, en particulier l’entraînement et l’inférence de modèles de grande taille, sont le principal moteur de la demande en GPU dans le cloud.
Informatique
– Analyse de données : les GPU sont utilisés pour accélérer les tâches de calcul et de traitement des données, telles que l’analyse du Big Data et l’analyse en temps réel. Ils peuvent gérer les tâches de traitement parallèle à haut débit plus efficacement que les CPU.
– Calcul scientifique : Dans la recherche scientifique, les GPU en nuage peuvent gérer les calculs pour les simulations, la bioinformatique, la chimie quantique, la modélisation météorologique, et bien plus encore.
Jeux et divertissement
Les GPU cloud sont utilisés pour fournir des services de jeu en nuage, tels que Stadia de Google ou GeForce Now de NVIDIA, où le jeu s'exécute sur un serveur dans le nuage et les images rendues sont diffusées en continu vers l'appareil du joueur. Cela permet de jouer en haute qualité sans avoir besoin d'un ordinateur local puissant.
– Rendu graphique : les GPU ont été initialement conçus pour gérer l’infographie et ils excellent toujours dans ce domaine. Les GPU du cloud sont utilisés pour la modélisation et le rendu 3D, les visualisations 3D, la réalité virtuelle (RV), la conception assistée par ordinateur (CAO) et l’imagerie de synthèse (CGI).
– Traitement vidéo : Ils sont utilisés pour l’encodage et le décodage vidéo, le montage vidéo, la correction des couleurs, le rendu des effets et d’autres tâches de traitement vidéo.
Extraction de cryptomonnaies
Les GPU sont également utilisés pour des tâches telles que le minage de cryptomonnaies. Cependant, les circuits intégrés spécifiques à une application (ASIC) offrent une meilleure rentabilité pour les cryptomonnaies les plus couramment minées.
Commentaires 2
Partagez vos idées
Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.
Cem - great article, I'd love to pick your brain on private networking or direct connects to these GPU instances.
Hi Ashley, thank you! Sure, happy to chat.
Hi there, fantastic article and very well-researched. Would you mind checking out Dataoorts at https://dataoorts.com
Sure, we'll review to see if we can include Dataoorts in the next edit.