Modèles de GPU

Dernière mise à jour : Juil 2026

Rang

Modèle

Dispo.

VRAM

Coût

NVIDIA

Libéré: 2024

B200 SXM

1st

Classement

$2.14

Verda

1st

Classement

$2.14

Verda

Performances de référence

Rang

Catégorie

Performance

11th

Inférence d'images (efficacité)

24k token/$

1st

Inférence d'images (débit)

110 token/s

11th

Réglage fin de l'image (efficacité)

25k image/$

1st

Réglage fin de l'image (débit)

114 image/s

10th

Inférence textuelle (efficacité)

7M token/$

1st

Inférence textuelle (débit)

33k token/s

10th

Optimisation du texte (efficacité)

4M image/$

1st

Réglage fin du texte (débit)

18k image/s

Spécifications techniques

Blackwell

Architecture

192 GB

Mémoire

8.20 TB/s

Bande passante

1,000 W

TDP

75 TFLOPS

Performances FP32

2,250 TFLOPS

Performances du BF16

Tarification des fournisseurs par région

Fournisseur

/ Région

Prix/heure

Verda

/ North Europe

$2.14 (x1 GPU)

Nebius

/ West Europe

$3.95 (x1 GPU)

Vast AI

/ North America

$4.38 (x1 GPU)

Hyperstack

/ West Europe

$5.10 (x1 GPU)

Runpod

/ North America

$5.49 (x1 GPU)

Koyeb

/ West Europe

$5.50 (x1 GPU)

Lambda

/ North America

$6.99 (x1 GPU)

Vultr

/ North America

$25.60 (x8 GPUs)

Google Cloud

/ North America

$32.61 (x8 GPUs)

CoreWeave

/ North America

$34.87 (x8 GPUs)

Cirrascale

/ North America

$48.61 (x8 GPUs)

Oracle Cloud

/ North America

$112.00 (x8 GPUs)

Amazon Web Services

/ North America

$113.93 (x8 GPUs)

FAQ

Cette page vous permet de comparer les caractéristiques techniques et les prix des différents modèles. Pour une vue d'ensemble plus complète du marché, basée sur le rapport performance/prix, vous pouvez consulter notre analyse comparative détaillée des GPU cloud , qui compare différents fournisseurs et modèles de tarification pour diverses charges de travail d'IA.

Une instance GPU Cloud, sujet de cette page, consiste à louer un serveur virtuel doté d'un GPU dédié à l'heure. Vous bénéficiez ainsi d'un accès continu au matériel, ce qui est idéal pour les tâches de longue durée comme l'entraînement de modèles ou les charges de travail prévisibles. Vous trouverez une comparaison plus détaillée des fournisseurs dans notre principal comparatif de GPU Cloud .

Un GPU sans serveur est un modèle différent où vous ne payez qu'à la seconde, pour le temps d'exécution effectif de votre code, sans avoir à gérer de serveurs. Ce modèle est particulièrement rentable pour les tâches à trafic variable, comme les API d'inférence. Si ce modèle correspond à vos besoins, vous pouvez comparer les fournisseurs sur notre plateforme de test dédiée aux GPU sans serveur .

Bien que NVIDIA soit actuellement leader du marché, des entreprises comme AMD et Intel sont de sérieux concurrents, et les fournisseurs de services cloud tels qu'AWS et Google produisent également leurs propres puces personnalisées. Vous trouverez plus d'informations sur les principaux fabricants de puces IA et le paysage industriel dans son ensemble dans notre rapport détaillé.

La décision dépend de facteurs tels que l'expertise de votre équipe, la prévisibilité de la charge de travail et votre budget à long terme. Notre guide comparatif des GPU (achat ou location) analyse les avantages et les inconvénients de chaque option afin de vous aider à faire le choix stratégique le plus adapté à votre entreprise.

Ce score mesure le rapport coût-efficacité d'un GPU. Il indique le nombre de millions (M) de jetons ou d'images que vous obtenez pour chaque dollar américain dépensé, combinant vitesse et prix en une seule valeur de performance par dollar. Pour tous les tests de performance présentés sur cette page, un score plus élevé est toujours préférable, car cela signifie que vous en avez plus pour votre argent.

L'inférence mesure l'efficacité de l'utilisation d'un modèle pré-entraîné pour générer du nouveau contenu (texte ou images). Un score d'inférence élevé est essentiel pour un fonctionnement fluide et économique d'applications telles que les chatbots ou les générateurs d'art IA.

L'entraînement (ou le réglage fin) mesure l'efficacité de la personnalisation d'un modèle existant avec vos propres données. Un score d'entraînement élevé est important si vous devez créer rapidement et à moindre coût des modèles spécialisés.

Performances textuelles (mesurées en jetons/$) : ces scores sont pertinents pour les charges de travail linguistiques. Choisissez un GPU avec des scores textuels élevés pour des tâches telles que l’exécution de grands modèles de langage (LLM), la création de contenu et la génération de code.

Performances d'image (mesurées en images/$) : ces scores sont pertinents pour les charges de travail visuelles. Choisissez un GPU avec des scores d'image élevés pour des tâches telles que la génération d'images IA, la reconnaissance d'objets ou la création de données d'images synthétiques.

Modèles de GPU

B200 SXM

Performances de référence

Spécifications techniques

Tarification des fournisseurs par région

FAQ

Comment choisir le meilleur GPU cloud pour ma tâche spécifique ?

Quelle est la différence entre une instance GPU Cloud et un GPU sans serveur ?

Quelles sont les principales entreprises qui produisent ces puces d'IA ?

Dois-je acheter mes propres cartes graphiques ou les louer auprès d'un fournisseur de services cloud ?

Que signifie un score de référence comme « Inférence (2465M tokens/$) » ?

Quelle est la différence entre « inférence » et « entraînement » ?

Quelle est la différence entre les benchmarks « Texte » et « Image » ?