Why does the same provider list the same GPU model at multiple prices?

A single GPU model name often covers multiple physical SKUs. H100 ships in PCIe, SXM, SXM5, and NVL variants at different prices and interconnect bandwidths. A100 ships at 40GB and 80GB VRAM; V100 ships at 16GB and 32GB. Within a provider, the listed rate also varies by host CPU class, bundled RAM and storage, and region. The pricing tables above split SKUs by interconnect and VRAM where the source data allows, so each row is a single physical card rather than a model-name aggregate.

How do I read the throughput-per-dollar number in the component above?

The component runs a fixed workload (image or text generation, finetuning, or inference) on each GPU instance and divides the total output by the instance's hourly cost. A higher number is cheaper per output for that workload. The ranking shifts with the workload: A card optimized for FP8 inference can outrank a higher-VRAM card on text generation but lose on a large image-model finetune. Pick the workload tab that matches your job before reading the leaderboard.

How often are these prices updated?

The pricing tables refresh on a monthly catalog crawl.

Diese Forschung Zitieren

Cloud GPU Preisgestaltung, Leistung & Anbietervergleich

Cem Dilmegani

mit

Ekrem Sarı

aktualisiert am 17. Juni 2026

Siehe unsere ethischen Normen

Diese Forschung Zitieren

Die Listenpreise für Cloud GPU desselben Modells können je nach Anbieter um ein Vielfaches variieren. Wir haben den niedrigsten Tarif, den Anbieter, die Marktbreite und den Median für 40+ GPU-Konfigurationen über alle drei Preisklassen hinweg sowie einen Durchsatz-pro-Dollar-Benchmark für 10 Modelle zusammengestellt.

Cloud GPU Preis pro Durchsatz

Sehen Sie sich die kosteneffizienteste GPU für Ihren Workload bei 13 Hyperscaler- und Neocloud-Anbietern an, sortiert nach Durchsatz pro Dollar:

Details finden Sie unter Cloud GPU Benchmark-Methodik.

On-Demand ist das einfachste Preismodell, bei dem Sie je nach Nutzung die Rechenkapazität stunden- oder sekundenweise bezahlen, ohne langfristige Verpflichtungen oder Vorauszahlungen.

Diese Instanzen werden Benutzern empfohlen, die die Flexibilität einer Cloud GPU-Plattform ohne Vorauszahlung oder langfristige Verpflichtung bevorzugen. On-Demand-Instanzen sind in der Regel teurer als Spot-Instanzen, bieten jedoch eine garantierte, unterbrechungsfreie Kapazität.

On-Demand Cloud GPU Preise

Anbieter	GPU	Niedrigster $/Std.	Spanne ($/Std.)	Median ($/Std.)
IONOS	RTX PRO 6000 96GB	$1,79	$0,96 – $17,27	$1,60
IONOS	Tesla T4 16GB	$0,82	$0,20 – $4,35	$0,98
IONOS	A10 24GB	$0,96	$0,82 – $4,52	$1,80
IONOS	Intel Flex 170 16GB	$1,04	NA	NA
Vast.ai	P100 16GB	$0,08	$0,08 – $2,22	$1,65
Vast.ai	V100 16GB	$0,09	$0,09 – $4,22	$2,57
Salad	RTX A5000 24GB	$0,11	$0,11 – $1,42	$0,26
Salad	RTX 3090 24GB	$0,11	$0,11 – $0,53	$0,19
Vast.ai	RTX A4000 16GB	$0,11	$0,11 – $0,88	$0,19
Salad	RTX 4080 16GB	$0,13	$0,13 – $0,26	$0,20

Rangfolge: Sponsoren sind verlinkt und an der Spitze der Tabelle hervorgehoben. Die verbleibenden Zeilen sind in aufsteigender Reihenfolge nach dem niedrigsten On-Demand-Preis sortiert. Die Spanne zeigt die Streuung zwischen dem niedrigsten und dem höchsten Listenpreis für dasselbe SKU bei allen Anbietern. Der Median ist die Mitte der Preisverteilung über alle Einträge für dieses SKU und dient als Fair-Market-Anker. Die Preise spiegeln den neuesten wöchentlichen Katalog-Refresh wider.

On-Demand ist das Standardmietmodell, Pay-per-Hour, keine Verpflichtung, Kapazität garantiert, solange Sie die Instanz laufen lassen. Es ist die teuerste Stufe, aber die einzige ohne Kompromisse.

Spot Cloud GPU Preise

Anbieter	GPU	Niedrigster $/Std.	Spanne ($/Std.)	Median ($/Std.)
Vast.ai	RTX A4000 16GB	$0,05	$0,05 – $0,15	$0,10
Vast.ai	RTX A5000 24GB	$0,07	$0,07 – $0,23	$0,23
Vast.ai	V100 16GB	$0,07	$0,07 – $0,54	$0,39
Vast.ai	RTX 4090 24GB	$0,07	$0,07 – $0,73	$0,29
Vast.ai	P100 16GB	$0,07	$0,07 – $0,30	$0,24
Vast.ai	RTX 3090 24GB	$0,08	$0,08 – $0,27	$0,14
Microsoft Azure	T4 16GB	$0,10	$0,10 – $0,72	$0,30
Vast.ai	RTX PRO 6000 96GB	$0,14	$0,14 – $1,67	$0,80
Google Cloud	L4 24GB	$0,14	$0,14 – $0,46	$0,26
Vast.ai	RTX A6000 48GB	$0,20	$0,20 – $0,40	$0,38

Rangfolge: Zeilen sind nach dem niedrigsten Spot-Preis in aufsteigender Reihenfolge sortiert. Spot-Kapazität ist unterbrechbar. Der Median ist die Mitte der Spot-Preisverteilung für dieses SKU.

Spot-Kapazität ist unterbrechbar; der Anbieter kann die Instanz mit wenig oder keiner Vorwarnung zurückfordern, normalerweise wenn die On-Demand-Nachfrage stark ansteigt. Spot-Raten liegen in der Regel 30-60% unter On-Demand beim selben Anbieter. Verwenden Sie Spot für checkpointierbares Training, Batch-Inferenz und Evaluierungsjobs, die Neustarts tolerieren. Vermeiden Sie es für latenzsensitive Inferenz oder Single-Replica-Dienste ohne Failover.

Reservierte Cloud GPU Preise (1-Jahr)

Anbieter	GPU	Niedrigster $/Std.	Spanne ($/Std.)	Median ($/Std.)
Hyperstack	RTX A4000 16GB	$0,11	$0,11 – $0,35	$0,27
Vast.ai	RTX 3090 24GB	$0,13	$0,13 – $0,43	$0,20
Database Mart	K80 24GB	$0,18	$0,18	$0,18
Database Mart	P100 16GB	$0,18	$0,18 – $2,03	$1,04
Runpod	RTX A5000 24GB	$0,20	$0,20 – $0,52	$0,42
Google Cloud	T4 16GB	$0,21	$0,21 – $2,74	$0,53
Runpod	A40 48GB	$0,22	$0,22 – $0,53	$0,32
Vast.ai	RTX 4090 24GB	$0,26	$0,26 – $0,76	$0,40
Database Mart	V100 16GB	$0,28	$0,28 – $3,64	$1,94
Vast.ai	RTX 5090 32GB	$0,32	$0,32 – $0,93	$0,78

Rangfolge: Zeilen sind nach dem niedrigsten 1-Jahres-Reservierungspreis in aufsteigender Reihenfolge sortiert. Reservierungen sichern die Kapazität für die Laufzeit. Der Median ist die Mitte der Reservierungspreisverteilung für dieses SKU.

Reservierungen sichern die Kapazität für einen festen Zeitraum im Austausch für einen Rabatt gegenüber On-Demand. Ein-Jahres-Verträge liegen in der Regel 20-40% unter dem On-Demand-Listenpreis desselben Anbieters. In einigen Fällen fallen die Reservierungsraten unter Spot, da der reservierende Anbieter das Inventar vollständig vom Spot-Markt isoliert.

Cloud-Anbieter Leistungsvergleich

Dasselbe GPU-Modell kann je nach Anbieter aufgrund der Wahl des Host CPU, des Netzwerk-Fabric, der Treiberkonfiguration und des Virtualisierungsaufwands leicht unterschiedlich performen. Um dies zu quantifizieren, haben wir identische Text- und Bildgenerierungs-Workloads auf AMD MI300X 192GB bei DigitalOcean und Runpod ausgeführt:

Wichtige Beobachtungen:

Für Textgenerierung zeigte Digital Ocean einen leicht höheren Durchsatz und verarbeitete etwa 0,4% mehr Tokens pro Sekunde.
Umgekehrt zeigte Runpod bei der Bildgenerierung einen marginalen Vorteil und verarbeitete etwa 0,4% mehr Bilder pro Sekunde.

Die Lücke ist für die meisten Workloads so gering, dass sie keine Rolle spielt. Für latenzkritische Inferenz oder groß angelegtes Training, bei dem jeder Prozentpunkt über Millionen von Inferenzen hinweg anwächst, sollten Sie die spezifische Anbieterkonfiguration vor der Verpflichtung zu einer langen Reservierung testen.

Verpassen Sie nicht unsere Benchmarks und datengestützten Erkenntnisse. Die Schaltfläche öffnet Google; die Auswahl von AIMultiple bestätigt, dass Sie AIMultiple häufiger in den Google-Suchergebnissen sehen möchten.

Als bevorzugte Quelle hinzufügen

Vor Ort kaufen oder in der Cloud mieten

Der Besitz macht Sinn, wenn der Workload vorhersehbar ist, das Team über das operative Know-how verfügt und die Hardwareauslastung über die gesamte Nutzungsdauer der GPU bei über ~70% liegt. Bei variabler Nachfrage, Trainingsspitzen oder Produktexperimenten gewinnt Cloud-Miete an Kapital-effizienz und Skalierungsflexibilität. Die Break-even-Marke liegt bei etwa 12-monatiger Auslastung: Über 70% schlägt Reservierung oder eigener Besitz fast immer On-Demand; unter 50% gewinnt Spot oder On-Demand an Flexibilität; die mittlere Bandbreite hängt davon ab, wie viel Kapazitätsstörung Ihr Workload toleriert.

Ein praktisches Muster im großen Maßstab: Besitzen Sie einen Basis-Cluster, der auf die Bedarfsnachfrage ausgelegt ist, und mieten Sie in der Cloud für Spitzen und explorative Arbeiten. Meta kündigte im Februar 2026 eine mehrjährige Partnerschaft an, um bis zu 6 Gigawatt AMD Instinct GPUs einzusetzen, was signalisiert, dass selbst Betreiber im Hyperscaler-Maßstab weiterhin eigene Kapazitäten ausbauen und gleichzeitig Cloud GPU für variable Workloads nutzen.

Consumer GPUs (RTX 4090, RTX 5090) liefern auf dem Papier den besten Preis pro FLOP, aber NVIDIA’s EULA schränkt ihre Nutzung in kommerziellen Rechenzentren ein. Sie bleiben nützlich für einzelne Workstations und Proof-of-Concept-Arbeiten, nicht für den produktiven Einsatz.

Cloud GPU Benchmark-Methodik

Durchsatz-Benchmarks verwenden 4-Bit-FP-Quantisierung bei allen Tests. Die Pipeline läuft:

Text-Feinabstimmung: Llama 3.2 auf den ersten 5.000 Gesprächen aus FineTome, 5 Epochen, 1M Tokens insgesamt, Unsloth-Framework. Durchsatz = (Tokens × Epochen) / Gesamtzeit.
Text-Inferenz: 1M Tokens generiert mit llama-cpp-python.
Bild-Feinabstimmung: YOLOv9 auf 100 Bildern von SkyFusion, 4 Epochen, Unsloth.
Bild-Inferenz: Feinabgestimmtes YOLOv9 auf ~500 Bildern bei 640×640.

Die Durchsatz-pro-Dollar-Metrik teilt den Workload-Ausgang durch die stündlichen Kosten der Instanz. Durchsatzwerte sind workloadspezifisch und dienen als relative Richtlinien; dieselbe Hardware wird auf Ihrem eigenen Modell einen materiell anderen Durchsatz liefern.

FAQs

Ein einzelner GPU-Modellname deckt oft mehrere physische SKUs ab. H100 wird in PCIe-, SXM-, SXM5- und NVL-Varianten zu unterschiedlichen Preisen und Verbindungsbandbreiten ausgeliefert. A100 wird mit 40GB und 80GB VRAM ausgeliefert; V100 wird mit 16GB und 32GB ausgeliefert. Innerhalb eines Anbieters variiert der angegebene Tarif auch nach Host CPU-Klasse, gebündeltem RAM und Speicher sowie Region. Die obigen Preistabellen trennen SKUs nach Verbindung und VRAM, wo die Quelldaten dies zulassen, sodass jede Zeile eine einzelne physische Karte und nicht eine Modellnamen-Aggregation darstellt.

Die Komponente führt einen festen Workload (Bild- oder Textgenerierung, Feinabstimmung oder Inferenz) auf jeder GPU-Instanz aus und teilt den Gesamtausgang durch die stündlichen Kosten der Instanz. Eine höhere Zahl ist für diesen Workload günstiger pro Ausgabe. Die Rangfolge ändert sich mit dem Workload: Eine Karte, die für FP8-Inferenz optimiert ist, kann bei der Textgenerierung eine Karte mit höherem VRAM übertreffen, aber bei einer Feinabstimmung eines großen Bildmodells verlieren. Wählen Sie den Workload-Tab, der zu Ihrem Job passt, bevor Sie die Rangliste lesen.

Die Preistabellen werden bei einem monatlichen Katalog-Crawl aktualisiert.

Weiterführende Literatur

Diese Forschung zitieren

Wählen Sie das Format, das zu Ihrem Veröffentlichungsort passt. Wenn Sie die Link-Version in Ihr CMS einfügen, bleibt der Backlink erhalten.

Cem Dilmegani and Ekrem Sarı (2026) - "Cloud GPU Preisgestaltung, Leistung & Anbietervergleich". Online veröffentlicht auf AIMultiple.com. Abgerufen am 17. Juni 2026, von: https://aimultiple.com/cloud-gpu-pricing [Online-Ressource]

Dilmegani, C., & Sarı, E. (2026, 17. Juni). Cloud GPU Preisgestaltung, Leistung & Anbietervergleich. AIMultiple. https://aimultiple.com/cloud-gpu-pricing

@misc{dilmegani2026,
  author = {Dilmegani, Cem and Sarı, Ekrem},
  title  = {{Cloud GPU Preisgestaltung, Leistung & Anbietervergleich}},
  year   = {2026},
  month  = jun,
  howpublished    = {\url{https://aimultiple.com/cloud-gpu-pricing}},
  note   = {AIMultiple. Abgerufen am 17. Juni 2026}
}

Cem Dilmegani

Leitender Analyst

Folgen auf

Cem ist seit 2017 leitender Analyst bei AIMultiple. AIMultiple informiert monatlich Hunderttausende von Unternehmen (laut similarWeb), darunter 55 % der Fortune 500. Cems Arbeit wurde von führenden globalen Publikationen wie Business Insider, Forbes und der Washington Post, von globalen Unternehmen wie Deloitte und HPE sowie von NGOs wie dem Weltwirtschaftsforum und supranationalen Organisationen wie der Europäischen Kommission zitiert. Weitere namhafte Unternehmen und Ressourcen, die AIMultiple referenziert haben, finden Sie hier. Im Laufe seiner Karriere war Cem als Technologieberater, Technologieeinkäufer und Technologieunternehmer tätig. Über ein Jahrzehnt lang beriet er Unternehmen bei McKinsey & Company und Altman Solon in ihren Technologieentscheidungen. Er veröffentlichte außerdem einen McKinsey-Bericht zur Digitalisierung. Bei einem Telekommunikationsunternehmen leitete er die Technologiestrategie und -beschaffung und berichtete direkt an den CEO. Darüber hinaus verantwortete er das kommerzielle Wachstum des Deep-Tech-Unternehmens Hypatos, das innerhalb von zwei Jahren von null auf einen siebenstelligen jährlichen wiederkehrenden Umsatz und eine neunstellige Unternehmensbewertung kam. Cems Arbeit bei Hypatos wurde von führenden Technologiepublikationen wie TechCrunch und Business Insider gewürdigt. Er ist ein gefragter Redner auf internationalen Technologiekonferenzen. Cem absolvierte sein Studium der Informatik an der Bogazici-Universität und besitzt einen MBA der Columbia Business School.

Vollständiges Profil anzeigen

Technisch geprüft von