Wenn Sie bezüglich des GPU-Modells flexibel sind, ermitteln Sie die kostengünstigste Cloud-GPU anhand unseres Benchmarks von 10 GPU-Modellen in Szenarien zur Bild- und Textgenerierung und -feinabstimmung.
- Wenn Sie ein bestimmtes Modell bevorzugen (z. B. A100), ermitteln Sie den günstigsten GPU-Cloud-Anbieter, der dieses Modell anbietet.
- Wenn Sie sich zwischen einer On-Premise-Lösung und der Cloud nicht entscheiden können, sollten Sie prüfen, ob Sie GPUs in der Cloud kaufen oder mieten können .
- Oder lernen Sie unsere Cloud-GPU-Benchmark-Methodik kennen, um die kosteneffizienteste GPU zu ermitteln.
Preis pro Durchsatz für Cloud-GPUs
Zwei gängige Preismodelle für GPUs sind „On-Demand“- und „Spot“-Instanzen. Finden Sie die kostengünstigste GPU für Ihre Arbeitslast basierend auf den On-Demand-Preisen der drei größten Hyperscaler:
Cloud GPU Throughput & Prices
Updated on May 6, 2026
Verda Cloud
Verda Cloud
Verda Cloud
Verda Cloud
Amazon Web Services
Microsoft Azure
Verda Cloud
Verda Cloud
Google Cloud Platform
Amazon Web Services
Microsoft Azure
Latitude
Einzelheiten finden Sie in der Methodik für Cloud-GPU-Benchmarks .
On-Demand ist das unkomplizierteste Preismodell. Sie bezahlen die Rechenkapazität stunden- oder sekundengenau, je nachdem, was Sie nutzen, ohne langfristige Verpflichtungen oder Vorauszahlungen.
Diese Instanzen eignen sich für Nutzer, die die Flexibilität einer Cloud-GPU-Plattform ohne Vorabzahlungen oder langfristige Vertragsbindung bevorzugen. On-Demand-Instanzen sind in der Regel teurer als Spot-Instanzen, bieten aber garantierte, unterbrechungsfreie Kapazität.
On-Demand-GPUs von anderen Cloud-Anbietern
* Speicher und GPU-Modell sind nicht die einzigen Parameter. CPUs und RAM können ebenfalls wichtig sein, sind aber nicht die primären Kriterien für die Leistung von Cloud-GPUs. Daher haben wir der Einfachheit halber die Anzahl der CPUs und des RAM in diesen Tabellen nicht aufgeführt.
** Der Trainingsdurchsatz ist eine gute Metrik zur Messung der relativen GPU-Effektivität. Er misst die Anzahl der Token, die die GPU pro Sekunde für ein Sprachmodell (z. B. bert_base_squad) verarbeitet. 1 Bitte beachten Sie, dass diese Durchsatzwerte lediglich als grobe Richtwerte dienen. Dieselbe Hardware würde für Ihre Arbeitslast einen deutlich anderen Durchsatz aufweisen, da selbst zwischen LLMs, die auf derselben Hardware laufen, erhebliche Durchsatzunterschiede bestehen. 2
*** Ausgenommen sind Kosten für Speicherung, Netzwerkleistung, eingehenden/ausgehenden Datenverkehr usw. Dies sind nur die GPU-Kosten. 3
Spot-GPUs
In all diesen Tabellen zum Durchsatz pro Dollar:
- Es werden nicht alle möglichen Konfigurationen aufgeführt; enthalten sind eher die gebräuchlichen, auf Deep Learning ausgerichteten Konfigurationen.
- Wo möglich, wurden die Regionen im Westen oder im Zentrum der USA herangezogen.
- Dies sind die Listenpreise für jede Kategorie. Abnehmer größerer Mengen erhalten möglicherweise bessere Preise.
Abschließend ist es sinnvoll zu klären, was „Spot“ bedeutet. Spot-Ressourcen sind:
- Da die Ausführung unterbrechbar ist , müssen Nutzer ihren Fortschritt kontinuierlich protokollieren. Beispielsweise gehört Amazon EC2 P3, das V100 32 GB bereitstellt, zu den Amazon-Spot-Diensten mit den häufigsten Unterbrechungen. 4
- Die Verfügbarkeit dieser GPU-Ressourcen erfolgt dynamisch und marktorientiert . Der Preis kann je nach Angebot und Nachfrage schwanken, und Nutzer geben in der Regel Gebote für die verfügbare Spot-Kapazität ab. Liegt das Gebot eines Nutzers über dem aktuellen Spot-Preis, werden die angeforderten Instanzen ausgeführt.
Die Mietpreise für GPUs sind Anfang 2026 aufgrund von Nachfragespitzen gestiegen, und selbst ältere GPU-Generationen sind nur schwer verfügbar. Nvidia-CEO Jensen Huang merkte im Januar 2026 an, dass die Mietpreise für GPUs auf dem Spotmarkt über alle Generationen hinweg stark ansteigen, nicht nur bei den neuesten Modellen. 5
Kosten und Verfügbarkeit von Cloud-GPUs
Sortiert nach dem niedrigsten Preis. Weitere kostengünstige Optionen finden Sie auf Marktplätzen für Cloud-GPUs .
Im Januar 2026 erhöhte AWS die Preise für seine High-End-GPU-Instanzen um etwa 15 %, insbesondere für die EC2 P5e 48xlarge-Instanzen, die mit 8 NVIDIA H200 GPUs ausgestattet sind. 6
GPU-Verfügbarkeit
Geben Sie das gewünschte Modell in das Suchfeld ein, um alle Cloud-Anbieter zu ermitteln, die es anbieten:
*** Preis pro Grafikkarte (in US-Dollar). Speicherkosten, Netzwerkleistung, Datenübertragungsraten usw. sind nicht enthalten. Es handelt sich lediglich um die Kosten für die Grafikkarte.
**** Berechnete Werte. Dies war erforderlich, wenn keine einzelnen GPU-Instanzen verfügbar waren. 7 8
Weitere Überlegungen zu Cloud-GPUs
Verfügbarkeit : Aufgrund von Kapazitätsengpässen bei den Cloud-Anbietern und der steigenden Nachfrage nach generativer KI sind möglicherweise nicht alle oben aufgeführten GPUs verfügbar.
Datensicherheit : Cloud-GPU-Marktplätze wie Vast.ai bieten zwar deutlich niedrigere Preise, doch je nach angeforderter Ressource kann die Datensicherheit der Workload beeinträchtigt sein, da Hosts Zugriff auf die Workloads erhalten. Da wir den GPU-Bedarf von Unternehmen priorisiert haben, wurde Vast.ai in diesem Benchmark nicht berücksichtigt.
Benutzerfreundlichkeit : Die Qualität der Dokumentation ist ein subjektives Kriterium, doch Entwickler bevorzugen die Dokumentation mancher Cloud-Anbieter gegenüber anderen. In dieser Diskussion wurde die Dokumentation von GCP im Vergleich zu anderen großen Technologieunternehmen als qualitativ minderwertig eingestuft. 9
Vertrautheit : Obwohl Cloud-Anbieter großen Wert auf Benutzerfreundlichkeit legen, ist ein gewisser Lernaufwand erforderlich. Daher verfügen große Cloud-Anbieter über Zertifizierungssysteme. Bei kleinen Arbeitslasten können die Kosteneinsparungen durch einen Billiganbieter daher geringer sein als die Opportunitätskosten der Lernzeit, die ein Entwickler für die Nutzung des Cloud-GPU- Angebots benötigt.
Kostenoptimierung: GPU-Pooling-Technologien können die Nutzung und die Kosten von Cloud-GPUs erheblich reduzieren, indem Rechenressourcen über mehrere Modelle hinweg geteilt werden.
Das Aegaeon-System von Alibaba behauptet, die Nutzung von NVIDIA-GPUs beim Bereitstellen von LLMs um 82 % zu reduzieren. Dies wird durch automatische Skalierung auf Token-Ebene erreicht, die es den GPUs ermöglicht, während der Generierung zwischen Modellen zu wechseln, anstatt auf den Abschluss vollständiger Antworten zu warten.
Während einer dreimonatigen Beta-Phase auf dem Marktplatz von Alibaba Cloud reduzierte Aegaeon die Anforderungen an H2O-GPUs von 1.192 auf 213, während gleichzeitig Dutzende von Modellen mit bis zu 72 Milliarden Parametern bedient wurden. Einzelne GPUs unterstützten dabei bis zu 7 Modelle, und die Schaltlatenz sank um 97 %. 10
Multi-Cloud-Orchestrierung: Shopify verwendet portable Schnittstellen über verschiedene Clouds hinweg, setzt Kostenverantwortung und Kontingente über YAML-Konfigurationsdateien mit Kostenkontingenten durch und nutzt Orchestrierungstools wie SkyPilot sowohl für Schulungs- als auch für interaktive GPU-Entwicklungsumgebungen. 11
GPUs kaufen oder Cloud-GPUs mieten
Kaufen macht Sinn
- Wenn Ihr Unternehmen über das Know-how und die Präferenz verfügt , die Server selbst zu hosten oder in Colocation-Rechenzentren untergebrachte Server zu verwalten .
- Für unterbrechungsfreie Arbeitslasten : Für die Anzahl der GPUs, für die Sie eine hohe Auslastung (z. B. mehr als 80 %) über ein Jahr oder länger gewährleisten können. 12
- Bei unterbrechbaren Arbeitslasten : Die oben genannte Periode hoher Auslastung muss um ein Vielfaches länger sein, da On-Demand-Preise (unterbrechungsfreies Rechnen) in der Regel um ein Vielfaches teurer sind als Spot-Preise (unterbrechbares Rechnen).
Für Unternehmen mit hohem GPU-Aufkommen empfehlen wir eine Kombination aus eigenen und gemieteten GPUs. Garantierte Nachfrage wird auf eigenen GPUs abgedeckt, variable Nachfrage in der Cloud. Aus diesem Grund bauen Technologiekonzerne wie Facebook eigene GPU-Cluster mit Hunderten von GPUs auf. 13
Käufer könnten in Versuchung geraten, Consumer-GPUs in Betracht zu ziehen, die ein besseres Preis-Leistungs-Verhältnis bieten; allerdings verbietet die EULA ihrer Software deren Einsatz in Rechenzentren. 14 Daher eignen sie sich nicht gut für maschinelles Lernen, außer für geringfügige Testlasten auf den Rechnern von Datenwissenschaftlern.
Leistungsvergleich von Cloud-Anbietern
Um zu verstehen, ob die Wahl eines Cloud-Anbieters die Leistung identischer Hardware beeinflusst, haben wir einen spezifischen Benchmark auf der AMD MI300X 192 GB GPU durchgeführt und dabei die gleichen Text- und Bildgenerierungs-Workloads sowohl auf Digital Ocean als auch auf Runpod ausgeführt.
Unsere Ergebnisse zeigen, dass die Leistung zwar im Großen und Ganzen ähnlich ist, es aber kleinere, messbare Unterschiede gibt, wie die folgende Grafik zeigt:
Wichtigste Beobachtungen:
- Bei der Textgenerierung konnte Digital Ocean einen etwas höheren Durchsatz erzielen und verarbeitete etwa 0,4 % mehr Token pro Sekunde.
- Im Gegensatz dazu zeigte Runpod bei der Bildgenerierung einen geringfügigen Vorteil und verarbeitete etwa 0,4 % mehr Bilder pro Sekunde.
Diese kleinen Abweichungen sind wahrscheinlich auf Unterschiede in der Serverarchitektur, der Netzwerkinfrastruktur oder den spezifischen Virtualisierungs- und Treiberkonfigurationen des Anbieters zurückzuführen.
Auch wenn dieser Unterschied nicht für alle Anwendungsfälle entscheidend sein mag, verdeutlicht er doch, dass bei Arbeitslasten, die eine maximale Optimierung erfordern, die Wahl des Cloud-Anbieters ein relevanter Faktor für die Leistungsoptimierung sein kann, selbst wenn dasselbe GPU-Modell verwendet wird.
Cloud-GPU-Benchmark-Methodik
Preise: Die Preise für Cloud-GPUs werden monatlich aktualisiert.
Dieser Abschnitt beschreibt die Methodik zur Messung der Leistungsfähigkeit und Kosteneffizienz unserer Cloud-GPU-Benchmarks. Sofern nicht anders angegeben, wurde in allen Tests eine 4-Bit-Gleitkomma-Quantisierung verwendet.
Text-Feinabstimmung (Durchsatz)
Diese Metrik misst die reine Verarbeitungsgeschwindigkeit beim Training eines Sprachmodells, berechnet in Token pro Sekunde. Sie beantwortet die Frage: „Wie viele Token kann diese GPU pro Sekunde während des Feinabstimmens verarbeiten?“
- Modell: Llama 3.2
- Datensatz: Die ersten 5.000 Konversationen aus dem FineTome-Datensatz.
- Vorgehen: Das Modell wurde über 5 Epochen mit insgesamt 1 Million Token feinabgestimmt.
- Berechnung: Der Durchsatz wird berechnet als (Gesamtanzahl Token * Anzahl der Epochen) / Gesamte Feinabstimmungszeit. Die endgültige Metrik sind Token pro Sekunde (Token/s) .
- Framework: Unsloth
Textoptimierung (Effizienz)
Diese Kennzahl misst die Kosteneffizienz der Feinabstimmung, berechnet in Token pro Dollar. Sie beantwortet die Frage: „Wie viele Token können für jeden in diese GPU investierten Dollar verarbeitet werden?“
- Berechnung: Dieser Wert wird aus dem Durchsatztest abgeleitet. Er wird berechnet, indem die Gesamtzahl der verarbeiteten Token durch die stündlichen Kosten der GPU-Instanz dividiert wird. Die endgültige Kennzahl ist Token pro Dollar (Token/$) .
Textinferenz (Durchsatz)
Diese Kennzahl misst die reine Geschwindigkeit der Textgenerierung mit einem trainierten Modell, berechnet in Token pro Sekunde. Sie ist für Echtzeitanwendungen von entscheidender Bedeutung.
- Vorgehen: Insgesamt wurden 1 Million Token generiert, einschließlich Input- und Output-Token.
- Berechnung: Der Durchsatz wird berechnet, indem die Gesamtzahl der Token durch die Gesamtdauer geteilt wird. Die endgültige Kennzahl sind Token pro Sekunde (Token/s) .
- Framework: llama-cpp-python
Textinferenz (Effizienz)
Diese Kennzahl misst die Kosteneffizienz der Textgenerierung, berechnet in Token pro Dollar.
- Berechnung: Dieser Wert wird aus dem Inferenztest abgeleitet. Er wird berechnet, indem die Gesamtzahl der generierten Token durch die stündlichen Kosten der GPU-Instanz dividiert wird. Die endgültige Kennzahl lautet Token pro Dollar (Token/$) .
Bildfeinabstimmung (Durchsatz)
Diese Kennzahl misst die Rohverarbeitungsgeschwindigkeit beim Training eines Bilderkennungsmodells, berechnet in Bildern pro Sekunde.
- Modell: YOLOv9
- Datensatz: 100 Bilder aus dem SkyFusion-Datensatz.
- Vorgehen: Das Modell wurde mit diesem Datensatz über 4 Epochen trainiert.
- Berechnung: Die Leistung wird in Bildern pro Sekunde (Bild/s) gemessen, die während des Trainings verarbeitet werden.
- Framework: Unsloth
Bildfeinabstimmung (Effizienz)
Diese Kennzahl misst die Kosteneffizienz des Trainings eines Bildmodells, berechnet in Bildern pro Dollar.
- Berechnung: Dieser Wert wird aus dem Bildfeinabstimmungstest abgeleitet. Er wird berechnet, indem die Gesamtzahl der verarbeiteten Bilder durch die stündlichen Kosten der GPU-Instanz dividiert wird. Die endgültige Kennzahl lautet Bilder pro Dollar (Bild/$) .
Bildinferenz (Durchsatz)
Diese Kennzahl misst die Rohgeschwindigkeit der Bildanalyse mit einem trainierten Modell, berechnet in Bildern pro Sekunde.
- Modell: Das YOLOv9-Modell, feinabgestimmt mit dem oben beschriebenen Verfahren.
- Datensatz: Ungefähr 500 Bilder mit einer Auflösung von 640×640.
- Berechnung: Die Leistung wird anhand der Anzahl der Bilder pro Sekunde (Bild/s) gemessen, die das Modell verarbeiten kann.
Bildinferenz (Effizienz)
Diese Kennzahl misst die Kosteneffizienz der Bildanalyse, berechnet in Bildern pro Dollar.
- Berechnung: Dieser Wert wird aus dem Bildinferenztest abgeleitet. Er wird berechnet, indem die Gesamtzahl der verarbeiteten Bilder durch die stündlichen Kosten der GPU-Instanz dividiert wird. Die endgültige Kennzahl lautet Bilder pro Dollar (Bild/$) .
Nächste Schritte:
- Die Häufigkeit der Datenerfassung wird erhöht.
- Wir werden die GPU-Abdeckung erhöhen, mehr Metriken einbeziehen und unsere Leistungsmessung im Laufe der Zeit aktualisieren.
Was sind die besten Cloud-GPU-Hardwarekomponenten?
AMD setzt seine GPUs der Instinct MI450-Serie mit CDNA-4-Architektur und die Helios-Rack-Plattform ein, um mit NVIDIA bei umfangreichen KI-Trainings- und Inferenz-Workloads zu konkurrieren. Im Februar 2026 kündigte Meta eine mehrjährige Partnerschaft zur Bereitstellung von bis zu 6 Gigawatt AMD Instinct-GPUs an – ein historisch umfangreiches Projekt. 15
NVIDIAs kommende Rubin-Architektur (z. B. NVL-144 Rubin GPU) nutzt NVLink 6 und HBM4-Speicher für Cloud-Trainings-Workloads. Aufgrund von Exportbeschränkungen mieten chinesische KI-Unternehmen Berichten zufolge Rubin-GPU-Instanzen über ausländische Cloud-Anbieter, um auf die Hardware zugreifen zu können. 16
Um Cloud-GPU-Anbieter zu sehen, die Nicht-Nvidia-GPUs anbieten, sehen Sie sich bitte die Liste der Cloud-GPU-Anbieter an.
Lesen Sie mehr über alle KI-Chips/Hardware .
Was sind Cloud-GPU-Marktplätze?
Dezentrale Cloud-Marktplätze wie Salad, Vast.ai und Clore.ai bieten über ein Marktplatzmodell Zugriff auf dezentrale GPU-Rechenleistung. Nutzer mit ungenutzter Hardware können ihre GPUs zur Miete anbieten, während diejenigen, die GPU-Leistung benötigen, aus verfügbaren Ressourcen zu unterschiedlichen Preisen auswählen können. Diese Plattformen ermöglichen die Verbindung von Angebot und Nachfrage, ohne auf zentralisierte Cloud-Anbieter angewiesen zu sein. Sie bieten kostengünstige und flexible Lösungen für GPU-intensive Aufgaben.
- Salad : ein dezentrales Netzwerk für Aufgaben wie KI-Training oder Krypto-Mining mit Fokus auf Benutzerbelohnungen und Benutzerfreundlichkeit.
- Vast.ai : Verbindet GPU-Anbieter mit Nutzern, die kostengünstige und skalierbare Rechenressourcen benötigen. Der Fokus liegt auf KI- und Machine-Learning-Anwendungen.
- Clore.ai : Ein verteilter Marktplatz für Cloud-GPUs mit Fokus auf KI- und HPC-Workloads.
- Kryptex : Eine Plattform, die es Nutzern ermöglicht, Kryptowährung zu verdienen, indem sie ihre GPUs vermieten. Der Schwerpunkt liegt auf Aufgaben wie Krypto-Mining oder der Durchführung komplexer Berechnungen.
Was sind die führenden Cloud-GPU-Plattformen?
Die führenden Cloud-GPU-Anbieter sind:
- AWS
- Microsoft Azure
- CoreWeave
- Google Cloud Platform (GCP)
- IBM Cloud
- Jarvis Labs
- Lambda Labs
- Oracle Cloud Infrastructure (OCI)
- Paperspace CORE von DigitalOcean
- Runpod.io
- Crusoe Cloud
Wenn Sie sich bezüglich Cloud-GPUs nicht sicher sind, sollten Sie andere Optionen wie Serverless-GPUs in Betracht ziehen.
Anmerkungen
Cloud-Anbieter aktualisieren ständig ihr Angebot, daher wird auch diese Studie ständig aktualisiert.
FAQs
Im Gegensatz zu einer CPU, die über eine relativ geringe Anzahl von Kernen verfügt, die für die sequentielle serielle Verarbeitung optimiert sind, kann eine GPU Hunderte oder sogar Tausende von kleineren Kernen besitzen, die für Multithreading und die Bearbeitung paralleler Verarbeitungslasten ausgelegt sind.
Eine Cloud-GPU ermöglicht den Fernzugriff auf GPU-Rechenressourcen über die Cloud und macht lokale Hardware überflüssig. Ähnlich wie herkömmliche Cloud-Dienste bietet eine Cloud-GPU bedarfsgerechten Zugriff auf Hochleistungsrechenressourcen, ohne dass Vorabinvestitionen in Hardware erforderlich sind.
Maschinelles Lernen und KI
GPUs eignen sich besonders gut für die komplexen Berechnungen, die für Modelle des maschinellen Lernens (ML) und der künstlichen Intelligenz (KI) erforderlich sind. Sie können mehrere Berechnungen parallel durchführen und sind daher ideal für das Training großer neuronaler Netze und Algorithmen.
– Deep Learning: Deep Learning ist ein Teilgebiet des maschinellen Lernens. Deep-Learning-Workloads, insbesondere das Training und die Inferenz großer Modelle, sind der Haupttreiber der Nachfrage nach Cloud-GPUs.
Datenverarbeitung
– Datenanalyse : GPUs werden zur Beschleunigung von Rechen- und Datenverarbeitungsaufgaben eingesetzt, beispielsweise bei Big-Data-Analysen und Echtzeitanalysen. Sie können parallele Verarbeitungsaufgaben mit hohem Durchsatz effizienter bewältigen als CPUs.
– Wissenschaftliches Rechnen: In der wissenschaftlichen Forschung können Cloud-GPUs Berechnungen für Simulationen, Bioinformatik, Quantenchemie, Wettermodellierung und mehr durchführen.
Gaming & Unterhaltung
Cloud-GPUs werden für Cloud-Gaming-Dienste wie Googles Stadia oder NVIDIAs GeForce Now eingesetzt. Dabei läuft das Spiel auf einem Server in der Cloud, und die gerenderten Bilder werden an das Gerät des Spielers gestreamt. Dies ermöglicht qualitativ hochwertiges Gaming ohne die Notwendigkeit eines leistungsstarken lokalen Rechners.
– Grafikrendering: GPUs wurden ursprünglich für die Computergrafik entwickelt und sind in diesem Bereich nach wie vor hervorragend. Cloud-GPUs werden für 3D-Modellierung und -Rendering, 3D-Visualisierungen, Virtual Reality (VR), computergestütztes Design (CAD) und computergenerierte Bilder (CGI) eingesetzt.
– Videoverarbeitung: Sie werden bei der Videocodierung und -decodierung, der Videobearbeitung, der Farbkorrektur, dem Rendern von Effekten und anderen Videoverarbeitungsaufgaben eingesetzt.
Kryptowährungs-Mining
GPUs werden auch für Aufgaben wie das Mining von Kryptowährungen eingesetzt. Anwendungsspezifische integrierte Schaltungen (ASICs) bieten jedoch für die gängigeren Kryptowährungen eine bessere Wirtschaftlichkeit.
Kommentare 2
Teilen Sie Ihre Gedanken
Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.
Cem - great article, I'd love to pick your brain on private networking or direct connects to these GPU instances.
Hi Ashley, thank you! Sure, happy to chat.
Hi there, fantastic article and very well-researched. Would you mind checking out Dataoorts at https://dataoorts.com
Sure, we'll review to see if we can include Dataoorts in the next edit.