Serverlose GPUs bieten einfach skalierbare Rechenleistungen für KI-Workloads. Bei großen Projekten können die Kosten jedoch erheblich sein. Navigieren Sie zu den für Ihre Bedürfnisse relevanten Abschnitten:
- Finden Sie die kostengünstigsten Anbieter nach Token pro Dollar
- Vergleichen Sie die Stundensätze aller großen Anbieter.
- Leistungsdaten für Inferenz- und Feinabstimmungsdurchsatz
Preis pro Durchsatz für serverlose GPUs
Serverlose GPU-Anbieter bieten unterschiedliche Leistungsstufen und Preismodelle für KI-Workloads. Vergleichen Sie die kosteneffektivsten GPU-Konfigurationen für Ihre Feinabstimmungs- und Inferenzanforderungen auf führenden serverlosen Plattformen:
Cloud GPU Throughput & Prices
Updated on May 6, 2026
Seeweb
Seeweb
Runpod
Koyeb
Runpod
Beamcloud
Koyeb
Modal
Runpod
Runpod
Koyeb
Modal
Serverless-GPU-Preisrechner
Serverless-GPU-Benchmark-Ergebnisse
Sie können mehr über unsere Benchmark-Methodik für serverlose GPUs lesen.
10 Serverless-GPU-Anbieter in die engere Wahl genommen
Die Unternehmen werden alphabetisch sortiert, da es sich bei diesem Bereich um ein aufstrebendes Gebiet handelt und nur begrenzte Daten verfügbar sind. Eine Ausnahme bilden die Sponsoren, die mit einem Link zu ihrer Website ganz oben in der Liste stehen.
RunPod
RunPod bietet vollständig verwaltete und skalierbare KI-Endpunkte für vielfältige Workloads. RunPod-Nutzer können zwischen GPU-Instanzen und serverlosen Endpunkten wählen und den BYOC-Ansatz (Bring Your Own Container) nutzen. Zu den RunPod-Funktionen gehören unter anderem:
- Ladevorgang durch Einfügen eines Containerlinks zum Abrufen eines Pods
- Ein kreditbasiertes Zahlungs- und Abrechnungssystem.
Baseten Labore
Baseten ist eine Infrastrukturplattform für maschinelles Lernen, die Nutzern hilft, Modelle verschiedener Größen und Typen aus der Modellbibliothek in großem Umfang bereitzustellen. Sie nutzt GPU-Instanzen wie A100, A10 und T4, um die Rechenleistung zu steigern.
Baseten stellt außerdem ein Open-Source-Tool namens Truss vor. Dieses Tool unterstützt Entwickler bei der Implementierung von KI/ML-Modellen in realen Anwendungsszenarien. Mit Truss können Entwickler:
- Paketieren und Testen des Modellcodes, der Gewichte und der Abhängigkeiten mithilfe eines Modellservers.
- Entwickeln Sie Ihr Modell mit schnellem Feedback von einem Live-Reload-Server und vermeiden Sie komplexe Docker- und Kubernetes-Konfigurationen.
- Unterstützt Modelle, die mit beliebigen Python-Frameworks erstellt wurden, seien es Transformer, Diffusoren, PyTorch, Tensorflow, XGBoost, sklearn oder sogar komplett benutzerdefinierte Modelle.
Strahlwolke
Beam, ehemals Slai, ermöglicht die einfache Bereitstellung von REST-APIs mit integrierten Funktionen wie Authentifizierung, Autoscaling, Protokollierung und Metriken. Beam-Nutzer können:
- Führen Sie GPU-basierte, langlaufende Trainingsaufgaben aus und wählen Sie zwischen einmaligem oder geplantem automatisiertem Nachtraining.
- Funktionen werden mit automatisierten Wiederholungsversuchen, Rückruffunktionen und Abfragen des Aufgabenstatus in einer Aufgabenwarteschlange bereitgestellt.
- Passen Sie die Regeln für die automatische Skalierung an, um die Wartezeiten für Benutzer zu optimieren.
Cerebrum AI
Cerebrium AI bietet eine vielfältige Auswahl an GPUs, darunter H100, A100 und A5000, insgesamt stehen über acht GPU-Typen zur Verfügung. Mit Cerebrium können Benutzer ihre Umgebung mithilfe von Infrastructure-as-Code definieren und direkt auf den Code zugreifen, ohne S3-Buckets verwalten zu müssen.
Falsche KI
FAL AI liefert sofort einsatzbereite Modelle mit API-Endpunkten zur Anpassung und Integration in Kundenanwendungen. Ihre Plattform unterstützt Serverless-GPUs wie A100 und T4.
Koyeb
Koyeb ist eine serverlose Plattform, die es Entwicklern ermöglicht, Anwendungen einfach und global bereitzustellen, ohne Server, Infrastruktur oder Betrieb verwalten zu müssen. Koyeb bietet serverlose GPUs mit Docker-Unterstützung und horizontaler Skalierung für KI-Aufgaben wie generative KI, Videoverarbeitung und LLMs. Das Angebot umfasst H100- und A100-GPUs mit bis zu 80 GB VRAM.
Die Preise liegen zwischen 0,50 $/Std. und 3,30 $/Std., abgerechnet wird sekundengenau.
Modal
Modal ist eine serverlose Cloud-Plattform, die es Entwicklern ermöglicht, Code remote auszuführen, Containerumgebungen programmatisch zu definieren und auf Tausende von Containern zu skalieren. Sie unterstützt GPU-Integration, Web-Endpoint-Serving, geplante Jobbereitstellung und verteilte Datenstrukturen wie Wörterbücher und Warteschlangen. Die Plattform arbeitet nach dem Pay-per-Sekunde-Modell und erfordert keine Infrastrukturkonfiguration; der Fokus liegt auf codebasierter Einrichtung anstelle von YAML.
Um Modal zu nutzen, registrieren sich Entwickler auf modal.com, installieren das Python-Paket Modal mit `pip install modal` und authentifizieren sich mit dem modal-Setup. Der Code läuft in Containern innerhalb der Modal-Cloud, wodurch die Infrastrukturverwaltung wie bei Kubernetes oder AWS abstrahiert wird. Aktuell ist die Unterstützung auf Python beschränkt, eine Erweiterung auf weitere Sprachen ist jedoch geplant.
Mystische KI
Die serverlose Plattform von Mystic AI ist ein Pipeline-Core, der ML-Modelle über eine Inferenz-API hostet. Mit dem Pipeline-Core lassen sich benutzerdefinierte Modelle mit über 15 Optionen erstellen, darunter GPT, Stable Diffusion und Whisper. Hier einige der Funktionen des Pipeline-Cores:
- Gleichzeitige Modellversionierung und Überwachung
- Umgebungsmanagement, einschließlich Bibliotheken und Frameworks
- Automatische Skalierung über verschiedene Cloud-Anbieter hinweg
- Unterstützung für Online-, Batch- und Streaming-Inferenz
- Integrationen mit anderen ML- und Infrastrukturtools.
Mystic AI bietet außerdem eine aktive Discord-Community für Support.
Novita KI
Novita AI ist eine Plattform, die Entwicklern die Erstellung fortschrittlicher KI-Produkte ohne tiefgreifende Kenntnisse im Bereich maschinelles Lernen ermöglicht. Sie bietet eine umfassende Suite von APIs und Tools für die Entwicklung von Anwendungen in verschiedenen Bereichen, darunter Bild-, Video-, Audio- und LLM-Aufgaben (Large Language Modeling).
Novita Das serverlose System von AI bietet automatische Skalierung, Bereitstellung mit DockerHub-Unterstützung und Echtzeitüberwachung.
Replicate
Die Plattform von Replicate unterstützt sowohl benutzerdefinierte als auch vortrainierte Modelle für maschinelles Lernen. Sie bietet eine Warteliste für Open-Source-Modelle und Flexibilität durch die Wahl zwischen Nvidia T4 und A100. Zudem beinhaltet sie die Open-Source-Bibliothek COG, die die Modellbereitstellung vereinfacht.
Seeweb
Seeweb ist ein Cloud-Computing-Anbieter, der serverlose GPU-Lösungen zur Optimierung von KI-Workloads anbietet. Diese Lösungen dienen Entwicklern als Einstiegspunkt, um gängige Modelle effizient in Python auszuführen, zu forken oder vorzutrainieren. Sie können Kubernetes nutzen, um die Bereitstellung zu beschleunigen.
Hauptmerkmale:
- Automatische Skalierung zur dynamischen Anpassung der Ressourcen, wodurch Kaltstarts bei serverlosen Funktionen reduziert werden.
- DSGVO-Konformität durch Betrieb in einer europäischen Cloud und Nutzung eines globalen Netzwerks für eine größere Reichweite.
- Rund-um-die-Uhr-Support an 365 Tagen im Jahr, um sicherzustellen, dass Benutzer zuverlässige Unterstützung bei der Verwaltung ihrer ML-Modelle erhalten.
Zu den mitgelieferten GPUs gehören A100, H100, L40S, L4 und RTX A6000.
Welche anderen Cloud-Anbieter gibt es?
Führende Cloud-Anbieter wie AWS und Azure bieten Serverless-Funktionalität, die derzeit keine GPUs unterstützt. Andere Anbieter wie Scaleway oder CoreWeave bieten GPU-Inferenz, aber keine Serverless-GPUs.
Erfahren Sie mehr über Cloud-GPU-Anbieter und den GPU-Markt.
Welche Vorteile bietet serverlose GPU?
LLMs wie ChatGPT sind seit dem letzten Jahr ein viel diskutiertes Thema in der Geschäftswelt. Daher hat die Anzahl dieser Modelle drastisch zugenommen. Die Vorteile von Serverless-GPUs helfen, einige Herausforderungen von LLMs zu vermeiden, wie zum Beispiel:
- Kosteneffizienz: Nutzer zahlen nur für die tatsächlich genutzten GPU-Ressourcen, was diese Lösung kostengünstig macht. Im Gegensatz dazu müssen Nutzer bei herkömmlichen Serverkonfigurationen für die laufende Ressourcenbereitstellung bezahlen.
- Skalierbarkeit: Serverlose Architekturen skalieren automatisch, um unterschiedliche Arbeitslasten zu bewältigen. Wenn der Ressourcenbedarf steigt oder sinkt, passt sich die Infrastruktur dynamisch und ohne manuelles Eingreifen an.
- Vereinfachtes Management: Entwickler können sich auf das Schreiben von Code für bestimmte Funktionen oder Aufgaben konzentrieren, da der Cloud-Anbieter die Serverbereitstellung, Skalierung und sonstige Infrastrukturverwaltung übernimmt.
- Bedarfsorientierte Ressourcenzuweisung: Die serverlose GPU-Architektur ermöglicht Anwendungen den bedarfsgerechten Zugriff auf GPU-Ressourcen. Dies vereinfacht die Verwaltung und Wartung physischer oder virtueller Server, die der GPU-Verarbeitung gewidmet sind. Die Ressourcen werden dynamisch anhand der Anwendungsanforderungen zugewiesen.
- Flexibilität: Entwickler können die Ressourcen je nach Bedarf ihrer Anwendungen skalieren. Diese Anpassungsfähigkeit ist besonders nützlich für Workloads mit unterschiedlichen Rechenanforderungen.
- Verbesserte Parallelverarbeitung: GPU-Computing eignet sich hervorragend für parallele Verarbeitungsaufgaben. Daher können serverlose GPU-Architekturen in Anwendungen eingesetzt werden, die einen hohen Bedarf an paralleler Berechnung haben, wie z. B. maschinelles Lernen, Datenverarbeitung und wissenschaftliche Simulationen.
Serverlose GPU-Benchmark-Methodik
Preise: Die Preise für Serverless-GPUs werden monatlich von allen Anbietern abgerufen.
Leistung:
- Die Leistung aller serverlosen GPU-Modelle wurde auf der Cloud-Plattform Modal gemessen.
- Die Textfeinabstimmung wurde anhand des FineTune-100k-Datensatzes mit Llama 3.2-1B-Instruct und 1 Million Token über 5 Epochen gemessen. Die Anzahl der pro Sekunde feinabgestimmten Token wurde aus der Anzahl der Token und der Anzahl der Epochen berechnet und durch die Feinabstimmungszeit dividiert.
- Die Textinferenz wurde anhand von über einer Million Token gemessen, einschließlich Eingabe- und Ausgabetoken. Wir teilten die Anzahl der Token durch die gesamte Inferenzdauer, um die durchschnittliche Anzahl der Token pro Sekunde zu berechnen.
Leistungsvergleich H200 vs. H100:
- Dass der H200 im Vergleich zum H100 eine geringere Feinabstimmungsleistung aufweist, mag angesichts seiner neueren Architektur und des größeren Speichers (141 GB gegenüber 80 GB) zunächst überraschend erscheinen. Mehrere Faktoren könnten zu diesem Ergebnis beitragen, darunter Unterschiede in der Speicherauslastung, im Reifegrad der Softwareoptimierung oder im Wärmemanagement unter Dauerlast.
- Dieser Benchmark verwendete ein relativ kleines 1-Milliarden-Parameter-Modell, das die zusätzliche Speicherkapazität des H200 möglicherweise nicht voll ausnutzt. Der Leistungsunterschied könnte bei größeren Modellen, die den erweiterten Speicher des H200 besser nutzen, deutlich abweichen.
- Die Leistung kann auch je nach spezifischen Arbeitslastmerkmalen, Batchgrößen und dem während des Tests verwendeten Software-Stack variieren.
Nächste Schritte:
- Wir planen, unsere Benchmarks auf größere Modelle (7B, 13B und 70B Parameter) auszuweiten, um besser zu verstehen, wie die Leistung mit der Modellgröße und dem Speicherbedarf skaliert.
- Zukünftige Tests werden Multi-GPU-Setups und Szenarien mit längerer Kontextlänge umfassen, in denen die architektonischen Vorteile von H200 deutlicher hervortreten könnten.
Wie man serverlose GPUs für ML-Modelle verwendet
In herkömmlichen Machine-Learning-Workflows stellen Entwickler und Data Scientists häufig dedizierte Server oder GPU-Cluster bereit und verwalten diese, um den Rechenaufwand für das Training komplexer Modelle zu bewältigen. Serverlose GPUs für Machine Learning beseitigen diese Komplexität der Infrastrukturverwaltung.
Bitte folgen Sie der nachstehenden Anleitung, um zu verstehen, wie Sie Serverless GPU in ML-Modellen verwenden:
- Trainingsmodelle: Serverlose GPUs ermöglichen effizientes Training von Machine-Learning-Modellen durch dynamische Ressourcenzuweisung für umfangreiche Datensätze. Entwickler profitieren von bedarfsgerechten Ressourcen, ohne dedizierte Server verwalten zu müssen.
- Inferenz: Serverlose GPUs sind für die Modellinferenz unerlässlich und ermöglichen schnelle Vorhersagen auf Basis neuer Daten. Sie eignen sich ideal für Anwendungen wie Bilderkennung und Verarbeitung natürlicher Sprache und gewährleisten eine schnelle und effiziente Ausführung, insbesondere bei schwankender Nachfrage.
- Echtzeitverarbeitung: Anwendungen, die dies erfordern, wie beispielsweise Videoanalysen, nutzen Serverless GPUs. Die dynamische Ressourcenskalierung ermöglicht die schnelle Verarbeitung eingehender Datenströme und eignet sich daher für Echtzeitanwendungen in verschiedenen Bereichen.
- Stapelverarbeitung: Serverlose GPUs übernehmen die Verarbeitung großer Datenmengen in ML-Workflows. Dies ist unerlässlich für die Datenvorverarbeitung, die Merkmalsextraktion und andere stapelorientierte Machine-Learning-Operationen.
- Ereignisgesteuerte ML-Workflows: Serverlose Architekturen sind ereignisgesteuert und reagieren auf Auslöser oder Ereignisse, z. B. durch Aktualisieren eines Modells, wenn neue Daten verfügbar werden, oder durch erneutes Trainieren als Reaktion auf bestimmte Ereignisse.
- Hybridarchitekturen: Einige ML-Workflows kombinieren serverlose und traditionelle Rechenressourcen. Beispielsweise wird das GPU-intensive Modelltraining für die KI-Inferenz in eine serverlose Umgebung verlagert, wodurch die Ressourcennutzung optimiert wird.
FAQs
GPU-Inferenz ist der Prozess, bei dem Grafikprozessoren (GPUs) verwendet werden, um Vorhersagen oder Schlussfolgerungen anhand eines vortrainierten Modells für maschinelles Lernen zu treffen. Die GPU beschleunigt die Rechenaufgaben, die zur Verarbeitung der Eingabedaten mit dem trainierten Modell erforderlich sind, was zu schnelleren und effizienteren Vorhersagen führt. Die parallelen Verarbeitungsfähigkeiten von GPUs verbessern die Geschwindigkeit und Effizienz dieser Inferenzaufgaben im Vergleich zu herkömmlichen CPU-basierten Ansätzen.
GPU-Inferenz ist besonders wertvoll für Anwendungen wie Bilderkennung, Verarbeitung natürlicher Sprache und andere Aufgaben des maschinellen Lernens, die Vorhersagen oder Klassifizierungen in Echtzeit oder nahezu Echtzeit erfordern.
Serverlose GPU-Nutzung ist ein Rechenmodell, bei dem Entwickler Anwendungen ausführen, ohne die zugrundeliegende Serverinfrastruktur verwalten zu müssen. GPU-Ressourcen werden dynamisch nach Bedarf bereitgestellt. In dieser Umgebung konzentrieren sich Entwickler auf die Programmierung spezifischer Funktionen, während der Cloud-Anbieter die Infrastruktur, einschließlich der Server-Skalierung, übernimmt.
Obwohl der Begriff „serverlos“ das Fehlen von Servern suggeriert, existieren diese weiterhin, sind aber für Entwickler abstrahiert. Im GPU-Computing ermöglicht diese Architektur den bedarfsgerechten Zugriff auf die GPU, ohne dass eine physische oder virtuelle Serververwaltung erforderlich ist.
Serverloses GPU-Computing wird häufig für Aufgaben eingesetzt, die einen hohen Anteil an paralleler Verarbeitung erfordern, wie beispielsweise maschinelles Lernen, Datenverarbeitung und wissenschaftliche Simulationen. Cloud-Anbieter, die serverlose GPU-Funktionen anbieten, automatisieren die Zuweisung und Skalierung von GPU-Ressourcen basierend auf dem Anwendungsbedarf.
Diese Architektur bietet Vorteile wie Kosteneffizienz und Skalierbarkeit, da sich die Infrastruktur dynamisch an unterschiedliche Arbeitslasten anpasst. Sie ermöglicht es Entwicklern, sich stärker auf den Code und weniger auf die Verwaltung der zugrunde liegenden Infrastruktur zu konzentrieren.
Die Kosten für das gesamte Projekt Megatron-Turing aus den Serien NVIDIA und Microsoft werden auf etwa 100 Millionen US-Dollar geschätzt. 4 Solche Systemkosten verhindern, dass Unternehmen trotz ihrer Vorteile große Sprachmodelle (LLMs) einsetzen.
Die L40S (NVIDIA) ist eine leistungsstärkere, KI-optimierte Version der L40-GPU. Beide nutzen die Ada-Lovelace-Architektur, die L40S bietet jedoch dank verbesserter Tensor-Core-Funktionen und Unterstützung für FP8-Genauigkeit eine deutlich höhere Leistung für KI-Training und -Inferenz.
Der L40 eignet sich besser für Grafik-, Rendering- und allgemeine Workloads, während der L40S ideal für rechenintensive KI-Aufgaben in Rechenzentren ist.
Weiterführende Literatur
Erfahren Sie mehr über GPUs:
Seien Sie der Erste, der kommentiert
Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.