What is GPU inference?

GPU inference is the process of using Graphics Processing Units (GPUs) to make predictions or inferences from a pre-trained machine learning model. The GPU accelerates the computational tasks required to process input data using the trained model, resulting in faster, more efficient predictions. The parallel processing capabilities of GPUs enhance the speed and efficiency of these inference tasks compared to traditional CPU-based approaches.GPU inference is particularly valuable for applications such as image recognition, natural language processing, and other machine learning tasks that require real-time or near-real-time predictions or classifications.

What is a serverless GPU?

Serverless GPU is a computing model in which developers run applications without managing the underlying server infrastructure. GPU resources are dynamically provisioned as needed. In this environment, developers concentrate on coding specific functions while the cloud provider handles infrastructure, including server scaling. Despite the term "serverless" suggesting an absence of servers, they still exist but are abstracted from developers. In GPU computing, this architecture allows on-demand GPU access without the need for physical or virtual server management.Serverless GPU computing is commonly used for tasks that require significant parallel processing, such as machine learning, data processing, and scientific simulations. Cloud providers offering serverless GPU capabilities automate GPU resource allocation and scaling based on application demand. This architecture provides benefits such as cost efficiency and scalability, as the infrastructure dynamically adjusts to varying workloads. It enables developers to focus more on code and less on managing the underlying infrastructure.

Why is serverless GPU pricing important?

Megatron-Turing from NVIDIA and Microsoft is estimated to cost approximately $100 million for the entire project.1 Such system costs prevent enterprise adopting Large language models (LLMs) despite their benefits.

The NVIDIA L40S is a more powerful, AI-optimized version of the L40 GPU. While both use the Ada Lovelace architecture, the L40S delivers significantly higher performance for AI training and inference, due to enhanced tensor core capabilities and support for FP8 precision. The L40 is better suited for graphics, rendering, and general-purpose workloads, whereas the L40S is ideal for compute-intensive AI tasks in data centers.

KI KI-Hardware

Die 10 besten serverlosen GPU-Clouds und 14 kostengünstige GPUs

Cem Dilmegani

aktualisiert am Apr 15, 2026

Siehe unsere ethischen Normen

Serverlose GPUs bieten einfach skalierbare Rechenleistungen für KI-Workloads. Bei großen Projekten können die Kosten jedoch erheblich sein. Navigieren Sie zu den für Ihre Bedürfnisse relevanten Abschnitten:

Finden Sie die kostengünstigsten Anbieter nach Token pro Dollar
Vergleichen Sie die Stundensätze aller großen Anbieter.
Leistungsdaten für Inferenz- und Feinabstimmungsdurchsatz

Preis pro Durchsatz für serverlose GPUs

Serverlose GPU-Anbieter bieten unterschiedliche Leistungsstufen und Preismodelle für KI-Workloads. Vergleichen Sie die kosteneffektivsten GPU-Konfigurationen für Ihre Feinabstimmungs- und Inferenzanforderungen auf führenden serverlosen Plattformen:

Serverless-GPU-Preisrechner

Serverless-GPU-Benchmark-Ergebnisse

Sie können mehr über unsere Benchmark-Methodik für serverlose GPUs lesen.

10 Serverless-GPU-Anbieter in die engere Wahl genommen

Die Unternehmen werden alphabetisch sortiert, da es sich bei diesem Bereich um ein aufstrebendes Gebiet handelt und nur begrenzte Daten verfügbar sind. Eine Ausnahme bilden die Sponsoren, die mit einem Link zu ihrer Website ganz oben in der Liste stehen.

RunPod

RunPod bietet vollständig verwaltete und skalierbare KI-Endpunkte für vielfältige Workloads. RunPod-Nutzer können zwischen GPU-Instanzen und serverlosen Endpunkten wählen und den BYOC-Ansatz (Bring Your Own Container) nutzen. Zu den RunPod-Funktionen gehören unter anderem:

Ladevorgang durch Einfügen eines Containerlinks zum Abrufen eines Pods
Ein kreditbasiertes Zahlungs- und Abrechnungssystem.

Baseten Labore

Baseten ist eine Infrastrukturplattform für maschinelles Lernen, die Nutzern hilft, Modelle verschiedener Größen und Typen aus der Modellbibliothek in großem Umfang bereitzustellen. Sie nutzt GPU-Instanzen wie A100, A10 und T4, um die Rechenleistung zu steigern.

Baseten stellt außerdem ein Open-Source-Tool namens Truss vor. Dieses Tool unterstützt Entwickler bei der Implementierung von KI/ML-Modellen in realen Anwendungsszenarien. Mit Truss können Entwickler:

Paketieren und Testen des Modellcodes, der Gewichte und der Abhängigkeiten mithilfe eines Modellservers.
Entwickeln Sie Ihr Modell mit schnellem Feedback von einem Live-Reload-Server und vermeiden Sie komplexe Docker- und Kubernetes-Konfigurationen.
Unterstützt Modelle, die mit beliebigen Python-Frameworks erstellt wurden, seien es Transformer, Diffusoren, PyTorch, Tensorflow, XGBoost, sklearn oder sogar komplett benutzerdefinierte Modelle.

Strahlwolke

Beam, ehemals Slai, ermöglicht die einfache Bereitstellung von REST-APIs mit integrierten Funktionen wie Authentifizierung, Autoscaling, Protokollierung und Metriken. Beam-Nutzer können:

Führen Sie GPU-basierte, langlaufende Trainingsaufgaben aus und wählen Sie zwischen einmaligem oder geplantem automatisiertem Nachtraining.
Funktionen werden mit automatisierten Wiederholungsversuchen, Rückruffunktionen und Abfragen des Aufgabenstatus in einer Aufgabenwarteschlange bereitgestellt.
Passen Sie die Regeln für die automatische Skalierung an, um die Wartezeiten für Benutzer zu optimieren.

Cerebrum AI

Cerebrium AI bietet eine vielfältige Auswahl an GPUs, darunter H100, A100 und A5000, insgesamt stehen über acht GPU-Typen zur Verfügung. Mit Cerebrium können Benutzer ihre Umgebung mithilfe von Infrastructure-as-Code definieren und direkt auf den Code zugreifen, ohne S3-Buckets verwalten zu müssen.

Abbildung 2: Beispiel der Cerebrium-Plattform ¹

Falsche KI

FAL AI liefert sofort einsatzbereite Modelle mit API-Endpunkten zur Anpassung und Integration in Kundenanwendungen. Ihre Plattform unterstützt Serverless-GPUs wie A100 und T4.

Koyeb

Koyeb ist eine serverlose Plattform, die es Entwicklern ermöglicht, Anwendungen einfach und global bereitzustellen, ohne Server, Infrastruktur oder Betrieb verwalten zu müssen. Koyeb bietet serverlose GPUs mit Docker-Unterstützung und horizontaler Skalierung für KI-Aufgaben wie generative KI, Videoverarbeitung und LLMs. Das Angebot umfasst H100- und A100-GPUs mit bis zu 80 GB VRAM.

Die Preise liegen zwischen 0,50 $/Std. und 3,30 $/Std., abgerechnet wird sekundengenau.

Modal ist eine serverlose Cloud-Plattform, die es Entwicklern ermöglicht, Code remote auszuführen, Containerumgebungen programmatisch zu definieren und auf Tausende von Containern zu skalieren. Sie unterstützt GPU-Integration, Web-Endpoint-Serving, geplante Jobbereitstellung und verteilte Datenstrukturen wie Wörterbücher und Warteschlangen. Die Plattform arbeitet nach dem Pay-per-Sekunde-Modell und erfordert keine Infrastrukturkonfiguration; der Fokus liegt auf codebasierter Einrichtung anstelle von YAML.

Um Modal zu nutzen, registrieren sich Entwickler auf modal.com, installieren das Python-Paket Modal mit `pip install modal` und authentifizieren sich mit dem modal-Setup. Der Code läuft in Containern innerhalb der Modal-Cloud, wodurch die Infrastrukturverwaltung wie bei Kubernetes oder AWS abstrahiert wird. Aktuell ist die Unterstützung auf Python beschränkt, eine Erweiterung auf weitere Sprachen ist jedoch geplant.

Abbildung 3: Plattformbeispiel Modal ²

Mystische KI

Die serverlose Plattform von Mystic AI ist ein Pipeline-Core, der ML-Modelle über eine Inferenz-API hostet. Mit dem Pipeline-Core lassen sich benutzerdefinierte Modelle mit über 15 Optionen erstellen, darunter GPT, Stable Diffusion und Whisper. Hier einige der Funktionen des Pipeline-Cores:

Gleichzeitige Modellversionierung und Überwachung
Umgebungsmanagement, einschließlich Bibliotheken und Frameworks
Automatische Skalierung über verschiedene Cloud-Anbieter hinweg
Unterstützung für Online-, Batch- und Streaming-Inferenz
Integrationen mit anderen ML- und Infrastrukturtools.

Mystic AI bietet außerdem eine aktive Discord-Community für Support.

Novita KI

Novita AI ist eine Plattform, die Entwicklern die Erstellung fortschrittlicher KI-Produkte ohne tiefgreifende Kenntnisse im Bereich maschinelles Lernen ermöglicht. Sie bietet eine umfassende Suite von APIs und Tools für die Entwicklung von Anwendungen in verschiedenen Bereichen, darunter Bild-, Video-, Audio- und LLM-Aufgaben (Large Language Modeling).

Novita Das serverlose System von AI bietet automatische Skalierung, Bereitstellung mit DockerHub-Unterstützung und Echtzeitüberwachung.

Abbildung 4: Novita Überwachungsfunktion der KI-Plattform für serverlose Instanzen. ³

Replicate

Die Plattform von Replicate unterstützt sowohl benutzerdefinierte als auch vortrainierte Modelle für maschinelles Lernen. Sie bietet eine Warteliste für Open-Source-Modelle und Flexibilität durch die Wahl zwischen Nvidia T4 und A100. Zudem beinhaltet sie die Open-Source-Bibliothek COG, die die Modellbereitstellung vereinfacht.

Seeweb

Seeweb ist ein Cloud-Computing-Anbieter, der serverlose GPU-Lösungen zur Optimierung von KI-Workloads anbietet. Diese Lösungen dienen Entwicklern als Einstiegspunkt, um gängige Modelle effizient in Python auszuführen, zu forken oder vorzutrainieren. Sie können Kubernetes nutzen, um die Bereitstellung zu beschleunigen.

Hauptmerkmale:

Automatische Skalierung zur dynamischen Anpassung der Ressourcen, wodurch Kaltstarts bei serverlosen Funktionen reduziert werden.
DSGVO-Konformität durch Betrieb in einer europäischen Cloud und Nutzung eines globalen Netzwerks für eine größere Reichweite.
Rund-um-die-Uhr-Support an 365 Tagen im Jahr, um sicherzustellen, dass Benutzer zuverlässige Unterstützung bei der Verwaltung ihrer ML-Modelle erhalten.

Zu den mitgelieferten GPUs gehören A100, H100, L40S, L4 und RTX A6000.

Welche anderen Cloud-Anbieter gibt es?

Führende Cloud-Anbieter wie AWS und Azure bieten Serverless-Funktionalität, die derzeit keine GPUs unterstützt. Andere Anbieter wie Scaleway oder CoreWeave bieten GPU-Inferenz, aber keine Serverless-GPUs.

Erfahren Sie mehr über Cloud-GPU-Anbieter und den GPU-Markt.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Folgen auf

Welche Vorteile bietet serverlose GPU?

LLMs wie ChatGPT sind seit dem letzten Jahr ein viel diskutiertes Thema in der Geschäftswelt. Daher hat die Anzahl dieser Modelle drastisch zugenommen. Die Vorteile von Serverless-GPUs helfen, einige Herausforderungen von LLMs zu vermeiden, wie zum Beispiel:

Kosteneffizienz: Nutzer zahlen nur für die tatsächlich genutzten GPU-Ressourcen, was diese Lösung kostengünstig macht. Im Gegensatz dazu müssen Nutzer bei herkömmlichen Serverkonfigurationen für die laufende Ressourcenbereitstellung bezahlen.
Skalierbarkeit: Serverlose Architekturen skalieren automatisch, um unterschiedliche Arbeitslasten zu bewältigen. Wenn der Ressourcenbedarf steigt oder sinkt, passt sich die Infrastruktur dynamisch und ohne manuelles Eingreifen an.
Vereinfachtes Management: Entwickler können sich auf das Schreiben von Code für bestimmte Funktionen oder Aufgaben konzentrieren, da der Cloud-Anbieter die Serverbereitstellung, Skalierung und sonstige Infrastrukturverwaltung übernimmt.
Bedarfsorientierte Ressourcenzuweisung: Die serverlose GPU-Architektur ermöglicht Anwendungen den bedarfsgerechten Zugriff auf GPU-Ressourcen. Dies vereinfacht die Verwaltung und Wartung physischer oder virtueller Server, die der GPU-Verarbeitung gewidmet sind. Die Ressourcen werden dynamisch anhand der Anwendungsanforderungen zugewiesen.
Flexibilität: Entwickler können die Ressourcen je nach Bedarf ihrer Anwendungen skalieren. Diese Anpassungsfähigkeit ist besonders nützlich für Workloads mit unterschiedlichen Rechenanforderungen.
Verbesserte Parallelverarbeitung: GPU-Computing eignet sich hervorragend für parallele Verarbeitungsaufgaben. Daher können serverlose GPU-Architekturen in Anwendungen eingesetzt werden, die einen hohen Bedarf an paralleler Berechnung haben, wie z. B. maschinelles Lernen, Datenverarbeitung und wissenschaftliche Simulationen.

Serverlose GPU-Benchmark-Methodik

Preise: Die Preise für Serverless-GPUs werden monatlich von allen Anbietern abgerufen.

Leistung:

Die Leistung aller serverlosen GPU-Modelle wurde auf der Cloud-Plattform Modal gemessen.
Die Textfeinabstimmung wurde anhand des FineTune-100k-Datensatzes mit Llama 3.2-1B-Instruct und 1 Million Token über 5 Epochen gemessen. Die Anzahl der pro Sekunde feinabgestimmten Token wurde aus der Anzahl der Token und der Anzahl der Epochen berechnet und durch die Feinabstimmungszeit dividiert.
Die Textinferenz wurde anhand von über einer Million Token gemessen, einschließlich Eingabe- und Ausgabetoken. Wir teilten die Anzahl der Token durch die gesamte Inferenzdauer, um die durchschnittliche Anzahl der Token pro Sekunde zu berechnen.

Leistungsvergleich H200 vs. H100:

Dass der H200 im Vergleich zum H100 eine geringere Feinabstimmungsleistung aufweist, mag angesichts seiner neueren Architektur und des größeren Speichers (141 GB gegenüber 80 GB) zunächst überraschend erscheinen. Mehrere Faktoren könnten zu diesem Ergebnis beitragen, darunter Unterschiede in der Speicherauslastung, im Reifegrad der Softwareoptimierung oder im Wärmemanagement unter Dauerlast.
Dieser Benchmark verwendete ein relativ kleines 1-Milliarden-Parameter-Modell, das die zusätzliche Speicherkapazität des H200 möglicherweise nicht voll ausnutzt. Der Leistungsunterschied könnte bei größeren Modellen, die den erweiterten Speicher des H200 besser nutzen, deutlich abweichen.
Die Leistung kann auch je nach spezifischen Arbeitslastmerkmalen, Batchgrößen und dem während des Tests verwendeten Software-Stack variieren.

Nächste Schritte:

Wir planen, unsere Benchmarks auf größere Modelle (7B, 13B und 70B Parameter) auszuweiten, um besser zu verstehen, wie die Leistung mit der Modellgröße und dem Speicherbedarf skaliert.
Zukünftige Tests werden Multi-GPU-Setups und Szenarien mit längerer Kontextlänge umfassen, in denen die architektonischen Vorteile von H200 deutlicher hervortreten könnten.

Wie man serverlose GPUs für ML-Modelle verwendet

In herkömmlichen Machine-Learning-Workflows stellen Entwickler und Data Scientists häufig dedizierte Server oder GPU-Cluster bereit und verwalten diese, um den Rechenaufwand für das Training komplexer Modelle zu bewältigen. Serverlose GPUs für Machine Learning beseitigen diese Komplexität der Infrastrukturverwaltung.

Bitte folgen Sie der nachstehenden Anleitung, um zu verstehen, wie Sie Serverless GPU in ML-Modellen verwenden:

Trainingsmodelle: Serverlose GPUs ermöglichen effizientes Training von Machine-Learning-Modellen durch dynamische Ressourcenzuweisung für umfangreiche Datensätze. Entwickler profitieren von bedarfsgerechten Ressourcen, ohne dedizierte Server verwalten zu müssen.
Inferenz: Serverlose GPUs sind für die Modellinferenz unerlässlich und ermöglichen schnelle Vorhersagen auf Basis neuer Daten. Sie eignen sich ideal für Anwendungen wie Bilderkennung und Verarbeitung natürlicher Sprache und gewährleisten eine schnelle und effiziente Ausführung, insbesondere bei schwankender Nachfrage.
Echtzeitverarbeitung: Anwendungen, die dies erfordern, wie beispielsweise Videoanalysen, nutzen Serverless GPUs. Die dynamische Ressourcenskalierung ermöglicht die schnelle Verarbeitung eingehender Datenströme und eignet sich daher für Echtzeitanwendungen in verschiedenen Bereichen.
Stapelverarbeitung: Serverlose GPUs übernehmen die Verarbeitung großer Datenmengen in ML-Workflows. Dies ist unerlässlich für die Datenvorverarbeitung, die Merkmalsextraktion und andere stapelorientierte Machine-Learning-Operationen.
Ereignisgesteuerte ML-Workflows: Serverlose Architekturen sind ereignisgesteuert und reagieren auf Auslöser oder Ereignisse, z. B. durch Aktualisieren eines Modells, wenn neue Daten verfügbar werden, oder durch erneutes Trainieren als Reaktion auf bestimmte Ereignisse.
Hybridarchitekturen: Einige ML-Workflows kombinieren serverlose und traditionelle Rechenressourcen. Beispielsweise wird das GPU-intensive Modelltraining für die KI-Inferenz in eine serverlose Umgebung verlagert, wodurch die Ressourcennutzung optimiert wird.

FAQs

GPU-Inferenz ist der Prozess, bei dem Grafikprozessoren (GPUs) verwendet werden, um Vorhersagen oder Schlussfolgerungen anhand eines vortrainierten Modells für maschinelles Lernen zu treffen. Die GPU beschleunigt die Rechenaufgaben, die zur Verarbeitung der Eingabedaten mit dem trainierten Modell erforderlich sind, was zu schnelleren und effizienteren Vorhersagen führt. Die parallelen Verarbeitungsfähigkeiten von GPUs verbessern die Geschwindigkeit und Effizienz dieser Inferenzaufgaben im Vergleich zu herkömmlichen CPU-basierten Ansätzen.

GPU-Inferenz ist besonders wertvoll für Anwendungen wie Bilderkennung, Verarbeitung natürlicher Sprache und andere Aufgaben des maschinellen Lernens, die Vorhersagen oder Klassifizierungen in Echtzeit oder nahezu Echtzeit erfordern.

Serverlose GPU-Nutzung ist ein Rechenmodell, bei dem Entwickler Anwendungen ausführen, ohne die zugrundeliegende Serverinfrastruktur verwalten zu müssen. GPU-Ressourcen werden dynamisch nach Bedarf bereitgestellt. In dieser Umgebung konzentrieren sich Entwickler auf die Programmierung spezifischer Funktionen, während der Cloud-Anbieter die Infrastruktur, einschließlich der Server-Skalierung, übernimmt.

Obwohl der Begriff „serverlos“ das Fehlen von Servern suggeriert, existieren diese weiterhin, sind aber für Entwickler abstrahiert. Im GPU-Computing ermöglicht diese Architektur den bedarfsgerechten Zugriff auf die GPU, ohne dass eine physische oder virtuelle Serververwaltung erforderlich ist.

Serverloses GPU-Computing wird häufig für Aufgaben eingesetzt, die einen hohen Anteil an paralleler Verarbeitung erfordern, wie beispielsweise maschinelles Lernen, Datenverarbeitung und wissenschaftliche Simulationen. Cloud-Anbieter, die serverlose GPU-Funktionen anbieten, automatisieren die Zuweisung und Skalierung von GPU-Ressourcen basierend auf dem Anwendungsbedarf.

Diese Architektur bietet Vorteile wie Kosteneffizienz und Skalierbarkeit, da sich die Infrastruktur dynamisch an unterschiedliche Arbeitslasten anpasst. Sie ermöglicht es Entwicklern, sich stärker auf den Code und weniger auf die Verwaltung der zugrunde liegenden Infrastruktur zu konzentrieren.

Die Kosten für das gesamte Projekt Megatron-Turing aus den Serien NVIDIA und Microsoft werden auf etwa 100 Millionen US-Dollar geschätzt. ⁴ Solche Systemkosten verhindern, dass Unternehmen trotz ihrer Vorteile große Sprachmodelle (LLMs) einsetzen.

Die L40S (NVIDIA) ist eine leistungsstärkere, KI-optimierte Version der L40-GPU. Beide nutzen die Ada-Lovelace-Architektur, die L40S bietet jedoch dank verbesserter Tensor-Core-Funktionen und Unterstützung für FP8-Genauigkeit eine deutlich höhere Leistung für KI-Training und -Inferenz.

Der L40 eignet sich besser für Grafik-, Rendering- und allgemeine Workloads, während der L40S ideal für rechenintensive KI-Aufgaben in Rechenzentren ist.

Weiterführende Literatur

Erfahren Sie mehr über GPUs:

Externe Quellen

Referenzlinks

Serverless AI infrastructure | Cerebrium

Modal: High-performance AI infrastructure

Accelerate Your AI with Novita's GPU Cloud | Novita AI

Cem Dilmegani

Leitender Analyst

Folgen auf

Cem ist seit 2017 leitender Analyst bei AIMultiple. AIMultiple informiert monatlich Hunderttausende von Unternehmen (laut similarWeb), darunter 55 % der Fortune 500. Cems Arbeit wurde von führenden globalen Publikationen wie Business Insider, Forbes und der Washington Post, von globalen Unternehmen wie Deloitte und HPE sowie von NGOs wie dem Weltwirtschaftsforum und supranationalen Organisationen wie der Europäischen Kommission zitiert. Weitere namhafte Unternehmen und Ressourcen, die AIMultiple referenziert haben, finden Sie hier. Im Laufe seiner Karriere war Cem als Technologieberater, Technologieeinkäufer und Technologieunternehmer tätig. Über ein Jahrzehnt lang beriet er Unternehmen bei McKinsey & Company und Altman Solon in ihren Technologieentscheidungen. Er veröffentlichte außerdem einen McKinsey-Bericht zur Digitalisierung. Bei einem Telekommunikationsunternehmen leitete er die Technologiestrategie und -beschaffung und berichtete direkt an den CEO. Darüber hinaus verantwortete er das kommerzielle Wachstum des Deep-Tech-Unternehmens Hypatos, das innerhalb von zwei Jahren von null auf einen siebenstelligen jährlichen wiederkehrenden Umsatz und eine neunstellige Unternehmensbewertung kam. Cems Arbeit bei Hypatos wurde von führenden Technologiepublikationen wie TechCrunch und Business Insider gewürdigt. Er ist ein gefragter Redner auf internationalen Technologiekonferenzen. Cem absolvierte sein Studium der Informatik an der Bogazici-Universität und besitzt einen MBA der Columbia Business School.

Vollständiges Profil anzeigen