Der DGX Spark von NVIDIA betrat 2025 für 4.699 US-Dollar den Markt für Desktop-KI und positionierte sich als „Desktop-KI-Supercomputer“. Er verfügt über 128 GB gemeinsamen Speicher und verspricht eine FP4-KI-Leistung von einem Petaflop in einem Gehäuse von der Größe eines Mac Mini.
Sehen Sie sich die Benchmark-Ergebnisse zu Wert und Leistung im Vergleich zu Alternativen an:
GPT-OSS 120B Leistung
Beim Vergleich von Systemen auf dem anspruchsvollen GPT-OSS 120B-Modell (MXFP4-Format) wurden die Leistungsunterschiede deutlich. 1 2
GPT-OSS 120B systemübergreifende Erkenntnisse
- Schnelle Verarbeitung : DGX Spark und 3×RTX 3090 sind nahezu identisch (1.723 bzw. 1.642 Token/Sek.), wobei DGX Spark aufgrund der höheren FP4-Effizienz leicht die Nase vorn hat. Die Strix Halo (AMD) hinkt mit 340 Token/Sek. trotz ähnlicher FP4-Leistung deutlich hinterher.
- Token-Generierung : Das 3×RTX 3090-Setup ist mit 124 Token/Sek. deutlich überlegen und damit mehr als dreimal schneller als DGX Spark mit 38,55 Token/Sek. Dies bestätigt, dass die LPDDR5X-Speicherbandbreite (273 GB/s) im Vergleich zur Gesamtbandbreite von GDDR6X den Flaschenhals darstellt.
- Speicherkapazitätsvorteil : Dank des 128 GB großen integrierten Speichers kann die DGX Spark Modelle ausführen, die auf GPUs mit 24 GB Speicher abstürzen würden. Eine einzelne RTX 3090 kann 120B-Modelle nicht ohne Auslagerung auf den langsameren Arbeitsspeicher ausführen.
Quelle: LMSYS Org 3 , Substack 4
Die Grafik zeigt Folgendes:
- DGX Spark übertrifft den Mac Mini M4 Pro in allen Modellgrößen.
- Bei kleineren Modellen (GPT-OSS 20B, LLaMA 3.1 8B) ist der Unterschied am größten (~30 % schneller).
- Bei größeren Modellen (Gemma-3 27B) konvergiert die Leistung, da beide Systeme speicherbegrenzt werden.
- Beide Systeme bleiben auch mit 27B-Parametermodellen nutzbar.
Preis-Leistungs-Analyse
Die Preise entsprechen dem Stand April 2026. NVIDIA erhöhte am 27. Februar 2026 die UVP der DGX Spark Founders Edition von 3.999 $ auf 4.699 $ und begründete dies mit Lieferengpässen bei Speicherprodukten. 5
DGX Spark Inferenz-Benchmarks
Ergebnisse von llama.cpp
Frühe Benchmarks des llama.cpp-Entwicklers Georgi Gerganov liefern grundlegende Leistungskennzahlen. Die Tests maßen die prompte Verarbeitung (wie schnell das Modell Eingaben verarbeitet) und die Token-Generierung (Reaktionsgeschwindigkeit):
Quelle: Hardware-Corner.net 6
Das Muster ist eindeutig: DGX Spark glänzt bei der schnellen Verarbeitung (rechenintensiv), hat aber Probleme mit der Token-Generierung (speicherintensiv).
Ollama-Leistungstests
Offizielle Ollama-Benchmarks wurden mit der Firmware-Version 580.95.05 und Ollama v0.12.6 unter standardisierten Bedingungen an mehreren Modellen durchgeführt:
Quelle: Ollama-Blog 7
Hinweis : Die von Ollama getesteten gpt-oss-Modelle von OpenAI verwenden das offizielle MXFP4-Format mit BF16 in den Aufmerksamkeitsschichten, nicht die q8_0-quantisierte Version.
Das Software-Update NVIDIA für die CES 2026 (6.–9. Januar 2026) bot bei ausgewählten Workloads Leistungssteigerungen um bis zu 2,5x gegenüber der Baseline-Version vom Oktober 2025. Diese wurden durch Optimierungen von TensorRT-LLM, NVFP4-Quantisierung und spekulative Dekodierung mit Eagle3 erzielt. Die Verbesserungen sind workloadspezifisch: Der Durchsatz von Qwen-235B hat sich mit NVFP4 + Eagle3 mehr als verdoppelt, die Token-Generierung von GPT-OSS 20B erreicht nach dem Update auf Ollama 49,7 Token/s, und Videogenerierungs-Workloads verzeichneten eine achtfache Beschleunigung. 8 9
DGX Spark: Technische Spezifikationen
Quelle: NVIDIA 10
Wann ist DGX Spark besser?
Zugang zum CUDA-Ökosystem
Der DGX Spark zeichnet sich in Szenarien aus, in denen Softwarekompatibilität und Workflow-Effizienz wichtiger sind als die reine Token-Generierungsgeschwindigkeit. Für Entwickler, die an Apple-Chips gewöhnt sind, verringert der Umstieg auf den Spark die Hürde der „ CUDA-Lücke “, da viele branchenübliche Bibliotheken und Tutorials weiterhin eine CUDA-Umgebung voraussetzen. 11
Spark bietet nativen Zugriff auf das Ökosystem, einschließlich Docker-Container und offizieller Playbooks, und ermöglicht es Benutzern, komplexe Setups auszuführen, wie z. B. die Feinabstimmung von Pipelines oder agentenbasierte Workflows, die auf dem Standard-Stack basieren.
Desktop-zu-Rechenzentrum-Workflow
Dieses Gerät schließt die Lücke zwischen lokaler Prototypentwicklung und dem Einsatz in Rechenzentren. Als „persönlicher KI-Supercomputer“ positioniert, ermöglicht es Forschern die Entwicklung und das Testen von Modellen auf einem Desktop-Gerät, das dieselbe Softwarearchitektur (Treiber, CUDA-Toolkit und Verwaltungstools) wie vollwertige Cloud-Cluster aufweist. 12
Diese Konsistenz behebt Kompatibilitätsprobleme lokaler Umgebungen bei der Migration von Workloads auf große H100-Bereitstellungen .
Darüber hinaus unterstreichen spezifische Benchmarks die Kompetenz des Systems in Bezug auf Feinabstimmung und Batchverarbeitung mit hohem Durchsatz; im Test erreichte das System mit Llama 3.1 8B (FP4) etwa 924 Token pro Sekunde und mit Qwen3 Coder 30B (FP8) 483 Token pro Sekunde, was seine Nützlichkeit für anspruchsvolle Entwicklungsaufgaben jenseits der einfachen Chat-Inferenz demonstriert. 13
Hybrid-Setups mit Mac Studio
Innovative Hardware-Kombinationen offenbaren auch spezifische Vorteile für den Spark. Zwar hat er im Vergleich zu Apple-Hardware Probleme mit der Speicherbandbreite beim Dekodieren, seine rechenintensive „Prefill“-Leistung ist jedoch deutlich höher.
Durch die Vernetzung eines DGX Spark mit einem Mac Studio M3 Ultra können Entwickler den Spark für die schnelle Verarbeitung und den Mac für die Token-Generierung nutzen. Diese hybride, „disaggregierte“ Konfiguration erzielt eine 2,8-fache Gesamtgeschwindigkeitssteigerung im Vergleich zur Ausführung der Modelle ausschließlich auf dem Mac Studio. 14
Alternativen zu DGX Spark, die in Betracht gezogen werden sollten
AMD Strix Halo (Framework Desktop) für preiswertes und preiswertes Arbeiten
Für preisbewusste Nutzer bietet der Framework Desktop mit Ryzen AI Max 385 (Strix Halo) das beste Preis-Leistungs-Verhältnis unter den Systemen mit integriertem Speicher. Mit 2.348 US-Dollar kostet er etwa die Hälfte des DGX Spark und bietet dabei dieselbe Konfiguration mit 128 GB integriertem Speicher sowie eine vergleichbare Speicherbandbreite (ca. 273 GB/s). 15
Die Token-Generierungsleistung ist überraschend konkurrenzfähig: 34,13 Token/s gegenüber 38,55 Token/s beim DGX Spark (Modell 120B). Die sofortige Verarbeitung offenbart jedoch den Unterschied: Hier dominiert die Blackwell-Architektur des DGX Spark mit 1.723 Token/s gegenüber 339,87 Token/s beim Strix Halo. Das bedeutet, dass der Strix Halo große Kontexte etwa fünfmal langsamer verarbeitet, die Generierungsgeschwindigkeit jedoch nach Beginn der Verarbeitung nahezu identisch bleibt.
Der Kompromiss liegt in der Software-Reife. Strix Halo setzt auf den ROCm-Stack von AMD anstelle von CUDA, der sich zwar rasant verbessert, aber immer noch nicht die Tiefe des Ökosystems und die vorkonfigurierte KI-Entwicklungsumgebung bietet, die DGX Spark standardmäßig bereitstellt.
AMD Ryzen AI Halo Mini-PC
Auf der CES 2026 kündigte Microsoft die Ryzen AI Halo Mini-PC-Referenzplattform an, die sich explizit gegen den DGX Spark positioniert. Sie verwendet denselben Ryzen AI Max+ 395-Chip wie der Framework Desktop, bietet aber zusätzlich eine dedizierte 50 TOPS XDNA 2 NPU, native Windows- und Linux-Unterstützung sowie ROCm 7.2.2 zum Marktstart mit Unterstützung für GPT-OSS, FLUX.2 und SDXL ab dem ersten Tag. Die kombinierte KI-Rechenleistung beträgt 126 TOPS. 16
Der Arbeitsspeicher beträgt 128 GB LPDDR5x-8533 mit einer Bandbreite von 273 GB/s und entspricht damit exakt der Bandbreite von DGX Spark. Laut AMD kann die Plattform KI-Modelle mit bis zu 200 Milliarden Parametern lokal ausführen, die tatsächliche Leistung in diesem Umfang ist jedoch bandbreitenbegrenzt. Dieselbe Speicherbandbreite von 273 GB/s, die die Token-Generierung von DGX Spark ausbremst, wird auch Ryzen AI Halo bei gleicher Arbeitslast ausbremsen.
OEM-Partner werden die Referenzplattform im zweiten Quartal 2026 ausliefern, wobei Framework Desktop als Hardwarepartner bestätigt ist. Die Preise wurden noch nicht bekannt gegeben. Der zugrundeliegende Ryzen AI Max+ 395-Chip ist aktuell im Framework Desktop für 2.348 US-Dollar (128 GB) erhältlich, was eine realistische Preisvorstellung für die neue Plattform im Einzelhandel ermöglicht.
CEO Lisa Su positionierte die Ankündigung als Teil der „Ära des Yotta-Scale-Computing“. Der Ryzen AI Halo ist die erste Antwort auf Produktebene im DGX-Spark-Segment und unterscheidet sich hauptsächlich durch die dedizierte NPU, native Windows-Unterstützung und ROCm anstelle von CUDA.
Mac Studio M3 Ultra für Hochgeschwindigkeits-Inferenz
Wenn Speicherbandbreite und Token-Generierungsgeschwindigkeit die wichtigsten Kriterien sind, bleibt der Mac Studio M3 Ultra die überlegene Wahl. Mit 512 GB gemeinsamem Speicher und einer Geschwindigkeit von 819 GB/s bietet der Mac Studio etwa die dreifache Bandbreite der 273 GB/s LPDDR5X-Konfiguration des Spark. 17
Dieser Bandbreitenvorteil führt zu schnelleren Dekodierungsgeschwindigkeiten bei großen Sprachmodellen, wodurch das Mac Studio besonders effektiv für inferenzintensive Aufgaben ist, bei denen die Antwortgenerierungszeit von entscheidender Bedeutung ist.
Multi-GPU-Selbstbauprojekte für maximale Rohleistung
Für maximalen Datendurchsatz unabhängig von der Komplexität bietet eine Konfiguration mit 3 RTX 3090 eine Leistung, die kein einheitliches Speichersystem erreichen kann. Mit insgesamt 72 GB VRAM und einer Speicherbandbreite von ca. 936 GB/s erzielt dieses Setup 124 Tok/s bei 120B-Modellen – mehr als dreimal so schnell wie die 38,55 Tok/s des DGX Spark. 18
Die Nachteile sind erheblich. Diese Methode erfordert fundierte technische Kenntnisse für Einrichtung und Konfiguration, verbraucht 1050 W im Vergleich zu den 210 W des DGX Spark, benötigt mehr Platz und bietet keine sofort einsatzbereite Software. Für Anwender, die Wert auf einfache Bedienbarkeit legen und weniger auf maximale Leistung, ist der DGX Spark nach wie vor die unkompliziertere Wahl.
DGX Spark-Beschränkungen
Leistungsversprechen vs. Realität
Die beworbene Leistung von „1 Petaflop“ basiert auf der geringen FP4-Präzision, was anfänglich Zweifel an der praktischen Anwendbarkeit aufkommen ließ. Wir haben die FP4/INT4-Quantisierung getestet und festgestellt, dass sie 98 % der Modellgenauigkeit beibehält und gleichzeitig den Durchsatz im Vergleich zu BF16 um das 2,7-Fache steigert. Der Genauigkeitsverlust von 2 % kann jedoch für präzisionskritische Aufgaben wie Codegenerierung oder mathematisches Schließen relevant sein, da sich kleine Fehler hier schnell summieren.
Dieser Leistungsunterschied kann angesichts des Preises irritierend sein, insbesondere wenn ältere Server-CPUs oder kostengünstige DIY-GPU-Cluster den Spark in bestimmten Inferenz-Benchmarks aufgrund des Speicherbandbreitenengpasses des Spark übertreffen können.
Software- und Supportprobleme
Die langfristige Nutzbarkeit und Software-Probleme stellen ebenfalls erhebliche Hürden dar. Das DGX-Betriebssystem bietet derzeit nur zwei Jahre Support – ein kurzer Zeitraum für Enterprise-Hardware – und das Gerät neigt zu thermischer Drosselung, was bei längeren Laufzeiten Neustarts erzwingen kann. 19
Darüber hinaus führt die zugrunde liegende ARM64-Architektur des Systems, obwohl es CUDA ausführt, zu unerwarteten Kompatibilitätsproblemen; Entwickler stellen möglicherweise fest, dass bestimmte vorkompilierte Binärdateien für Bibliotheken wie PyTorch fehlen oder im Vergleich zu Standard-x86-Umgebungen schwierig zu konfigurieren sind.
Preisschwankungen
NVIDIA erhöhte am 27. Februar 2026 die UVP des DGX Spark von 3.999 $ auf 4.699 $, was einer Steigerung von 18 % entspricht. NVIDIA nannte als Grund Lieferengpässe beim 128 GB LPDDR5X-Speicher. Die vollständige Preisentwicklung zeigt einen Anstieg von 56,7 % seit der Ankündigung auf der CES 2025 (2.999 $) bis zur UVP im Februar 2026 (4.699 $). Der Zwischenpreis für die Auslieferung lag bei 3.999 $, als die ersten Geräte im Oktober 2025 eintrafen. 20
Für die Beschaffungsplanung ist die Preisentwicklung entscheidend. Ein Team, das DGX Spark zum auf der CES 2025 angekündigten Preis budgetiert hat, zahlt nun 56,7 % mehr pro Einheit, und NVIDIA hat sich noch nicht dazu verpflichtet, den Preis nach Normalisierung der Speicherversorgung zu senken. Käufer, die mehrere Einheiten für ein Labor oder eine Forschungsgruppe bestellen, müssen mit weiteren Preisänderungen rechnen, solange die weltweite Speicherversorgungslage angespannt bleibt.
Vergleichsquellen und Methodik
Diese Analyse fasst Vergleichsdaten aus mehreren unabhängigen Quellen zusammen:
- Hardware-Corner.net 21 : Allan Witts llama.cpp Benchmarks zum Vergleich von DGX Spark, AMD Strix Halo und Multi-GPU-Systemen.
- Ollama Offizieller Blog 22 : Standardisierte Leistungstests mit Ollama v0.12.6 und Firmware 580.95.05.
- IntuitionLabs.ai 23 : Umfassender Test mit SGLang- und Ollama-Benchmarks auf verschiedenen Plattformen.
- Level1Techs Forum 24 : Wendells praxisorientierter Testbericht mit Schwerpunkt auf dem Software-Ökosystem und praktischen Anwendungsfällen.
- Signal65 25 : Erste Analyse zur Konsistenz des Workflows vom Desktop zum Rechenzentrum und zur Benutzerfreundlichkeit ab dem ersten Tag.
- Simon Willison 26 : Entwicklerperspektive auf den Zugang zum CUDA-Ökosystem und die Herausforderungen der ARM64-Kompatibilität.
- EXO Labs 27 : Hybrid DGX Spark + Mac Studio disaggregierte Inferenztests mit 2,8-facher Beschleunigungsmessung.
- Jeff Geerling 28 : Dell GB10 Vergleich, Analyse der thermischen Drosselung und Einschränkungen der DGX OS-Unterstützung.
- Banandre 29 : Unabhängige Leistungsanalyse, die die beworbenen 1 PFLOP mit den in der Praxis gemessenen 480 TFLOPS vergleicht.
- StorageReview 30 : Benchmarks für Feinabstimmung und Batch-Inferenz (924 tok/s Llama 3.1 8B, 483 tok/s Qwen3 30B).
Alle Benchmarks verwenden, wo immer möglich, öffentlich verfügbare Modelle mit einheitlichen Testbedingungen.
Abschluss
Die Nutzer sollten den DGX Spark nicht als reinen Leistungschampion verstehen, sondern als zugängliches, standardisiertes Entwicklungskit, das die Einstiegshürde für ernsthafte KI-Forschung senken soll.
Sein Wert liegt im reibungslosen Starterlebnis. Anders als bei Selbstbauprojekten, die tagelange Treibersuche erfordern, bietet der Spark ein ausgereiftes Software-Ökosystem, umfassende Dokumentation und vorkonfigurierte Playbooks für sofortige Produktivität. Die Preiserhöhung im Februar 2026 ändert nichts an dieser Positionierung, schwächt aber das Argument der Zugänglichkeit ab, insbesondere da die Ryzen AI Halo Mini-PC-Plattform im zweiten Quartal 2026 mit demselben Ryzen AI Max+ 395-Chip auf den Markt kommt, den Framework Desktop aktuell für 2.348 US-Dollar (128 GB) anbietet.
Es bietet eine stabile, unterstützte Plattform für Forscher, die Arbeitsabläufe lokal validieren müssen, bevor sie diese skalieren können, und dient somit effektiv als funktionaler Teil eines Rechenzentrums, der auf einen Schreibtisch passt.
Weiterführende Literatur
- Die 30 besten Cloud-GPU-Anbieter und ihre GPUs
- GPU-Software für KI: CUDA vs. ROCm
- Top 20+ KI-Chip-Hersteller: NVIDIA & seine Wettbewerber
- Multi-GPU-Benchmark: B200 vs. H200 vs. H100 vs. MI300X
Seien Sie der Erste, der kommentiert
Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.