Der DGX Spark von NVIDIA betrat 2025 für 3.999 US-Dollar den Markt für Desktop-KI und positionierte sich als „Desktop-KI-Supercomputer“. Er verfügt über 128 GB gemeinsamen Speicher und verspricht eine FP4-KI-Leistung von einem Petaflop in einem Gehäuse von der Größe eines Mac Mini.
Sehen Sie sich die Benchmark-Ergebnisse zu Wert und Leistung im Vergleich zu Alternativen an:
Wettbewerbsanalyse: DGX Spark vs. Alternativen
GPT-OSS 120B Leistung
Beim Vergleich von Systemen auf dem anspruchsvollen GPT-OSS 120B-Modell (MXFP4-Format) wurden die Leistungsunterschiede deutlich. 1 2
Wichtigste Erkenntnisse zur Leistung
- Schnelle Verarbeitung : DGX Spark und 3×RTX 3090 sind nahezu identisch (1.723 bzw. 1.642 Token/Sek.), wobei DGX Spark aufgrund der höheren FP4-Effizienz leicht die Nase vorn hat. Die Strix Halo (AMD) hinkt mit 340 Token/Sek. trotz ähnlicher FP4-Leistung deutlich hinterher.
- Token-Generierung : Das 3×RTX 3090-Setup ist mit 124 Token/Sek. deutlich überlegen und damit mehr als dreimal schneller als DGX Spark mit 38,55 Token/Sek. Dies bestätigt, dass die LPDDR5X-Speicherbandbreite (273 GB/s) im Vergleich zur Gesamtbandbreite von GDDR6X den Flaschenhals darstellt.
- Speicherkapazitätsvorteil : Dank des 128 GB großen integrierten Speichers kann die DGX Spark Modelle ausführen, die auf GPUs mit 24 GB Speicher abstürzen würden. Eine einzelne RTX 3090 kann 120B-Modelle nicht ohne Auslagerung auf den langsameren Arbeitsspeicher ausführen.
Quelle: LMSYS Org 3 , Substack 4
Die Grafik zeigt Folgendes:
- DGX Spark übertrifft den Mac Mini M4 Pro in allen Modellgrößen.
- Bei kleineren Modellen (GPT-OSS 20B, LLaMA 3.1 8B) ist der Unterschied am größten (~30 % schneller).
- Bei größeren Modellen (Gemma-3 27B) konvergiert die Leistung, da beide Systeme speicherbegrenzt werden.
- Beide Systeme bleiben auch mit 27B-Parametermodellen nutzbar.
Preis-Leistungs-Analyse
Hinweis: Die Preise sind ungefähre Angaben (Stand: Januar 2026).
Rohleistungs-Benchmarks
Ergebnisse von llama.cpp
Frühe Benchmarks des llama.cpp-Entwicklers Georgi Gerganov liefern grundlegende Leistungskennzahlen. Die Tests maßen die prompte Verarbeitung (wie schnell das Modell Eingaben verarbeitet) und die Token-Generierung (Reaktionsgeschwindigkeit):
Quelle: Hardware-Corner.net 5
Das Muster ist eindeutig: DGX Spark glänzt bei der schnellen Verarbeitung (rechenintensiv), hat aber Probleme mit der Token-Generierung (speicherintensiv).
Ollama-Leistungstests
Offizielle Ollama-Benchmarks wurden mit der Firmware-Version 580.95.05 und Ollama v0.12.6 unter standardisierten Bedingungen an mehreren Modellen getestet:
Quelle: Ollama-Blog 6
Hinweis : Die von Ollama getesteten gpt-oss-Modelle von OpenAI verwenden das offizielle MXFP4-Format mit BF16 in den Aufmerksamkeitsschichten, nicht die q8_0-quantisierte Version.
DGX Spark: Technische Spezifikationen
Quelle: NVIDIA 7
Wann ist DGX Spark besser?
Zugang zum CUDA-Ökosystem
Der DGX Spark zeichnet sich in Szenarien aus, in denen Softwarekompatibilität und Workflow-Effizienz wichtiger sind als die reine Token-Generierungsgeschwindigkeit. Für Entwickler, die an Apple-Chips gewöhnt sind, verringert der Umstieg auf den Spark die Hürde der „ CUDA-Lücke “, da viele branchenübliche Bibliotheken und Tutorials weiterhin eine CUDA-Umgebung voraussetzen. 8
Spark bietet nativen Zugriff auf das NVIDIA-Ökosystem, einschließlich Docker-Containern und offiziellen Playbooks, und ermöglicht es Benutzern, komplexe Setups auszuführen, wie z. B. die Feinabstimmung von Pipelines oder agentenbasierten Workflows, die auf dem Standard-NVIDIA-Stack basieren.
Desktop-zu-Rechenzentrum-Workflow
Dieses Gerät schließt die Lücke zwischen lokaler Prototypentwicklung und dem Einsatz in Rechenzentren. Als „persönlicher KI-Supercomputer“ positioniert, ermöglicht es Forschern die Entwicklung und das Testen von Modellen auf einem Desktop-Gerät, das dieselbe Softwarearchitektur (Treiber, CUDA-Toolkit und Verwaltungstools) wie vollwertige Cloud-Cluster aufweist. 9
Diese Konsistenz behebt Kompatibilitätsprobleme lokaler Umgebungen bei der Migration von Workloads auf große H100-Bereitstellungen .
Darüber hinaus unterstreichen spezifische Benchmarks die Kompetenz des Systems in Bezug auf Feinabstimmung und Batchverarbeitung mit hohem Durchsatz; im Test erreichte das System mit Llama 3.1 8B (FP4) etwa 924 Token pro Sekunde und mit Qwen3 Coder 30B (FP8) 483 Token pro Sekunde, was seine Nützlichkeit für anspruchsvolle Entwicklungsaufgaben jenseits der einfachen Chat-Inferenz demonstriert. 10
Hybrid-Setups mit Mac Studio
Innovative Hardware-Kombinationen offenbaren auch spezifische Vorteile für den Spark. Zwar hat er im Vergleich zu Apple-Hardware Probleme mit der Speicherbandbreite beim Dekodieren, seine rechenintensive „Prefill“-Leistung ist jedoch deutlich höher.
Durch die Vernetzung eines DGX Spark mit einem Mac Studio M3 Ultra können Entwickler den Spark für die schnelle Verarbeitung und den Mac für die Token-Generierung nutzen. Diese hybride, „disaggregierte“ Konfiguration erzielt eine 2,8-fache Gesamtgeschwindigkeitssteigerung im Vergleich zur Ausführung der Modelle ausschließlich auf dem Mac Studio. 11
Alternativen, die in Betracht gezogen werden sollten
AMD Strix Halo (Framework Desktop) für Budget & Wert
Für preisbewusste Nutzer bietet der Framework Desktop mit Ryzen AI Max 385 (Strix Halo) (AMD) das beste Preis-Leistungs-Verhältnis unter den Systemen mit integriertem Arbeitsspeicher. Mit 2.348 US-Dollar kostet er etwa die Hälfte des DGX Spark und bietet dabei dieselbe Konfiguration mit 128 GB integriertem Arbeitsspeicher sowie eine vergleichbare Speicherbandbreite (~273 GB/s). 12
Die Token-Generierungsleistung ist überraschend konkurrenzfähig: 34,13 Token/s gegenüber 38,55 Token/s beim DGX Spark (Modell 120B). Die sofortige Verarbeitung offenbart jedoch den Unterschied: Hier dominiert die Blackwell-Architektur des DGX Spark mit 1.723 Token/s gegenüber 339,87 Token/s beim Strix Halo. Das bedeutet, dass der Strix Halo große Kontexte etwa fünfmal langsamer verarbeitet, die Generierungsgeschwindigkeit jedoch nach Beginn der Verarbeitung nahezu identisch bleibt.
Der Kompromiss liegt in der Software-Reife. Strix Halo setzt auf den ROCm-Stack von AMD anstelle von CUDA, der sich zwar rasant verbessert, aber immer noch nicht die Tiefe des Ökosystems und die vorkonfigurierte KI-Entwicklungsumgebung bietet, die DGX Spark standardmäßig bereitstellt.
Mac Studio M3 Ultra für Hochgeschwindigkeits-Inferenz
Wenn Speicherbandbreite und Token-Generierungsgeschwindigkeit die wichtigsten Kriterien sind, bleibt der Mac Studio M3 Ultra die überlegene Wahl. Mit 512 GB gemeinsamem Speicher und einer Geschwindigkeit von 819 GB/s bietet der Mac Studio etwa die dreifache Bandbreite der 273 GB/s LPDDR5X-Konfiguration des Spark. 13
Dieser Bandbreitenvorteil führt zu schnelleren Dekodierungsgeschwindigkeiten bei großen Sprachmodellen, wodurch das Mac Studio besonders effektiv für inferenzintensive Aufgaben ist, bei denen die Antwortgenerierungszeit von entscheidender Bedeutung ist.
Multi-GPU-Selbstbauprojekte für maximale Rohleistung
Für maximalen Datendurchsatz unabhängig von der Komplexität bietet eine Konfiguration mit 3 RTX 3090 eine Leistung, die kein einheitliches Speichersystem erreichen kann. Mit insgesamt 72 GB VRAM und einer Speicherbandbreite von ca. 936 GB/s erzielt dieses Setup 124 Tok/s bei 120B-Modellen – mehr als dreimal so schnell wie die 38,55 Tok/s des DGX Spark. 14
Die Nachteile sind erheblich. Diese Methode erfordert fundierte technische Kenntnisse für Einrichtung und Konfiguration, verbraucht 1050 W im Vergleich zu den 210 W des DGX Spark, benötigt mehr Platz und bietet keine sofort einsatzbereite Software. Für Anwender, die Wert auf einfache Bedienbarkeit legen und weniger auf maximale Leistung, ist der DGX Spark nach wie vor die unkompliziertere Wahl.
Einschränkungen
Leistungsversprechen vs. Realität
Die beworbene Leistung von „1 Petaflop“ basiert auf der geringen FP4-Präzision, was anfänglich Zweifel an der praktischen Anwendbarkeit aufkommen ließ. Wir haben die FP4/INT4-Quantisierung getestet und festgestellt, dass sie 98 % der Modellgenauigkeit beibehält und gleichzeitig den Durchsatz im Vergleich zu BF16 um das 2,7-Fache steigert. Der Genauigkeitsverlust von 2 % kann jedoch für präzisionskritische Aufgaben wie Codegenerierung oder mathematisches Schließen relevant sein, da sich kleine Fehler hier schnell summieren.
Dieser Leistungsunterschied kann angesichts des Preises irritierend sein, insbesondere wenn ältere Server-CPUs oder kostengünstige DIY-GPU-Cluster den Spark in bestimmten Inferenz-Benchmarks aufgrund des Speicherbandbreitenengpasses des Spark übertreffen können.
Software- und Supportprobleme
Die langfristige Nutzbarkeit und Software-Probleme stellen ebenfalls erhebliche Hürden dar. Das DGX-Betriebssystem bietet derzeit nur zwei Jahre Support – ein kurzer Zeitraum für Enterprise-Hardware – und das Gerät neigt zu thermischer Drosselung, was bei längeren Laufzeiten Neustarts erzwingen kann. 15
Darüber hinaus führt die zugrunde liegende ARM64-Architektur des Systems, obwohl es CUDA ausführt, zu unerwarteten Kompatibilitätsproblemen; Entwickler stellen möglicherweise fest, dass bestimmte vorkompilierte Binärdateien für Bibliotheken wie PyTorch fehlen oder im Vergleich zu Standard-x86-Umgebungen schwierig zu konfigurieren sind.
Methodik
Diese Analyse fasst Vergleichsdaten aus mehreren unabhängigen Quellen zusammen:
- Hardware-Corner.net 16 : Allan Witts llama.cpp Benchmarks zum Vergleich von DGX Spark, AMD Strix Halo und Multi-GPU-Systemen.
- Ollama Offizieller Blog 17 : Standardisierte Leistungstests mit Ollama v0.12.6 und Firmware 580.95.05.
- IntuitionLabs.ai 18 : Umfassender Test mit SGLang- und Ollama-Benchmarks auf verschiedenen Plattformen.
- Level1Techs Forum 19 : Wendells praxisorientierter Überblick mit Schwerpunkt auf dem Software-Ökosystem und praktischen Anwendungsfällen.
- Signal65 20 : Entwicklerperspektive auf den Zugang zum CUDA-Ökosystem und die Herausforderungen der ARM64-Kompatibilität.
- EXO Labs 21 : Hybrid DGX Spark + Mac Studio disaggregierte Inferenztests mit 2,8-facher Beschleunigungsmessung.
- Jeff Geerling 22 : Dell GB10 Vergleich, Analyse der thermischen Drosselung und Einschränkungen der DGX OS-Unterstützung.
- Banandre 23 : Unabhängige Leistungsanalyse im Vergleich der beworbenen 1 PFLOP mit den in der Praxis gemessenen 480 TFLOPS.
- StorageReview 24 : Benchmarks für Feinabstimmung und Batch-Inferenz (924 tok/s Llama 3.1 8B, 483 tok/s Qwen3 30B).
Alle Benchmarks verwenden, wo immer möglich, öffentlich verfügbare Modelle mit einheitlichen Testbedingungen.
Abschluss
Die Nutzer sollten den DGX Spark nicht als reinen Leistungschampion verstehen, sondern als zugängliches, standardisiertes Entwicklungskit, das die Einstiegshürde für ernsthafte KI-Forschung senken soll.
Sein Wert liegt in der reibungslosen Nutzung vom ersten Tag an; im Gegensatz zu DIY-Konfigurationen, die tagelange Fehlersuche bei den Treibern erfordern, kommt der Spark mit einem ausgereiften Software-Ökosystem, einer umfangreichen Dokumentation und vorkonfigurierten Playbooks, die eine sofortige Produktivität ermöglichen.
Es bietet eine stabile, unterstützte Plattform für Forscher, die Arbeitsabläufe lokal validieren müssen, bevor sie diese skalieren können, und dient somit effektiv als funktionaler Teil eines Rechenzentrums, der auf einen Schreibtisch passt.
FAQs
Der DGX Spark ist als kompakter KI-Supercomputer konzipiert und vereint die Grace-Blackwell-Architektur und Tensor-Kerne der fünften Generation in einem kleinen, desktopfreundlichen Gehäuse. Für viele Anwender bedeutet dies, dass sie große Sprachmodelle und andere KI-Workloads lokal ausführen können, ohne einen Serverraum einrichten zu müssen.
Es ist jedoch unerlässlich zu verstehen, wofür es am besten geeignet ist.
Es eignet sich hervorragend zum Laden von KI-Modellen im großen Maßstab dank seines großen einheitlichen Speicherpools.
Es bewältigt komplexe KI-Modelle besser als die meisten Mini-PCs oder kompakten Workstations.
Es ist nicht die absolut schnellste Option zur Token-Generierung, und einige DGX Spark-Alternativen (z. B. Multi-GPU-Tower oder Dell- und HP-Workstations) können bei kleineren Modellen schneller sein.
Wenn Sie KI-Modelle entwickeln, Prototypen erstellen oder Langzeitmodelle auf dem Desktop ausführen, ist der DGX Spark ein besonders leistungsfähiges Gerät. Falls Sie hauptsächlich kleinere Modelle ausführen, sich auf Videoverarbeitung konzentrieren oder ein optimales Preis-Leistungs-Verhältnis suchen, bietet ein herkömmlicher Desktop-PC oder ein High-End-Mini-Tower möglicherweise eine bessere Performance pro Euro.
Die Wartezeiten hängen von den jeweiligen KI-Workloads ab. Mit DGX Spark ist die Verarbeitung von Eingabeaufforderungen bei großen Sprachmodellen sehr schnell, die Token-Generierung kann jedoch langsamer sein als bei manchen GPU-Alternativen. Das bedeutet:
Beim Laden langer Kontexte ist Spark schnell.
Bei der Generierung langer Antworten oder der Durchführung von KI-Videoverarbeitung Bild für Bild ist es möglicherweise nicht immer das schnellste verfügbare Gerät.
Bei einfachen KI-Aufgaben oder kleineren Modellen erhalten die Nutzer nahezu sofortige Ergebnisse.
Bei größeren Arbeitslasten, wie dem Zusammenfassen langer Dokumente, dem Generieren von Videos mit multimodalen Modellen oder der Verarbeitung verteilter KI-Arbeitslasten, hängt die Wartezeit von der Modellgröße und -genauigkeit ab.
Wenn minimale Wartezeiten Priorität haben, eignen sich Systeme wie:
DGX-Station
HP Z-Serie Workstations oder
Multi-GPU-Systeme wie das Ascent GX10 bieten dank höherer Speicherbandbreite und größerer GPU-Cluster eine bessere Leistung. Sie benötigen jedoch mehr Platz, sind teurer oder erfordern zusätzlichen Speicherplatz und Strom.
Der DGX Spark zeichnet sich durch seine Softwareunterstützung aus. Er wurde im Rahmen der Project DIGITS-Initiative von NVIDIA entwickelt und integriert sich nahtlos in CUDA, TensorRT, die DGX-Software-Suite und Enterprise-Tools – ein Merkmal, das vielen kompakten Designsystemen und Mini-PCs fehlt.
Dies macht es besonders attraktiv für:
Datenwissenschaftler,
Forscher, die an der Bewertung der KI-Leistung arbeiten,
Die Teams nehmen Feinabstimmungen vor.
Entwickler, die mit verteilten KI-Workloads experimentieren,
Nutzer entwickeln und testen neue KI-Modelle von Anfang bis Ende.
Im Vergleich zu Alternativen wie Apple-Systemen, Dell Pro-Desktop-PCs oder PC-Konfigurationen auf Basis von AMD profitiert der Spark vom breiteren NVIDIA-Ökosystem. Andererseits bieten einige Alternativen eine bessere Allround-Leistung, mehr erweiterbaren Speicherplatz oder niedrigere Kosten.
Weiterführende Literatur
- Die 30 besten Cloud-GPU-Anbieter und ihre GPUs
- GPU-Software für KI: CUDA vs. ROCm
- Top 20+ KI-Chip-Hersteller: NVIDIA & seine Wettbewerber
- Multi-GPU-Benchmark: B200 vs. H200 vs. H100 vs. MI300X
Seien Sie der Erste, der kommentiert
Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.