DGX Spark vs. Mac Studio & Halo: Benchmarks & Alternativen

aktualisiert am Apr 13, 2026

Der DGX Spark von NVIDIA betrat 2025 für 4.699 US-Dollar den Markt für Desktop-KI und positionierte sich als „Desktop-KI-Supercomputer“. Er verfügt über 128 GB gemeinsamen Speicher und verspricht eine FP4-KI-Leistung von einem Petaflop in einem Gehäuse von der Größe eines Mac Mini.
Sehen Sie sich die Benchmark-Ergebnisse zu Wert und Leistung im Vergleich zu Alternativen an:

GPT-OSS 120B Leistung

Loading Chart

Beim Vergleich von Systemen auf dem anspruchsvollen GPT-OSS 120B-Modell (MXFP4-Format) wurden die Leistungsunterschiede deutlich. ¹ ²

GPT-OSS 120B systemübergreifende Erkenntnisse

Schnelle Verarbeitung : DGX Spark und 3×RTX 3090 sind nahezu identisch (1.723 bzw. 1.642 Token/Sek.), wobei DGX Spark aufgrund der höheren FP4-Effizienz leicht die Nase vorn hat. Die Strix Halo (AMD) hinkt mit 340 Token/Sek. trotz ähnlicher FP4-Leistung deutlich hinterher.
Token-Generierung : Das 3×RTX 3090-Setup ist mit 124 Token/Sek. deutlich überlegen und damit mehr als dreimal schneller als DGX Spark mit 38,55 Token/Sek. Dies bestätigt, dass die LPDDR5X-Speicherbandbreite (273 GB/s) im Vergleich zur Gesamtbandbreite von GDDR6X den Flaschenhals darstellt.
Speicherkapazitätsvorteil : Dank des 128 GB großen integrierten Speichers kann die DGX Spark Modelle ausführen, die auf GPUs mit 24 GB Speicher abstürzen würden. Eine einzelne RTX 3090 kann 120B-Modelle nicht ohne Auslagerung auf den langsameren Arbeitsspeicher ausführen.

Quelle: LMSYS Org ³ , Substack ⁴

Die Grafik zeigt Folgendes:

DGX Spark übertrifft den Mac Mini M4 Pro in allen Modellgrößen.
Bei kleineren Modellen (GPT-OSS 20B, LLaMA 3.1 8B) ist der Unterschied am größten (~30 % schneller).
Bei größeren Modellen (Gemma-3 27B) konvergiert die Leistung, da beide Systeme speicherbegrenzt werden.
Beide Systeme bleiben auch mit 27B-Parametermodellen nutzbar.

Preis-Leistungs-Analyse

Die Preise entsprechen dem Stand April 2026. NVIDIA erhöhte am 27. Februar 2026 die UVP der DGX Spark Founders Edition von 3.999 $ auf 4.699 $ und begründete dies mit Lieferengpässen bei Speicherprodukten. ⁵

DGX Spark Inferenz-Benchmarks

Ergebnisse von llama.cpp

Frühe Benchmarks des llama.cpp-Entwicklers Georgi Gerganov liefern grundlegende Leistungskennzahlen. Die Tests maßen die prompte Verarbeitung (wie schnell das Modell Eingaben verarbeitet) und die Token-Generierung (Reaktionsgeschwindigkeit):

Quelle: Hardware-Corner.net ⁶

Das Muster ist eindeutig: DGX Spark glänzt bei der schnellen Verarbeitung (rechenintensiv), hat aber Probleme mit der Token-Generierung (speicherintensiv).

Ollama-Leistungstests

Offizielle Ollama-Benchmarks wurden mit der Firmware-Version 580.95.05 und Ollama v0.12.6 unter standardisierten Bedingungen an mehreren Modellen durchgeführt:

Quelle: Ollama-Blog ⁷

Hinweis : Die von Ollama getesteten gpt-oss-Modelle von OpenAI verwenden das offizielle MXFP4-Format mit BF16 in den Aufmerksamkeitsschichten, nicht die q8_0-quantisierte Version.

Das Software-Update NVIDIA für die CES 2026 (6.–9. Januar 2026) bot bei ausgewählten Workloads Leistungssteigerungen um bis zu 2,5x gegenüber der Baseline-Version vom Oktober 2025. Diese wurden durch Optimierungen von TensorRT-LLM, NVFP4-Quantisierung und spekulative Dekodierung mit Eagle3 erzielt. Die Verbesserungen sind workloadspezifisch: Der Durchsatz von Qwen-235B hat sich mit NVFP4 + Eagle3 mehr als verdoppelt, die Token-Generierung von GPT-OSS 20B erreicht nach dem Update auf Ollama 49,7 Token/s, und Videogenerierungs-Workloads verzeichneten eine achtfache Beschleunigung. ⁸ ⁹

DGX Spark: Technische Spezifikationen

Quelle: NVIDIA ¹⁰

Wann ist DGX Spark besser?

Zugang zum CUDA-Ökosystem

Der DGX Spark zeichnet sich in Szenarien aus, in denen Softwarekompatibilität und Workflow-Effizienz wichtiger sind als die reine Token-Generierungsgeschwindigkeit. Für Entwickler, die an Apple-Chips gewöhnt sind, verringert der Umstieg auf den Spark die Hürde der „ CUDA-Lücke “, da viele branchenübliche Bibliotheken und Tutorials weiterhin eine CUDA-Umgebung voraussetzen. ¹¹

Spark bietet nativen Zugriff auf das Ökosystem, einschließlich Docker-Container und offizieller Playbooks, und ermöglicht es Benutzern, komplexe Setups auszuführen, wie z. B. die Feinabstimmung von Pipelines oder agentenbasierte Workflows, die auf dem Standard-Stack basieren.

Desktop-zu-Rechenzentrum-Workflow

Dieses Gerät schließt die Lücke zwischen lokaler Prototypentwicklung und dem Einsatz in Rechenzentren. Als „persönlicher KI-Supercomputer“ positioniert, ermöglicht es Forschern die Entwicklung und das Testen von Modellen auf einem Desktop-Gerät, das dieselbe Softwarearchitektur (Treiber, CUDA-Toolkit und Verwaltungstools) wie vollwertige Cloud-Cluster aufweist. ¹²

Diese Konsistenz behebt Kompatibilitätsprobleme lokaler Umgebungen bei der Migration von Workloads auf große H100-Bereitstellungen .

Darüber hinaus unterstreichen spezifische Benchmarks die Kompetenz des Systems in Bezug auf Feinabstimmung und Batchverarbeitung mit hohem Durchsatz; im Test erreichte das System mit Llama 3.1 8B (FP4) etwa 924 Token pro Sekunde und mit Qwen3 Coder 30B (FP8) 483 Token pro Sekunde, was seine Nützlichkeit für anspruchsvolle Entwicklungsaufgaben jenseits der einfachen Chat-Inferenz demonstriert. ¹³

Hybrid-Setups mit Mac Studio

Innovative Hardware-Kombinationen offenbaren auch spezifische Vorteile für den Spark. Zwar hat er im Vergleich zu Apple-Hardware Probleme mit der Speicherbandbreite beim Dekodieren, seine rechenintensive „Prefill“-Leistung ist jedoch deutlich höher.

Durch die Vernetzung eines DGX Spark mit einem Mac Studio M3 Ultra können Entwickler den Spark für die schnelle Verarbeitung und den Mac für die Token-Generierung nutzen. Diese hybride, „disaggregierte“ Konfiguration erzielt eine 2,8-fache Gesamtgeschwindigkeitssteigerung im Vergleich zur Ausführung der Modelle ausschließlich auf dem Mac Studio. ¹⁴

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Folgen auf

Alternativen zu DGX Spark, die in Betracht gezogen werden sollten

AMD Strix Halo (Framework Desktop) für preiswertes und preiswertes Arbeiten

Für preisbewusste Nutzer bietet der Framework Desktop mit Ryzen AI Max 385 (Strix Halo) das beste Preis-Leistungs-Verhältnis unter den Systemen mit integriertem Speicher. Mit 2.348 US-Dollar kostet er etwa die Hälfte des DGX Spark und bietet dabei dieselbe Konfiguration mit 128 GB integriertem Speicher sowie eine vergleichbare Speicherbandbreite (ca. 273 GB/s). ¹⁵

Die Token-Generierungsleistung ist überraschend konkurrenzfähig: 34,13 Token/s gegenüber 38,55 Token/s beim DGX Spark (Modell 120B). Die sofortige Verarbeitung offenbart jedoch den Unterschied: Hier dominiert die Blackwell-Architektur des DGX Spark mit 1.723 Token/s gegenüber 339,87 Token/s beim Strix Halo. Das bedeutet, dass der Strix Halo große Kontexte etwa fünfmal langsamer verarbeitet, die Generierungsgeschwindigkeit jedoch nach Beginn der Verarbeitung nahezu identisch bleibt.

Der Kompromiss liegt in der Software-Reife. Strix Halo setzt auf den ROCm-Stack von AMD anstelle von CUDA, der sich zwar rasant verbessert, aber immer noch nicht die Tiefe des Ökosystems und die vorkonfigurierte KI-Entwicklungsumgebung bietet, die DGX Spark standardmäßig bereitstellt.

AMD Ryzen AI Halo Mini-PC

Auf der CES 2026 kündigte Microsoft die Ryzen AI Halo Mini-PC-Referenzplattform an, die sich explizit gegen den DGX Spark positioniert. Sie verwendet denselben Ryzen AI Max+ 395-Chip wie der Framework Desktop, bietet aber zusätzlich eine dedizierte 50 TOPS XDNA 2 NPU, native Windows- und Linux-Unterstützung sowie ROCm 7.2.2 zum Marktstart mit Unterstützung für GPT-OSS, FLUX.2 und SDXL ab dem ersten Tag. Die kombinierte KI-Rechenleistung beträgt 126 TOPS. ¹⁶

Der Arbeitsspeicher beträgt 128 GB LPDDR5x-8533 mit einer Bandbreite von 273 GB/s und entspricht damit exakt der Bandbreite von DGX Spark. Laut AMD kann die Plattform KI-Modelle mit bis zu 200 Milliarden Parametern lokal ausführen, die tatsächliche Leistung in diesem Umfang ist jedoch bandbreitenbegrenzt. Dieselbe Speicherbandbreite von 273 GB/s, die die Token-Generierung von DGX Spark ausbremst, wird auch Ryzen AI Halo bei gleicher Arbeitslast ausbremsen.

OEM-Partner werden die Referenzplattform im zweiten Quartal 2026 ausliefern, wobei Framework Desktop als Hardwarepartner bestätigt ist. Die Preise wurden noch nicht bekannt gegeben. Der zugrundeliegende Ryzen AI Max+ 395-Chip ist aktuell im Framework Desktop für 2.348 US-Dollar (128 GB) erhältlich, was eine realistische Preisvorstellung für die neue Plattform im Einzelhandel ermöglicht.

CEO Lisa Su positionierte die Ankündigung als Teil der „Ära des Yotta-Scale-Computing“. Der Ryzen AI Halo ist die erste Antwort auf Produktebene im DGX-Spark-Segment und unterscheidet sich hauptsächlich durch die dedizierte NPU, native Windows-Unterstützung und ROCm anstelle von CUDA.

Mac Studio M3 Ultra für Hochgeschwindigkeits-Inferenz

Wenn Speicherbandbreite und Token-Generierungsgeschwindigkeit die wichtigsten Kriterien sind, bleibt der Mac Studio M3 Ultra die überlegene Wahl. Mit 512 GB gemeinsamem Speicher und einer Geschwindigkeit von 819 GB/s bietet der Mac Studio etwa die dreifache Bandbreite der 273 GB/s LPDDR5X-Konfiguration des Spark. ¹⁷

Dieser Bandbreitenvorteil führt zu schnelleren Dekodierungsgeschwindigkeiten bei großen Sprachmodellen, wodurch das Mac Studio besonders effektiv für inferenzintensive Aufgaben ist, bei denen die Antwortgenerierungszeit von entscheidender Bedeutung ist.

Multi-GPU-Selbstbauprojekte für maximale Rohleistung

Für maximalen Datendurchsatz unabhängig von der Komplexität bietet eine Konfiguration mit 3 RTX 3090 eine Leistung, die kein einheitliches Speichersystem erreichen kann. Mit insgesamt 72 GB VRAM und einer Speicherbandbreite von ca. 936 GB/s erzielt dieses Setup 124 Tok/s bei 120B-Modellen – mehr als dreimal so schnell wie die 38,55 Tok/s des DGX Spark. ¹⁸

Die Nachteile sind erheblich. Diese Methode erfordert fundierte technische Kenntnisse für Einrichtung und Konfiguration, verbraucht 1050 W im Vergleich zu den 210 W des DGX Spark, benötigt mehr Platz und bietet keine sofort einsatzbereite Software. Für Anwender, die Wert auf einfache Bedienbarkeit legen und weniger auf maximale Leistung, ist der DGX Spark nach wie vor die unkompliziertere Wahl.

DGX Spark-Beschränkungen

Leistungsversprechen vs. Realität

Die beworbene Leistung von „1 Petaflop“ basiert auf der geringen FP4-Präzision, was anfänglich Zweifel an der praktischen Anwendbarkeit aufkommen ließ. Wir haben die FP4/INT4-Quantisierung getestet und festgestellt, dass sie 98 % der Modellgenauigkeit beibehält und gleichzeitig den Durchsatz im Vergleich zu BF16 um das 2,7-Fache steigert. Der Genauigkeitsverlust von 2 % kann jedoch für präzisionskritische Aufgaben wie Codegenerierung oder mathematisches Schließen relevant sein, da sich kleine Fehler hier schnell summieren.

Dieser Leistungsunterschied kann angesichts des Preises irritierend sein, insbesondere wenn ältere Server-CPUs oder kostengünstige DIY-GPU-Cluster den Spark in bestimmten Inferenz-Benchmarks aufgrund des Speicherbandbreitenengpasses des Spark übertreffen können.

Software- und Supportprobleme

Die langfristige Nutzbarkeit und Software-Probleme stellen ebenfalls erhebliche Hürden dar. Das DGX-Betriebssystem bietet derzeit nur zwei Jahre Support – ein kurzer Zeitraum für Enterprise-Hardware – und das Gerät neigt zu thermischer Drosselung, was bei längeren Laufzeiten Neustarts erzwingen kann. ¹⁹

Darüber hinaus führt die zugrunde liegende ARM64-Architektur des Systems, obwohl es CUDA ausführt, zu unerwarteten Kompatibilitätsproblemen; Entwickler stellen möglicherweise fest, dass bestimmte vorkompilierte Binärdateien für Bibliotheken wie PyTorch fehlen oder im Vergleich zu Standard-x86-Umgebungen schwierig zu konfigurieren sind.

Preisschwankungen

NVIDIA erhöhte am 27. Februar 2026 die UVP des DGX Spark von 3.999 $ auf 4.699 $, was einer Steigerung von 18 % entspricht. NVIDIA nannte als Grund Lieferengpässe beim 128 GB LPDDR5X-Speicher. Die vollständige Preisentwicklung zeigt einen Anstieg von 56,7 % seit der Ankündigung auf der CES 2025 (2.999 $) bis zur UVP im Februar 2026 (4.699 $). Der Zwischenpreis für die Auslieferung lag bei 3.999 $, als die ersten Geräte im Oktober 2025 eintrafen. ²⁰

Für die Beschaffungsplanung ist die Preisentwicklung entscheidend. Ein Team, das DGX Spark zum auf der CES 2025 angekündigten Preis budgetiert hat, zahlt nun 56,7 % mehr pro Einheit, und NVIDIA hat sich noch nicht dazu verpflichtet, den Preis nach Normalisierung der Speicherversorgung zu senken. Käufer, die mehrere Einheiten für ein Labor oder eine Forschungsgruppe bestellen, müssen mit weiteren Preisänderungen rechnen, solange die weltweite Speicherversorgungslage angespannt bleibt.

Vergleichsquellen und Methodik

Diese Analyse fasst Vergleichsdaten aus mehreren unabhängigen Quellen zusammen:

Hardware-Corner.net ²¹ : Allan Witts llama.cpp Benchmarks zum Vergleich von DGX Spark, AMD Strix Halo und Multi-GPU-Systemen.
Ollama Offizieller Blog ²² : Standardisierte Leistungstests mit Ollama v0.12.6 und Firmware 580.95.05.
IntuitionLabs.ai ²³ : Umfassender Test mit SGLang- und Ollama-Benchmarks auf verschiedenen Plattformen.
Level1Techs Forum ²⁴ : Wendells praxisorientierter Testbericht mit Schwerpunkt auf dem Software-Ökosystem und praktischen Anwendungsfällen.
Signal65 ²⁵ : Erste Analyse zur Konsistenz des Workflows vom Desktop zum Rechenzentrum und zur Benutzerfreundlichkeit ab dem ersten Tag.
Simon Willison ²⁶ : Entwicklerperspektive auf den Zugang zum CUDA-Ökosystem und die Herausforderungen der ARM64-Kompatibilität.
EXO Labs ²⁷ : Hybrid DGX Spark + Mac Studio disaggregierte Inferenztests mit 2,8-facher Beschleunigungsmessung.
Jeff Geerling ²⁸ : Dell GB10 Vergleich, Analyse der thermischen Drosselung und Einschränkungen der DGX OS-Unterstützung.
Banandre ²⁹ : Unabhängige Leistungsanalyse, die die beworbenen 1 PFLOP mit den in der Praxis gemessenen 480 TFLOPS vergleicht.
StorageReview ³⁰ : Benchmarks für Feinabstimmung und Batch-Inferenz (924 tok/s Llama 3.1 8B, 483 tok/s Qwen3 30B).

Alle Benchmarks verwenden, wo immer möglich, öffentlich verfügbare Modelle mit einheitlichen Testbedingungen.

Abschluss

Die Nutzer sollten den DGX Spark nicht als reinen Leistungschampion verstehen, sondern als zugängliches, standardisiertes Entwicklungskit, das die Einstiegshürde für ernsthafte KI-Forschung senken soll.

Sein Wert liegt im reibungslosen Starterlebnis. Anders als bei Selbstbauprojekten, die tagelange Treibersuche erfordern, bietet der Spark ein ausgereiftes Software-Ökosystem, umfassende Dokumentation und vorkonfigurierte Playbooks für sofortige Produktivität. Die Preiserhöhung im Februar 2026 ändert nichts an dieser Positionierung, schwächt aber das Argument der Zugänglichkeit ab, insbesondere da die Ryzen AI Halo Mini-PC-Plattform im zweiten Quartal 2026 mit demselben Ryzen AI Max+ 395-Chip auf den Markt kommt, den Framework Desktop aktuell für 2.348 US-Dollar (128 GB) anbietet.

Es bietet eine stabile, unterstützte Plattform für Forscher, die Arbeitsabläufe lokal validieren müssen, bevor sie diese skalieren können, und dient somit effektiv als funktionaler Teil eines Rechenzentrums, der auf einen Schreibtisch passt.

Weiterführende Literatur

Referenzlinks

First Nvidia DGX Spark LLM Benchmarks Are In: Does It Beat Strix Halo

Hadrware Corner

NVIDIA DGX Spark Review: Pros, Cons & Performance Benchmarks | IntuitionLabs

IntuitionLabs

NVIDIA DGX Spark In-Depth Review: A New Standard for Local AI Inference - LMSYS Blog | LMSYS Org

Sebastian Raschka, PhD (@rasbt): "Saw that DGX Spark vs Mac Mini M4 Pro benchmark plot making the rounds (via LMSYS, https://lmsys.org/blog/2025-10-13-nvidia-dgx-spark/). Thought I’d share a few notes as someone who actually uses a Mac Mini M4 Pro an

Nvidia DGX Spark gets $700 price hike as memory shortages bite — Founders Edition price jumps 18% to $4,699, up from $3,999 | Tom's Hardware

Tom's Hardware

First Nvidia DGX Spark LLM Benchmarks Are In: Does It Beat Strix Halo

Hadrware Corner

NVIDIA DGX Spark performance · Ollama Blog

NVIDIA DGX Spark Review: Pros, Cons & Performance Benchmarks | IntuitionLabs

IntuitionLabs

NVIDIA Boosts DGX Spark Performance And Pushes New Developer Tools at CES 2026 | HotHardware

HotHardware

10.

Personal AI Supercomputer Powered by Blackwell | NVIDIA DGX Spark

11.

NVIDIA DGX Spark: great hardware, early days for the ecosystem

12.

NVIDIA DGX Spark First Look: A Personal AI Supercomputer on Your Desk - Signal65

Signal65

13.

NVIDIA DGX Spark Review: The AI Appliance Bringing Datacenter Capabilities to Desktops - StorageReview.com

StorageReview.com

14.

Combining NVIDIA DGX Spark + Apple Mac Studio for 4x Faster LLM Inference with EXO 1.0 | EXO

15.

First Nvidia DGX Spark LLM Benchmarks Are In: Does It Beat Strix Halo

Hadrware Corner

16.

AMD Ryzen AI Halo Mini PC Launches Q2 2026 with ROCm

TheOutpost.ai

17.

Combining NVIDIA DGX Spark + Apple Mac Studio for 4x Faster LLM Inference with EXO 1.0 | EXO

18.

First Nvidia DGX Spark LLM Benchmarks Are In: Does It Beat Strix Halo

Hadrware Corner

19.

Dell's version of the DGX Spark fixes pain points - Jeff Geerling

20.

2/23/2026 Price Change Announcement - Announcements - NVIDIA Developer Forums

21.

First Nvidia DGX Spark LLM Benchmarks Are In: Does It Beat Strix Halo

Hadrware Corner

22.

NVIDIA DGX Spark performance · Ollama Blog

23.

NVIDIA DGX Spark Review: Pros, Cons & Performance Benchmarks | IntuitionLabs

IntuitionLabs

24.

NVIDIA's DGX Spark Review and First Impressions - L1 Articles & Video-related - Level1Techs Forums

25.

NVIDIA DGX Spark First Look: A Personal AI Supercomputer on Your Desk - Signal65

Signal65

26.

NVIDIA DGX Spark: great hardware, early days for the ecosystem

27.

Combining NVIDIA DGX Spark + Apple Mac Studio for 4x Faster LLM Inference with EXO 1.0 | EXO

28.

Dell's version of the DGX Spark fixes pain points - Jeff Geerling

29.

DGX Spark’s Dirty Secret: NVIDIA’s 1 PFLOPS AI Box Delivers Half That - Banandre

30.

NVIDIA DGX Spark Review: The AI Appliance Bringing Datacenter Capabilities to Desktops - StorageReview.com

StorageReview.com

Cem Dilmegani

Leitender Analyst

Folgen auf

Cem ist seit 2017 leitender Analyst bei AIMultiple. AIMultiple informiert monatlich Hunderttausende von Unternehmen (laut similarWeb), darunter 55 % der Fortune 500. Cems Arbeit wurde von führenden globalen Publikationen wie Business Insider, Forbes und der Washington Post, von globalen Unternehmen wie Deloitte und HPE sowie von NGOs wie dem Weltwirtschaftsforum und supranationalen Organisationen wie der Europäischen Kommission zitiert. Weitere namhafte Unternehmen und Ressourcen, die AIMultiple referenziert haben, finden Sie hier. Im Laufe seiner Karriere war Cem als Technologieberater, Technologieeinkäufer und Technologieunternehmer tätig. Über ein Jahrzehnt lang beriet er Unternehmen bei McKinsey & Company und Altman Solon in ihren Technologieentscheidungen. Er veröffentlichte außerdem einen McKinsey-Bericht zur Digitalisierung. Bei einem Telekommunikationsunternehmen leitete er die Technologiestrategie und -beschaffung und berichtete direkt an den CEO. Darüber hinaus verantwortete er das kommerzielle Wachstum des Deep-Tech-Unternehmens Hypatos, das innerhalb von zwei Jahren von null auf einen siebenstelligen jährlichen wiederkehrenden Umsatz und eine neunstellige Unternehmensbewertung kam. Cems Arbeit bei Hypatos wurde von führenden Technologiepublikationen wie TechCrunch und Business Insider gewürdigt. Er ist ein gefragter Redner auf internationalen Technologiekonferenzen. Cem absolvierte sein Studium der Informatik an der Bogazici-Universität und besitzt einen MBA der Columbia Business School.

Vollständiges Profil anzeigen