Contattaci
Nessun risultato trovato.

DGX Spark vs Mac Studio e Halo: benchmark e alternative

Cem Dilmegani
Cem Dilmegani
aggiornato il Apr 13, 2026
Guarda il nostro norme etiche

DGX Spark di NVIDIA è entrato nel mercato dell'IA desktop nel 2025 a 3.999 dollari, posizionandosi come un "supercomputer IA desktop". È dotato di 128 GB di memoria unificata e promette prestazioni IA in FP4 pari a un petaflop in un case delle dimensioni di un Mac Mini.
Consulta i risultati del benchmark su valore e prestazioni rispetto alle alternative:

Analisi comparativa: DGX Spark vs. alternative

Prestazioni GPT-OSS 120B

Loading Chart

Confrontando i sistemi sul modello GPT-OSS 120B (formato MXFP4), particolarmente esigente, le differenze di prestazioni sono risultate evidenti. 1 2

Informazioni chiave sulle prestazioni

  1. Elaborazione rapida : DGX Spark e 3×RTX 3090 sono quasi identici (1.723 contro 1.642 token/sec), con DGX Spark leggermente in vantaggio grazie all'efficienza FP4. La AMD Strix Halo è significativamente più lenta, con 340 token/sec, nonostante capacità FP4 simili.
  2. Generazione di token : la configurazione con 3 RTX 3090 domina con 124 token/sec, oltre 3 volte più veloce dei 38,55 token/sec di DGX Spark. Ciò conferma che la larghezza di banda della memoria LPDDR5X (273 GB/s) rappresenta il collo di bottiglia rispetto alla larghezza di banda aggregata GDDR6X.
  3. Vantaggio in termini di capacità di memoria : la memoria unificata da 128 GB di DGX Spark consente di eseguire modelli che andrebbero in crash su GPU da 24 GB. Una singola RTX 3090 non è in grado di eseguire modelli da 120 B senza trasferire i dati alla RAM di sistema, che è più lenta.

Fonte: LMSYS Org 3 , Substack 4

Il grafico dimostra che:

  • DGX Spark supera le prestazioni di Mac Mini M4 Pro in tutte le dimensioni del modello.
  • Per i modelli più piccoli (GPT-OSS 20B, LLaMA 3.1 8B), il divario è maggiore (circa il 30% più veloce).
  • Per i modelli più grandi (Gemma-3 27B), le prestazioni convergono man mano che entrambi i sistemi diventano limitati dalla memoria.
  • Entrambi i sistemi rimangono utilizzabili anche con modelli a 27B parametri

Analisi del rapporto prezzo-prestazioni

Nota: i prezzi sono approssimativi e si riferiscono a gennaio 2026.

benchmark delle prestazioni grezze

risultati di llama.cpp

I primi benchmark effettuati dallo sviluppatore di llama.cpp, Georgi Gerganov, forniscono metriche di base sulle prestazioni. I test hanno misurato l'elaborazione immediata (la velocità con cui il modello acquisisce l'input) e la generazione di token (velocità di risposta):

Fonte: Hardware-Corner.net 5

Lo schema è chiaro: DGX Spark eccelle nell'elaborazione dei prompt (limitata dalla potenza di calcolo) ma ha difficoltà nella generazione dei token (limitata dalla memoria).

Test di performance Ollama

I benchmark ufficiali di Ollama, utilizzando la versione firmware 580.95.05 e Ollama v0.12.6, hanno testato diversi modelli in condizioni standardizzate:

Fonte: Blog di Ollama 6

Nota : i modelli gpt-oss di OpenAI testati da Ollama utilizzano il formato ufficiale MXFP4 con BF16 negli strati di attenzione, non la versione quantizzata q8_0.

DGX Spark: Specifiche tecniche

Fonte: NVIDIA 7

Quando è preferibile DGX Spark?

Accesso all'ecosistema CUDA

DGX Spark si distingue negli scenari in cui la compatibilità software e l'efficienza di specifici flussi di lavoro sono più importanti della semplice velocità di generazione dei token. Per gli sviluppatori abituati ai processori Apple Silicon, il passaggio a Spark attenua le difficoltà legate al " divario CUDA ", poiché molte librerie e tutorial standard del settore presuppongono ancora un ambiente CUDA. 8

Spark fornisce accesso nativo all'ecosistema NVIDIA, inclusi i container Docker e i playbook ufficiali, consentendo agli utenti di eseguire configurazioni complesse come pipeline di fine-tuning o flussi di lavoro agentici che si basano sullo stack NVIDIA standard.

Flusso di lavoro dal desktop al data center

Questo dispositivo colma efficacemente il divario tra la prototipazione locale e l'implementazione nei data center. Presentato come un "supercomputer AI personale", consente ai ricercatori di sviluppare e testare modelli su un'unità desktop che condivide la stessa architettura software (driver, toolkit CUDA e strumenti di gestione) dei cluster cloud su vasta scala. 9

Questa coerenza risolve i problemi di compatibilità con l'ambiente locale durante la migrazione dei carichi di lavoro verso implementazioni H100 di grandi dimensioni .

Inoltre, specifici benchmark evidenziano la competenza del sistema nella messa a punto e nell'elaborazione batch ad alta velocità; nei test, il sistema ha raggiunto circa 924 token al secondo con Llama 3.1 8B (FP4) e 483 token al secondo con Qwen3 Coder 30B (FP8), dimostrando la sua utilità per attività di sviluppo rigorose che vanno oltre la semplice inferenza di chat. 10

Configurazioni ibride con Mac Studio

Le innovative combinazioni hardware rivelano anche vantaggi specifici per Spark. Sebbene abbia difficoltà con la larghezza di banda della memoria per la decodifica rispetto all'hardware Apple, le sue prestazioni di "pre-riempimento", che richiedono un'elevata potenza di calcolo, sono nettamente superiori.

Collegando in rete un DGX Spark a un Mac Studio M3 Ultra, gli sviluppatori possono sfruttare Spark per l'elaborazione immediata e il Mac per la generazione dei token. Questa configurazione ibrida "disaggregata" raggiunge un'accelerazione complessiva di 2,8 volte rispetto all'esecuzione dei modelli sul solo Mac Studio. 11

Alternative da prendere in considerazione

AMD Strix Halo (Framework desktop) per rapporto qualità-prezzo

Per gli utenti attenti al budget, il Framework Desktop con Ryzen AI Max 385 (Strix Halo) offre il miglior rapporto prezzo-prestazioni tra i sistemi con memoria unificata. A 2.348 dollari, costa circa la metà del DGX Spark, pur offrendo la stessa configurazione di memoria unificata da 128 GB e una larghezza di banda di memoria comparabile (~273 GB/s). 12

Le prestazioni di generazione dei token sono sorprendentemente competitive: 34,13 tok/s contro i 38,55 tok/s di DGX Spark sul modello 120B. Tuttavia, l'elaborazione dei prompt rivela il divario, dove l'architettura Blackwell di DGX Spark domina con 1.723 tok/s rispetto ai 339,87 tok/s di Strix Halo. Ciò significa che Strix Halo elabora contesti di grandi dimensioni circa 5 volte più lentamente, sebbene la velocità di generazione rimanga pressoché identica una volta avviata l'elaborazione.

Il compromesso sta nella maturità del software. Strix Halo si basa sullo stack ROCm di AMD invece che su CUDA, che sta migliorando rapidamente ma manca ancora della profondità dell'ecosistema e dell'ambiente di sviluppo AI preconfigurato che DGX Spark offre fin da subito.

Mac Studio M3 Ultra per l'inferenza ad alta velocità

Se la larghezza di banda della memoria e la velocità di generazione dei token sono i parametri principali, il Mac Studio M3 Ultra rimane un'opzione superiore. Con 512 GB di memoria unificata disponibili a 819 GB/s, il Mac Studio offre circa tre volte la larghezza di banda della configurazione LPDDR5X da 273 GB/s dello Spark. 13

Questo vantaggio in termini di larghezza di banda si traduce in velocità di decodifica più elevate per modelli linguistici di grandi dimensioni, rendendo Mac Studio estremamente efficace per attività che richiedono un'intensa attività di inferenza, dove il tempo di generazione della risposta è fondamentale.

Configurazioni multi-GPU fai-da-te per massime prestazioni pure.

Per massimizzare la velocità di elaborazione, indipendentemente dalla complessità, una configurazione con 3 RTX 3090 offre prestazioni ineguagliabili da qualsiasi sistema di memoria unificata. Con 72 GB di VRAM aggregata e una larghezza di banda di memoria totale di circa 936 GB/s, questa configurazione raggiunge 124 token/s sui modelli da 120 byte, oltre 3 volte più veloce dei 38,55 token/s di DGX Spark. 14

I compromessi sono sostanziali. Questo approccio richiede una notevole competenza tecnica per l'installazione e la configurazione, consuma 1.050 W rispetto ai 210 W di DGX Spark, richiede un ingombro fisico maggiore e non offre alcuno stack software preconfigurato. Per gli utenti che privilegiano la praticità d'uso rispetto alle prestazioni pure, DGX Spark rimane la soluzione più semplice.

Limitazioni

Dichiarazioni di rendimento contro realtà

Il valore pubblicizzato di "1 petaflop" si basa sulla precisione sparsa FP4, il che inizialmente ha sollevato dubbi sulla sua applicabilità nel mondo reale. Abbiamo effettuato un benchmark della quantizzazione FP4/INT4 e abbiamo scoperto che mantiene il 98% dell'accuratezza del modello, offrendo al contempo un throughput 2,7 volte superiore rispetto a BF16. Tuttavia, il calo del 2% nell'accuratezza potrebbe essere significativo per attività critiche in termini di precisione, come la generazione di codice o il ragionamento matematico, dove piccoli errori si accumulano rapidamente.

Questo divario prestazionale può risultare stridente, soprattutto considerando il prezzo, in particolare quando le CPU server più vecchie o i cluster GPU fai-da-te economici possono superare Spark in specifici benchmark di inferenza a causa del collo di bottiglia della larghezza di banda della memoria di Spark.

Problemi relativi al software e all'assistenza

Anche la sostenibilità a lungo termine e le problematiche software rappresentano ostacoli significativi. Il sistema operativo DGX OS attualmente garantisce solo due anni di supporto, un periodo breve per hardware aziendale, e il dispositivo ha mostrato una tendenza al thermal throttling, che può causare riavvii durante periodi di utilizzo prolungati. 15

Inoltre, sebbene il sistema supporti CUDA, l'architettura ARM64 sottostante causa problemi di compatibilità imprevisti; gli sviluppatori potrebbero riscontrare la mancanza o la difficoltà di configurazione di specifici binari precompilati per librerie come PyTorch rispetto agli ambienti x86 standard.

Metodologia

Questa analisi sintetizza i dati di riferimento provenienti da molteplici fonti indipendenti:

  1. Hardware-Corner.net 16 : Benchmark llama.cpp di Allan Witt che confrontano DGX Spark, AMD Strix Halo e sistemi multi-GPU.
  2. Blog ufficiale di Ollama 17 : Test di prestazione standardizzati utilizzando Ollama v0.12.6 con firmware 580.95.05.
  3. IntuitionLabs.ai 18 : Analisi completa con benchmark SGLang e Ollam su diverse piattaforme.
  4. Forum Level1Techs 19 : Recensione pratica di Wendell incentrata sull'ecosistema del software e sui casi d'uso pratici.
  5. Segnale65 20 : Prospettiva degli sviluppatori sull'accesso all'ecosistema CUDA e sulle sfide di compatibilità con ARM64.
  6. EXO Labs 21 : Test di inferenza disaggregata ibrida DGX Spark + Mac Studio con misurazioni di accelerazione 2,8x.
  7. Jeff Geerling 22 : Confronto tra Dell GB10, analisi del thermal throttling e limitazioni del supporto del sistema operativo DGX.
  8. Bandardere 23 : Analisi indipendente delle prestazioni che confronta le dichiarazioni di marketing di 1 PFLOP con le misurazioni reali di 480 TFLOPS.
  9. StorageReview 24 : Benchmark di fine-tuning e inferenza batch (924 tok/s Llama 3.1 8B, 483 tok/s Qwen3 30B).

Tutti i benchmark utilizzano modelli disponibili pubblicamente con condizioni di test coerenti, ove possibile.

Conclusione

Gli utenti devono considerare DGX Spark non come un campione di prestazioni pure, ma come un kit di sviluppo accessibile e standardizzato, progettato per abbassare le barriere d'ingresso alla ricerca seria nel campo dell'intelligenza artificiale.

Il suo valore risiede nell'esperienza impeccabile fin dal primo giorno; a differenza delle configurazioni fai-da-te che richiedono giorni di risoluzione dei problemi relativi ai driver, Spark arriva con un ecosistema software maturo, una documentazione completa e playbook preconfigurati che consentono una produttività immediata.

Offre una piattaforma stabile e supportata per i ricercatori che necessitano di convalidare i flussi di lavoro in locale prima di estenderli, fungendo di fatto da una porzione funzionale di un data center che può essere utilizzata su una scrivania.

FAQ

DGX Spark è progettato come un supercomputer AI compatto, che integra l'architettura Grace Blackwell e i Tensor Core di quinta generazione in un formato ridotto, adatto a un computer desktop. Per molti utenti, questo significa poter eseguire localmente modelli linguistici complessi e altri carichi di lavoro di intelligenza artificiale senza la necessità di allestire una sala server.
Tuttavia, è fondamentale capire per cosa è più adatto.
Eccelle nel caricamento di modelli di intelligenza artificiale su larga scala grazie al suo ampio pool di memoria unificata.
Gestisce modelli di intelligenza artificiale complessi meglio della maggior parte dei mini PC o delle workstation compatte.
Non è l'opzione più veloce in assoluto per la generazione di token e alcune alternative a DGX Spark (ad esempio, computer desktop con più GPU o workstation Dell e HP) possono essere più rapide per modelli di dimensioni inferiori.
Se il tuo lavoro prevede lo sviluppo di modelli di intelligenza artificiale, la prototipazione o l'esecuzione di modelli a lungo termine su desktop, DGX Spark è un dispositivo dalle capacità uniche. Se invece ti occupi principalmente di modelli di dimensioni ridotte, ti concentri sull'elaborazione video o desideri il miglior rapporto qualità-prezzo, un desktop tradizionale o un mini-tower di fascia alta potrebbero offrire prestazioni superiori per ogni dollaro speso.

I tempi di attesa dipendono dai carichi di lavoro di intelligenza artificiale specifici che si eseguono. Con DGX Spark, l'elaborazione immediata è rapida per i modelli con linguaggio complesso, ma la generazione di token può essere più lenta rispetto ad alcune alternative basate su GPU. Questo significa che:
Nel caricamento di contesti lunghi, Spark è veloce.
Quando si tratta di generare risposte lunghe o di eseguire l'elaborazione video fotogramma per fotogramma tramite intelligenza artificiale, potrebbe non essere sempre il dispositivo più veloce disponibile.
Per attività di intelligenza artificiale di base o modelli più piccoli, gli utenti vedranno risultati quasi istantanei.
Per carichi di lavoro più consistenti, come la sintesi di documenti lunghi, la generazione di video con modelli multimodali o l'elaborazione di carichi di lavoro di intelligenza artificiale distribuiti, il tempo di attesa dipende dalle dimensioni e dalla precisione del modello.
Se ridurre al minimo i tempi di attesa è una priorità, sistemi come:
Stazione DGX,
Workstation HP serie Z, oppure
Le configurazioni multi-GPU, come l'Ascent GX10, possono offrire prestazioni migliori grazie a una maggiore larghezza di banda della memoria e a cluster di GPU più grandi. Tuttavia, occupano più spazio, sono più costose o richiedono maggiore spazio di archiviazione e alimentazione.

Il DGX Spark si distingue per il suo supporto software. Realizzato nell'ambito dell'iniziativa Project DIGITS di NVIDIA, si integra perfettamente con CUDA, TensorRT, la suite software DGX e gli strumenti aziendali, una caratteristica che manca a molti sistemi di progettazione compatti e mini PC.
Ciò lo rende particolarmente attraente per:
Scienziati dei dati,
I ricercatori che lavorano sulle valutazioni delle prestazioni dell'IA,
I team stanno effettuando la messa a punto,
Gli sviluppatori stanno sperimentando carichi di lavoro di intelligenza artificiale distribuiti,
Utenti che creano e testano nuovi modelli di intelligenza artificiale dall'inizio alla fine.
Rispetto ad alternative come i sistemi Apple, i desktop Dell di livello professionale o i PC basati su AMD, lo Spark beneficia del più ampio ecosistema NVIDIA. D'altra parte, alcune alternative offrono prestazioni migliori per uso generale, maggiore capacità di archiviazione espandibile o costi inferiori.

Per approfondire

Collegamenti di riferimento

1.
First Nvidia DGX Spark LLM Benchmarks Are In: Does It Beat Strix Halo
Hadrware Corner
2.
NVIDIA DGX Spark Review: Pros, Cons & Performance Benchmarks | IntuitionLabs
IntuitionLabs
3.
NVIDIA DGX Spark In-Depth Review: A New Standard for Local AI Inference - LMSYS Blog | LMSYS Org
4.
Sebastian Raschka, PhD (@rasbt): "Saw that DGX Spark vs Mac Mini M4 Pro benchmark plot making the rounds (via LMSYS, https://lmsys.org/blog/2025-10-13-nvidia-dgx-spark/). Thought I’d share a few notes as someone who actually uses a Mac Mini M4 Pro an
5.
First Nvidia DGX Spark LLM Benchmarks Are In: Does It Beat Strix Halo
Hadrware Corner
6.
NVIDIA DGX Spark performance · Ollama Blog
7.
Personal AI Supercomputer Powered by Blackwell | NVIDIA DGX Spark
8.
NVIDIA DGX Spark: great hardware, early days for the ecosystem
9.
NVIDIA DGX Spark First Look: A Personal AI Supercomputer on Your Desk - Signal65
Signal65
10.
NVIDIA DGX Spark Review: The AI Appliance Bringing Datacenter Capabilities to Desktops - StorageReview.com
StorageReview.com
11.
Combining NVIDIA DGX Spark + Apple Mac Studio for 4x Faster LLM Inference with EXO 1.0 | EXO
12.
First Nvidia DGX Spark LLM Benchmarks Are In: Does It Beat Strix Halo
Hadrware Corner
13.
Combining NVIDIA DGX Spark + Apple Mac Studio for 4x Faster LLM Inference with EXO 1.0 | EXO
14.
First Nvidia DGX Spark LLM Benchmarks Are In: Does It Beat Strix Halo
Hadrware Corner
15.
Dell's version of the DGX Spark fixes pain points - Jeff Geerling
16.
First Nvidia DGX Spark LLM Benchmarks Are In: Does It Beat Strix Halo
Hadrware Corner
17.
NVIDIA DGX Spark performance · Ollama Blog
18.
NVIDIA DGX Spark Review: Pros, Cons & Performance Benchmarks | IntuitionLabs
IntuitionLabs
19.
NVIDIA's DGX Spark Review and First Impressions - L1 Articles & Video-related - Level1Techs Forums
20.
https://signal65.com/research/nvidia-dgx-spark-first-look-a-personal-ai-supercomputer-on-your-desk/[/efn_note
21.
Combining NVIDIA DGX Spark + Apple Mac Studio for 4x Faster LLM Inference with EXO 1.0 | EXO
22.
Dell's version of the DGX Spark fixes pain points - Jeff Geerling
23.
DGX Spark’s Dirty Secret: NVIDIA’s 1 PFLOPS AI Box Delivers Half That - Banandre
24.
NVIDIA DGX Spark Review: The AI Appliance Bringing Datacenter Capabilities to Desktops - StorageReview.com
StorageReview.com
Cem Dilmegani
Cem Dilmegani
Analista principale
Cem è analista principale presso AIMultiple dal 2017. AIMultiple fornisce informazioni a centinaia di migliaia di aziende (secondo SimilarWeb), tra cui il 55% delle aziende Fortune 500, ogni mese. Il lavoro di Cem è stato citato da importanti pubblicazioni globali come Business Insider, Forbes, Washington Post, società globali come Deloitte e HPE, ONG come il World Economic Forum e organizzazioni sovranazionali come la Commissione Europea. È possibile consultare l'elenco di altre aziende e risorse autorevoli che hanno citato AIMultiple. Nel corso della sua carriera, Cem ha lavorato come consulente tecnologico, responsabile acquisti tecnologici e imprenditore nel settore tecnologico. Ha fornito consulenza alle aziende sulle loro decisioni tecnologiche presso McKinsey & Company e Altman Solon per oltre un decennio. Ha anche pubblicato un report di McKinsey sulla digitalizzazione. Ha guidato la strategia tecnologica e gli acquisti di un'azienda di telecomunicazioni, riportando direttamente al CEO. Ha inoltre guidato la crescita commerciale dell'azienda deep tech Hypatos, che ha raggiunto un fatturato annuo ricorrente a 7 cifre e una valutazione a 9 cifre partendo da zero in soli 2 anni. Il lavoro di Cem in Hypatos è stato oggetto di articoli su importanti pubblicazioni tecnologiche come TechCrunch e Business Insider. Cem partecipa regolarmente come relatore a conferenze internazionali di settore. Si è laureato in ingegneria informatica presso l'Università di Bogazici e ha conseguito un MBA presso la Columbia Business School.
Visualizza il profilo completo

Sii il primo a commentare

Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori.

0/450