DGX Spark vs Mac Studio e Halo: Benchmarks e Alternativas

atualizado em Abr 13, 2026

O DGX Spark da NVIDIA entrou no mercado de IA para desktops em 2025 por US$ 4.699, posicionando-se como um "supercomputador de IA para desktop". Ele possui 128 GB de memória unificada e promete um petaflop de desempenho de IA FP4 em um chassi do tamanho de um Mac Mini.
Veja os resultados da análise comparativa de valor e desempenho em relação às alternativas:

Desempenho GPT-OSS 120B

Loading Chart

Ao comparar sistemas no exigente modelo GPT-OSS 120B (formato MXFP4), as diferenças de desempenho tornaram-se gritantes. ¹ ²

GPT-OSS 120B insights intersistêmicos

Processamento rápido : DGX Spark e 3×RTX 3090 são quase idênticos (1.723 vs 1.642 tokens/seg), com o DGX Spark ligeiramente à frente devido à eficiência FP4. O Strix Halo fica significativamente para trás com 340 tokens/seg, apesar de capacidades FP4 semelhantes.
Geração de tokens : A configuração com 3 RTX 3090 domina com 124 tokens/seg, mais de 3 vezes mais rápida que os 38,55 tokens/seg do DGX Spark. Isso confirma que a largura de banda da memória LPDDR5X (273 GB/s) é o gargalo em comparação com a largura de banda agregada da GDDR6X.
Vantagem em capacidade de memória : A memória unificada de 128 GB do DGX Spark permite executar modelos que travariam em GPUs de 24 GB. Uma única RTX 3090 não consegue executar modelos de 120 bits sem recorrer à memória RAM do sistema, que é mais lenta.

Fonte: Organização LMSYS ³ , Substack ⁴

O gráfico demonstra que:

O DGX Spark supera o Mac Mini M4 Pro em todos os tamanhos de modelo.
Para modelos menores (GPT-OSS 20B, LLaMA 3.1 8B), a diferença é maior (cerca de 30% mais rápido).
Para modelos maiores (Gemma-3 27B), o desempenho converge à medida que ambos os sistemas ficam limitados pela memória.
Ambos os sistemas permanecem utilizáveis mesmo com modelos de parâmetros 27B.

Análise de preço-desempenho

Os preços estão atualizados até abril de 2026. A NVIDIA aumentou o preço sugerido de venda do DGX Spark Founders Edition de US$ 3.999 para US$ 4.699 em 27 de fevereiro de 2026, alegando restrições no fornecimento de memória. ⁵

Benchmarks de inferência DGX Spark

resultados llama.cpp

Os primeiros testes de desempenho do desenvolvedor do llama.cpp, Georgi Gerganov, fornecem métricas básicas de desempenho. Os testes mediram o processamento de prompts (a rapidez com que o modelo processa a entrada) e a geração de tokens (velocidade de resposta):

Fonte: Hardware-Corner.net ⁶

O padrão é claro: o DGX Spark se destaca no processamento rápido (limitado por computação), mas tem dificuldades na geração de tokens (limitado por memória).

Testes de desempenho de lhamas

Testes de desempenho oficiais da Ollama, utilizando a versão de firmware 580.95.05 e a versão 0.12.6 da Ollama, testaram diversos modelos em condições padronizadas:

Fonte: Blog da Ollama ⁷

Nota : Os modelos gpt-oss de OpenAI testados pelo Ollama usam o formato oficial MXFP4 com BF16 nas camadas de atenção, e não a versão quantizada q8_0.

A atualização de software NVIDIA da CES 2026 (6 a 9 de janeiro de 2026) proporcionou melhorias de desempenho de até 2,5 vezes em cargas de trabalho selecionadas em comparação com a versão de lançamento de outubro de 2025, alcançadas por meio de otimizações do TensorRT-LLM, quantização NVFP4 e decodificação especulativa do Eagle3. Os ganhos são específicos para cada carga de trabalho: a taxa de transferência do Qwen-235B mais que dobrou com NVFP4 + Eagle3, a geração de tokens GPT-OSS 20B atingiu 49,7 tok/s após a atualização no Ollama e as cargas de trabalho de geração de vídeo apresentaram um aumento de velocidade de 8 vezes. ⁸ ⁹

DGX Spark: Especificações técnicas

Fonte: NVIDIA ¹⁰

Quando o DGX Spark é melhor?

Acesso ao ecossistema CUDA

O DGX Spark se destaca em cenários onde a compatibilidade de software e a eficiência de fluxos de trabalho específicos superam a velocidade bruta de geração de tokens. Para desenvolvedores acostumados com os processadores Apple Silicon, a transição para o Spark atenua o atrito da " lacuna CUDA ", já que muitas bibliotecas e tutoriais padrão do setor ainda pressupõem um ambiente CUDA. ¹¹

O Spark oferece acesso nativo ao ecossistema NVIDIA, incluindo contêineres Docker e playbooks oficiais, permitindo que os usuários executem configurações complexas, como o ajuste fino de pipelines ou fluxos de trabalho com agentes que dependem da pilha NVIDIA padrão.

Fluxo de trabalho do desktop ao datacenter

Este dispositivo preenche efetivamente a lacuna entre a prototipagem local e a implementação em data centers. Posicionado como um "supercomputador pessoal de IA", ele permite que pesquisadores desenvolvam e testem modelos em uma unidade de mesa que compartilha a mesma arquitetura de software (drivers, kit de ferramentas CUDA e ferramentas de gerenciamento) que clusters de nuvem em grande escala. ¹²

Essa consistência resolve problemas de compatibilidade com o ambiente local ao migrar cargas de trabalho para grandes implantações do H100 .

Além disso, benchmarks específicos destacam a competência do sistema em otimização e processamento em lote de alto rendimento; nos testes, o sistema atingiu aproximadamente 924 tokens por segundo com Llama 3.1 8B (FP4) e 483 tokens por segundo com Qwen3 Coder 30B (FP8), demonstrando sua utilidade para tarefas de desenvolvimento rigorosas além da simples inferência de chat. ¹³

Configurações híbridas com o Mac Studio

Combinações inovadoras de hardware também revelam vantagens específicas para o Spark. Embora apresente dificuldades com a largura de banda de memória para decodificação em comparação com o hardware da Apple, seu desempenho de "pré-carregamento", que exige alto poder de processamento, é significativamente superior.

Ao conectar um DGX Spark a um Mac Studio M3 Ultra, os desenvolvedores podem aproveitar o Spark para processamento imediato e o Mac para geração de tokens. Essa configuração híbrida "desagregada" proporciona um aumento de velocidade geral de 2,8 vezes em comparação com a execução de modelos apenas no Mac Studio. ¹⁴

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Alternativas ao DGX Spark a considerar

AMD Strix Halo (Framework para desktop) para quem tem orçamento limitado e bom custo-benefício

Para usuários com orçamento limitado, o Framework Desktop com Ryzen AI Max 385 (Strix Halo) oferece a melhor relação custo-benefício entre os sistemas de memória unificada. Por US$ 2.348, ele custa aproximadamente metade do DGX Spark, oferecendo a mesma configuração de memória unificada de 128 GB e largura de banda de memória comparável (~273 GB/s). ¹⁵

O desempenho na geração de tokens é surpreendentemente competitivo: 34,13 tok/s contra 38,55 tok/s do DGX Spark no modelo de 120 bits. No entanto, o processamento imediato revela a diferença, onde a arquitetura Blackwell do DGX Spark domina com 1.723 tok/s em comparação com os 339,87 tok/s do Strix Halo. Isso significa que o Strix Halo processa contextos grandes cerca de 5 vezes mais lentamente, embora a velocidade de geração permaneça quase idêntica após o início do processamento.

A contrapartida é a maturidade do software. O Strix Halo depende da pilha ROCm da Microsoft em vez do CUDA, que está melhorando rapidamente, mas ainda carece da profundidade do ecossistema e do ambiente de desenvolvimento de IA pré-configurado que o DGX Spark oferece imediatamente.

AMD Mini PC Ryzen AI Halo

Na CES 2026, a Ryzen anunciou a plataforma de referência Ryzen AI Halo Mini-PC, posicionada explicitamente como concorrente do DGX Spark. Ela utiliza o mesmo chip Ryzen AI Max+ 395 do Framework Desktop, mas com uma NPU XDNA 2 dedicada de 50 TOPS, suporte nativo para Windows e Linux, e ROCm 7.2.2 no lançamento, com suporte imediato para GPT-OSS, FLUX.2 e SDXL. A capacidade computacional combinada de IA é de 126 TOPS. ¹⁶

A memória é de 128 GB LPDDR5x-8533 a 273 GB/s, correspondendo exatamente à largura de banda do DGX Spark. A empresa AMD afirma que a plataforma pode executar modelos de IA com até 200 bilhões de parâmetros localmente, embora o desempenho real nessa escala seja limitado pela largura de banda. A mesma largura de banda de memória de 273 GB/s que limita a geração de tokens do DGX Spark também limitará o desempenho do Ryzen AI Halo na mesma carga de trabalho.

Os parceiros OEM começarão a enviar a plataforma de referência no segundo trimestre de 2026, com a Framework Desktop como parceira de hardware confirmada. O preço ainda não foi divulgado. O chip Ryzen AI Max+ 395, que equipa o Framework Desktop, é atualmente vendido por US$ 2.348 na configuração de 128 GB, o que estabelece uma expectativa razoável para o preço de varejo da nova plataforma quando ela chegar aos consumidores.

A CEO da Ryzen, Lisa Su, posicionou o anúncio como parte da "era da computação em escala yotta". O Ryzen AI Halo é a primeira resposta da Ryzen em nível de produto à categoria DGX Spark, diferenciando-se principalmente pela NPU dedicada, suporte nativo ao Windows e ROCm em vez de CUDA.

Mac Studio M3 Ultra para inferência de alta velocidade

Se a largura de banda da memória e a velocidade de geração de tokens forem as principais métricas, o Mac Studio M3 Ultra continua sendo uma opção superior. Com 512 GB de memória unificada disponível a 819 GB/s, o Mac Studio oferece aproximadamente três vezes a largura de banda da configuração LPDDR5X de 273 GB/s do Spark. ¹⁷

Essa vantagem de largura de banda resulta em velocidades de decodificação mais rápidas para modelos de linguagem grandes, tornando o Mac Studio altamente eficaz para tarefas que exigem muita inferência, onde o tempo de geração de resposta é crucial.

Configurações DIY com múltiplas GPUs para máximo desempenho bruto.

Para obter o máximo desempenho bruto, independentemente da complexidade, uma configuração com 3 placas RTX 3090 oferece um desempenho incomparável a qualquer sistema de memória unificado. Com 72 GB de VRAM agregada e largura de banda total de memória de aproximadamente 936 GB/s, essa configuração atinge 124 tok/s em modelos de 120 bits, mais de 3 vezes mais rápido que os 38,55 tok/s do DGX Spark. ¹⁸

As desvantagens são consideráveis. Essa abordagem exige conhecimento técnico significativo para instalação e configuração, consome 1.050 W em comparação com os 210 W do DGX Spark, ocupa mais espaço físico e não oferece um pacote de software pronto para uso. Para usuários que priorizam a praticidade em detrimento do desempenho bruto, o DGX Spark continua sendo a opção mais fácil.

Limitações do DGX Spark

Promessas de desempenho versus realidade

O valor anunciado de “1 petaflop” depende da precisão FP4 esparsa, o que inicialmente levantou dúvidas sobre sua aplicabilidade no mundo real. Realizamos testes comparativos com a quantização FP4/INT4 e constatamos que ela retém 98% da precisão do modelo, ao mesmo tempo que oferece um ganho de desempenho de 2,7 vezes em comparação com o BF16. No entanto, a queda de 2% na precisão pode ser significativa para tarefas críticas em termos de precisão, como geração de código ou raciocínio matemático, onde pequenos erros se acumulam rapidamente.

Essa diferença de desempenho pode ser gritante, considerando o preço, principalmente quando CPUs de servidor mais antigas ou clusters de GPUs DIY de baixo custo conseguem superar o Spark em benchmarks de inferência específicos, devido ao gargalo de largura de banda de memória do Spark.

Problemas com software e suporte

A viabilidade a longo prazo e a fricção do software também representam obstáculos significativos. O sistema operacional DGX garante atualmente apenas dois anos de suporte, um período curto para hardware empresarial, e o dispositivo tem demonstrado tendência à limitação térmica, o que pode forçar reinicializações durante períodos prolongados de uso. ¹⁹

Além disso, embora o sistema execute CUDA, a arquitetura ARM64 subjacente causa problemas de compatibilidade inesperados; os desenvolvedores podem descobrir que binários pré-compilados específicos para bibliotecas como PyTorch estão ausentes ou são difíceis de configurar em comparação com ambientes x86 padrão.

volatilidade de preços

A NVIDIA aumentou o preço sugerido do DGX Spark de US$ 3.999 para US$ 4.699 em 27 de fevereiro de 2026, um aumento de 18%. A NVIDIA citou restrições no fornecimento de memória para o pacote LPDDR5X de 128 GB como o principal motivo. O histórico completo de preços mostra um aumento de 56,7% desde o anúncio na CES 2025 (US$ 2.999) até o preço sugerido em fevereiro de 2026 (US$ 4.699), com um preço intermediário de envio de US$ 3.999 quando as unidades começaram a chegar em outubro de 2025. ²⁰

Para o planejamento de compras, a trajetória é crucial. Uma equipe que orçou o DGX Spark com base no preço anunciado na CES 2025 agora paga 56,7% a mais por unidade, e a NVIDIA não se comprometeu a reduzir o preço quando o fornecimento de memória se normalizar. Compradores que solicitaram orçamentos para múltiplas unidades para um laboratório ou grupo de pesquisa podem observar novas oscilações de preços enquanto a situação global de fornecimento de memória permanecer restrita.

Fontes de referência e metodologia

Esta análise sintetiza dados de referência de múltiplas fontes independentes:

Hardware-Corner.net ²¹ : Benchmarks llama.cpp de Allan Witt comparando DGX Spark, AMD Strix Halo e sistemas multi-GPU.
Blog oficial da Ollama ²² : Testes de desempenho padronizados usando Ollama v0.12.6 com firmware 580.95.05.
IntuitionLabs.ai ²³ : Análise abrangente com benchmarks SGLang e Ollama em múltiplas plataformas.
Fórum Level1Techs ²⁴ : Análise prática de Wendell com foco no ecossistema de software e casos de uso práticos.
Sinal 65 ²⁵ : Análise inicial abrangendo a consistência do fluxo de trabalho entre desktops e datacenters, bem como a usabilidade no primeiro dia.
Simão Willison ²⁶ : Perspectiva do desenvolvedor sobre o acesso ao ecossistema CUDA e os desafios de compatibilidade com ARM64.
EXO Labs ²⁷ : Testes de inferência desagregada híbrida DGX Spark + Mac Studio com medições de aceleração de 2,8x.
Jeff Geerling ²⁸ : Comparação do Dell GB10, análise de limitação térmica e limitações de suporte do sistema operacional DGX.
Banandre ²⁹ : Análise de desempenho independente comparando as alegações de marketing de 1 PFLOP com as medições reais de 480 TFLOPS.
Análise de armazenamento ³⁰ : Benchmarks de ajuste fino e inferência em lote (924 tok/s Llama 3.1 8B, 483 tok/s Qwen3 30B).

Todos os benchmarks utilizam modelos disponíveis publicamente com condições de teste consistentes, sempre que possível.

Conclusão

Os usuários devem entender o DGX Spark não como um campeão de desempenho bruto, mas como um kit de desenvolvimento acessível e padronizado, projetado para reduzir as barreiras de entrada para pesquisas sérias em IA.

Seu valor reside na experiência refinada desde o primeiro dia; ao contrário das montagens "faça você mesmo" que exigem dias de solução de problemas com drivers, o Spark chega com um ecossistema de software maduro, documentação extensa e playbooks pré-configurados que permitem produtividade imediata. O aumento de preço em fevereiro de 2026 não reverte esse posicionamento, mas reduz o argumento da acessibilidade, especialmente porque a plataforma Ryzen AI Halo Mini-PC será lançada no segundo trimestre de 2026 com o mesmo chip Ryzen AI Max+ 395 que o Framework Desktop atualmente vende por US$ 2.348 para uma configuração de 128 GB.

Ela oferece uma plataforma estável e com suporte para pesquisadores que precisam validar fluxos de trabalho localmente antes de expandi-los, funcionando efetivamente como uma unidade funcional de um data center que cabe em uma mesa.

Leitura complementar

Links de referência

First Nvidia DGX Spark LLM Benchmarks Are In: Does It Beat Strix Halo

Hadrware Corner

NVIDIA DGX Spark Review: Pros, Cons & Performance Benchmarks | IntuitionLabs

IntuitionLabs

NVIDIA DGX Spark In-Depth Review: A New Standard for Local AI Inference - LMSYS Blog | LMSYS Org

Sebastian Raschka, PhD (@rasbt): "Saw that DGX Spark vs Mac Mini M4 Pro benchmark plot making the rounds (via LMSYS, https://lmsys.org/blog/2025-10-13-nvidia-dgx-spark/). Thought I’d share a few notes as someone who actually uses a Mac Mini M4 Pro an

Nvidia DGX Spark gets $700 price hike as memory shortages bite — Founders Edition price jumps 18% to $4,699, up from $3,999 | Tom's Hardware

Tom's Hardware

First Nvidia DGX Spark LLM Benchmarks Are In: Does It Beat Strix Halo

Hadrware Corner

NVIDIA DGX Spark performance · Ollama Blog

NVIDIA DGX Spark Review: Pros, Cons & Performance Benchmarks | IntuitionLabs

IntuitionLabs

NVIDIA Boosts DGX Spark Performance And Pushes New Developer Tools at CES 2026 | HotHardware

HotHardware

10.

Personal AI Supercomputer Powered by Blackwell | NVIDIA DGX Spark

11.

NVIDIA DGX Spark: great hardware, early days for the ecosystem

12.

NVIDIA DGX Spark First Look: A Personal AI Supercomputer on Your Desk - Signal65

Signal65

13.

NVIDIA DGX Spark Review: The AI Appliance Bringing Datacenter Capabilities to Desktops - StorageReview.com

StorageReview.com

14.

Combining NVIDIA DGX Spark + Apple Mac Studio for 4x Faster LLM Inference with EXO 1.0 | EXO

15.

First Nvidia DGX Spark LLM Benchmarks Are In: Does It Beat Strix Halo

Hadrware Corner

16.

AMD Ryzen AI Halo Mini PC Launches Q2 2026 with ROCm

TheOutpost.ai

17.

Combining NVIDIA DGX Spark + Apple Mac Studio for 4x Faster LLM Inference with EXO 1.0 | EXO

18.

First Nvidia DGX Spark LLM Benchmarks Are In: Does It Beat Strix Halo

Hadrware Corner

19.

Dell's version of the DGX Spark fixes pain points - Jeff Geerling

20.

2/23/2026 Price Change Announcement - Announcements - NVIDIA Developer Forums

21.

First Nvidia DGX Spark LLM Benchmarks Are In: Does It Beat Strix Halo

Hadrware Corner

22.

NVIDIA DGX Spark performance · Ollama Blog

23.

NVIDIA DGX Spark Review: Pros, Cons & Performance Benchmarks | IntuitionLabs

IntuitionLabs

24.

NVIDIA's DGX Spark Review and First Impressions - L1 Articles & Video-related - Level1Techs Forums

25.

NVIDIA DGX Spark First Look: A Personal AI Supercomputer on Your Desk - Signal65

Signal65

26.

NVIDIA DGX Spark: great hardware, early days for the ecosystem

27.

Combining NVIDIA DGX Spark + Apple Mac Studio for 4x Faster LLM Inference with EXO 1.0 | EXO

28.

Dell's version of the DGX Spark fixes pain points - Jeff Geerling

29.

DGX Spark’s Dirty Secret: NVIDIA’s 1 PFLOPS AI Box Delivers Half That - Banandre

30.

NVIDIA DGX Spark Review: The AI Appliance Bringing Datacenter Capabilities to Desktops - StorageReview.com

StorageReview.com

Cem Dilmegani

Analista Principal

Cem é o analista principal da AIMultiple desde 2017. A AIMultiple fornece informações para centenas de milhares de empresas (segundo o SimilarWeb), incluindo 55% das empresas da Fortune 500, todos os meses. O trabalho de Cem foi citado por importantes publicações globais, como Business Insider, Forbes e Washington Post, além de empresas globais como Deloitte e HPE, ONGs como o Fórum Econômico Mundial e organizações supranacionais como a Comissão Europeia. Você pode ver mais empresas e recursos renomados que mencionaram a AIMultiple. Ao longo de sua carreira, Cem atuou como consultor de tecnologia, comprador de tecnologia e empreendedor na área. Ele assessorou empresas em suas decisões tecnológicas na McKinsey & Company e na Altman Solon por mais de uma década. Também publicou um relatório da McKinsey sobre digitalização. Liderou a estratégia de tecnologia e a área de compras de uma empresa de telecomunicações, reportando-se diretamente ao CEO. Além disso, liderou o crescimento comercial da empresa de tecnologia avançada Hypatos, que atingiu uma receita recorrente anual de sete dígitos e uma avaliação de nove dígitos, partindo de zero, em apenas dois anos. O trabalho de Cem no Hypatos foi noticiado por importantes publicações de tecnologia, como TechCrunch e Business Insider. Cem participa regularmente como palestrante em conferências internacionais de tecnologia. Ele se formou em engenharia da computação pela Universidade Bogazici e possui um MBA pela Columbia Business School.

Ver perfil completo