Contáctanos
No se encontraron resultados.

DGX Spark vs Mac Studio y Halo: Pruebas de rendimiento y alternativas

Cem Dilmegani
Cem Dilmegani
actualizado el Abr 13, 2026
Vea nuestra normas éticas

El DGX Spark de NVIDIA entró en el mercado de la IA de escritorio en 2025 a un precio de 3999 dólares, posicionándose como una "supercomputadora de IA de escritorio". Incorpora 128 GB de memoria unificada y promete un rendimiento de un petaflop de IA FP4 en un chasis del tamaño de un Mac Mini.
Consulte los resultados comparativos en cuanto a valor y rendimiento en comparación con otras alternativas:

Análisis comparativo: DGX Spark frente a alternativas

Rendimiento de GPT-OSS 120B

Loading Chart

Al comparar sistemas en el exigente modelo GPT-OSS 120B (formato MXFP4), las diferencias de rendimiento se hicieron evidentes. 1 2

Información clave sobre el rendimiento

  1. Procesamiento rápido : DGX Spark y 3×RTX 3090 son casi idénticos (1723 frente a 1642 tokens/seg), con DGX Spark ligeramente por delante debido a la eficiencia de FP4. El AMD Strix Halo se queda significativamente atrás con 340 tokens/seg a pesar de tener capacidades FP4 similares.
  2. Generación de tokens : La configuración 3×RTX 3090 destaca con 124 tokens/seg, más de 3 veces más rápido que los 38,55 tokens/seg de DGX Spark. Esto confirma que el ancho de banda de la memoria LPDDR5X (273 GB/s) es el cuello de botella en comparación con el ancho de banda agregado de GDDR6X.
  3. Ventaja en capacidad de memoria : la memoria unificada de 128 GB de DGX Spark le permite ejecutar modelos que fallarían en GPU de 24 GB. Una sola RTX 3090 no puede ejecutar modelos de 120 bytes sin descargarles la carga a la memoria RAM del sistema, que es más lenta.

Fuente: LMSYS Org 3 , Subpila 4

El gráfico demuestra que:

  • DGX Spark supera al Mac Mini M4 Pro en todos los tamaños de modelo.
  • Para los modelos más pequeños (GPT-OSS 20B, LLaMA 3.1 8B), la diferencia es mayor (aproximadamente un 30 % más rápido).
  • Para modelos más grandes (Gemma-3 27B), el rendimiento converge a medida que ambos sistemas se vuelven limitados por la memoria.
  • Ambos sistemas siguen siendo utilizables incluso con modelos de parámetros 27B.

Análisis de la relación precio-rendimiento

Nota: Los precios son aproximados a partir de enero de 2026.

Puntos de referencia de rendimiento bruto

resultados de llama.cpp

Las primeras pruebas de rendimiento realizadas por Georgi Gerganov, desarrollador de llama.cpp, proporcionan métricas de rendimiento de referencia. Las pruebas midieron el procesamiento de solicitudes (la rapidez con la que el modelo ingiere la entrada) y la generación de tokens (velocidad de respuesta):

Fuente: Hardware-Corner.net 5

El patrón es claro: DGX Spark destaca en el procesamiento rápido (limitado por la capacidad de cómputo), pero tiene dificultades con la generación de tokens (limitada por la memoria).

Pruebas de rendimiento de Ollama

Las pruebas de rendimiento oficiales de Ollama, utilizando la versión de firmware 580.95.05 y Ollama v0.12.6, probaron varios modelos en condiciones estandarizadas:

Fuente: Blog de Ollama 6

Nota : Los modelos gpt-oss de OpenAI probados por Ollama utilizan el formato oficial MXFP4 con BF16 en las capas de atención, no la versión cuantizada q8_0.

DGX Spark: Especificaciones técnicas

Fuente: NVIDIA 7

¿Cuándo es mejor DGX Spark?

Acceso al ecosistema CUDA

El DGX Spark se distingue en escenarios donde la compatibilidad del software y la eficiencia en los flujos de trabajo específicos priman sobre la velocidad de generación de tokens. Para los desarrolladores acostumbrados a los procesadores Apple Silicon, la transición al Spark reduce las dificultades derivadas de la falta de compatibilidad con CUDA , ya que muchas bibliotecas y tutoriales estándar de la industria aún presuponen un entorno CUDA. 8

Spark proporciona acceso nativo al ecosistema NVIDIA, incluidos contenedores Docker y playbooks oficiales, lo que permite a los usuarios ejecutar configuraciones complejas como el ajuste fino de pipelines o flujos de trabajo de agentes que dependen de la pila estándar NVIDIA.

Flujo de trabajo del escritorio al centro de datos

Este dispositivo cierra la brecha entre la creación de prototipos locales y la implementación en centros de datos. Concebido como una "supercomputadora personal de IA", permite a los investigadores desarrollar y probar modelos en una unidad de escritorio que comparte la misma arquitectura de software (controladores, kit de herramientas CUDA y herramientas de administración) que los clústeres en la nube a gran escala. 9

Esta coherencia resuelve los problemas de compatibilidad del entorno local al migrar cargas de trabajo a grandes implementaciones de H100 .

Además, ciertos puntos de referencia específicos resaltan la competencia del sistema en el ajuste fino y el procesamiento por lotes de alto rendimiento; en las pruebas, el sistema logró aproximadamente 924 tokens por segundo con Llama 3.1 8B (FP4) y 483 tokens por segundo con Qwen3 Coder 30B (FP8), lo que demuestra su utilidad para tareas de desarrollo rigurosas más allá de la simple inferencia de chat. 10

Configuraciones híbridas con Mac Studio

Las innovadoras combinaciones de hardware también revelan ventajas específicas para el Spark. Si bien tiene dificultades con el ancho de banda de memoria para la decodificación en comparación con el hardware de Apple, su rendimiento de "precarga" de alto procesamiento es significativamente superior.

Al conectar en red un DGX Spark con un Mac Studio M3 Ultra, los desarrolladores pueden aprovechar el Spark para un procesamiento rápido y el Mac para la generación de tokens. Esta configuración híbrida "desagregada" logra una aceleración general de 2,8 veces en comparación con la ejecución de modelos únicamente en el Mac Studio. 11

Alternativas a considerar

AMD Strix Halo (escritorio con marco) para presupuesto y valor

Para usuarios con presupuesto ajustado, el Framework Desktop con Ryzen AI Max 385 (Strix Halo) ofrece la mejor relación precio-rendimiento entre los sistemas de memoria unificada. Con un precio de 2348 dólares, cuesta aproximadamente la mitad que el DGX Spark, a la vez que ofrece la misma configuración de memoria unificada de 128 GB y un ancho de banda de memoria comparable (~273 GB/s). 12

El rendimiento de generación de tokens es sorprendentemente competitivo: 34,13 tok/s frente a los 38,55 tok/s de DGX Spark en el modelo 120B. Sin embargo, el procesamiento inmediato revela la diferencia, donde la arquitectura Blackwell de DGX Spark domina con 1723 tok/s en comparación con los 339,87 tok/s de Strix Halo. Esto significa que Strix Halo procesa contextos grandes aproximadamente cinco veces más lento, aunque la velocidad de generación se mantiene prácticamente idéntica una vez que comienza el procesamiento.

La desventaja radica en la madurez del software. Strix Halo se basa en la pila ROCm de AMD en lugar de CUDA, que está mejorando rápidamente, pero aún carece de la profundidad del ecosistema y del entorno de desarrollo de IA preconfigurado que DGX Spark proporciona de forma inmediata.

Mac Studio M3 Ultra para inferencia de alta velocidad

Si los parámetros principales son el ancho de banda de la memoria y la velocidad de generación de tokens, el Mac Studio M3 Ultra sigue siendo una opción superior. Con 512 GB de memoria unificada disponibles a 819 GB/s, el Mac Studio ofrece aproximadamente el triple de ancho de banda que la configuración LPDDR5X de 273 GB/s del Spark. 13

Esta ventaja en el ancho de banda se traduce en velocidades de decodificación más rápidas para modelos de lenguaje grandes, lo que hace que Mac Studio sea muy eficaz para tareas con mucha inferencia donde el tiempo de generación de respuestas es fundamental.

Montajes DIY con múltiples GPU para obtener el máximo rendimiento bruto.

Para obtener el máximo rendimiento bruto, independientemente de la complejidad, una configuración de 3 RTX 3090 ofrece un rendimiento que ningún sistema de memoria unificada puede igualar. Con 72 GB de VRAM agregada y un ancho de banda de memoria total de aproximadamente 936 GB/s, esta configuración alcanza los 124 tok/s en modelos de 120 bytes, más de 3 veces más rápido que los 38,55 tok/s de DGX Spark. 14

Las desventajas son considerables. Este método requiere una gran experiencia técnica para su configuración, consume 1050 W frente a los 210 W del DGX Spark, ocupa más espacio físico y no incluye software preinstalado. Para los usuarios que priorizan la comodidad de uso inmediato sobre el rendimiento puro, el DGX Spark sigue siendo la opción más sencilla.

Limitaciones

Afirmaciones sobre el rendimiento frente a la realidad

La cifra anunciada de "1 petaflop" se basa en una precisión FP4 dispersa, lo que inicialmente generó dudas sobre su aplicabilidad en el mundo real. Realizamos pruebas comparativas de la cuantización FP4/INT4 y descubrimos que conserva el 98 % de la precisión del modelo, a la vez que ofrece un aumento de rendimiento de 2,7 veces en comparación con BF16. Sin embargo, la disminución del 2 % en la precisión puede ser significativa para tareas críticas que requieren precisión, como la generación de código o el razonamiento matemático, donde los errores menores se acumulan rápidamente.

Esta diferencia de rendimiento puede resultar chocante dado el precio, sobre todo si se tiene en cuenta que las CPU de servidores más antiguas o los clústeres de GPU de bajo coste para aficionados pueden superar al Spark en pruebas de inferencia específicas debido al cuello de botella del ancho de banda de la memoria del Spark.

Problemas con el software y el soporte

La viabilidad a largo plazo y la fricción del software también representan obstáculos importantes. El sistema operativo DGX actualmente solo garantiza dos años de soporte, un período corto para hardware empresarial, y el dispositivo ha mostrado tendencias a la limitación térmica, lo que puede provocar reinicios durante usos prolongados. 15

Además, si bien el sistema ejecuta CUDA, la arquitectura ARM64 subyacente provoca problemas de compatibilidad inesperados; los desarrolladores pueden encontrar que faltan binarios precompilados específicos para bibliotecas como PyTorch o que son difíciles de configurar en comparación con los entornos x86 estándar.

Metodología

Este análisis sintetiza datos de referencia procedentes de múltiples fuentes independientes:

  1. Hardware-Corner.net 16 : Pruebas de rendimiento de llama.cpp de Allan Witt que comparan DGX Spark, AMD Strix Halo y sistemas multi-GPU.
  2. Blog oficial de Ollama 17 : Pruebas de rendimiento estandarizadas utilizando Ollama v0.12.6 con firmware 580.95.05.
  3. IntuitionLabs.ai 18 : Revisión exhaustiva con pruebas de rendimiento SGLang y Ollama en múltiples plataformas.
  4. Foro de Level1Techs 19 : Análisis práctico de Wendell centrado en el ecosistema de software y casos de uso prácticos.
  5. Señal65 20 : Perspectiva del desarrollador sobre el acceso al ecosistema CUDA y los desafíos de compatibilidad con ARM64.
  6. Laboratorios EXO 21 : Pruebas de inferencia desagregadas híbridas de DGX Spark + Mac Studio con mediciones de aceleración de 2,8x.
  7. Jeff Geerling 22 : Comparativa del Dell GB10, análisis de la limitación térmica y limitaciones de la compatibilidad con el sistema operativo DGX.
  8. Bandera 23 : Análisis de rendimiento independiente que compara las afirmaciones de marketing de 1 PFLOP con las mediciones reales de 480 TFLOPS.
  9. Revisión de almacenamiento 24 : Pruebas de rendimiento de ajuste fino e inferencia por lotes (924 tok/s Llama 3.1 8B, 483 tok/s Qwen3 30B).

Todas las pruebas de referencia utilizan modelos disponibles públicamente con condiciones de prueba consistentes siempre que sea posible.

Conclusión

Los usuarios deben entender el DGX Spark no como un campeón del rendimiento puro, sino como un kit de desarrollo accesible y estandarizado diseñado para reducir las barreras de entrada a la investigación seria en IA.

Su valor reside en la impecable experiencia inicial; a diferencia de los equipos ensamblados por uno mismo, que requieren días de solución de problemas de controladores, el Spark viene con un ecosistema de software maduro, documentación extensa y manuales de procedimientos preconfigurados que permiten una productividad inmediata.

Proporciona una plataforma estable y con soporte para los investigadores que necesitan validar los flujos de trabajo localmente antes de escalarlos, funcionando eficazmente como una sección funcional de un centro de datos que cabe en un escritorio.

Preguntas frecuentes

El DGX Spark está diseñado como una supercomputadora de IA compacta, que integra la arquitectura Grace Blackwell del NVIDIA y los Tensor Cores de quinta generación en un formato pequeño y compacto, ideal para ordenadores de sobremesa. Para muchos usuarios, esto significa que pueden ejecutar grandes modelos de lenguaje y otras cargas de trabajo de inteligencia artificial localmente, sin necesidad de una sala de servidores.
Sin embargo, es fundamental comprender para qué es más adecuado.
Destaca por su capacidad para cargar modelos de IA a gran escala gracias a su amplio conjunto de memoria unificada.
Maneja modelos de IA complejos mejor que la mayoría de los mini PC o estaciones de trabajo compactas.
No es la opción más rápida para la generación de tokens, y algunas alternativas a DGX Spark (por ejemplo, torres con múltiples GPU o estaciones de trabajo Dell y HP) pueden ser más rápidas para modelos más pequeños.
Si tu trabajo implica el desarrollo de modelos de IA, la creación de prototipos o la ejecución de modelos de contexto extenso en el escritorio, el DGX Spark es un dispositivo excepcionalmente capaz. Si principalmente ejecutas modelos más pequeños, te centras en el procesamiento de vídeo o buscas la mejor relación calidad-precio, un ordenador de sobremesa tradicional o una minitorre de gama alta podrían ofrecerte un mejor rendimiento por tu dinero.

Los tiempos de espera dependen de las cargas de trabajo de IA específicas que ejecute. Con DGX Spark, el procesamiento inmediato es de alta velocidad para modelos de lenguaje extensos, pero la generación de tokens puede ser más lenta que con algunas alternativas de GPU. Esto significa:
Al cargar contextos largos, Spark es rápido.
Al generar respuestas largas o realizar el procesamiento de vídeo mediante IA fotograma a fotograma, puede que no siempre sea el dispositivo más rápido disponible.
Para tareas básicas de IA o modelos más pequeños, los usuarios verán resultados casi instantáneos.
Para cargas de trabajo más grandes, como resumir documentos extensos, generar vídeos con modelos multimodales o procesar cargas de trabajo de IA distribuidas, el tiempo de espera depende del tamaño y la precisión del modelo.
Si minimizar el tiempo de espera es una prioridad, sistemas como:
Estación DGX,
Estaciones de trabajo HP serie Z, o
Las configuraciones multi-GPU, como la Ascent GX10, ofrecen un mejor rendimiento gracias a un mayor ancho de banda de memoria y clústeres de GPU más grandes. Sin embargo, ocupan más espacio, son más caras o requieren almacenamiento y alimentación adicionales.

El DGX Spark destaca por su soporte de software. Desarrollado como parte de la iniciativa Project DIGITS de NVIDIA, se integra a la perfección con CUDA, TensorRT, el paquete de software DGX y herramientas empresariales, algo de lo que carecen muchos sistemas de diseño compactos y mini PCs.
Esto lo hace particularmente atractivo para:
Científicos de datos,
Investigadores que trabajan en evaluaciones del rendimiento de la IA,
Los equipos están realizando ajustes finos,
Desarrolladores que experimentan con cargas de trabajo de IA distribuidas,
Usuarios que crean y prueban nuevos modelos de IA de principio a fin.
En comparación con alternativas como los sistemas Apple, las computadoras de escritorio Dell Pro o las PC basadas en AMD, el Spark se beneficia del ecosistema más amplio de NVIDIA. Por otro lado, algunas alternativas ofrecen un mejor rendimiento general, mayor capacidad de almacenamiento o un menor costo.

Lecturas adicionales

Enlaces de referencia

1.
First Nvidia DGX Spark LLM Benchmarks Are In: Does It Beat Strix Halo
Hadrware Corner
2.
NVIDIA DGX Spark Review: Pros, Cons & Performance Benchmarks | IntuitionLabs
IntuitionLabs
3.
NVIDIA DGX Spark In-Depth Review: A New Standard for Local AI Inference - LMSYS Blog | LMSYS Org
4.
Sebastian Raschka, PhD (@rasbt): "Saw that DGX Spark vs Mac Mini M4 Pro benchmark plot making the rounds (via LMSYS, https://lmsys.org/blog/2025-10-13-nvidia-dgx-spark/). Thought I’d share a few notes as someone who actually uses a Mac Mini M4 Pro an
5.
First Nvidia DGX Spark LLM Benchmarks Are In: Does It Beat Strix Halo
Hadrware Corner
6.
NVIDIA DGX Spark performance · Ollama Blog
7.
Personal AI Supercomputer Powered by Blackwell | NVIDIA DGX Spark
8.
NVIDIA DGX Spark: great hardware, early days for the ecosystem
9.
NVIDIA DGX Spark First Look: A Personal AI Supercomputer on Your Desk - Signal65
Signal65
10.
NVIDIA DGX Spark Review: The AI Appliance Bringing Datacenter Capabilities to Desktops - StorageReview.com
StorageReview.com
11.
Combining NVIDIA DGX Spark + Apple Mac Studio for 4x Faster LLM Inference with EXO 1.0 | EXO
12.
First Nvidia DGX Spark LLM Benchmarks Are In: Does It Beat Strix Halo
Hadrware Corner
13.
Combining NVIDIA DGX Spark + Apple Mac Studio for 4x Faster LLM Inference with EXO 1.0 | EXO
14.
First Nvidia DGX Spark LLM Benchmarks Are In: Does It Beat Strix Halo
Hadrware Corner
15.
Dell's version of the DGX Spark fixes pain points - Jeff Geerling
16.
First Nvidia DGX Spark LLM Benchmarks Are In: Does It Beat Strix Halo
Hadrware Corner
17.
NVIDIA DGX Spark performance · Ollama Blog
18.
NVIDIA DGX Spark Review: Pros, Cons & Performance Benchmarks | IntuitionLabs
IntuitionLabs
19.
NVIDIA's DGX Spark Review and First Impressions - L1 Articles & Video-related - Level1Techs Forums
20.
https://signal65.com/research/nvidia-dgx-spark-first-look-a-personal-ai-supercomputer-on-your-desk/[/efn_note
21.
Combining NVIDIA DGX Spark + Apple Mac Studio for 4x Faster LLM Inference with EXO 1.0 | EXO
22.
Dell's version of the DGX Spark fixes pain points - Jeff Geerling
23.
DGX Spark’s Dirty Secret: NVIDIA’s 1 PFLOPS AI Box Delivers Half That - Banandre
24.
NVIDIA DGX Spark Review: The AI Appliance Bringing Datacenter Capabilities to Desktops - StorageReview.com
StorageReview.com
Cem Dilmegani
Cem Dilmegani
Analista principal
Cem ha sido el analista principal de AIMultiple desde 2017. AIMultiple informa a cientos de miles de empresas (según similarWeb), incluyendo el 55% de las empresas Fortune 500 cada mes. El trabajo de Cem ha sido citado por importantes publicaciones globales como Business Insider, Forbes, Washington Post, firmas globales como Deloitte, HPE y ONG como el Foro Económico Mundial y organizaciones supranacionales como la Comisión Europea. Puede consultar más empresas y recursos de renombre que citan a AIMultiple. A lo largo de su carrera, Cem se desempeñó como consultor, comprador y emprendedor tecnológico. Asesoró a empresas en sus decisiones tecnológicas en McKinsey & Company y Altman Solon durante más de una década. También publicó un informe de McKinsey sobre digitalización. Lideró la estrategia y adquisición de tecnología de una empresa de telecomunicaciones, reportando directamente al CEO. Asimismo, lideró el crecimiento comercial de la empresa de tecnología avanzada Hypatos, que alcanzó ingresos recurrentes anuales de siete cifras y una valoración de nueve cifras partiendo de cero en tan solo dos años. El trabajo de Cem en Hypatos fue reseñado por importantes publicaciones tecnológicas como TechCrunch y Business Insider. Cem participa regularmente como ponente en conferencias internacionales de tecnología. Se graduó en ingeniería informática por la Universidad de Bogazici y posee un MBA de la Columbia Business School.
Ver perfil completo

Sé el primero en comentar

Tu dirección de correo electrónico no será publicada. Todos los campos son obligatorios.

0/450