El DGX Spark de NVIDIA entró en el mercado de la IA de escritorio en 2025 a un precio de 4699 dólares, posicionándose como una "supercomputadora de IA de escritorio". Incorpora 128 GB de memoria unificada y promete un rendimiento de un petaflop de IA FP4 en un chasis del tamaño de un Mac Mini.
Consulte los resultados comparativos en cuanto a valor y rendimiento en comparación con otras alternativas:
Rendimiento de GPT-OSS 120B
Al comparar sistemas en el exigente modelo GPT-OSS 120B (formato MXFP4), las diferencias de rendimiento se hicieron evidentes. 1 2
Información sobre sistemas cruzados de GPT-OSS 120B
- Procesamiento rápido : DGX Spark y 3×RTX 3090 son casi idénticos (1723 frente a 1642 tokens/seg), con DGX Spark ligeramente por delante debido a la eficiencia de FP4. El AMD Strix Halo se queda significativamente atrás con 340 tokens/seg a pesar de tener capacidades FP4 similares.
- Generación de tokens : La configuración 3×RTX 3090 destaca con 124 tokens/seg, más de 3 veces más rápido que los 38,55 tokens/seg de DGX Spark. Esto confirma que el ancho de banda de la memoria LPDDR5X (273 GB/s) es el cuello de botella en comparación con el ancho de banda agregado de GDDR6X.
- Ventaja en capacidad de memoria : la memoria unificada de 128 GB de DGX Spark le permite ejecutar modelos que fallarían en GPU de 24 GB. Una sola RTX 3090 no puede ejecutar modelos de 120 bytes sin descargarles la carga a la memoria RAM del sistema, que es más lenta.
Fuente: LMSYS Org 3 , Subpila 4
El gráfico demuestra que:
- DGX Spark supera al Mac Mini M4 Pro en todos los tamaños de modelo.
- Para los modelos más pequeños (GPT-OSS 20B, LLaMA 3.1 8B), la diferencia es mayor (aproximadamente un 30 % más rápido).
- Para modelos más grandes (Gemma-3 27B), el rendimiento converge a medida que ambos sistemas se vuelven limitados por la memoria.
- Ambos sistemas siguen siendo utilizables incluso con modelos de parámetros 27B.
Análisis de la relación precio-rendimiento
Los precios son los vigentes a abril de 2026. El NVIDIA aumentó el precio de venta sugerido por el fabricante (MSRP) de la DGX Spark Founders Edition de $3,999 a $4,699 el 27 de febrero de 2026, citando limitaciones en el suministro de memoria. 5
Pruebas de rendimiento de inferencia de DGX Spark
resultados de llama.cpp
Las primeras pruebas de rendimiento realizadas por Georgi Gerganov, desarrollador de llama.cpp, proporcionan métricas de rendimiento de referencia. Las pruebas midieron el procesamiento de solicitudes (la rapidez con la que el modelo ingiere la entrada) y la generación de tokens (velocidad de respuesta):
Fuente: Hardware-Corner.net 6
El patrón es claro: DGX Spark destaca en el procesamiento rápido (limitado por la capacidad de cómputo), pero tiene dificultades con la generación de tokens (limitada por la memoria).
Pruebas de rendimiento de Ollama
Las pruebas de rendimiento oficiales de Ollama, utilizando la versión de firmware 580.95.05 y Ollama v0.12.6, probaron varios modelos en condiciones estandarizadas:
Fuente: Blog de Ollama 7
Nota : Los modelos gpt-oss de OpenAI probados por Ollama utilizan el formato oficial MXFP4 con BF16 en las capas de atención, no la versión cuantizada q8_0.
La actualización de software NVIDIA para CES 2026 (del 6 al 9 de enero de 2026) ofreció mejoras de rendimiento de hasta 2,5 veces en cargas de trabajo seleccionadas en comparación con la versión de referencia de lanzamiento de octubre de 2025, gracias a las optimizaciones de TensorRT-LLM, la cuantificación NVFP4 y la decodificación especulativa Eagle3. Las mejoras son específicas para cada carga de trabajo: el rendimiento de Qwen-235B se duplicó con creces con NVFP4 + Eagle3, la generación de tokens GPT-OSS de 20B alcanza los 49,7 tok/s después de la actualización en Ollama, y las cargas de trabajo de generación de vídeo experimentaron una aceleración de 8 veces. 8 9
DGX Spark: Especificaciones técnicas
Fuente: NVIDIA 10
¿Cuándo es mejor DGX Spark?
Acceso al ecosistema CUDA
El DGX Spark se distingue en escenarios donde la compatibilidad del software y la eficiencia en los flujos de trabajo específicos priman sobre la velocidad de generación de tokens. Para los desarrolladores acostumbrados a los procesadores Apple Silicon, la transición al Spark reduce las dificultades derivadas de la falta de compatibilidad con CUDA , ya que muchas bibliotecas y tutoriales estándar de la industria aún presuponen un entorno CUDA. 11
Spark proporciona acceso nativo al ecosistema NVIDIA, incluidos contenedores Docker y playbooks oficiales, lo que permite a los usuarios ejecutar configuraciones complejas como el ajuste fino de pipelines o flujos de trabajo de agentes que dependen de la pila estándar NVIDIA.
Flujo de trabajo del escritorio al centro de datos
Este dispositivo cierra eficazmente la brecha entre la creación de prototipos locales y la implementación en centros de datos. Concebido como una "supercomputadora personal de IA", permite a los investigadores desarrollar y probar modelos en una unidad de escritorio que comparte la misma arquitectura de software (controladores, kit de herramientas CUDA y herramientas de administración) que los clústeres en la nube a gran escala. 12
Esta coherencia resuelve los problemas de compatibilidad del entorno local al migrar cargas de trabajo a grandes implementaciones de H100 .
Además, ciertos puntos de referencia específicos resaltan la competencia del sistema en el ajuste fino y el procesamiento por lotes de alto rendimiento; en las pruebas, el sistema logró aproximadamente 924 tokens por segundo con Llama 3.1 8B (FP4) y 483 tokens por segundo con Qwen3 Coder 30B (FP8), lo que demuestra su utilidad para tareas de desarrollo rigurosas más allá de la simple inferencia de chat. 13
Configuraciones híbridas con Mac Studio
Las innovadoras combinaciones de hardware también revelan ventajas específicas para el Spark. Si bien tiene dificultades con el ancho de banda de memoria para la decodificación en comparación con el hardware de Apple, su rendimiento de "precarga" de alto procesamiento es significativamente superior.
Al conectar en red un DGX Spark con un Mac Studio M3 Ultra, los desarrolladores pueden aprovechar el Spark para un procesamiento rápido y el Mac para la generación de tokens. Esta configuración híbrida "desagregada" logra una aceleración general de 2,8 veces en comparación con la ejecución de modelos únicamente en el Mac Studio. 14
Alternativas a DGX Spark que debes considerar
AMD Strix Halo (escritorio con marco) para presupuesto y valor
Para usuarios con presupuesto ajustado, el Framework Desktop con Ryzen AI Max 385 (Strix Halo) ofrece la mejor relación precio-rendimiento entre los sistemas de memoria unificada. Con un precio de 2348 dólares, cuesta aproximadamente la mitad que el DGX Spark, a la vez que ofrece la misma configuración de memoria unificada de 128 GB y un ancho de banda de memoria comparable (~273 GB/s). 15
El rendimiento de generación de tokens es sorprendentemente competitivo: 34,13 tok/s frente a los 38,55 tok/s de DGX Spark en el modelo 120B. Sin embargo, el procesamiento inmediato revela la diferencia, donde la arquitectura Blackwell de DGX Spark domina con 1723 tok/s en comparación con los 339,87 tok/s de Strix Halo. Esto significa que Strix Halo procesa contextos grandes aproximadamente cinco veces más lento, aunque la velocidad de generación se mantiene prácticamente idéntica una vez que comienza el procesamiento.
La desventaja radica en la madurez del software. Strix Halo se basa en la pila ROCm de AMD en lugar de CUDA, que está mejorando rápidamente, pero aún carece de la profundidad del ecosistema y del entorno de desarrollo de IA preconfigurado que DGX Spark proporciona de forma inmediata.
AMD Mini PC Ryzen AI Halo
En CES 2026, AMD anunció la plataforma de referencia Ryzen AI Halo Mini-PC, posicionada explícitamente frente a NVIDIA DGX Spark. Utiliza el mismo chip Ryzen AI Max+ 395 que Framework Desktop, pero lo combina con una NPU XDNA 2 dedicada de 50 TOPS, soporte nativo para Windows y Linux, y ROCm 7.2.2 en su lanzamiento con soporte desde el primer día para GPT-OSS, FLUX.2 y SDXL. La capacidad de cómputo de IA combinada está clasificada en 126 TOPS. 16
La memoria es LPDDR5x-8533 de 128 GB a 273 GB/s, lo que coincide exactamente con el ancho de banda de DGX Spark. AMD afirma que la plataforma puede ejecutar modelos de IA con hasta 200 mil millones de parámetros localmente, aunque el rendimiento real a esa escala está limitado por el ancho de banda. El mismo ancho de banda de memoria de 273 GB/s que limita la generación de tokens de DGX Spark limitará el rendimiento de Ryzen AI Halo con la misma carga de trabajo.
Los fabricantes de equipos originales (OEM) distribuirán la plataforma de referencia en el segundo trimestre de 2026, siendo Framework Desktop el socio de hardware confirmado. Aún no se ha anunciado el precio. El chip Ryzen AI Max+ 395, que actualmente se incluye en Framework Desktop, tiene un precio de 2348 dólares para la configuración de 128 GB, lo que establece una expectativa razonable para el precio de venta al público de la nueva plataforma una vez que llegue a los compradores.
La directora ejecutiva de AMD, Lisa Su, presentó el anuncio como parte de "la era de la computación a escala yotta". El Ryzen AI Halo es la primera respuesta de AMD a nivel de producto en la categoría DGX Spark, que se diferencia principalmente por la NPU dedicada, la compatibilidad nativa con Windows y ROCm en lugar de CUDA.
Mac Studio M3 Ultra para inferencia de alta velocidad
Si los parámetros principales son el ancho de banda de la memoria y la velocidad de generación de tokens, el Mac Studio M3 Ultra sigue siendo una opción superior. Con 512 GB de memoria unificada disponibles a 819 GB/s, el Mac Studio ofrece aproximadamente el triple de ancho de banda que la configuración LPDDR5X de 273 GB/s del Spark. 17
Esta ventaja en el ancho de banda se traduce en velocidades de decodificación más rápidas para modelos de lenguaje grandes, lo que hace que Mac Studio sea muy eficaz para tareas con mucha inferencia donde el tiempo de generación de respuestas es fundamental.
Montajes DIY con múltiples GPU para obtener el máximo rendimiento bruto.
Para obtener el máximo rendimiento bruto, independientemente de la complejidad, una configuración de 3 RTX 3090 ofrece un rendimiento que ningún sistema de memoria unificada puede igualar. Con 72 GB de VRAM agregada y un ancho de banda de memoria total de aproximadamente 936 GB/s, esta configuración alcanza los 124 tok/s en modelos de 120 bytes, más de 3 veces más rápido que los 38,55 tok/s de DGX Spark. 18
Las desventajas son considerables. Este método requiere una gran experiencia técnica para su configuración, consume 1050 W frente a los 210 W del DGX Spark, ocupa más espacio físico y no incluye software preinstalado. Para los usuarios que priorizan la comodidad de uso inmediato sobre el rendimiento puro, el DGX Spark sigue siendo la opción más sencilla.
Limitaciones de DGX Spark
Afirmaciones sobre el rendimiento frente a la realidad
La cifra anunciada de "1 petaflop" se basa en una precisión FP4 dispersa, lo que inicialmente generó dudas sobre su aplicabilidad en el mundo real. Realizamos pruebas comparativas de la cuantización FP4/INT4 y descubrimos que conserva el 98 % de la precisión del modelo, a la vez que ofrece un aumento de rendimiento de 2,7 veces en comparación con BF16. Sin embargo, la disminución del 2 % en la precisión puede ser significativa para tareas críticas que requieren precisión, como la generación de código o el razonamiento matemático, donde los errores menores se acumulan rápidamente.
Esta diferencia de rendimiento puede resultar chocante dado el precio, sobre todo si se tiene en cuenta que las CPU de servidores más antiguas o los clústeres de GPU de bajo coste para aficionados pueden superar al Spark en pruebas de inferencia específicas debido al cuello de botella del ancho de banda de la memoria del Spark.
Problemas con el software y el soporte
La viabilidad a largo plazo y la fricción del software también representan obstáculos importantes. El sistema operativo DGX actualmente solo garantiza dos años de soporte, un período corto para hardware empresarial, y el dispositivo ha mostrado tendencias a la limitación térmica, lo que puede forzar reinicios durante usos prolongados. 19
Además, si bien el sistema ejecuta CUDA, la arquitectura ARM64 subyacente provoca problemas de compatibilidad inesperados; los desarrolladores pueden encontrar que faltan binarios precompilados específicos para bibliotecas como PyTorch o que son difíciles de configurar en comparación con los entornos x86 estándar.
Volatilidad de los precios
El 27 de febrero de 2026, NVIDIA aumentó el precio de venta sugerido del DGX Spark de $3,999 a $4,699, lo que representa un incremento del 18%. NVIDIA citó las limitaciones en el suministro de memoria para el paquete LPDDR5X de 128 GB como la razón principal. El historial completo de precios muestra un aumento del 56.7% desde el anuncio en el CES 2025 ($2,999) hasta el precio de venta sugerido de febrero de 2026 ($4,699), con un precio de envío intermedio de $3,999 cuando las unidades comenzaron a llegar en octubre de 2025. 20
Para la planificación de compras, la trayectoria es crucial. Un equipo que presupuestó DGX Spark al precio anunciado en el CES 2025 ahora paga un 56,7 % más por unidad, y NVIDIA no se ha comprometido a reducir el precio una vez que se normalice el suministro de memoria. Los compradores que soliciten varias unidades para un laboratorio o grupo de investigación podrían experimentar nuevas fluctuaciones de precios mientras la situación global del suministro de memoria siga siendo ajustada.
Fuentes de referencia y metodología
Este análisis sintetiza datos de referencia procedentes de múltiples fuentes independientes:
- Hardware-Corner.net 21 : Pruebas de rendimiento de llama.cpp de Allan Witt que comparan DGX Spark, AMD Strix Halo y sistemas multi-GPU.
- Blog oficial de Ollama 22 : Pruebas de rendimiento estandarizadas utilizando Ollama v0.12.6 con firmware 580.95.05.
- IntuitionLabs.ai 23 : Revisión exhaustiva con pruebas de rendimiento de SGLang y Ollama en múltiples plataformas.
- Foro de Level1Techs 24 : Análisis práctico de Wendell centrado en el ecosistema de software y casos de uso prácticos.
- Señal65 25 : Análisis preliminar que abarca la coherencia del flujo de trabajo desde el escritorio hasta el centro de datos y la usabilidad desde el primer día.
- Simón Willison 26 : Perspectiva del desarrollador sobre el acceso al ecosistema CUDA y los desafíos de compatibilidad con ARM64.
- Laboratorios EXO 27 : Pruebas de inferencia desagregadas híbridas de DGX Spark + Mac Studio con mediciones de aceleración de 2,8x.
- Jeff Geerling 28 : Comparativa del Dell GB10, análisis de la limitación térmica y limitaciones de la compatibilidad con el sistema operativo DGX.
- Bandera 29 : Análisis de rendimiento independiente que compara las afirmaciones de marketing de 1 PFLOP con las mediciones reales de 480 TFLOPS.
- Revisión de almacenamiento 30 : Pruebas de rendimiento de ajuste fino e inferencia por lotes (924 tok/s Llama 3.1 8B, 483 tok/s Qwen3 30B).
Todas las pruebas de referencia utilizan modelos disponibles públicamente con condiciones de prueba consistentes siempre que sea posible.
Conclusión
Los usuarios deben entender el DGX Spark no como un campeón del rendimiento puro, sino como un kit de desarrollo accesible y estandarizado diseñado para reducir las barreras de entrada a la investigación seria en IA.
Su valor reside en la impecable experiencia inicial; a diferencia de los equipos ensamblados por el usuario que requieren días de solución de problemas de controladores, el Spark viene con un ecosistema de software maduro, documentación extensa y guías de usuario preconfiguradas que permiten una productividad inmediata. El aumento de precio de febrero de 2026 no revierte este posicionamiento, pero sí reduce el argumento de la accesibilidad, especialmente porque la plataforma Ryzen AI Halo Mini-PC (AMD) se lanzará en el segundo trimestre de 2026 con el mismo chip Ryzen AI Max+ 395 que Framework Desktop actualmente vende a $2,348 para una configuración de 128 GB.
Proporciona una plataforma estable y con soporte para los investigadores que necesitan validar los flujos de trabajo localmente antes de escalarlos, funcionando eficazmente como una sección funcional de un centro de datos que cabe en un escritorio.
Lecturas adicionales
- Los 30 principales proveedores de GPU en la nube y sus GPU
- Software de GPU para IA: CUDA vs. ROCm
- Los 20 principales fabricantes de chips de IA: NVIDIA y sus competidores
- Prueba de rendimiento multi-GPU: B200 vs H200 vs H100 vs MI300X
Sé el primero en comentar
Tu dirección de correo electrónico no será publicada. Todos los campos son obligatorios.