El DGX Spark de NVIDIA entró en el mercado de la IA de escritorio en 2025 a un precio de 3999 dólares, posicionándose como una "supercomputadora de IA de escritorio". Incorpora 128 GB de memoria unificada y promete un rendimiento de un petaflop de IA FP4 en un chasis del tamaño de un Mac Mini.
Consulte los resultados comparativos en cuanto a valor y rendimiento en comparación con otras alternativas:
Análisis comparativo: DGX Spark frente a alternativas
Rendimiento de GPT-OSS 120B
Al comparar sistemas en el exigente modelo GPT-OSS 120B (formato MXFP4), las diferencias de rendimiento se hicieron evidentes. 1 2
Información clave sobre el rendimiento
- Procesamiento rápido : DGX Spark y 3×RTX 3090 son casi idénticos (1723 frente a 1642 tokens/seg), con DGX Spark ligeramente por delante debido a la eficiencia de FP4. El AMD Strix Halo se queda significativamente atrás con 340 tokens/seg a pesar de tener capacidades FP4 similares.
- Generación de tokens : La configuración 3×RTX 3090 destaca con 124 tokens/seg, más de 3 veces más rápido que los 38,55 tokens/seg de DGX Spark. Esto confirma que el ancho de banda de la memoria LPDDR5X (273 GB/s) es el cuello de botella en comparación con el ancho de banda agregado de GDDR6X.
- Ventaja en capacidad de memoria : la memoria unificada de 128 GB de DGX Spark le permite ejecutar modelos que fallarían en GPU de 24 GB. Una sola RTX 3090 no puede ejecutar modelos de 120 bytes sin descargarles la carga a la memoria RAM del sistema, que es más lenta.
Fuente: LMSYS Org 3 , Subpila 4
El gráfico demuestra que:
- DGX Spark supera al Mac Mini M4 Pro en todos los tamaños de modelo.
- Para los modelos más pequeños (GPT-OSS 20B, LLaMA 3.1 8B), la diferencia es mayor (aproximadamente un 30 % más rápido).
- Para modelos más grandes (Gemma-3 27B), el rendimiento converge a medida que ambos sistemas se vuelven limitados por la memoria.
- Ambos sistemas siguen siendo utilizables incluso con modelos de parámetros 27B.
Análisis de la relación precio-rendimiento
Nota: Los precios son aproximados a partir de enero de 2026.
Puntos de referencia de rendimiento bruto
resultados de llama.cpp
Las primeras pruebas de rendimiento realizadas por Georgi Gerganov, desarrollador de llama.cpp, proporcionan métricas de rendimiento de referencia. Las pruebas midieron el procesamiento de solicitudes (la rapidez con la que el modelo ingiere la entrada) y la generación de tokens (velocidad de respuesta):
Fuente: Hardware-Corner.net 5
El patrón es claro: DGX Spark destaca en el procesamiento rápido (limitado por la capacidad de cómputo), pero tiene dificultades con la generación de tokens (limitada por la memoria).
Pruebas de rendimiento de Ollama
Las pruebas de rendimiento oficiales de Ollama, utilizando la versión de firmware 580.95.05 y Ollama v0.12.6, probaron varios modelos en condiciones estandarizadas:
Fuente: Blog de Ollama 6
Nota : Los modelos gpt-oss de OpenAI probados por Ollama utilizan el formato oficial MXFP4 con BF16 en las capas de atención, no la versión cuantizada q8_0.
DGX Spark: Especificaciones técnicas
Fuente: NVIDIA 7
¿Cuándo es mejor DGX Spark?
Acceso al ecosistema CUDA
El DGX Spark se distingue en escenarios donde la compatibilidad del software y la eficiencia en los flujos de trabajo específicos priman sobre la velocidad de generación de tokens. Para los desarrolladores acostumbrados a los procesadores Apple Silicon, la transición al Spark reduce las dificultades derivadas de la falta de compatibilidad con CUDA , ya que muchas bibliotecas y tutoriales estándar de la industria aún presuponen un entorno CUDA. 8
Spark proporciona acceso nativo al ecosistema NVIDIA, incluidos contenedores Docker y playbooks oficiales, lo que permite a los usuarios ejecutar configuraciones complejas como el ajuste fino de pipelines o flujos de trabajo de agentes que dependen de la pila estándar NVIDIA.
Flujo de trabajo del escritorio al centro de datos
Este dispositivo cierra la brecha entre la creación de prototipos locales y la implementación en centros de datos. Concebido como una "supercomputadora personal de IA", permite a los investigadores desarrollar y probar modelos en una unidad de escritorio que comparte la misma arquitectura de software (controladores, kit de herramientas CUDA y herramientas de administración) que los clústeres en la nube a gran escala. 9
Esta coherencia resuelve los problemas de compatibilidad del entorno local al migrar cargas de trabajo a grandes implementaciones de H100 .
Además, ciertos puntos de referencia específicos resaltan la competencia del sistema en el ajuste fino y el procesamiento por lotes de alto rendimiento; en las pruebas, el sistema logró aproximadamente 924 tokens por segundo con Llama 3.1 8B (FP4) y 483 tokens por segundo con Qwen3 Coder 30B (FP8), lo que demuestra su utilidad para tareas de desarrollo rigurosas más allá de la simple inferencia de chat. 10
Configuraciones híbridas con Mac Studio
Las innovadoras combinaciones de hardware también revelan ventajas específicas para el Spark. Si bien tiene dificultades con el ancho de banda de memoria para la decodificación en comparación con el hardware de Apple, su rendimiento de "precarga" de alto procesamiento es significativamente superior.
Al conectar en red un DGX Spark con un Mac Studio M3 Ultra, los desarrolladores pueden aprovechar el Spark para un procesamiento rápido y el Mac para la generación de tokens. Esta configuración híbrida "desagregada" logra una aceleración general de 2,8 veces en comparación con la ejecución de modelos únicamente en el Mac Studio. 11
Alternativas a considerar
AMD Strix Halo (escritorio con marco) para presupuesto y valor
Para usuarios con presupuesto ajustado, el Framework Desktop con Ryzen AI Max 385 (Strix Halo) ofrece la mejor relación precio-rendimiento entre los sistemas de memoria unificada. Con un precio de 2348 dólares, cuesta aproximadamente la mitad que el DGX Spark, a la vez que ofrece la misma configuración de memoria unificada de 128 GB y un ancho de banda de memoria comparable (~273 GB/s). 12
El rendimiento de generación de tokens es sorprendentemente competitivo: 34,13 tok/s frente a los 38,55 tok/s de DGX Spark en el modelo 120B. Sin embargo, el procesamiento inmediato revela la diferencia, donde la arquitectura Blackwell de DGX Spark domina con 1723 tok/s en comparación con los 339,87 tok/s de Strix Halo. Esto significa que Strix Halo procesa contextos grandes aproximadamente cinco veces más lento, aunque la velocidad de generación se mantiene prácticamente idéntica una vez que comienza el procesamiento.
La desventaja radica en la madurez del software. Strix Halo se basa en la pila ROCm de AMD en lugar de CUDA, que está mejorando rápidamente, pero aún carece de la profundidad del ecosistema y del entorno de desarrollo de IA preconfigurado que DGX Spark proporciona de forma inmediata.
Mac Studio M3 Ultra para inferencia de alta velocidad
Si los parámetros principales son el ancho de banda de la memoria y la velocidad de generación de tokens, el Mac Studio M3 Ultra sigue siendo una opción superior. Con 512 GB de memoria unificada disponibles a 819 GB/s, el Mac Studio ofrece aproximadamente el triple de ancho de banda que la configuración LPDDR5X de 273 GB/s del Spark. 13
Esta ventaja en el ancho de banda se traduce en velocidades de decodificación más rápidas para modelos de lenguaje grandes, lo que hace que Mac Studio sea muy eficaz para tareas con mucha inferencia donde el tiempo de generación de respuestas es fundamental.
Montajes DIY con múltiples GPU para obtener el máximo rendimiento bruto.
Para obtener el máximo rendimiento bruto, independientemente de la complejidad, una configuración de 3 RTX 3090 ofrece un rendimiento que ningún sistema de memoria unificada puede igualar. Con 72 GB de VRAM agregada y un ancho de banda de memoria total de aproximadamente 936 GB/s, esta configuración alcanza los 124 tok/s en modelos de 120 bytes, más de 3 veces más rápido que los 38,55 tok/s de DGX Spark. 14
Las desventajas son considerables. Este método requiere una gran experiencia técnica para su configuración, consume 1050 W frente a los 210 W del DGX Spark, ocupa más espacio físico y no incluye software preinstalado. Para los usuarios que priorizan la comodidad de uso inmediato sobre el rendimiento puro, el DGX Spark sigue siendo la opción más sencilla.
Limitaciones
Afirmaciones sobre el rendimiento frente a la realidad
La cifra anunciada de "1 petaflop" se basa en una precisión FP4 dispersa, lo que inicialmente generó dudas sobre su aplicabilidad en el mundo real. Realizamos pruebas comparativas de la cuantización FP4/INT4 y descubrimos que conserva el 98 % de la precisión del modelo, a la vez que ofrece un aumento de rendimiento de 2,7 veces en comparación con BF16. Sin embargo, la disminución del 2 % en la precisión puede ser significativa para tareas críticas que requieren precisión, como la generación de código o el razonamiento matemático, donde los errores menores se acumulan rápidamente.
Esta diferencia de rendimiento puede resultar chocante dado el precio, sobre todo si se tiene en cuenta que las CPU de servidores más antiguas o los clústeres de GPU de bajo coste para aficionados pueden superar al Spark en pruebas de inferencia específicas debido al cuello de botella del ancho de banda de la memoria del Spark.
Problemas con el software y el soporte
La viabilidad a largo plazo y la fricción del software también representan obstáculos importantes. El sistema operativo DGX actualmente solo garantiza dos años de soporte, un período corto para hardware empresarial, y el dispositivo ha mostrado tendencias a la limitación térmica, lo que puede provocar reinicios durante usos prolongados. 15
Además, si bien el sistema ejecuta CUDA, la arquitectura ARM64 subyacente provoca problemas de compatibilidad inesperados; los desarrolladores pueden encontrar que faltan binarios precompilados específicos para bibliotecas como PyTorch o que son difíciles de configurar en comparación con los entornos x86 estándar.
Metodología
Este análisis sintetiza datos de referencia procedentes de múltiples fuentes independientes:
- Hardware-Corner.net 16 : Pruebas de rendimiento de llama.cpp de Allan Witt que comparan DGX Spark, AMD Strix Halo y sistemas multi-GPU.
- Blog oficial de Ollama 17 : Pruebas de rendimiento estandarizadas utilizando Ollama v0.12.6 con firmware 580.95.05.
- IntuitionLabs.ai 18 : Revisión exhaustiva con pruebas de rendimiento SGLang y Ollama en múltiples plataformas.
- Foro de Level1Techs 19 : Análisis práctico de Wendell centrado en el ecosistema de software y casos de uso prácticos.
- Señal65 20 : Perspectiva del desarrollador sobre el acceso al ecosistema CUDA y los desafíos de compatibilidad con ARM64.
- Laboratorios EXO 21 : Pruebas de inferencia desagregadas híbridas de DGX Spark + Mac Studio con mediciones de aceleración de 2,8x.
- Jeff Geerling 22 : Comparativa del Dell GB10, análisis de la limitación térmica y limitaciones de la compatibilidad con el sistema operativo DGX.
- Bandera 23 : Análisis de rendimiento independiente que compara las afirmaciones de marketing de 1 PFLOP con las mediciones reales de 480 TFLOPS.
- Revisión de almacenamiento 24 : Pruebas de rendimiento de ajuste fino e inferencia por lotes (924 tok/s Llama 3.1 8B, 483 tok/s Qwen3 30B).
Todas las pruebas de referencia utilizan modelos disponibles públicamente con condiciones de prueba consistentes siempre que sea posible.
Conclusión
Los usuarios deben entender el DGX Spark no como un campeón del rendimiento puro, sino como un kit de desarrollo accesible y estandarizado diseñado para reducir las barreras de entrada a la investigación seria en IA.
Su valor reside en la impecable experiencia inicial; a diferencia de los equipos ensamblados por uno mismo, que requieren días de solución de problemas de controladores, el Spark viene con un ecosistema de software maduro, documentación extensa y manuales de procedimientos preconfigurados que permiten una productividad inmediata.
Proporciona una plataforma estable y con soporte para los investigadores que necesitan validar los flujos de trabajo localmente antes de escalarlos, funcionando eficazmente como una sección funcional de un centro de datos que cabe en un escritorio.
Preguntas frecuentes
El DGX Spark está diseñado como una supercomputadora de IA compacta, que integra la arquitectura Grace Blackwell del NVIDIA y los Tensor Cores de quinta generación en un formato pequeño y compacto, ideal para ordenadores de sobremesa. Para muchos usuarios, esto significa que pueden ejecutar grandes modelos de lenguaje y otras cargas de trabajo de inteligencia artificial localmente, sin necesidad de una sala de servidores.
Sin embargo, es fundamental comprender para qué es más adecuado.
Destaca por su capacidad para cargar modelos de IA a gran escala gracias a su amplio conjunto de memoria unificada.
Maneja modelos de IA complejos mejor que la mayoría de los mini PC o estaciones de trabajo compactas.
No es la opción más rápida para la generación de tokens, y algunas alternativas a DGX Spark (por ejemplo, torres con múltiples GPU o estaciones de trabajo Dell y HP) pueden ser más rápidas para modelos más pequeños.
Si tu trabajo implica el desarrollo de modelos de IA, la creación de prototipos o la ejecución de modelos de contexto extenso en el escritorio, el DGX Spark es un dispositivo excepcionalmente capaz. Si principalmente ejecutas modelos más pequeños, te centras en el procesamiento de vídeo o buscas la mejor relación calidad-precio, un ordenador de sobremesa tradicional o una minitorre de gama alta podrían ofrecerte un mejor rendimiento por tu dinero.
Los tiempos de espera dependen de las cargas de trabajo de IA específicas que ejecute. Con DGX Spark, el procesamiento inmediato es de alta velocidad para modelos de lenguaje extensos, pero la generación de tokens puede ser más lenta que con algunas alternativas de GPU. Esto significa:
Al cargar contextos largos, Spark es rápido.
Al generar respuestas largas o realizar el procesamiento de vídeo mediante IA fotograma a fotograma, puede que no siempre sea el dispositivo más rápido disponible.
Para tareas básicas de IA o modelos más pequeños, los usuarios verán resultados casi instantáneos.
Para cargas de trabajo más grandes, como resumir documentos extensos, generar vídeos con modelos multimodales o procesar cargas de trabajo de IA distribuidas, el tiempo de espera depende del tamaño y la precisión del modelo.
Si minimizar el tiempo de espera es una prioridad, sistemas como:
Estación DGX,
Estaciones de trabajo HP serie Z, o
Las configuraciones multi-GPU, como la Ascent GX10, ofrecen un mejor rendimiento gracias a un mayor ancho de banda de memoria y clústeres de GPU más grandes. Sin embargo, ocupan más espacio, son más caras o requieren almacenamiento y alimentación adicionales.
El DGX Spark destaca por su soporte de software. Desarrollado como parte de la iniciativa Project DIGITS de NVIDIA, se integra a la perfección con CUDA, TensorRT, el paquete de software DGX y herramientas empresariales, algo de lo que carecen muchos sistemas de diseño compactos y mini PCs.
Esto lo hace particularmente atractivo para:
Científicos de datos,
Investigadores que trabajan en evaluaciones del rendimiento de la IA,
Los equipos están realizando ajustes finos,
Desarrolladores que experimentan con cargas de trabajo de IA distribuidas,
Usuarios que crean y prueban nuevos modelos de IA de principio a fin.
En comparación con alternativas como los sistemas Apple, las computadoras de escritorio Dell Pro o las PC basadas en AMD, el Spark se beneficia del ecosistema más amplio de NVIDIA. Por otro lado, algunas alternativas ofrecen un mejor rendimiento general, mayor capacidad de almacenamiento o un menor costo.
Lecturas adicionales
- Los 30 principales proveedores de GPU en la nube y sus GPU
- Software de GPU para IA: CUDA vs. ROCm
- Los 20 principales fabricantes de chips de IA: NVIDIA y sus competidores
- Prueba de rendimiento multi-GPU: B200 vs H200 vs H100 vs MI300X
Sé el primero en comentar
Tu dirección de correo electrónico no será publicada. Todos los campos son obligatorios.