Is Wu Dao 3.0 better than GPT-5?

No. Aquila models target different use cases. For Chinese language tasks with limited compute, they're practical. For general English capabilities, GPT-5 outperforms them significantly.

Can I use Wu Dao commercially?

Yes, the models are open source. Check specific licenses for each Aquila component, but commercial use is generally permitted.

Why don't more people outside China use it?

Language barrier (documentation), ecosystem integration (built for Chinese tools), and performance gaps in English tasks.

AI Aplicaciones de GenAI Chatbots

Wu Dao 3.0: Versión china de GPT-5

Cem Dilmegani

actualizado el Mar 5, 2026

Vea nuestra normas éticas

Cuando Estados Unidos cortó el acceso de China a chips avanzados, la Academia de Inteligencia Artificial de Beijing se enfrentó a una disyuntiva: quejarse de las restricciones o buscar soluciones alternativas. Optaron por la segunda opción.

Wu Dao 3.0, lanzado en julio de 2023, rompe con lo establecido. Ya no hay modelos masivos con billones de parámetros compitiendo por los titulares. En cambio, ahora crea modelos compactos que las startups chinas pueden ejecutar sin necesidad de un gran número de GPU.

¿Por qué BAAI cambió de dirección?

Wu Dao 2.0 acaparó titulares en 2021 con 1,75 billones de parámetros, afirmando rivalizar con GPT-3. Dos años después, BAAI abandonó discretamente ese enfoque. Las razones son:

Las sanciones estadounidenses a los chips limitaron el acceso a las GPU avanzadas.
Los costos de capacitación para las megamodelos se volvieron prohibitivos.
La política del gobierno chino se orientó hacia las aplicaciones prácticas en lugar de los proyectos de prestigio.
La realidad del mercado demostró que la mayoría de las empresas necesitan herramientas especializadas, no gigantes de uso general.

La nueva estrategia: construir una colección de modelos más pequeños (llamados Aquila) que trabajen juntos. Pensar en microservicios en lugar de monolitos.

Explicación de Wu Dao 3.0

Wu Dao 3.0 no es un modelo único. Es un ecosistema de herramientas de IA especializadas lanzadas bajo la marca Aquila:

AquilaChat: Modelos de diálogo

Dos tamaños disponibles:

7 mil millones de parámetros: Compite con LLaMA 7B y modelos de código abierto similares.
33 mil millones de parámetros: apunta a conversaciones más complejas.

Ambos sistemas fueron entrenados con textos en chino (40%) e inglés (60%). La versión más pequeña funciona con hardware de consumo; no se necesita un centro de datos.

BAAI afirma que AquilaChat 7B supera a modelos internacionales comparables, aunque las pruebas de rendimiento independientes siguen siendo limitadas.

Los orígenes: Cómo empezó Wu Dao

El desarrollo comenzó en octubre de 2020, varios meses después del lanzamiento de GPT-3. El nombre Wu Dao (悟道) se traduce como “camino hacia la conciencia” en chino, un nombre ambicioso para un proyecto ambicioso.

Wu Dao 1.0 se lanzó el 11 de enero de 2021 con cuatro modelos especializados que trabajaban juntos. Cada uno se encargaba de diferentes tareas: Wen Yuan (2.600 millones de parámetros) se centraba en responder preguntas y corregir la gramática. Wen Lan (1.000 millones de parámetros) generaba subtítulos para imágenes utilizando 50 millones de pares de imágenes. Wen Hui (11.300 millones de parámetros) escribía poesía, creaba vídeos y realizaba razonamientos complejos. Wen Su, basado en BERT de Google, predecía estructuras de proteínas similares a las de AlphaFold.

Luego llegó Wu Dao 2.0 el 31 de mayo de 2021. BAAI acaparó los titulares, afirmando tener 1,75 billones de parámetros, diez veces más que los 175 mil millones de GPT-3. Los medios lo calificaron como "el sistema de IA de lenguaje más grande hasta la fecha". Los analistas lo interpretaron como un intento de China por competir directamente con el dominio estadounidense de la IA.

La realidad de los datos de entrenamiento

Wu Dao 2.0 utilizó 4,9 terabytes de imágenes y texto, 1,2 TB de chino, 1,2 TB de inglés, además de datos de imágenes. GPT-3 se entrenó con 45 terabytes de texto únicamente. Wu Dao tenía diez veces más parámetros, pero menos de una décima parte de los datos de entrenamiento.

El conjunto de datos WuDao Corpora para la versión 2.0 contenía 3 TB de texto web, 90 TB de datos gráficos (630 millones de pares de texto/imagen) y 181 GB de diálogos en chino que representaban 1.400 millones de rondas de conversación.

Esta discrepancia entre el número de parámetros y los datos de entrenamiento sugería algo importante: Wu Dao 2.0 utilizaba una arquitectura diferente llamada Mixture-of-Experts (MoE). A diferencia del modelo "denso" de GPT-3, donde todos los parámetros se activan para cada tarea, los modelos MoE activan solo los expertos relevantes para cada entrada. Esto requiere mucha menos potencia computacional para el entrenamiento, pero las investigaciones han demostrado que los modelos MoE de billones de parámetros tienen un rendimiento comparable al de modelos densos cientos de veces más pequeños.

Wu Dao 2.0 utilizó específicamente FastMoE, la variante MoE de Google. Fue una ingeniosa solución de ingeniería para sortear las limitaciones del hardware, aunque la publicidad de BAAI hizo hincapié en el número de parámetros brutos.

AquilaCode: Generación de código a partir de texto

Todavía en desarrollo. Las versiones iniciales pueden generar:

Algoritmos básicos (secuencias de Fibonacci, ordenación)
Juegos sencillos
Scripts de utilidad

Aún no alcanza el nivel de GitHub Copilot ni las capacidades de codificación de GPT-4, pero está mejorando. BAAI está dirigido a desarrolladores que necesitan generar código en contextos técnicos chinos.

Serie de visiones de Wu Dao

Una colección de modelos de visión artificial, no un único sistema:

EVA (mil millones de parámetros): Se centra en el aprendizaje de representaciones visuales. Entrenado con conjuntos de datos públicos, logrando nuevos hitos en:

Reconocimiento de imágenes
detección de acciones en vídeo
Detección de objetos
Tareas de segmentación

De código abierto, a diferencia de la competencia, que mantiene sus modelos de visión como propiedad exclusiva.

EVA-CLIP: BAAI afirma ser la mejor alternativa de código abierto a CLIP disponible. Gestiona la coincidencia de texto e imágenes para la búsqueda y recuperación.
Painter: Implementa el aprendizaje visual "en contexto", le muestra ejemplos y aprende nuevas tareas visuales sin necesidad de reentrenamiento. Similar a cómo GPT-3 realiza el aprendizaje en contexto para texto.
vid2vid-zero: Herramienta de edición de vídeo sin necesidad de entrenamiento previo. Edita vídeos a partir de descripciones de texto sin necesidad de utilizar conjuntos de datos especializados de edición de vídeo.
Emu (modelos multimodales): Gestiona imágenes y texto en un único modelo. Entre sus casos de uso se incluyen la generación de subtítulos para imágenes, la respuesta visual a preguntas y la generación de contenido.

FlagOpen: La capa de infraestructura

BAAI también ha mejorado la plataforma FlagOpen, que lanzaron a principios de 2023. Este sistema ofrece técnicas de entrenamiento en paralelo, inferencia más rápida, herramientas de evaluación y utilidades de procesamiento de datos, proporcionando esencialmente todo lo necesario para desarrollar grandes modelos de IA. ¹

Cuando Wu Dao 2.0 se presentó por primera vez en la Conferencia Zhiyuan de Pekín, sus creadores exhibieron poemas y dibujos chinos generados por el programa. ² Tras ese suceso, se creó una estudiante virtual basada en el modelo de IA de Wu Dao, Zhibing Hua. Wu Dao es la fuerza motriz de la estudiante virtual, quien, gracias a sus conocimientos y capacidades de aprendizaje, puede escribir poemas, dibujar y componer música.

Si bien estas características no se destacan en Wu Dao 3.0, vale la pena mencionarlas si planea utilizar Wu Dao 2.0 para su empresa en lugar de Wu Dao 3.0.

Figura 1: Poemas generados por Wu Dao 2.0 ³

Puntos de referencia de aprendizaje de cero disparos

ImageNet: Alcanza un rendimiento de vanguardia sin necesidad de realizar ningún disparo, superando el CLIP de OpenAI.
UC Merced Land-Use: Registra la mayor precisión sin disparos en la clasificación aérea del uso del suelo, superando a CLIP.

Punto de referencia de aprendizaje con pocos ejemplos

SuperGLUE (FewGLUE): Supera a GPT-3, logrando los mejores resultados de aprendizaje con pocos ejemplos.

Indicadores de conocimiento y comprensión del lenguaje

LAMA Knowledge Detection: Demuestra una recuperación de conocimiento fáctico superior, superando a AutoPrompt.
Prueba de cloze de LAMBADA: Supera el Microsoft Turing-NLG en comprensión lectora y comprensión del contexto.

Puntos de referencia para la recuperación de texto a imagen y de imagen a texto

MS COCO (generación de texto a imagen): supera a DALL·E de OpenAI en la generación de imágenes a partir de descripciones de texto.
MS COCO (recuperación de texto e imagen en inglés): supera a CLIP de OpenAI y a ALIGN de Google en la recuperación de imágenes a partir de subtítulos (y viceversa).
MS COCO (Recuperación multilingüe de imágenes y texto): Supera a UC2 y M3P en la recuperación multilingüe de imágenes y texto.
Multi30K (Recuperación multilingüe de imágenes y texto): También supera a UC2 y M3P, lo que confirma sus sólidas capacidades multimodales y multilingües.

Wu Dao 3.0 frente a OpenAI GPT

Aquí hay una comparación exhaustiva de los modelos Wu Dao 3.0 LLM y varios modelos OpenAI basados en BAAI. ⁴ No podemos proporcionar comparaciones más detalladas y actualizadas para Wu Dao ya que no disponemos de puntos de referencia recientes y consistentes.

Rendimiento en contextos largos

Pruebas en cuatro tareas ⁵ :

VCSUM (Resumen en chino)
LSHT (procesamiento de secuencias largas chino)
HotpotQA (razonamiento de múltiples saltos en inglés)
2WikiMQA (Sistema de control de calidad multidocumento en inglés)

Prueba de rendimiento de razonamiento

Pruebas en 6 tareas ⁶ :

bAbI #16 y CLUTRR (razonamiento inductivo)
bAbI #15 y EntailmentBank (razonamiento deductivo)
αNLI (razonamiento abductivo)
Atención electrónica (razonamiento causal)

Si quieres usar Wu Dao, puedes instalarlo en tu ordenador descargándolo gratuitamente. ⁷

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Competidores de Wu Dao 3.0

Qwen3.5

Qwen3.5 es una familia de modelos de lenguaje grandes de peso abierto de Alibaba diseñada como un sistema multimodal nativo de mezcla de expertos (MoE).

El modelo insignia (Qwen3.5-397B-A17B) contiene aproximadamente 397 mil millones de parámetros, pero activa solo unos 17 mil millones por inferencia, lo que permite un alto rendimiento con menores costos de computación.

El modelo utiliza una arquitectura híbrida que combina el enrutamiento MoE disperso con redes delta con compuertas y atención lineal , lo que permite una inferencia eficiente al tiempo que admite razonamiento avanzado, codificación y comprensión multimodal.

Qwen3.5 se entrena con datos multimodales de fusión temprana , lo que le permite procesar entradas de texto y visuales dentro de un modelo unificado y potenciar "agentes multimodales nativos" que pueden razonar sobre interfaces y realizar tareas complejas de varios pasos. ⁸

Kimi K2.5

Kimi K2.5 es un modelo multimodal de código abierto (Moonshot AI) diseñado con una arquitectura centrada en agentes para la codificación y la automatización de flujos de trabajo. El modelo integra capacidades de visión y lenguaje, lo que le permite interpretar texto, imágenes y vídeo, a la vez que genera código listo para producción.

K2.5 se entrenó con aproximadamente 15 billones de tokens multimodales y admite el razonamiento de contexto extenso (hasta ~256.000 tokens), junto con la llamada a herramientas y flujos de trabajo de agentes autónomos.

Una característica distintiva es su paradigma de "enjambre de agentes" , donde múltiples agentes coordinados pueden gestionar subtareas en paralelo para resolver flujos de trabajo complejos de ingeniería o desarrollo.

Moonshot lanzó el modelo junto con un agente de codificación , posicionando a Kimi K2.5 como una alternativa centrada en el desarrollador frente a los modelos fronterizos propietarios para la creación de sistemas de software asistidos por IA. ⁹

ERNIE 5.0

ERNIE 5.0 es el modelo base insignia de Baidu y un sistema omnimodal nativo que procesa y genera texto, imágenes, audio y vídeo dentro de una única arquitectura.

Según se informa, el modelo contiene alrededor de 2,4 billones de parámetros utilizando un diseño de mezcla de expertos , lo que permite una alta capacidad al tiempo que activa solo una fracción de los parámetros por inferencia para mayor eficiencia.

ERNIE 5.0 se ha integrado en la plataforma ERNIE Bot de Baidu y en la plataforma empresarial Qianfan, lo que permite su uso en una amplia gama de aplicaciones de IA generativa para productos de consumo y empresariales. ¹⁰

Preguntas frecuentes

No. Los modelos de Aquila están diseñados para distintos casos de uso. Son prácticos para tareas en chino con recursos computacionales limitados. Para tareas generales en inglés, GPT-5 los supera significativamente.

Sí, los modelos son de código abierto. Consulta las licencias específicas de cada componente de Aquila, pero en general se permite su uso comercial.

Barrera lingüística (documentación), integración del ecosistema (diseñado para herramientas chinas) y deficiencias de rendimiento en tareas en inglés.

Enlaces de referencia

开源平台旗舰项目

China’s GPT-3? BAAI Introduces Superscale Intelligence Model ‘Wu Dao 1.0’ | Synced

Synced

China’s GPT-3? BAAI Introduces Superscale Intelligence Model ‘Wu Dao 1.0’ | Synced

Synced

https://model.baai.ac.cn/model-detail/220118

https://model.baai.ac.cn/models

https://qwen.ai/blog?id=qwen3.5

10.

GitHub - MoonshotAI/Kimi-K2.5: Moonshot's most powerful model · GitHub

Cem Dilmegani

Analista principal

Cem ha sido el analista principal de AIMultiple desde 2017. AIMultiple informa a cientos de miles de empresas (según similarWeb), incluyendo el 55% de las empresas Fortune 500 cada mes. El trabajo de Cem ha sido citado por importantes publicaciones globales como Business Insider, Forbes, Washington Post, firmas globales como Deloitte, HPE y ONG como el Foro Económico Mundial y organizaciones supranacionales como la Comisión Europea. Puede consultar más empresas y recursos de renombre que citan a AIMultiple. A lo largo de su carrera, Cem se desempeñó como consultor, comprador y emprendedor tecnológico. Asesoró a empresas en sus decisiones tecnológicas en McKinsey & Company y Altman Solon durante más de una década. También publicó un informe de McKinsey sobre digitalización. Lideró la estrategia y adquisición de tecnología de una empresa de telecomunicaciones, reportando directamente al CEO. Asimismo, lideró el crecimiento comercial de la empresa de tecnología avanzada Hypatos, que alcanzó ingresos recurrentes anuales de siete cifras y una valoración de nueve cifras partiendo de cero en tan solo dos años. El trabajo de Cem en Hypatos fue reseñado por importantes publicaciones tecnológicas como TechCrunch y Business Insider. Cem participa regularmente como ponente en conferencias internacionales de tecnología. Se graduó en ingeniería informática por la Universidad de Bogazici y posee un MBA de la Columbia Business School.

Ver perfil completo