Cuando Estados Unidos cortó el acceso de China a chips avanzados, la Academia de Inteligencia Artificial de Beijing se enfrentó a una disyuntiva: quejarse de las restricciones o buscar soluciones alternativas. Optaron por la segunda opción.
Wu Dao 3.0, lanzado en julio de 2023, rompe con lo establecido. Ya no hay modelos masivos con billones de parámetros compitiendo por los titulares. En cambio, ahora crea modelos compactos que las startups chinas pueden ejecutar sin necesidad de un gran número de GPU.
¿Por qué BAAI cambió de dirección?
Wu Dao 2.0 acaparó titulares en 2021 con 1,75 billones de parámetros, afirmando rivalizar con GPT-3. Dos años después, BAAI abandonó discretamente ese enfoque. Las razones son:
- Las sanciones estadounidenses a los chips limitaron el acceso a las GPU avanzadas.
- Los costos de capacitación para las megamodelos se volvieron prohibitivos.
- La política del gobierno chino se orientó hacia las aplicaciones prácticas en lugar de los proyectos de prestigio.
- La realidad del mercado demostró que la mayoría de las empresas necesitan herramientas especializadas, no gigantes de uso general.
La nueva estrategia: construir una colección de modelos más pequeños (llamados Aquila) que trabajen juntos. Pensar en microservicios en lugar de monolitos.
Explicación de Wu Dao 3.0
Wu Dao 3.0 no es un modelo único. Es un ecosistema de herramientas de IA especializadas lanzadas bajo la marca Aquila:
AquilaChat: Modelos de diálogo
Dos tamaños disponibles:
- 7 mil millones de parámetros: Compite con LLaMA 7B y modelos de código abierto similares.
- 33 mil millones de parámetros: apunta a conversaciones más complejas.
Ambos sistemas fueron entrenados con textos en chino (40%) e inglés (60%). La versión más pequeña funciona con hardware de consumo; no se necesita un centro de datos.
BAAI afirma que AquilaChat 7B supera a modelos internacionales comparables, aunque las pruebas de rendimiento independientes siguen siendo limitadas.
Los orígenes: Cómo empezó Wu Dao
El desarrollo comenzó en octubre de 2020, varios meses después del lanzamiento de GPT-3. El nombre Wu Dao (悟道) se traduce como “camino hacia la conciencia” en chino, un nombre ambicioso para un proyecto ambicioso.
Wu Dao 1.0 se lanzó el 11 de enero de 2021 con cuatro modelos especializados que trabajaban juntos. Cada uno se encargaba de diferentes tareas: Wen Yuan (2.600 millones de parámetros) se centraba en responder preguntas y corregir la gramática. Wen Lan (1.000 millones de parámetros) generaba subtítulos para imágenes utilizando 50 millones de pares de imágenes. Wen Hui (11.300 millones de parámetros) escribía poesía, creaba vídeos y realizaba razonamientos complejos. Wen Su, basado en BERT de Google, predecía estructuras de proteínas similares a las de AlphaFold.
Luego llegó Wu Dao 2.0 el 31 de mayo de 2021. BAAI acaparó los titulares, afirmando tener 1,75 billones de parámetros, diez veces más que los 175 mil millones de GPT-3. Los medios lo calificaron como "el sistema de IA de lenguaje más grande hasta la fecha". Los analistas lo interpretaron como un intento de China por competir directamente con el dominio estadounidense de la IA.
La realidad de los datos de entrenamiento
Wu Dao 2.0 utilizó 4,9 terabytes de imágenes y texto, 1,2 TB de chino, 1,2 TB de inglés, además de datos de imágenes. GPT-3 se entrenó con 45 terabytes de texto únicamente. Wu Dao tenía diez veces más parámetros, pero menos de una décima parte de los datos de entrenamiento.
El conjunto de datos WuDao Corpora para la versión 2.0 contenía 3 TB de texto web, 90 TB de datos gráficos (630 millones de pares de texto/imagen) y 181 GB de diálogos en chino que representaban 1.400 millones de rondas de conversación.
Esta discrepancia entre el número de parámetros y los datos de entrenamiento sugería algo importante: Wu Dao 2.0 utilizaba una arquitectura diferente llamada Mixture-of-Experts (MoE). A diferencia del modelo "denso" de GPT-3, donde todos los parámetros se activan para cada tarea, los modelos MoE activan solo los expertos relevantes para cada entrada. Esto requiere mucha menos potencia computacional para el entrenamiento, pero las investigaciones han demostrado que los modelos MoE de billones de parámetros tienen un rendimiento comparable al de modelos densos cientos de veces más pequeños.
Wu Dao 2.0 utilizó específicamente FastMoE, la variante MoE de Google. Fue una ingeniosa solución de ingeniería para sortear las limitaciones del hardware, aunque la publicidad de BAAI hizo hincapié en el número de parámetros brutos.
AquilaCode: Generación de código a partir de texto
Todavía en desarrollo. Las versiones iniciales pueden generar:
- Algoritmos básicos (secuencias de Fibonacci, ordenación)
- Juegos sencillos
- Scripts de utilidad
Aún no alcanza el nivel de GitHub Copilot ni las capacidades de codificación de GPT-4, pero está mejorando. BAAI está dirigido a desarrolladores que necesitan generar código en contextos técnicos chinos.
Serie de visiones de Wu Dao
Una colección de modelos de visión artificial, no un único sistema:
EVA (mil millones de parámetros): Se centra en el aprendizaje de representaciones visuales. Entrenado con conjuntos de datos públicos, logrando nuevos hitos en:
- Reconocimiento de imágenes
- detección de acciones en vídeo
- Detección de objetos
- Tareas de segmentación
De código abierto, a diferencia de la competencia, que mantiene sus modelos de visión como propiedad exclusiva.
- EVA-CLIP: BAAI afirma ser la mejor alternativa de código abierto a CLIP disponible. Gestiona la coincidencia de texto e imágenes para la búsqueda y recuperación.
- Painter: Implementa el aprendizaje visual "en contexto", le muestra ejemplos y aprende nuevas tareas visuales sin necesidad de reentrenamiento. Similar a cómo GPT-3 realiza el aprendizaje en contexto para texto.
- vid2vid-zero: Herramienta de edición de vídeo sin necesidad de entrenamiento previo. Edita vídeos a partir de descripciones de texto sin necesidad de utilizar conjuntos de datos especializados de edición de vídeo.
- Emu (modelos multimodales): Gestiona imágenes y texto en un único modelo. Entre sus casos de uso se incluyen la generación de subtítulos para imágenes, la respuesta visual a preguntas y la generación de contenido.
FlagOpen: La capa de infraestructura
BAAI también ha mejorado la plataforma FlagOpen, que lanzaron a principios de 2023. Este sistema ofrece técnicas de entrenamiento en paralelo, inferencia más rápida, herramientas de evaluación y utilidades de procesamiento de datos, proporcionando esencialmente todo lo necesario para desarrollar grandes modelos de IA. 1
Cuando Wu Dao 2.0 se presentó por primera vez en la Conferencia Zhiyuan de Pekín, sus creadores exhibieron poemas y dibujos chinos generados por el programa. 2 Tras ese suceso, se creó una estudiante virtual basada en el modelo de IA de Wu Dao, Zhibing Hua. Wu Dao es la fuerza motriz de la estudiante virtual, quien, gracias a sus conocimientos y capacidades de aprendizaje, puede escribir poemas, dibujar y componer música.
Si bien estas características no se destacan en Wu Dao 3.0, vale la pena mencionarlas si planea utilizar Wu Dao 2.0 para su empresa en lugar de Wu Dao 3.0.
Figura 1: Poemas generados por Wu Dao 2.0 3
Puntos de referencia de aprendizaje de cero disparos
- ImageNet: Alcanza un rendimiento de vanguardia sin necesidad de realizar ningún disparo, superando el CLIP de OpenAI.
- UC Merced Land-Use: Registra la mayor precisión sin disparos en la clasificación aérea del uso del suelo, superando a CLIP.
Punto de referencia de aprendizaje con pocos ejemplos
- SuperGLUE (FewGLUE): Supera a GPT-3, logrando los mejores resultados de aprendizaje con pocos ejemplos.
Indicadores de conocimiento y comprensión del lenguaje
- LAMA Knowledge Detection: Demuestra una recuperación de conocimiento fáctico superior, superando a AutoPrompt.
- Prueba de cloze de LAMBADA: Supera el Microsoft Turing-NLG en comprensión lectora y comprensión del contexto.
Puntos de referencia para la recuperación de texto a imagen y de imagen a texto
- MS COCO (generación de texto a imagen): supera a DALL·E de OpenAI en la generación de imágenes a partir de descripciones de texto.
- MS COCO (recuperación de texto e imagen en inglés): supera a CLIP de OpenAI y a ALIGN de Google en la recuperación de imágenes a partir de subtítulos (y viceversa).
- MS COCO (Recuperación multilingüe de imágenes y texto): Supera a UC2 y M3P en la recuperación multilingüe de imágenes y texto.
- Multi30K (Recuperación multilingüe de imágenes y texto): También supera a UC2 y M3P, lo que confirma sus sólidas capacidades multimodales y multilingües.
Wu Dao 3.0 frente a OpenAI GPT
Aquí hay una comparación exhaustiva de los modelos Wu Dao 3.0 LLM y varios modelos OpenAI basados en BAAI. 4 No podemos proporcionar comparaciones más detalladas y actualizadas para Wu Dao ya que no disponemos de puntos de referencia recientes y consistentes.
Rendimiento en contextos largos
Pruebas en cuatro tareas 5 :
- VCSUM (Resumen en chino)
- LSHT (procesamiento de secuencias largas chino)
- HotpotQA (razonamiento de múltiples saltos en inglés)
- 2WikiMQA (Sistema de control de calidad multidocumento en inglés)
Prueba de rendimiento de razonamiento
Pruebas en 6 tareas 6 :
- bAbI #16 y CLUTRR (razonamiento inductivo)
- bAbI #15 y EntailmentBank (razonamiento deductivo)
- αNLI (razonamiento abductivo)
- Atención electrónica (razonamiento causal)
Si quieres usar Wu Dao, puedes instalarlo en tu ordenador descargándolo gratuitamente. 7
Competidores de Wu Dao 3.0
Qwen3.5
Qwen3.5 es una familia de modelos de lenguaje grandes de peso abierto de Alibaba diseñada como un sistema multimodal nativo de mezcla de expertos (MoE).
El modelo insignia (Qwen3.5-397B-A17B) contiene aproximadamente 397 mil millones de parámetros, pero activa solo unos 17 mil millones por inferencia, lo que permite un alto rendimiento con menores costos de computación.
El modelo utiliza una arquitectura híbrida que combina el enrutamiento MoE disperso con redes delta con compuertas y atención lineal , lo que permite una inferencia eficiente al tiempo que admite razonamiento avanzado, codificación y comprensión multimodal.
Qwen3.5 se entrena con datos multimodales de fusión temprana , lo que le permite procesar entradas de texto y visuales dentro de un modelo unificado y potenciar "agentes multimodales nativos" que pueden razonar sobre interfaces y realizar tareas complejas de varios pasos. 8
Kimi K2.5
Kimi K2.5 es un modelo multimodal de código abierto (Moonshot AI) diseñado con una arquitectura centrada en agentes para la codificación y la automatización de flujos de trabajo. El modelo integra capacidades de visión y lenguaje, lo que le permite interpretar texto, imágenes y vídeo, a la vez que genera código listo para producción.
K2.5 se entrenó con aproximadamente 15 billones de tokens multimodales y admite el razonamiento de contexto extenso (hasta ~256.000 tokens), junto con la llamada a herramientas y flujos de trabajo de agentes autónomos.
Una característica distintiva es su paradigma de "enjambre de agentes" , donde múltiples agentes coordinados pueden gestionar subtareas en paralelo para resolver flujos de trabajo complejos de ingeniería o desarrollo.
Moonshot lanzó el modelo junto con un agente de codificación , posicionando a Kimi K2.5 como una alternativa centrada en el desarrollador frente a los modelos fronterizos propietarios para la creación de sistemas de software asistidos por IA. 9
ERNIE 5.0
ERNIE 5.0 es el modelo base insignia de Baidu y un sistema omnimodal nativo que procesa y genera texto, imágenes, audio y vídeo dentro de una única arquitectura.
Según se informa, el modelo contiene alrededor de 2,4 billones de parámetros utilizando un diseño de mezcla de expertos , lo que permite una alta capacidad al tiempo que activa solo una fracción de los parámetros por inferencia para mayor eficiencia.
ERNIE 5.0 se ha integrado en la plataforma ERNIE Bot de Baidu y en la plataforma empresarial Qianfan, lo que permite su uso en una amplia gama de aplicaciones de IA generativa para productos de consumo y empresariales. 10
Preguntas frecuentes
No. Los modelos de Aquila están diseñados para distintos casos de uso. Son prácticos para tareas en chino con recursos computacionales limitados. Para tareas generales en inglés, GPT-5 los supera significativamente.
Sí, los modelos son de código abierto. Consulta las licencias específicas de cada componente de Aquila, pero en general se permite su uso comercial.
Barrera lingüística (documentación), integración del ecosistema (diseñado para herramientas chinas) y deficiencias de rendimiento en tareas en inglés.
Sé el primero en comentar
Tu dirección de correo electrónico no será publicada. Todos los campos son obligatorios.