Lorsque les États-Unis ont coupé l'accès de la Chine aux puces de pointe, l'Académie d'intelligence artificielle de Pékin Intel a dû faire un choix : se plaindre des restrictions ou les contourner. Elle a choisi la seconde option.
Wu Dao 3.0, lancé en juillet 2023, bouleverse les codes établis. Fini les modèles gigantesques à mille milliards de paramètres qui se disputent les gros titres. Désormais, BAAI conçoit des modèles compacts que les startups chinoises peuvent exécuter sans avoir besoin d'un entrepôt rempli de GPU.
Pourquoi BAAI a-t-il changé de direction ?
Wu Dao 2.0 a fait sensation en 2021 avec ses 1 750 milliards de paramètres, prétendant rivaliser avec GPT-3. Deux ans plus tard, BAAI a discrètement abandonné cette approche. Les raisons sont les suivantes :
- Les sanctions américaines sur les puces ont limité l'accès aux GPU avancés.
- Les coûts de formation pour les mégamodèles sont devenus prohibitifs.
- La politique du gouvernement chinois s'est orientée vers les applications pratiques plutôt que vers les projets de prestige.
- La réalité du marché a démontré que la plupart des entreprises ont besoin d'outils spécialisés, et non de géants à usage général.
La nouvelle stratégie : construire un ensemble de modèles plus petits (appelés Aquila) qui fonctionnent ensemble. Pensez microservices plutôt que monolithes.
Explication de Wu Dao 3.0
Wu Dao 3.0 n'est pas un modèle unique. Il s'agit d'un écosystème d'outils d'IA spécialisés commercialisés sous la marque Aquila :
AquilaChat : Modèles de dialogue
Deux tailles disponibles :
- 7 milliards de paramètres : Concurrence LLaMA 7B et modèles open source similaires
- 33 milliards de paramètres : Cible des conversations plus complexes
Les deux versions ont été entraînées sur des textes chinois (40 %) et anglais (60 %). La version allégée fonctionne sur un ordinateur grand public ; aucun centre de données n’est nécessaire.
BAAI affirme qu'AquilaChat 7B surpasse les modèles internationaux comparables, bien que les benchmarks indépendants restent limités.
Les origines : Comment le Wu Dao a commencé
Le développement a commencé en octobre 2020, plusieurs mois après la sortie de GPT-3. Le nom Wu Dao (悟道) se traduit par « chemin vers la conscience » en chinois, un nom ambitieux pour un projet ambitieux.
Wu Dao 1.0 a été lancé le 11 janvier 2021, avec quatre modèles spécialisés fonctionnant de concert. Chacun prenait en charge des tâches différentes : Wen Yuan (2,6 milliards de paramètres) se concentrait sur la réponse aux questions et la correction grammaticale ; Wen Lan (1 milliard de paramètres) générait des légendes d’images à partir de 50 millions de paires d’images ; Wen Hui (11,3 milliards de paramètres) écrivait de la poésie, créait des vidéos et effectuait des raisonnements complexes ; Wen Su, basé sur BERT (de Google), prédisait les structures protéiques, à l’instar d’AlphaFold.
Puis, le 31 mai 2021, Wu Dao 2.0 fit son apparition. BAAI fit la une des journaux, revendiquant 1 750 milliards de paramètres, soit dix fois plus que les 175 milliards de GPT-3. Les médias le qualifièrent de « système d'IA linguistique le plus puissant jamais conçu ». Les observateurs y virent une tentative de la Chine de rivaliser directement avec la domination américaine en matière d'IA.
La réalité des données d'entraînement
Wu Dao 2.0 a utilisé 4,9 téraoctets d'images et de textes, dont 1,2 To de chinois et 1,2 To d'anglais, en plus des données d'images. GPT-3 a été entraîné sur 45 téraoctets de texte seulement. Wu Dao disposait de dix fois plus de paramètres, mais de moins d'un dixième des données d'entraînement.
L'ensemble de données WuDao Corpora pour la version 2.0 contenait 3 To de texte Web, 90 To de données graphiques (630 millions de paires texte/image) et 181 Go de dialogues chinois représentant 1,4 milliard de tours de conversation.
Ce décalage entre le nombre de paramètres et les données d'entraînement laissait entrevoir un point important : Wu Dao 2.0 utilisait une architecture différente, appelée Mixture-of-Experts (MoE). Contrairement au modèle « dense » de GPT-3, où tous les paramètres sont activés pour chaque tâche, les modèles MoE n'activent que les experts pertinents pour chaque entrée. Cela nécessite une puissance de calcul bien moindre pour l'entraînement, mais des études ont montré que des modèles MoE à mille milliards de paramètres offrent des performances comparables à celles de modèles denses des centaines de fois plus petits.
Wu Dao 2.0 utilisait spécifiquement FastMoE, la variante MoE de Google. Il s'agissait d'une ingénierie ingénieuse tirant parti des limitations matérielles, bien que le marketing de BAAI ait plutôt mis l'accent sur le nombre brut de paramètres.
AquilaCode : Génération de code à partir de texte
Encore en développement. Les premières versions peuvent générer :
- Algorithmes de base (suites de Fibonacci, tri)
- Jeux simples
- Scripts utilitaires
Pas encore au niveau de GitHub Copilot ni des capacités de codage de GPT-4, mais en progression. BAAI s'adresse aux développeurs ayant besoin de générer du code dans des contextes techniques chinois.
Série de visions Wu Dao
Un ensemble de modèles de vision par ordinateur, et non un système unique :
EVA (1 milliard de paramètres) : Ce modèle se concentre sur l’apprentissage de représentations visuelles. Entraîné sur des jeux de données publics, il a atteint de nouveaux records dans les domaines suivants :
- Reconnaissance d'images
- Détection d'action vidéo
- Détection d'objets
- Tâches de segmentation
Logiciel libre, contrairement à ses concurrents qui gardent leurs modèles de vision propriétaires.
- EVA-CLIP : BAAI affirme être la meilleure alternative open source à CLIP. Gère la correspondance image-texte pour la recherche et la récupération.
- Painter : Ce programme met en œuvre l'apprentissage visuel « en contexte », lui présente des exemples et apprend de nouvelles tâches visuelles sans réentraînement. Son fonctionnement est similaire à celui de GPT-3 pour l'apprentissage en contexte du texte.
- vid2vid-zero : Outil de montage vidéo sans apprentissage préalable. Montez des vidéos à partir de descriptions textuelles, sans entraînement sur des jeux de données spécialisés.
- Emu (modèles multimodaux) : gère à la fois les images et le texte dans un seul modèle. Ses cas d’utilisation incluent la génération de légendes d’images, les réponses visuelles aux questions et la génération de contenu.
FlagOpen : La couche d'infrastructure
BAAI a également amélioré la plateforme FlagOpen, qu'ils ont lancée début 2023. Ce système offre des techniques d'entraînement parallèles, une inférence plus rapide, des outils d'évaluation et des utilitaires de traitement des données, fournissant essentiellement tout ce qui est nécessaire pour développer de grands modèles d'IA. 1
Lors de la première présentation de Wu Dao 2.0 à la conférence Zhiyuan de Pékin, ses créateurs ont exposé des poèmes chinois et des dessins générés par ce logiciel. 2 Suite à cet événement, une étudiante virtuelle a été créée à partir du modèle d'IA de Wu Dao, Zhibing Hua. Wu Dao contrôle cette étudiante virtuelle, qui peut ainsi utiliser ses connaissances et ses capacités d'apprentissage pour écrire des poèmes, dessiner et composer de la musique.
Bien que ces fonctionnalités ne soient pas mises en avant pour Wu Dao 3.0, il convient de les mentionner si vous prévoyez d'utiliser Wu Dao 2.0 pour votre entreprise au lieu de Wu Dao 3.0.
Figure 1 : Poèmes générés par Wu Dao 2.0 3
Points de repère d'apprentissage zéro-shot
- ImageNet : atteint des performances de pointe en matière de zéro-shot, surpassant CLIP de OpenAI.
- UC Merced Land-Use : Enregistre la plus grande précision de tir zéro dans la classification aérienne de l'utilisation des terres, surpassant CLIP.
Évaluation comparative de l'apprentissage avec peu d'exemples
- SuperGLUE (FewGLUE) : Surpasse GPT-3, atteignant les meilleurs résultats d'apprentissage avec peu d'exemples.
référentiels de connaissances et de compréhension linguistique
- Détection des connaissances LAMA : Démontre une capacité supérieure de récupération des connaissances factuelles, surpassant AutoPrompt.
- Test de cloze LAMBADA : Dépasse Microsoft Turing-NLG en compréhension de lecture et en compréhension du contexte.
Évaluation comparative de la recherche d'images et de textes à partir de textes
- MS COCO (génération de texte à image) : Surpasse DALL·E de OpenAI dans la génération d'images à partir de descriptions textuelles.
- MS COCO (récupération d'images et de textes en anglais) : Surpasse CLIP de OpenAI et ALIGN de Google dans la récupération d'images à partir de légendes (et vice versa).
- MS COCO (Recherche d'images et de textes multilingues) : Surpasse UC2 et M3P dans la recherche d'images et de textes multilingues.
- Multi30K (Recherche d'images et de textes multilingues) : Surpasse également UC2 et M3P, confirmant ses solides capacités multimodales multilingues.
Wu Dao 3.0 contre OpenAI GPT
Voici une comparaison complète des modèles Wu Dao 3.0 LLM et de divers modèles OpenAI basés sur BAAI. 4 Nous ne pouvons pas fournir de comparaisons plus détaillées et à jour pour Wu Dao car il ne dispose pas de points de référence récents et cohérents.
performance en contexte long
Tests portant sur quatre tâches 5 :
- VCSUM (Résumé chinois)
- LSHT (gestion des séquences longues chinoises)
- HotpotQA (raisonnement multi-sauts en anglais)
- 2WikiMQA (questions-réponses multi-documents en anglais)
Évaluation comparative des performances de raisonnement
Tests portant sur 6 tâches 6 :
- bAbI n° 16 et CLUTRR (raisonnement inductif)
- bAbI n° 15 et EntailmentBank (raisonnement déductif)
- αNLI (raisonnement abductif)
- Soins électroniques (raisonnement causal)
Si vous souhaitez utiliser Wu Dao, vous pouvez l'installer sur votre ordinateur en le téléchargeant gratuitement. 7
Concurrents de Wu Dao 3.0
Qwen3.5
Qwen3.5 est une famille de modèles de langage à poids ouvert de grande taille d'Alibaba conçue comme un système multimodal natif Mixture-of-Experts (MoE).
Le modèle phare (Qwen3.5-397B-A17B) contient environ 397 milliards de paramètres mais n'en active que ~17 milliards par inférence, ce qui permet des performances élevées avec des coûts de calcul inférieurs.
Le modèle utilise une architecture hybride qui combine le routage MoE clairsemé avec les réseaux Gated Delta et l'attention linéaire , permettant une inférence efficace tout en prenant en charge le raisonnement avancé, le codage et la compréhension multimodale.
Qwen3.5 est entraîné sur des données multimodales de fusion précoce , ce qui lui permet de traiter des entrées textuelles et visuelles dans un modèle unifié et d'alimenter des « agents multimodaux natifs » capables de raisonner sur les interfaces et d'effectuer des tâches complexes en plusieurs étapes. 8
Kimi K2.5
Kimi K2.5 est un modèle multimodal open source (Moonshot AI) conçu selon une architecture centrée sur les agents pour l'automatisation du codage et des flux de travail. Ce modèle intègre des capacités de vision et de langage, lui permettant d'interpréter du texte, des images et de la vidéo tout en générant du code prêt pour la production.
K2.5 a été entraîné sur environ 15 billions de jetons multimodaux et prend en charge le raisonnement sur un contexte long (jusqu'à ~256 000 jetons) ainsi que l'appel d'outils et les flux de travail d'agents autonomes.
L'une de ses caractéristiques distinctives est son paradigme de « essaim d'agents » , où plusieurs agents coordonnés peuvent gérer des sous-tâches en parallèle pour résoudre des flux de travail d'ingénierie ou de développement complexes.
Moonshot a publié le modèle accompagné d'un agent de codage , positionnant Kimi K2.5 comme une alternative axée sur les développeurs aux modèles propriétaires de pointe pour la construction de systèmes logiciels assistés par l'IA. 9
ERNIE 5.0
ERNIE 5.0 est le modèle phare de Baidu et un système omnimodal natif qui traite et génère du texte, des images, de l'audio et de la vidéo au sein d'une architecture unique.
Le modèle contiendrait environ 2,4 billions de paramètres utilisant une conception de type « mélange d'experts » , permettant une capacité élevée tout en n'activant qu'une fraction des paramètres par inférence pour plus d'efficacité.
ERNIE 5.0 a été intégré à ERNIE Bot de Baidu et à la plateforme d'entreprise Qianfan, prenant en charge une gamme d'applications d'IA générative pour les produits grand public et d'entreprise. 10
FAQ
Non. Les modèles Aquila ciblent des cas d'utilisation différents. Pour les tâches en langue chinoise avec une puissance de calcul limitée, ils sont pratiques. Pour les fonctionnalités générales en anglais, GPT-5 les surpasse nettement.
Oui, les modèles sont open source. Consultez les licences spécifiques à chaque composant Aquila, mais l'utilisation commerciale est généralement autorisée.
Barrière linguistique (documentation), intégration de l'écosystème (conçu pour les outils chinois) et écarts de performance dans les tâches en anglais.
Soyez le premier à commenter
Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.