Is Wu Dao 3.0 better than GPT-5?

No. Aquila models target different use cases. For Chinese language tasks with limited compute, they're practical. For general English capabilities, GPT-5 outperforms them significantly.

Can I use Wu Dao commercially?

Yes, the models are open source. Check specific licenses for each Aquila component, but commercial use is generally permitted.

Why don't more people outside China use it?

Language barrier (documentation), ecosystem integration (built for Chinese tools), and performance gaps in English tasks.

IA Applicazioni GenAI Chatbot

Wu Dao 3.0: la versione cinese di GPT-5

Cem Dilmegani

aggiornato il Mar 5, 2026

Guarda il nostro norme etiche

Quando gli Stati Uniti interruppero l'accesso della Cina ai chip avanzati, l'Accademia di Inteldiffusione di Pechino si trovò di fronte a una scelta: lamentarsi delle restrizioni o trovare un modo per aggirarle. Scelsero la seconda opzione.

Wu Dao 3.0, lanciato nel luglio 2023, stravolge le regole del gioco. Niente più modelli enormi con trilioni di parametri in competizione per i titoli dei giornali. Al contrario, ora crea modelli compatti che le startup cinesi possono effettivamente eseguire senza bisogno di un magazzino pieno di GPU.

Perché BAAI ha cambiato direzione

Wu Dao 2.0 ha fatto notizia nel 2021 con 1,75 trilioni di parametri, affermando di poter competere con GPT-3. Due anni dopo, BAAI ha silenziosamente accantonato quell'approccio. I motivi sono:

Le sanzioni statunitensi sui chip hanno limitato l'accesso alle GPU avanzate
I costi di formazione per le megamodelle sono diventati proibitivi
La politica del governo cinese si è orientata verso applicazioni pratiche piuttosto che verso progetti di prestigio.
La realtà del mercato ha dimostrato che la maggior parte delle aziende ha bisogno di strumenti specializzati, non di soluzioni generiche di grandi dimensioni.

La nuova strategia: costruire una collezione di modelli più piccoli (chiamati Aquila) che lavorino insieme. Pensate ai microservizi invece che ai monoliti.

Spiegazione di Wu Dao 3.0

Wu Dao 3.0 non è un singolo modello. È un ecosistema di strumenti di intelligenza artificiale specializzati, rilasciati con il marchio Aquila:

AquilaChat: Modelli di dialogo

Disponibili due misure:

7 miliardi di parametri: compete con LLaMA 7B e modelli open-source simili.
33 miliardi di parametri: per conversazioni più complesse

Entrambi i modelli sono stati addestrati su testi cinesi (40%) e inglesi (60%). La versione più piccola funziona su hardware di consumo; non è necessario un data center.

BAAI afferma che AquilaChat 7B supera le prestazioni di modelli internazionali comparabili, sebbene i benchmark indipendenti rimangano limitati.

Le origini: come è nato Wu Dao

Lo sviluppo è iniziato nell'ottobre 2020, diversi mesi dopo il rilascio di GPT-3. Il nome Wu Dao (悟道) in cinese significa “strada verso la consapevolezza”, un nome ambizioso per un progetto ambizioso.

Wu Dao 1.0 è stato lanciato l'11 gennaio 2021, con quattro modelli specializzati che lavoravano insieme. Ognuno gestiva compiti diversi: Wen Yuan (2,6 miliardi di parametri) si concentrava sulla risposta alle domande e sulla correzione grammaticale. Wen Lan (1 miliardo di parametri) generava didascalie per le immagini utilizzando 50 milioni di coppie di immagini. Wen Hui (11,3 miliardi di parametri) scriveva poesie, creava video e gestiva ragionamenti complessi. Wen Su, basato su BERT di Google, prevedeva strutture proteiche simili ad AlphaFold.

Poi, il 31 maggio 2021, è arrivato Wu Dao 2.0. BAAI ha fatto notizia, vantando 1,75 trilioni di parametri, dieci volte di più dei 175 miliardi di GPT-3. I media lo hanno definito "il più grande sistema di intelligenza artificiale per il linguaggio mai realizzato". Gli analisti lo hanno interpretato come il tentativo della Cina di competere direttamente con il dominio americano nel campo dell'IA.

La realtà dei dati di addestramento

Wu Dao 2.0 ha utilizzato 4,9 terabyte di immagini e testo, 1,2 TB di testo cinese, 1,2 TB di testo inglese, oltre ai dati delle immagini. GPT-3 è stato addestrato su 45 terabyte di solo testo. Wu Dao aveva dieci volte i parametri, ma meno di un decimo dei dati di addestramento.

Il dataset WuDao Corpora per la versione 2.0 conteneva 3 TB di testo web, 90 TB di dati grafici (630 milioni di coppie testo/immagine) e 181 GB di dialoghi in cinese che rappresentavano 1,4 miliardi di cicli di conversazione.

Questa discrepanza tra il numero di parametri e i dati di addestramento lasciava intendere qualcosa di importante: Wu Dao 2.0 utilizzava un'architettura diversa chiamata Mixture-of-Experts (MoE). A differenza del modello "denso" di GPT-3, in cui tutti i parametri si attivano per ogni attività, i modelli MoE attivano solo gli esperti rilevanti per ogni input. Ciò richiede molta meno potenza di calcolo per l'addestramento, ma la ricerca ha dimostrato che i modelli MoE con trilioni di parametri offrono prestazioni paragonabili a modelli densi centinaia di volte più piccoli.

Wu Dao 2.0 utilizzava specificamente FastMoE, la variante MoE di Google. Si trattava di un'ingegnosa soluzione ingegneristica per aggirare le limitazioni hardware, sebbene il marketing di BAAI enfatizzasse invece il numero di parametri grezzi.

AquilaCode: Generazione di codice da testo

Ancora in fase di sviluppo. Le prime versioni possono generare:

Algoritmi di base (sequenze di Fibonacci, ordinamento)
Giochi semplici
Script di utilità

Non ancora al livello di GitHub Copilot o delle capacità di programmazione di GPT-4, ma in miglioramento. BAAI si rivolge agli sviluppatori che necessitano di generazione di codice in contesti tecnici cinesi.

Serie di visioni Wu Dao

Una raccolta di modelli di visione artificiale, non un singolo sistema:

EVA (1 miliardo di parametri): si concentra sull'apprendimento della rappresentazione visiva. Addestrato su dataset pubblici, ha raggiunto nuovi benchmark in:

Riconoscimento delle immagini
Rilevamento di azioni video
Rilevamento di oggetti
Compiti di segmentazione

Open source, a differenza dei concorrenti che mantengono proprietari i modelli di visione.

EVA-CLIP: BAAI afferma di essere la migliore alternativa open-source a CLIP disponibile. Gestisce la corrispondenza tra immagini e testo per la ricerca e il recupero.
Painter: Implementa l'apprendimento visivo "nel contesto", gli mostra degli esempi e apprende nuovi compiti visivi senza bisogno di essere riaddestrato. Simile al modo in cui GPT-3 esegue l'apprendimento nel contesto per il testo.
vid2vid-zero: Strumento di editing video "zero-shot". Modifica i video basandoti su descrizioni testuali senza bisogno di addestramento su dataset specializzati per l'editing video.
Emu (modelli multimodali): Gestisce sia immagini che testo in un unico modello. Esempi di utilizzo includono la generazione di didascalie per le immagini, la risposta visiva alle domande e la generazione di contenuti.

FlagOpen: il livello infrastrutturale

BAAI ha inoltre migliorato la piattaforma FlagOpen, lanciata all'inizio del 2023. Questo sistema offre tecniche di addestramento parallelo, inferenza più rapida, strumenti di valutazione e utilità di elaborazione dati, fornendo essenzialmente tutto il necessario per sviluppare modelli di intelligenza artificiale di grandi dimensioni. ¹

Quando Wu Dao 2.0 fece il suo debutto alla Conferenza Zhiyuan di Pechino, i suoi creatori esposero poesie e disegni cinesi realizzati con il sistema. ² In seguito a quell'evento, è stata creata una studentessa virtuale basata sul modello di intelligenza artificiale di Wu Dao, Zhibing Hua. Wu Dao alimenta la studentessa virtuale. Pertanto, lei può utilizzare la sua base di conoscenze e le sue capacità di apprendimento per scrivere poesie, disegnare e comporre musica.

Sebbene queste funzionalità non siano evidenziate in Wu Dao 3.0, vale la pena menzionarle se si prevede di utilizzare Wu Dao 2.0 per la propria azienda anziché Wu Dao 3.0.

Figura 1: Poesie generate da Wu Dao 2.0 ³

Parametri di riferimento per l'apprendimento zero-shot

ImageNet: Raggiunge prestazioni zero-shot all'avanguardia, superando il CLIP di OpenAI.
Classificazione dell'uso del suolo dell'UC Merced: registra la più alta precisione di zero-shot nella classificazione aerea dell'uso del suolo, superando CLIP.

Benchmark di apprendimento con pochi esempi

SuperGLUE (FewGLUE): Supera GPT-3, ottenendo i migliori risultati di apprendimento con pochi esempi.

Parametri di riferimento per la conoscenza e la comprensione linguistica

Rilevamento della conoscenza LAMA: dimostra una capacità superiore di recupero delle conoscenze fattuali, superando AutoPrompt.
Test Cloze LAMBADA: supera Microsoft Turing-NLG nella comprensione della lettura e nella comprensione del contesto.

Parametri di riferimento per il recupero di informazioni da testo a immagine e da immagine a testo.

MS COCO (Generazione di immagini da testo): Supera DALL·E di OpenAI nella generazione di immagini da descrizioni testuali.
MS COCO (recupero di immagini e testo in inglese): supera CLIP di OpenAI e ALIGN di Google nel recupero di immagini da didascalie (e viceversa).
MS COCO (recupero multilingue di immagini e testo): supera UC2 e M3P nel recupero multilingue di immagini e testo.
Multi30K (recupero multilingue di immagini e testo): supera anche UC2 e M3P, confermando le sue solide capacità multilingue e multimodali.

Wu Dao 3.0 contro OpenAI GPT

Ecco un confronto completo dei modelli Wu Dao 3.0 LLM e di vari modelli OpenAI basati su BAAI. ⁴ Non possiamo fornire confronti più dettagliati e aggiornati per Wu Dao poiché non sono disponibili benchmark recenti e coerenti.

Prestazioni nel contesto lungo

Test su quattro compiti ⁵ :

VCSUM (riassunto cinese)
LSHT (manipolazione di sequenze lunghe cinese)
HotpotQA (ragionamento multi-hop in inglese)
2. WikiMQA (Domande e risposte multi-documento in inglese)

Benchmark delle prestazioni di ragionamento

Test su 6 compiti ⁶ :

bAbI #16 e CLUTRR (ragionamento induttivo)
bAbI #15 e EntailmentBank (ragionamento deduttivo)
αNLI (ragionamento abduttivo)
E-Care (ragionamento causale)

Se desideri utilizzare Wu Dao, puoi installarlo sul tuo computer scaricandolo gratuitamente. ⁷

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Segui

Concorrenti di Wu Dao 3.0

Qwen3.5

Qwen3.5 è una famiglia di modelli linguistici di grandi dimensioni e a peso aperto di Alibaba, progettata come un sistema nativo multimodale Mixture-of-Experts (MoE).

Il modello di punta (Qwen3.5-397B-A17B) contiene circa 397 miliardi di parametri, ma ne attiva solo ~17 miliardi per inferenza, consentendo prestazioni elevate con costi computazionali inferiori.

Il modello utilizza un'architettura ibrida che combina il routing MoE sparso con le reti Gated Delta e l'attenzione lineare , consentendo un'inferenza efficiente e supportando al contempo ragionamento avanzato, codifica e comprensione multimodale.

Qwen3.5 è addestrato su dati multimodali a fusione precoce , il che gli consente di elaborare input testuali e visivi all'interno di un modello unificato e di alimentare "agenti multimodali nativi" in grado di ragionare sulle interfacce ed eseguire attività complesse a più fasi. ⁸

Kimi K2.5

Kimi K2.5 è un modello multimodale open-source di Moonshot AI progettato attorno a un'architettura incentrata sugli agenti per l'automazione della codifica e dei flussi di lavoro. Il modello integra capacità di visione e linguaggio, consentendogli di interpretare testo, immagini e video generando al contempo codice pronto per la produzione.

K2.5 è stato addestrato su circa 15 trilioni di token multimodali e supporta il ragionamento a lungo contesto (fino a ~256.000 token), oltre al richiamo di strumenti e ai flussi di lavoro degli agenti autonomi.

Una caratteristica distintiva è il suo paradigma "sciame di agenti" , in cui più agenti coordinati possono gestire sotto-compiti in parallelo per risolvere flussi di lavoro complessi di ingegneria o sviluppo.

Moonshot ha rilasciato il modello insieme a un agente di programmazione , posizionando Kimi K2.5 come un'alternativa orientata agli sviluppatori rispetto ai modelli proprietari di frontiera per la creazione di sistemi software assistiti dall'IA. ⁹

ERNIE 5.0

ERNIE 5.0 è il modello di punta di Baidu e un sistema nativamente omnimodale che elabora e genera testo, immagini, audio e video all'interno di un'unica architettura.

Secondo quanto riportato, il modello contiene circa 2,4 trilioni di parametri utilizzando un design "Mixture-of-Experts" , che consente un'elevata capacità attivando al contempo solo una frazione di parametri per inferenza, al fine di ottimizzare l'efficienza.

ERNIE 5.0 è stato integrato nel bot ERNIE di Baidu e nella piattaforma aziendale Qianfan, supportando una serie di applicazioni di intelligenza artificiale generativa in prodotti per consumatori e aziende. ¹⁰

FAQ

No. I modelli Aquila sono pensati per casi d'uso diversi. Per le attività in lingua cinese con risorse di calcolo limitate, sono pratici. Per le funzionalità generali in inglese, GPT-5 li supera nettamente.

Sì, i modelli sono open source. Verifica le licenze specifiche per ogni componente di Aquila, ma in generale l'uso commerciale è consentito.

Barriera linguistica (documentazione), integrazione dell'ecosistema (progettato per strumenti cinesi) e lacune prestazionali nelle attività in inglese.

Collegamenti di riferimento

开源平台旗舰项目

China’s GPT-3? BAAI Introduces Superscale Intelligence Model ‘Wu Dao 1.0’ | Synced

Synced

China’s GPT-3? BAAI Introduces Superscale Intelligence Model ‘Wu Dao 1.0’ | Synced

Synced

https://model.baai.ac.cn/model-detail/220118

https://model.baai.ac.cn/models

https://qwen.ai/blog?id=qwen3.5

10.

GitHub - MoonshotAI/Kimi-K2.5: Moonshot's most powerful model · GitHub

Cem Dilmegani

Analista principale

Segui

Cem è analista principale presso AIMultiple dal 2017. AIMultiple fornisce informazioni a centinaia di migliaia di aziende (secondo SimilarWeb), tra cui il 55% delle aziende Fortune 500, ogni mese. Il lavoro di Cem è stato citato da importanti pubblicazioni globali come Business Insider, Forbes, Washington Post, società globali come Deloitte e HPE, ONG come il World Economic Forum e organizzazioni sovranazionali come la Commissione Europea. È possibile consultare l'elenco di altre aziende e risorse autorevoli che hanno citato AIMultiple. Nel corso della sua carriera, Cem ha lavorato come consulente tecnologico, responsabile acquisti tecnologici e imprenditore nel settore tecnologico. Ha fornito consulenza alle aziende sulle loro decisioni tecnologiche presso McKinsey & Company e Altman Solon per oltre un decennio. Ha anche pubblicato un report di McKinsey sulla digitalizzazione. Ha guidato la strategia tecnologica e gli acquisti di un'azienda di telecomunicazioni, riportando direttamente al CEO. Ha inoltre guidato la crescita commerciale dell'azienda deep tech Hypatos, che ha raggiunto un fatturato annuo ricorrente a 7 cifre e una valutazione a 9 cifre partendo da zero in soli 2 anni. Il lavoro di Cem in Hypatos è stato oggetto di articoli su importanti pubblicazioni tecnologiche come TechCrunch e Business Insider. Cem partecipa regolarmente come relatore a conferenze internazionali di settore. Si è laureato in ingegneria informatica presso l'Università di Bogazici e ha conseguito un MBA presso la Columbia Business School.

Visualizza il profilo completo