Quando gli Stati Uniti interruppero l'accesso della Cina ai chip avanzati, l'Accademia di Inteldiffusione di Pechino si trovò di fronte a una scelta: lamentarsi delle restrizioni o trovare un modo per aggirarle. Scelsero la seconda opzione.
Wu Dao 3.0, lanciato nel luglio 2023, stravolge le regole del gioco. Niente più modelli enormi con trilioni di parametri in competizione per i titoli dei giornali. Al contrario, ora crea modelli compatti che le startup cinesi possono effettivamente eseguire senza bisogno di un magazzino pieno di GPU.
Perché BAAI ha cambiato direzione
Wu Dao 2.0 ha fatto notizia nel 2021 con 1,75 trilioni di parametri, affermando di poter competere con GPT-3. Due anni dopo, BAAI ha silenziosamente accantonato quell'approccio. I motivi sono:
- Le sanzioni statunitensi sui chip hanno limitato l'accesso alle GPU avanzate
- I costi di formazione per le megamodelle sono diventati proibitivi
- La politica del governo cinese si è orientata verso applicazioni pratiche piuttosto che verso progetti di prestigio.
- La realtà del mercato ha dimostrato che la maggior parte delle aziende ha bisogno di strumenti specializzati, non di soluzioni generiche di grandi dimensioni.
La nuova strategia: costruire una collezione di modelli più piccoli (chiamati Aquila) che lavorino insieme. Pensate ai microservizi invece che ai monoliti.
Spiegazione di Wu Dao 3.0
Wu Dao 3.0 non è un singolo modello. È un ecosistema di strumenti di intelligenza artificiale specializzati, rilasciati con il marchio Aquila:
AquilaChat: Modelli di dialogo
Disponibili due misure:
- 7 miliardi di parametri: compete con LLaMA 7B e modelli open-source simili.
- 33 miliardi di parametri: per conversazioni più complesse
Entrambi i modelli sono stati addestrati su testi cinesi (40%) e inglesi (60%). La versione più piccola funziona su hardware di consumo; non è necessario un data center.
BAAI afferma che AquilaChat 7B supera le prestazioni di modelli internazionali comparabili, sebbene i benchmark indipendenti rimangano limitati.
Le origini: come è nato Wu Dao
Lo sviluppo è iniziato nell'ottobre 2020, diversi mesi dopo il rilascio di GPT-3. Il nome Wu Dao (悟道) in cinese significa “strada verso la consapevolezza”, un nome ambizioso per un progetto ambizioso.
Wu Dao 1.0 è stato lanciato l'11 gennaio 2021, con quattro modelli specializzati che lavoravano insieme. Ognuno gestiva compiti diversi: Wen Yuan (2,6 miliardi di parametri) si concentrava sulla risposta alle domande e sulla correzione grammaticale. Wen Lan (1 miliardo di parametri) generava didascalie per le immagini utilizzando 50 milioni di coppie di immagini. Wen Hui (11,3 miliardi di parametri) scriveva poesie, creava video e gestiva ragionamenti complessi. Wen Su, basato su BERT di Google, prevedeva strutture proteiche simili ad AlphaFold.
Poi, il 31 maggio 2021, è arrivato Wu Dao 2.0. BAAI ha fatto notizia, vantando 1,75 trilioni di parametri, dieci volte di più dei 175 miliardi di GPT-3. I media lo hanno definito "il più grande sistema di intelligenza artificiale per il linguaggio mai realizzato". Gli analisti lo hanno interpretato come il tentativo della Cina di competere direttamente con il dominio americano nel campo dell'IA.
La realtà dei dati di addestramento
Wu Dao 2.0 ha utilizzato 4,9 terabyte di immagini e testo, 1,2 TB di testo cinese, 1,2 TB di testo inglese, oltre ai dati delle immagini. GPT-3 è stato addestrato su 45 terabyte di solo testo. Wu Dao aveva dieci volte i parametri, ma meno di un decimo dei dati di addestramento.
Il dataset WuDao Corpora per la versione 2.0 conteneva 3 TB di testo web, 90 TB di dati grafici (630 milioni di coppie testo/immagine) e 181 GB di dialoghi in cinese che rappresentavano 1,4 miliardi di cicli di conversazione.
Questa discrepanza tra il numero di parametri e i dati di addestramento lasciava intendere qualcosa di importante: Wu Dao 2.0 utilizzava un'architettura diversa chiamata Mixture-of-Experts (MoE). A differenza del modello "denso" di GPT-3, in cui tutti i parametri si attivano per ogni attività, i modelli MoE attivano solo gli esperti rilevanti per ogni input. Ciò richiede molta meno potenza di calcolo per l'addestramento, ma la ricerca ha dimostrato che i modelli MoE con trilioni di parametri offrono prestazioni paragonabili a modelli densi centinaia di volte più piccoli.
Wu Dao 2.0 utilizzava specificamente FastMoE, la variante MoE di Google. Si trattava di un'ingegnosa soluzione ingegneristica per aggirare le limitazioni hardware, sebbene il marketing di BAAI enfatizzasse invece il numero di parametri grezzi.
AquilaCode: Generazione di codice da testo
Ancora in fase di sviluppo. Le prime versioni possono generare:
- Algoritmi di base (sequenze di Fibonacci, ordinamento)
- Giochi semplici
- Script di utilità
Non ancora al livello di GitHub Copilot o delle capacità di programmazione di GPT-4, ma in miglioramento. BAAI si rivolge agli sviluppatori che necessitano di generazione di codice in contesti tecnici cinesi.
Serie di visioni Wu Dao
Una raccolta di modelli di visione artificiale, non un singolo sistema:
EVA (1 miliardo di parametri): si concentra sull'apprendimento della rappresentazione visiva. Addestrato su dataset pubblici, ha raggiunto nuovi benchmark in:
- Riconoscimento delle immagini
- Rilevamento di azioni video
- Rilevamento di oggetti
- Compiti di segmentazione
Open source, a differenza dei concorrenti che mantengono proprietari i modelli di visione.
- EVA-CLIP: BAAI afferma di essere la migliore alternativa open-source a CLIP disponibile. Gestisce la corrispondenza tra immagini e testo per la ricerca e il recupero.
- Painter: Implementa l'apprendimento visivo "nel contesto", gli mostra degli esempi e apprende nuovi compiti visivi senza bisogno di essere riaddestrato. Simile al modo in cui GPT-3 esegue l'apprendimento nel contesto per il testo.
- vid2vid-zero: Strumento di editing video "zero-shot". Modifica i video basandoti su descrizioni testuali senza bisogno di addestramento su dataset specializzati per l'editing video.
- Emu (modelli multimodali): Gestisce sia immagini che testo in un unico modello. Esempi di utilizzo includono la generazione di didascalie per le immagini, la risposta visiva alle domande e la generazione di contenuti.
FlagOpen: il livello infrastrutturale
BAAI ha inoltre migliorato la piattaforma FlagOpen, lanciata all'inizio del 2023. Questo sistema offre tecniche di addestramento parallelo, inferenza più rapida, strumenti di valutazione e utilità di elaborazione dati, fornendo essenzialmente tutto il necessario per sviluppare modelli di intelligenza artificiale di grandi dimensioni. 1
Quando Wu Dao 2.0 fece il suo debutto alla Conferenza Zhiyuan di Pechino, i suoi creatori esposero poesie e disegni cinesi realizzati con il sistema. 2 In seguito a quell'evento, è stata creata una studentessa virtuale basata sul modello di intelligenza artificiale di Wu Dao, Zhibing Hua. Wu Dao alimenta la studentessa virtuale. Pertanto, lei può utilizzare la sua base di conoscenze e le sue capacità di apprendimento per scrivere poesie, disegnare e comporre musica.
Sebbene queste funzionalità non siano evidenziate in Wu Dao 3.0, vale la pena menzionarle se si prevede di utilizzare Wu Dao 2.0 per la propria azienda anziché Wu Dao 3.0.
Figura 1: Poesie generate da Wu Dao 2.0 3
Parametri di riferimento per l'apprendimento zero-shot
- ImageNet: Raggiunge prestazioni zero-shot all'avanguardia, superando il CLIP di OpenAI.
- Classificazione dell'uso del suolo dell'UC Merced: registra la più alta precisione di zero-shot nella classificazione aerea dell'uso del suolo, superando CLIP.
Benchmark di apprendimento con pochi esempi
- SuperGLUE (FewGLUE): Supera GPT-3, ottenendo i migliori risultati di apprendimento con pochi esempi.
Parametri di riferimento per la conoscenza e la comprensione linguistica
- Rilevamento della conoscenza LAMA: dimostra una capacità superiore di recupero delle conoscenze fattuali, superando AutoPrompt.
- Test Cloze LAMBADA: supera Microsoft Turing-NLG nella comprensione della lettura e nella comprensione del contesto.
Parametri di riferimento per il recupero di informazioni da testo a immagine e da immagine a testo.
- MS COCO (Generazione di immagini da testo): Supera DALL·E di OpenAI nella generazione di immagini da descrizioni testuali.
- MS COCO (recupero di immagini e testo in inglese): supera CLIP di OpenAI e ALIGN di Google nel recupero di immagini da didascalie (e viceversa).
- MS COCO (recupero multilingue di immagini e testo): supera UC2 e M3P nel recupero multilingue di immagini e testo.
- Multi30K (recupero multilingue di immagini e testo): supera anche UC2 e M3P, confermando le sue solide capacità multilingue e multimodali.
Wu Dao 3.0 contro OpenAI GPT
Ecco un confronto completo dei modelli Wu Dao 3.0 LLM e di vari modelli OpenAI basati su BAAI. 4 Non possiamo fornire confronti più dettagliati e aggiornati per Wu Dao poiché non sono disponibili benchmark recenti e coerenti.
Prestazioni nel contesto lungo
Test su quattro compiti 5 :
- VCSUM (riassunto cinese)
- LSHT (manipolazione di sequenze lunghe cinese)
- HotpotQA (ragionamento multi-hop in inglese)
- 2. WikiMQA (Domande e risposte multi-documento in inglese)
Benchmark delle prestazioni di ragionamento
Test su 6 compiti 6 :
- bAbI #16 e CLUTRR (ragionamento induttivo)
- bAbI #15 e EntailmentBank (ragionamento deduttivo)
- αNLI (ragionamento abduttivo)
- E-Care (ragionamento causale)
Se desideri utilizzare Wu Dao, puoi installarlo sul tuo computer scaricandolo gratuitamente. 7
Concorrenti di Wu Dao 3.0
Qwen3.5
Qwen3.5 è una famiglia di modelli linguistici di grandi dimensioni e a peso aperto di Alibaba, progettata come un sistema nativo multimodale Mixture-of-Experts (MoE).
Il modello di punta (Qwen3.5-397B-A17B) contiene circa 397 miliardi di parametri, ma ne attiva solo ~17 miliardi per inferenza, consentendo prestazioni elevate con costi computazionali inferiori.
Il modello utilizza un'architettura ibrida che combina il routing MoE sparso con le reti Gated Delta e l'attenzione lineare , consentendo un'inferenza efficiente e supportando al contempo ragionamento avanzato, codifica e comprensione multimodale.
Qwen3.5 è addestrato su dati multimodali a fusione precoce , il che gli consente di elaborare input testuali e visivi all'interno di un modello unificato e di alimentare "agenti multimodali nativi" in grado di ragionare sulle interfacce ed eseguire attività complesse a più fasi. 8
Kimi K2.5
Kimi K2.5 è un modello multimodale open-source di Moonshot AI progettato attorno a un'architettura incentrata sugli agenti per l'automazione della codifica e dei flussi di lavoro. Il modello integra capacità di visione e linguaggio, consentendogli di interpretare testo, immagini e video generando al contempo codice pronto per la produzione.
K2.5 è stato addestrato su circa 15 trilioni di token multimodali e supporta il ragionamento a lungo contesto (fino a ~256.000 token), oltre al richiamo di strumenti e ai flussi di lavoro degli agenti autonomi.
Una caratteristica distintiva è il suo paradigma "sciame di agenti" , in cui più agenti coordinati possono gestire sotto-compiti in parallelo per risolvere flussi di lavoro complessi di ingegneria o sviluppo.
Moonshot ha rilasciato il modello insieme a un agente di programmazione , posizionando Kimi K2.5 come un'alternativa orientata agli sviluppatori rispetto ai modelli proprietari di frontiera per la creazione di sistemi software assistiti dall'IA. 9
ERNIE 5.0
ERNIE 5.0 è il modello di punta di Baidu e un sistema nativamente omnimodale che elabora e genera testo, immagini, audio e video all'interno di un'unica architettura.
Secondo quanto riportato, il modello contiene circa 2,4 trilioni di parametri utilizzando un design "Mixture-of-Experts" , che consente un'elevata capacità attivando al contempo solo una frazione di parametri per inferenza, al fine di ottimizzare l'efficienza.
ERNIE 5.0 è stato integrato nel bot ERNIE di Baidu e nella piattaforma aziendale Qianfan, supportando una serie di applicazioni di intelligenza artificiale generativa in prodotti per consumatori e aziende. 10
FAQ
No. I modelli Aquila sono pensati per casi d'uso diversi. Per le attività in lingua cinese con risorse di calcolo limitate, sono pratici. Per le funzionalità generali in inglese, GPT-5 li supera nettamente.
Sì, i modelli sono open source. Verifica le licenze specifiche per ogni componente di Aquila, ma in generale l'uso commerciale è consentito.
Barriera linguistica (documentazione), integrazione dell'ecosistema (progettato per strumenti cinesi) e lacune prestazionali nelle attività in inglese.
Sii il primo a commentare
Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori.