Is Wu Dao 3.0 better than GPT-5?

No. Aquila models target different use cases. For Chinese language tasks with limited compute, they're practical. For general English capabilities, GPT-5 outperforms them significantly.

Can I use Wu Dao commercially?

Yes, the models are open source. Check specific licenses for each Aquila component, but commercial use is generally permitted.

Why don't more people outside China use it?

Language barrier (documentation), ecosystem integration (built for Chinese tools), and performance gaps in English tasks.

IA Aplicações GenAI Chatbots

Wu Dao 3.0: A versão chinesa de GPT-5

Cem Dilmegani

atualizado em Mar 5, 2026

Veja o nosso normas éticas

Quando os EUA cortaram o acesso da China a chips avançados, a Academia de Inteligência Artificial de Pequim se viu diante de uma escolha: reclamar das restrições ou contorná-las. Eles escolheram a segunda opção.

O Wu Dao 3.0, lançado em julho de 2023, abandona o modelo tradicional. Nada de modelos massivos com trilhões de parâmetros competindo por atenção. Em vez disso, agora ele constrói modelos compactos que startups chinesas podem executar sem precisar de um armazém cheio de GPUs.

Por que BAAI mudou de direção

O Wu Dao 2.0 ganhou destaque em 2021 com 1,75 trilhão de parâmetros, alegando rivalizar com o GPT-3. Dois anos depois, BAAI discretamente arquivou essa abordagem. Os motivos são:

As sanções americanas contra chips limitaram o acesso a GPUs avançadas.
Os custos de treinamento para megamodelos tornaram-se proibitivos.
A política do governo chinês passou a priorizar aplicações práticas em detrimento de projetos de prestígio.
A realidade do mercado mostrou que a maioria das empresas precisa de ferramentas especializadas, não de gigantes de uso geral.

A nova estratégia: construir uma coleção de modelos menores (chamada Aquila) que funcionem em conjunto. Pense em microsserviços em vez de monolitos.

Wu Dao 3.0 explicado

Wu Dao 3.0 não é um modelo único. É um ecossistema de ferramentas de IA especializadas, lançadas sob a marca Aquila:

AquilaChat: Modelos de diálogo

Disponível em dois tamanhos:

7 bilhões de parâmetros: Compete com o LLaMA 7B e modelos de código aberto similares.
33 bilhões de parâmetros: Visa conversas mais complexas.

Ambas as versões foram treinadas com textos em chinês (40%) e inglês (60%). A versão menor roda em hardware comum; você não precisa de um centro de dados.

BAAI afirma que o AquilaChat 7B supera modelos internacionais comparáveis, embora os benchmarks independentes ainda sejam limitados.

As origens: Como começou o Wu Dao

O desenvolvimento começou em outubro de 2020, vários meses após o lançamento do GPT-3. O nome Wu Dao (悟道) significa “caminho para a conscientização” em chinês, um nome ambicioso para um projeto ambicioso.

O Wu Dao 1.0 foi lançado em 11 de janeiro de 2021, com quatro modelos especializados trabalhando em conjunto. Cada um lidava com tarefas diferentes: Wen Yuan (2,6 bilhões de parâmetros) focava em perguntas e respostas e correção gramatical. Wen Lan (1 bilhão de parâmetros) gerava legendas de imagens usando 50 milhões de pares de imagens. Wen Hui (11,3 bilhões de parâmetros) escrevia poesia, criava vídeos e lidava com raciocínio complexo. Wen Su, baseado no BERT de Google, previa estruturas de proteínas semelhantes ao AlphaFold.

Em seguida, em 31 de maio de 2021, surgiu o Wu Dao 2.0. O sistema, que já havia sido lançado, ganhou as manchetes ao alegar possuir 1,75 trilhão de parâmetros, dez vezes mais do que os 175 bilhões do GPT-3. A mídia o chamou de "o maior sistema de IA para linguagem até o momento". Comentaristas o interpretaram como uma tentativa da China de competir diretamente com o domínio americano em IA.

A realidade dos dados de treinamento

O Wu Dao 2.0 utilizou 4,9 terabytes de imagens e texto, sendo 1,2 TB de texto em chinês e 1,2 TB em inglês, além dos dados de imagem. O GPT-3 foi treinado apenas com 45 terabytes de texto. O Wu Dao possuía dez vezes mais parâmetros, mas menos de um décimo dos dados de treinamento.

O conjunto de dados WuDao Corpora, versão 2.0, continha 3 TB de texto da web, 90 TB de dados gráficos (630 milhões de pares texto/imagem) e 181 GB de diálogos em chinês, representando 1,4 bilhão de rodadas de conversação.

Essa discrepância entre a quantidade de parâmetros e os dados de treinamento indicava algo importante: o Wu Dao 2.0 utilizava uma arquitetura diferente chamada Mistura de Especialistas (MoE). Ao contrário do modelo "denso" do GPT-3, no qual todos os parâmetros são ativados para cada tarefa, os modelos MoE ativam apenas os especialistas relevantes para cada entrada. Isso requer muito menos poder computacional para o treinamento, mas pesquisas demonstraram que modelos MoE com trilhões de parâmetros têm desempenho comparável a modelos densos centenas de vezes menores.

O Wu Dao 2.0 usava especificamente o FastMoE, a variante MoE do Google. Era uma engenharia inteligente que contornava as limitações de hardware, embora o marketing do BAAI enfatizasse a contagem bruta de parâmetros.

AquilaCode: Geração de código a partir de texto

Ainda em desenvolvimento. Versões iniciais podem gerar:

Algoritmos básicos (sequências de Fibonacci, ordenação)
Jogos simples
Scripts de utilitários

Ainda não está no nível do GitHub Copilot ou das habilidades de programação de GPT-4, mas está melhorando. BAAI é voltado para desenvolvedores que precisam de geração de código em contextos técnicos em chinês.

Série de visão Wu Dao

Uma coleção de modelos de visão computacional, não um sistema único:

EVA (1 bilhão de parâmetros): Focado no aprendizado de representação visual. Treinado em conjuntos de dados públicos, alcançando novos marcos em:

reconhecimento de imagem
Detecção de ação em vídeo
Detecção de objetos
Tarefas de segmentação

De código aberto, ao contrário dos concorrentes que mantêm seus modelos de visão proprietários.

EVA-CLIP: BAAI afirma ser a melhor alternativa de código aberto ao CLIP disponível. Realiza correspondência de imagem e texto para busca e recuperação.
Painter: Implementa aprendizado visual "em contexto", mostrando exemplos, e o sistema aprende novas tarefas visuais sem necessidade de retreinamento. Similar à forma como o GPT-3 realiza o aprendizado em contexto para texto.
vid2vid-zero: Ferramenta de edição de vídeo sem necessidade de treinamento prévio em conjuntos de dados especializados para edição de vídeo. Edite vídeos com base em descrições de texto, sem precisar treinar o usuário em conjuntos de dados específicos para edição de vídeo.
Emu (modelos multimodais): Lida com imagens e texto em um único modelo. Os casos de uso incluem legendagem de imagens, resposta visual a perguntas e geração de conteúdo.

FlagOpen: A Camada de Infraestrutura

A BAAI também aprimorou a plataforma FlagOpen, lançada no início de 2023. Esse sistema oferece técnicas de treinamento paralelo, inferência mais rápida, ferramentas de avaliação e utilitários de processamento de dados, fornecendo essencialmente tudo o que é necessário para desenvolver grandes modelos de IA. ¹

Quando o Wu Dao 2.0 estreou na Conferência Zhiyuan de Pequim, seus criadores exibiram poemas e desenhos chineses gerados por ele. ² Após esse evento, uma estudante virtual foi criada com base no modelo de IA de Wu Dao, Zhibing Hua. Wu Dao dá vida à estudante virtual. Portanto, ela pode usar sua base de conhecimento e capacidades de aprendizado para escrever poemas, desenhar e compor música.

Embora esses recursos não sejam destacados para o Wu Dao 3.0, vale a pena mencioná-los caso você planeje utilizar o Wu Dao 2.0 em sua empresa em vez do Wu Dao 3.0.

Figura 1: Poemas gerados pelo Wu Dao 2.0 ³

Benchmarks de aprendizado zero-shot

ImageNet: Alcança desempenho zero-shot de última geração, superando o CLIP de OpenAI.
UC Merced Land-Use: Registra a maior precisão zero-shot na classificação de uso do solo por via aérea, superando o CLIP.

Benchmark de aprendizado com poucos exemplos

SuperGLUE (FewGLUE): Supera o GPT-3, alcançando os melhores resultados de aprendizado com poucos exemplos.

Indicadores de conhecimento e compreensão da linguagem

Detecção de conhecimento LAMA: Demonstra recuperação superior de conhecimento factual, superando o AutoPrompt.
Teste Cloze LAMBADA: Excede Microsoft Turing-NLG em compreensão de leitura e entendimento de contexto.

Benchmarks de recuperação de texto para imagem e de imagem para texto

MS COCO (Geração de texto para imagem): Supera o DALL·E de OpenAI na geração de imagens a partir de descrições de texto.
MS COCO (recuperação de imagem-texto em inglês): Supera o CLIP de OpenAI e o ALIGN de Google na recuperação de imagens a partir de legendas (e vice-versa).
MS COCO (Recuperação de Texto e Imagem Multilíngue): Apresenta desempenho superior ao UC2 e ao M3P na recuperação de texto e imagem multilíngue.
Multi30K (recuperação multilíngue de imagem e texto): Também supera o UC2 e o M3P, confirmando suas fortes capacidades multimodais e multilíngues.

Wu Dao 3.0 vs.

Aqui está uma comparação abrangente dos modelos Wu Dao 3.0 LLM e vários modelos OpenAI baseados em BAAI. ⁴ Não podemos fornecer comparações mais detalhadas e atualizadas para Wu Dao, pois não existem benchmarks recentes e consistentes disponíveis.

Desempenho em contexto longo

Testes em quatro tarefas ⁵ :

VCSUM (Sumarização em chinês)
LSHT (manipulação de sequências longas chinesas)
HotpotQA (raciocínio multi-hop em inglês)
2WikiMQA (Perguntas e Respostas sobre múltiplos documentos em inglês)

Avaliação de desempenho de raciocínio

Testes em 6 tarefas ⁶ :

bAbI #16 e CLUTRR (raciocínio indutivo)
bAbI #15 e EntailmentBank (raciocínio dedutivo)
αNLI (raciocínio abdutivo)
E-Care (raciocínio causal)

Se você deseja usar o Wu Dao, pode instalá-lo em seu computador baixando-o gratuitamente. ⁷

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Concorrentes do Wu Dao 3.0

Qwen3.5

Qwen3.5 é uma família de modelos de linguagem de grande porte e de código aberto da Alibaba, projetada como um sistema nativo multimodal de Mistura de Especialistas (MoE).

O modelo principal (Qwen3.5-397B-A17B) contém cerca de 397 bilhões de parâmetros, mas ativa apenas cerca de 17 bilhões por inferência, permitindo alto desempenho com custos computacionais mais baixos.

O modelo utiliza uma arquitetura híbrida que combina roteamento MoE esparso com Redes Delta com Portões (Gated Delta Networks) e atenção linear , permitindo inferência eficiente e, ao mesmo tempo, suportando raciocínio avançado, codificação e compreensão multimodal.

O modelo Qwen3.5 é treinado com dados multimodais de fusão antecipada , permitindo processar entradas de texto e visuais em um modelo unificado e alimentar "agentes multimodais nativos" que podem raciocinar sobre interfaces e executar tarefas complexas de várias etapas. ⁸

Kimi K2.5

Kimi K2.5 é um modelo multimodal de código aberto da Moonshot AI projetado em torno de uma arquitetura centrada em agentes para codificação e automação de fluxo de trabalho. O modelo integra recursos de visão e linguagem, permitindo interpretar texto, imagens e vídeo enquanto gera código pronto para produção.

O K2.5 foi treinado com aproximadamente 15 trilhões de tokens multimodais e suporta raciocínio de contexto longo (até cerca de 256 mil tokens), além de chamadas de ferramentas e fluxos de trabalho de agentes autônomos.

Uma característica distintiva é o seu paradigma de "enxame de agentes" , onde múltiplos agentes coordenados podem lidar com subtarefas em paralelo para resolver fluxos de trabalho complexos de engenharia ou desenvolvimento.

A Moonshot lançou o modelo juntamente com um agente de codificação , posicionando o Kimi K2.5 como uma alternativa voltada para desenvolvedores em relação aos modelos proprietários de ponta para a construção de sistemas de software assistidos por IA. ⁹

ERNIE 5.0

ERNIE 5.0 é o modelo fundamental principal da Baidu e um sistema nativamente omnimodal que processa e gera texto, imagens, áudio e vídeo em uma única arquitetura.

O modelo supostamente contém cerca de 2,4 trilhões de parâmetros, utilizando um design de Mistura de Especialistas , o que permite alta capacidade, ativando apenas uma fração dos parâmetros por inferência para maior eficiência.

O ERNIE 5.0 foi integrado ao ERNIE Bot da Baidu e à plataforma empresarial Qianfan, oferecendo suporte a uma variedade de aplicações de IA generativa em produtos para consumidores e empresas. ¹⁰

Perguntas frequentes

Não. Os modelos Aquila são voltados para casos de uso diferentes. Para tarefas em chinês com recursos computacionais limitados, eles são práticos. Para funcionalidades gerais em inglês, o modelo GPT-5 os supera significativamente.

Sim, os modelos são de código aberto. Verifique as licenças específicas de cada componente do Aquila, mas o uso comercial geralmente é permitido.

Barreira linguística (documentação), integração com o ecossistema (desenvolvido para ferramentas chinesas) e lacunas de desempenho em tarefas em inglês.

Links de referência

开源平台旗舰项目

China’s GPT-3? BAAI Introduces Superscale Intelligence Model ‘Wu Dao 1.0’ | Synced

Synced

China’s GPT-3? BAAI Introduces Superscale Intelligence Model ‘Wu Dao 1.0’ | Synced

Synced

https://model.baai.ac.cn/model-detail/220118

https://model.baai.ac.cn/models

https://qwen.ai/blog?id=qwen3.5

10.

GitHub - MoonshotAI/Kimi-K2.5: Moonshot's most powerful model · GitHub

Cem Dilmegani

Analista Principal

Cem é o analista principal da AIMultiple desde 2017. A AIMultiple fornece informações para centenas de milhares de empresas (segundo o SimilarWeb), incluindo 55% das empresas da Fortune 500, todos os meses. O trabalho de Cem foi citado por importantes publicações globais, como Business Insider, Forbes e Washington Post, além de empresas globais como Deloitte e HPE, ONGs como o Fórum Econômico Mundial e organizações supranacionais como a Comissão Europeia. Você pode ver mais empresas e recursos renomados que mencionaram a AIMultiple. Ao longo de sua carreira, Cem atuou como consultor de tecnologia, comprador de tecnologia e empreendedor na área. Ele assessorou empresas em suas decisões tecnológicas na McKinsey & Company e na Altman Solon por mais de uma década. Também publicou um relatório da McKinsey sobre digitalização. Liderou a estratégia de tecnologia e a área de compras de uma empresa de telecomunicações, reportando-se diretamente ao CEO. Além disso, liderou o crescimento comercial da empresa de tecnologia avançada Hypatos, que atingiu uma receita recorrente anual de sete dígitos e uma avaliação de nove dígitos, partindo de zero, em apenas dois anos. O trabalho de Cem no Hypatos foi noticiado por importantes publicações de tecnologia, como TechCrunch e Business Insider. Cem participa regularmente como palestrante em conferências internacionais de tecnologia. Ele se formou em engenharia da computação pela Universidade Bogazici e possui um MBA pela Columbia Business School.

Ver perfil completo