Quando os EUA cortaram o acesso da China a chips avançados, a Academia de Inteligência Artificial de Pequim se viu diante de uma escolha: reclamar das restrições ou contorná-las. Eles escolheram a segunda opção.
O Wu Dao 3.0, lançado em julho de 2023, abandona o modelo tradicional. Nada de modelos massivos com trilhões de parâmetros competindo por atenção. Em vez disso, agora ele constrói modelos compactos que startups chinesas podem executar sem precisar de um armazém cheio de GPUs.
Por que BAAI mudou de direção
O Wu Dao 2.0 ganhou destaque em 2021 com 1,75 trilhão de parâmetros, alegando rivalizar com o GPT-3. Dois anos depois, BAAI discretamente arquivou essa abordagem. Os motivos são:
- As sanções americanas contra chips limitaram o acesso a GPUs avançadas.
- Os custos de treinamento para megamodelos tornaram-se proibitivos.
- A política do governo chinês passou a priorizar aplicações práticas em detrimento de projetos de prestígio.
- A realidade do mercado mostrou que a maioria das empresas precisa de ferramentas especializadas, não de gigantes de uso geral.
A nova estratégia: construir uma coleção de modelos menores (chamada Aquila) que funcionem em conjunto. Pense em microsserviços em vez de monolitos.
Wu Dao 3.0 explicado
Wu Dao 3.0 não é um modelo único. É um ecossistema de ferramentas de IA especializadas, lançadas sob a marca Aquila:
AquilaChat: Modelos de diálogo
Disponível em dois tamanhos:
- 7 bilhões de parâmetros: Compete com o LLaMA 7B e modelos de código aberto similares.
- 33 bilhões de parâmetros: Visa conversas mais complexas.
Ambas as versões foram treinadas com textos em chinês (40%) e inglês (60%). A versão menor roda em hardware comum; você não precisa de um centro de dados.
BAAI afirma que o AquilaChat 7B supera modelos internacionais comparáveis, embora os benchmarks independentes ainda sejam limitados.
As origens: Como começou o Wu Dao
O desenvolvimento começou em outubro de 2020, vários meses após o lançamento do GPT-3. O nome Wu Dao (悟道) significa “caminho para a conscientização” em chinês, um nome ambicioso para um projeto ambicioso.
O Wu Dao 1.0 foi lançado em 11 de janeiro de 2021, com quatro modelos especializados trabalhando em conjunto. Cada um lidava com tarefas diferentes: Wen Yuan (2,6 bilhões de parâmetros) focava em perguntas e respostas e correção gramatical. Wen Lan (1 bilhão de parâmetros) gerava legendas de imagens usando 50 milhões de pares de imagens. Wen Hui (11,3 bilhões de parâmetros) escrevia poesia, criava vídeos e lidava com raciocínio complexo. Wen Su, baseado no BERT de Google, previa estruturas de proteínas semelhantes ao AlphaFold.
Em seguida, em 31 de maio de 2021, surgiu o Wu Dao 2.0. O sistema, que já havia sido lançado, ganhou as manchetes ao alegar possuir 1,75 trilhão de parâmetros, dez vezes mais do que os 175 bilhões do GPT-3. A mídia o chamou de "o maior sistema de IA para linguagem até o momento". Comentaristas o interpretaram como uma tentativa da China de competir diretamente com o domínio americano em IA.
A realidade dos dados de treinamento
O Wu Dao 2.0 utilizou 4,9 terabytes de imagens e texto, sendo 1,2 TB de texto em chinês e 1,2 TB em inglês, além dos dados de imagem. O GPT-3 foi treinado apenas com 45 terabytes de texto. O Wu Dao possuía dez vezes mais parâmetros, mas menos de um décimo dos dados de treinamento.
O conjunto de dados WuDao Corpora, versão 2.0, continha 3 TB de texto da web, 90 TB de dados gráficos (630 milhões de pares texto/imagem) e 181 GB de diálogos em chinês, representando 1,4 bilhão de rodadas de conversação.
Essa discrepância entre a quantidade de parâmetros e os dados de treinamento indicava algo importante: o Wu Dao 2.0 utilizava uma arquitetura diferente chamada Mistura de Especialistas (MoE). Ao contrário do modelo "denso" do GPT-3, no qual todos os parâmetros são ativados para cada tarefa, os modelos MoE ativam apenas os especialistas relevantes para cada entrada. Isso requer muito menos poder computacional para o treinamento, mas pesquisas demonstraram que modelos MoE com trilhões de parâmetros têm desempenho comparável a modelos densos centenas de vezes menores.
O Wu Dao 2.0 usava especificamente o FastMoE, a variante MoE do Google. Era uma engenharia inteligente que contornava as limitações de hardware, embora o marketing do BAAI enfatizasse a contagem bruta de parâmetros.
AquilaCode: Geração de código a partir de texto
Ainda em desenvolvimento. Versões iniciais podem gerar:
- Algoritmos básicos (sequências de Fibonacci, ordenação)
- Jogos simples
- Scripts de utilitários
Ainda não está no nível do GitHub Copilot ou das habilidades de programação de GPT-4, mas está melhorando. BAAI é voltado para desenvolvedores que precisam de geração de código em contextos técnicos em chinês.
Série de visão Wu Dao
Uma coleção de modelos de visão computacional, não um sistema único:
EVA (1 bilhão de parâmetros): Focado no aprendizado de representação visual. Treinado em conjuntos de dados públicos, alcançando novos marcos em:
- reconhecimento de imagem
- Detecção de ação em vídeo
- Detecção de objetos
- Tarefas de segmentação
De código aberto, ao contrário dos concorrentes que mantêm seus modelos de visão proprietários.
- EVA-CLIP: BAAI afirma ser a melhor alternativa de código aberto ao CLIP disponível. Realiza correspondência de imagem e texto para busca e recuperação.
- Painter: Implementa aprendizado visual "em contexto", mostrando exemplos, e o sistema aprende novas tarefas visuais sem necessidade de retreinamento. Similar à forma como o GPT-3 realiza o aprendizado em contexto para texto.
- vid2vid-zero: Ferramenta de edição de vídeo sem necessidade de treinamento prévio em conjuntos de dados especializados para edição de vídeo. Edite vídeos com base em descrições de texto, sem precisar treinar o usuário em conjuntos de dados específicos para edição de vídeo.
- Emu (modelos multimodais): Lida com imagens e texto em um único modelo. Os casos de uso incluem legendagem de imagens, resposta visual a perguntas e geração de conteúdo.
FlagOpen: A Camada de Infraestrutura
A BAAI também aprimorou a plataforma FlagOpen, lançada no início de 2023. Esse sistema oferece técnicas de treinamento paralelo, inferência mais rápida, ferramentas de avaliação e utilitários de processamento de dados, fornecendo essencialmente tudo o que é necessário para desenvolver grandes modelos de IA. 1
Quando o Wu Dao 2.0 estreou na Conferência Zhiyuan de Pequim, seus criadores exibiram poemas e desenhos chineses gerados por ele. 2 Após esse evento, uma estudante virtual foi criada com base no modelo de IA de Wu Dao, Zhibing Hua. Wu Dao dá vida à estudante virtual. Portanto, ela pode usar sua base de conhecimento e capacidades de aprendizado para escrever poemas, desenhar e compor música.
Embora esses recursos não sejam destacados para o Wu Dao 3.0, vale a pena mencioná-los caso você planeje utilizar o Wu Dao 2.0 em sua empresa em vez do Wu Dao 3.0.
Figura 1: Poemas gerados pelo Wu Dao 2.0 3
Benchmarks de aprendizado zero-shot
- ImageNet: Alcança desempenho zero-shot de última geração, superando o CLIP de OpenAI.
- UC Merced Land-Use: Registra a maior precisão zero-shot na classificação de uso do solo por via aérea, superando o CLIP.
Benchmark de aprendizado com poucos exemplos
- SuperGLUE (FewGLUE): Supera o GPT-3, alcançando os melhores resultados de aprendizado com poucos exemplos.
Indicadores de conhecimento e compreensão da linguagem
- Detecção de conhecimento LAMA: Demonstra recuperação superior de conhecimento factual, superando o AutoPrompt.
- Teste Cloze LAMBADA: Excede Microsoft Turing-NLG em compreensão de leitura e entendimento de contexto.
Benchmarks de recuperação de texto para imagem e de imagem para texto
- MS COCO (Geração de texto para imagem): Supera o DALL·E de OpenAI na geração de imagens a partir de descrições de texto.
- MS COCO (recuperação de imagem-texto em inglês): Supera o CLIP de OpenAI e o ALIGN de Google na recuperação de imagens a partir de legendas (e vice-versa).
- MS COCO (Recuperação de Texto e Imagem Multilíngue): Apresenta desempenho superior ao UC2 e ao M3P na recuperação de texto e imagem multilíngue.
- Multi30K (recuperação multilíngue de imagem e texto): Também supera o UC2 e o M3P, confirmando suas fortes capacidades multimodais e multilíngues.
Wu Dao 3.0 vs.
Aqui está uma comparação abrangente dos modelos Wu Dao 3.0 LLM e vários modelos OpenAI baseados em BAAI. 4 Não podemos fornecer comparações mais detalhadas e atualizadas para Wu Dao, pois não existem benchmarks recentes e consistentes disponíveis.
Desempenho em contexto longo
Testes em quatro tarefas 5 :
- VCSUM (Sumarização em chinês)
- LSHT (manipulação de sequências longas chinesas)
- HotpotQA (raciocínio multi-hop em inglês)
- 2WikiMQA (Perguntas e Respostas sobre múltiplos documentos em inglês)
Avaliação de desempenho de raciocínio
Testes em 6 tarefas 6 :
- bAbI #16 e CLUTRR (raciocínio indutivo)
- bAbI #15 e EntailmentBank (raciocínio dedutivo)
- αNLI (raciocínio abdutivo)
- E-Care (raciocínio causal)
Se você deseja usar o Wu Dao, pode instalá-lo em seu computador baixando-o gratuitamente. 7
Concorrentes do Wu Dao 3.0
Qwen3.5
Qwen3.5 é uma família de modelos de linguagem de grande porte e de código aberto da Alibaba, projetada como um sistema nativo multimodal de Mistura de Especialistas (MoE).
O modelo principal (Qwen3.5-397B-A17B) contém cerca de 397 bilhões de parâmetros, mas ativa apenas cerca de 17 bilhões por inferência, permitindo alto desempenho com custos computacionais mais baixos.
O modelo utiliza uma arquitetura híbrida que combina roteamento MoE esparso com Redes Delta com Portões (Gated Delta Networks) e atenção linear , permitindo inferência eficiente e, ao mesmo tempo, suportando raciocínio avançado, codificação e compreensão multimodal.
O modelo Qwen3.5 é treinado com dados multimodais de fusão antecipada , permitindo processar entradas de texto e visuais em um modelo unificado e alimentar "agentes multimodais nativos" que podem raciocinar sobre interfaces e executar tarefas complexas de várias etapas. 8
Kimi K2.5
Kimi K2.5 é um modelo multimodal de código aberto da Moonshot AI projetado em torno de uma arquitetura centrada em agentes para codificação e automação de fluxo de trabalho. O modelo integra recursos de visão e linguagem, permitindo interpretar texto, imagens e vídeo enquanto gera código pronto para produção.
O K2.5 foi treinado com aproximadamente 15 trilhões de tokens multimodais e suporta raciocínio de contexto longo (até cerca de 256 mil tokens), além de chamadas de ferramentas e fluxos de trabalho de agentes autônomos.
Uma característica distintiva é o seu paradigma de "enxame de agentes" , onde múltiplos agentes coordenados podem lidar com subtarefas em paralelo para resolver fluxos de trabalho complexos de engenharia ou desenvolvimento.
A Moonshot lançou o modelo juntamente com um agente de codificação , posicionando o Kimi K2.5 como uma alternativa voltada para desenvolvedores em relação aos modelos proprietários de ponta para a construção de sistemas de software assistidos por IA. 9
ERNIE 5.0
ERNIE 5.0 é o modelo fundamental principal da Baidu e um sistema nativamente omnimodal que processa e gera texto, imagens, áudio e vídeo em uma única arquitetura.
O modelo supostamente contém cerca de 2,4 trilhões de parâmetros, utilizando um design de Mistura de Especialistas , o que permite alta capacidade, ativando apenas uma fração dos parâmetros por inferência para maior eficiência.
O ERNIE 5.0 foi integrado ao ERNIE Bot da Baidu e à plataforma empresarial Qianfan, oferecendo suporte a uma variedade de aplicações de IA generativa em produtos para consumidores e empresas. 10
Perguntas frequentes
Não. Os modelos Aquila são voltados para casos de uso diferentes. Para tarefas em chinês com recursos computacionais limitados, eles são práticos. Para funcionalidades gerais em inglês, o modelo GPT-5 os supera significativamente.
Sim, os modelos são de código aberto. Verifique as licenças específicas de cada componente do Aquila, mas o uso comercial geralmente é permitido.
Barreira linguística (documentação), integração com o ecossistema (desenvolvido para ferramentas chinesas) e lacunas de desempenho em tarefas em inglês.
Seja o primeiro a comentar
Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios.