Kontaktieren Sie uns
Keine Ergebnisse gefunden.

Wu Dao 3.0: Chinas Version von GPT-5

Cem Dilmegani
Cem Dilmegani
aktualisiert am Mär 5, 2026
Siehe unsere ethischen Normen

Als die USA China den Zugang zu hochentwickelten Chips abschnitten, stand die Pekinger Akademie für Künstliche Intelligenz vor der Wahl: sich über die Beschränkungen zu beschweren oder sie zu umgehen. Sie entschied sich für die zweite Option.

Wu Dao 3.0, das im Juli 2023 eingeführt wurde, geht neue Wege. Keine riesigen Modelle mit Billionen von Parametern mehr, die um Schlagzeilen konkurrieren. Stattdessen entwickelt BAAI nun kompakte Modelle, die chinesische Startups tatsächlich ausführen können, ohne ein Lager voller GPUs zu benötigen.

Warum hat BAAI die Richtung geändert?

Wu Dao 2.0 sorgte 2021 mit 1,75 Billionen Parametern für Schlagzeilen und behauptete, GPT-3 Konkurrenz machen zu können. Zwei Jahre später wurde dieser Ansatz stillschweigend verworfen. Die Gründe dafür sind:

  • Die US-Sanktionen gegen Chiphersteller beschränkten den Zugang zu fortschrittlichen GPUs.
  • Die Trainingskosten für Megamodels wurden unerschwinglich.
  • Die chinesische Regierungspolitik verlagerte sich von Prestigeprojekten hin zu praktischen Anwendungen.
  • Die Realität am Markt zeigte, dass die meisten Unternehmen spezialisierte Werkzeuge benötigen, keine Allzweck-Anbieter.

Die neue Strategie: eine Sammlung kleinerer Modelle (genannt Aquila) entwickeln, die zusammenarbeiten. Statt monolithischer Architekturen setzt man hier auf Microservices.

Wu Dao 3.0 erklärt

Wu Dao 3.0 ist kein einzelnes Modell. Es ist ein Ökosystem spezialisierter KI-Tools, die unter der Marke Aquila veröffentlicht werden:

AquilaChat: Dialogmodelle

Zwei Größen erhältlich:

  • 7 Milliarden Parameter: Konkurriert mit LLaMA 7B und ähnlichen Open-Source-Modellen
  • 33 Milliarden Parameter: Ermöglicht komplexere Konversationen

Beide Versionen wurden mit chinesischen (40 %) und englischen (60 %) Texten trainiert. Die kleinere Version läuft auf handelsüblicher Hardware; ein Rechenzentrum ist nicht erforderlich.

BAAI behauptet, dass AquilaChat 7B vergleichbare internationale Modelle übertrifft, obwohl unabhängige Vergleichswerte noch begrenzt sind.

Die Ursprünge: Wie Wu Dao entstand

Die Entwicklung begann im Oktober 2020, einige Monate nach der Veröffentlichung von GPT-3. Der Name Wu Dao (悟道) bedeutet auf Chinesisch „Weg zum Bewusstsein“, ein ehrgeiziger Name für ein ehrgeiziges Projekt.

Wu Dao 1.0 wurde am 11. Januar 2021 mit vier spezialisierten Modellen veröffentlicht. Jedes Modell übernahm unterschiedliche Aufgaben: Wen Yuan (2,6 Milliarden Parameter) konzentrierte sich auf die Beantwortung von Fragen und die Grammatikkorrektur. Wen Lan (1 Milliarde Parameter) generierte Bildunterschriften anhand von 50 Millionen Bildpaaren. Wen Hui (11,3 Milliarden Parameter) verfasste Gedichte, erstellte Videos und führte komplexe Schlussfolgerungen durch. Wen Su, basierend auf BERT von Google, sagte Proteinstrukturen ähnlich wie AlphaFold voraus.

Dann erschien am 31. Mai 2021 Wu Dao 2.0. Die Kennung BAAI sorgte für Schlagzeilen mit angeblich 1,75 Billionen Parametern – zehnmal so viele wie die 175 Milliarden von GPT-3. Die Medien bezeichneten es als „das bisher größte KI-Sprachsystem“. Kommentatoren sahen darin Chinas Versuch, direkt mit der amerikanischen KI-Dominanz zu konkurrieren.

Die Realität der Trainingsdaten

Wu Dao 2.0 nutzte 4,9 Terabyte an Bildern und Texten, davon 1,2 TB chinesische und 1,2 TB englische Daten sowie Bilddaten. GPT-3 wurde allein mit 45 Terabyte Text trainiert. Wu Dao verfügte über zehnmal so viele Parameter, aber weniger als ein Zehntel der Trainingsdaten.

Der WuDao Corpora-Datensatz für Version 2.0 enthielt 3 TB Webtext, 90 TB Grafikdaten (630 Millionen Text/Bild-Paare) und 181 GB chinesische Dialoge, die 1,4 Milliarden Gesprächsrunden repräsentierten.

Diese Diskrepanz zwischen Parameteranzahl und Trainingsdaten deutete auf etwas Wichtiges hin: Wu Dao 2.0 nutzte eine andere Architektur namens Mixture-of-Experts (MoE). Im Gegensatz zum „dichten“ Modell von GPT-3, bei dem alle Parameter für jede Aufgabe aktiviert werden, aktivieren MoE-Modelle nur die jeweils relevanten Experten für jede Eingabe. Dies erfordert deutlich weniger Rechenleistung für das Training, doch Studien haben gezeigt, dass MoE-Modelle mit Billionen von Parametern vergleichbare Leistungen erbringen wie dichte Modelle, die um ein Vielfaches kleiner sind.

Wu Dao 2.0 nutzte speziell FastMoE, die MoE-Variante von Google. Es handelte sich um eine clevere Umgehung der Hardwarebeschränkungen, obwohl BAAI in der Werbung stattdessen die reinen Parameteranzahlen hervorhob.

AquilaCode: Text-zu-Code-Generierung

Noch in der Entwicklung. Frühe Versionen können Folgendes generieren:

  • Grundlegende Algorithmen (Fibonacci-Folgen, Sortieren)
  • Einfache Spiele
  • Hilfsskripte

Noch nicht auf dem Niveau von GitHub Copilot oder den Programmierfunktionen von GPT-4, aber es verbessert sich. BAAI richtet sich an Entwickler, die Codegenerierung in chinesischen technischen Kontexten benötigen.

Wu Dao Vision-Serie

Eine Sammlung von Computer-Vision-Modellen, kein einzelnes System:

EVA (1 Milliarde Parameter): Fokus auf visuelles Repräsentationslernen. Trainiert mit öffentlichen Datensätzen, erzielt neue Bestleistungen in folgenden Bereichen:

  • Bilderkennung
  • Video-Aktionserkennung
  • Objekterkennung
  • Segmentierungsaufgaben

Open Source, im Gegensatz zu Wettbewerbern, die ihre Bildverarbeitungsmodelle proprietär halten.

  • EVA-CLIP: BAAI behauptet, die beste verfügbare Open-Source-Alternative zu CLIP zu sein. Es unterstützt die Bild-Text-Zuordnung für Suche und Abruf.
  • Painter: Implementiert visuelles Lernen im Kontext, zeigt Beispiele und lernt neue visuelle Aufgaben ohne erneutes Training. Ähnlich wie GPT-3 im Kontext von Text lernt.
  • vid2vid-zero: Ein Tool zur Videobearbeitung ohne Vorkenntnisse. Bearbeiten Sie Videos anhand von Textbeschreibungen, ohne vorher mit speziellen Videobearbeitungsdatensätzen trainieren zu müssen.
  • Emu (multimodale Modelle): Verarbeitet Bilder und Text in einem einzigen Modell. Anwendungsfälle sind unter anderem Bildunterschriften, visuelle Fragebeantwortung und Inhaltsgenerierung.

FlagOpen: Die Infrastrukturschicht

BAAI hat außerdem die FlagOpen-Plattform verbessert, die sie Anfang 2023 eingeführt haben. Dieses System bietet parallele Trainingstechniken, schnellere Inferenz, Evaluierungswerkzeuge und Datenverarbeitungsprogramme und stellt im Wesentlichen alles bereit, was für die Entwicklung großer KI-Modelle benötigt wird. 1

Als Wu Dao 2.0 auf der Beijing Zhiyuan Conference erstmals vorgestellt wurde, präsentierten die Entwickler damit generierte chinesische Gedichte und Zeichnungen. 2 Im Anschluss an dieses Ereignis wurde basierend auf Wu Daos KI-Modell Zhibing Hua eine virtuelle Schülerin erstellt. Wu Dao steuert die virtuelle Schülerin. Daher kann sie ihr Wissen und ihre Lernfähigkeiten nutzen, um Gedichte zu schreiben, zu zeichnen und Musik zu komponieren.

Obwohl diese Funktionen bei Wu Dao 3.0 nicht hervorgehoben werden, sind sie erwähnenswert, wenn Sie planen, Wu Dao 2.0 anstelle von Wu Dao 3.0 für Ihr Unternehmen zu verwenden.

Abbildung 1: Von Wu Dao 2.0 generierte Gedichte 3

Zero-Shot-Learning-Benchmarks

  1. ImageNet: Erreicht eine herausragende Zero-Shot-Performance und übertrifft damit CLIP von OpenAI.
  2. UC Merced Land-Use: Erreicht die höchste Genauigkeit bei der Klassifizierung der Landnutzung aus der Luft ohne vorherige Aufnahme und übertrifft damit CLIP.

Benchmark für Lernen mit wenigen Aufnahmen

  1. SuperGLUE (FewGLUE): Übertrifft GPT-3 und erzielt die besten Ergebnisse beim Lernen mit wenigen Beispielen.

Benchmarks für Wissen und Sprachverständnis

  1. LAMA-Wissenserkennung: Zeigt überlegene Fähigkeit zum Abruf von Faktenwissen und übertrifft damit AutoPrompt.
  2. LAMBADA Cloze Test: Übertrifft Microsoft Turing-NLG im Leseverständnis und Kontextverständnis.

Benchmarks für die Text-zu-Bild- und Bild-zu-Text-Abfrage

  1. MS COCO (Text-zu-Bild-Generierung): Übertrifft DALL·E von OpenAI bei der Generierung von Bildern aus Textbeschreibungen.
  2. MS COCO (English Image-Text retrieval): Übertrifft CLIP (OpenAI) und ALIGN (Google) beim Abrufen von Bildern aus Bildunterschriften (und umgekehrt).
  3. MS COCO (Multilingual Image-Text retrieval): Übertrifft UC2 und M3P bei der mehrsprachigen Bild-Text-Suche.
  4. Multi30K (Mehrsprachige Bild-Text-Abfrage): Übertrifft auch UC2 und M3P und bestätigt damit seine starken mehrsprachigen multimodalen Fähigkeiten.

Wu Dao 3.0 vs. OpenAI GPT

Hier ist ein umfassender Vergleich der Wu Dao 3.0 LLM-Modelle und verschiedener OpenAI- Modelle basierend auf BAAI. 4 Für Wu Dao können wir keine detaillierteren und aktuelleren Vergleiche anbieten, da keine aktuellen und konsistenten Vergleichswerte verfügbar sind.

Langzeitkontextleistung

Testen über vier Aufgaben hinweg 5 :

  • VCSUM (Chinesische Zusammenfassung)
  • LSHT (Chinesische Langsequenzverarbeitung)
  • HotpotQA (Englische Multi-Hop-Schlussfolgerung)
  • 2WikiMQA (Englische Mehrdokumenten-QA)

Benchmark für logisches Denken

Testen über 6 Aufgaben hinweg 6 :

  • bAbI #16 und CLUTRR (induktives Schließen)
  • bAbI #15 und Folgerungsbank (deduktives Denken)
  • αNLI (abduktives Denken)
  • E-Care (kausales Denken)

Wenn Sie Wu Dao nutzen möchten, können Sie es kostenlos herunterladen und auf Ihrem Computer installieren. 7

Wu Dao 3.0 Konkurrenten

Qwen3.5

Qwen3.5 ist eine offene, gewichtete große Sprachmodellfamilie von Alibaba, die als natives multimodales Mixture-of-Experts (MoE)-System konzipiert wurde.

Das Flaggschiffmodell (Qwen3.5-397B-A17B) enthält etwa 397B Parameter, aktiviert aber nur ~17B pro Inferenz, was eine hohe Leistung bei geringeren Rechenkosten ermöglicht.

Das Modell verwendet eine Hybridarchitektur , die spärliches MoE-Routing mit Gated Delta Networks und linearer Aufmerksamkeit kombiniert und so effiziente Inferenz ermöglicht, während gleichzeitig fortgeschrittenes Denken, Codieren und multimodales Verständnis unterstützt werden.

Qwen3.5 wird mit multimodalen Early-Fusion-Daten trainiert, wodurch es Text- und visuelle Eingaben innerhalb eines einheitlichen Modells verarbeiten und „native multimodale Agenten“ ermöglichen kann, die Schnittstellen analysieren und komplexe mehrstufige Aufgaben ausführen können. 8

Kimi K2.5

Kimi K2.5 ist ein Open-Source-Multimodalmodell von Moonshot AI, das auf einer agentenzentrierten Architektur für die Codierung und Workflow-Automatisierung basiert. Das Modell integriert Bild- und Sprachverarbeitungsfunktionen und kann so Text, Bilder und Videos interpretieren und gleichzeitig produktionsreifen Code generieren.

K2.5 wurde mit rund 15 Billionen multimodalen Token trainiert und unterstützt Long-Context Reasoning (bis zu ~256K Token) sowie Tool-Calling und autonome Agenten-Workflows.

Ein besonderes Merkmal ist das „Agentenschwarm“-Paradigma , bei dem mehrere koordinierte Agenten Teilaufgaben parallel bearbeiten können, um komplexe Engineering- oder Entwicklungsabläufe zu lösen.

Moonshot veröffentlichte das Modell zusammen mit einem Codierungsagenten und positionierte Kimi K2.5 damit als entwicklerorientierte Alternative zu proprietären Spitzenmodellen für den Aufbau KI-gestützter Softwaresysteme. 9

ERNIE 5.0

ERNIE 5.0 ist Baidus Flaggschiff-Grundlagenmodell und ein von Natur aus omnimodales System, das Text, Bilder, Audio und Video innerhalb einer einzigen Architektur verarbeitet und generiert.

Das Modell enthält Berichten zufolge rund 2,4 Billionen Parameter und verwendet ein Mixture-of-Experts-Design , wodurch eine hohe Kapazität ermöglicht wird, während aus Effizienzgründen nur ein Bruchteil der Parameter pro Inferenz aktiviert wird.

ERNIE 5.0 wurde in Baidus ERNIE Bot und die Unternehmensplattform Qianfan integriert und unterstützt eine Reihe von generativen KI-Anwendungen in Verbraucher- und Unternehmensprodukten. 10

FAQs

Nein. Aquila-Modelle sind für unterschiedliche Anwendungsfälle konzipiert. Für Aufgaben im Bereich der chinesischen Sprache mit begrenztem Rechenaufwand sind sie praktikabel. Für allgemeine Englischkenntnisse sind sie jedoch deutlich überlegen.

Ja, die Modelle sind Open Source. Beachten Sie die spezifischen Lizenzen der einzelnen Aquila-Komponenten, die kommerzielle Nutzung ist jedoch im Allgemeinen gestattet.

Sprachbarriere (Dokumentation), Integration in das Ökosystem (für chinesische Tools entwickelt) und Leistungslücken bei Aufgaben im englischen Sprachraum.

Cem Dilmegani
Cem Dilmegani
Leitender Analyst
Cem ist seit 2017 leitender Analyst bei AIMultiple. AIMultiple informiert monatlich Hunderttausende von Unternehmen (laut similarWeb), darunter 55 % der Fortune 500. Cems Arbeit wurde von führenden globalen Publikationen wie Business Insider, Forbes und der Washington Post, von globalen Unternehmen wie Deloitte und HPE sowie von NGOs wie dem Weltwirtschaftsforum und supranationalen Organisationen wie der Europäischen Kommission zitiert. Weitere namhafte Unternehmen und Ressourcen, die AIMultiple referenziert haben, finden Sie hier. Im Laufe seiner Karriere war Cem als Technologieberater, Technologieeinkäufer und Technologieunternehmer tätig. Über ein Jahrzehnt lang beriet er Unternehmen bei McKinsey & Company und Altman Solon in ihren Technologieentscheidungen. Er veröffentlichte außerdem einen McKinsey-Bericht zur Digitalisierung. Bei einem Telekommunikationsunternehmen leitete er die Technologiestrategie und -beschaffung und berichtete direkt an den CEO. Darüber hinaus verantwortete er das kommerzielle Wachstum des Deep-Tech-Unternehmens Hypatos, das innerhalb von zwei Jahren von null auf einen siebenstelligen jährlichen wiederkehrenden Umsatz und eine neunstellige Unternehmensbewertung kam. Cems Arbeit bei Hypatos wurde von führenden Technologiepublikationen wie TechCrunch und Business Insider gewürdigt. Er ist ein gefragter Redner auf internationalen Technologiekonferenzen. Cem absolvierte sein Studium der Informatik an der Bogazici-Universität und besitzt einen MBA der Columbia Business School.
Vollständiges Profil anzeigen

Seien Sie der Erste, der kommentiert

Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.

0/450