Bize Ulaşın
Sonuç bulunamadı.

Wu Dao 3.0: Çin Versiyonu GPT-5

Cem Dilmegani
Cem Dilmegani
güncellendi Mar 5, 2026
Bakınız etik normlar

ABD, Çin'in gelişmiş çiplere erişimini kestiğinde, Pekin Yapay Zeka Akademisi bir seçimle karşı karşıya kaldı: kısıtlamalardan şikayet etmek ya da bunlara rağmen çalışmaya devam etmek. İkinci seçeneği tercih ettiler.

Temmuz 2023'te piyasaya sürülen Wu Dao 3.0, alışılmışın dışına çıkıyor. Manşetlerde yer almak için yarışan trilyonlarca parametreli devasa modeller yok. Bunun yerine, BAAI artık Çinli girişimlerin bir depo dolusu GPU'ya ihtiyaç duymadan çalıştırabileceği kompakt modeller oluşturuyor.

BAAI neden yön değiştirdi?

Wu Dao 2.0, 2021 yılında 1,75 trilyon parametreyle manşetlere çıkmış ve GPT-3 ile rekabet etmeyi hedeflemişti. İki yıl sonra, BAAI bu yaklaşımı sessizce rafa kaldırdı. Sebepleri şunlardır:

  • ABD'nin çip yaptırımları, gelişmiş GPU'lara erişimi sınırladı.
  • Megamodellerin eğitim maliyetleri çok yüksek hale geldi.
  • Çin hükümetinin politikası, prestijli projeler yerine pratik uygulamalara doğru kaydı.
  • Piyasa gerçekliği, çoğu şirketin genel amaçlı devler yerine özel araçlara ihtiyaç duyduğunu gösterdi.

Yeni strateji: Birlikte çalışan daha küçük modellerden (Aquila olarak adlandırılan) oluşan bir koleksiyon oluşturmak. Monolitler yerine mikroservisleri düşünün.

Wu Dao 3.0'ın açıklaması

Wu Dao 3.0 tek bir model değil. Aquila markası altında piyasaya sürülen özel yapay zeka araçlarından oluşan bir ekosistemdir:

AquilaChat: Diyalog modelleri

İki farklı boyutu mevcuttur:

  • 7 milyar parametre: LLaMA 7B ve benzeri açık kaynaklı modellerle rekabet ediyor.
  • 33 milyar parametre: Daha karmaşık konuşmaları hedefliyor.

Her ikisi de Çince (%40) ve İngilizce (%60) metinler üzerinde eğitildi. Daha küçük sürüm tüketici donanımında çalışır; veri merkezine ihtiyacınız yoktur.

BAAI, AquilaChat 7B'nin benzer uluslararası modellere göre daha iyi performans gösterdiğini iddia ediyor, ancak bağımsız karşılaştırmalı testler hala sınırlı.

Kökenler: Wu Dao nasıl başladı?

Geliştirme, GPT-3'ün piyasaya sürülmesinden birkaç ay sonra, Ekim 2020'de başladı. Wu Dao (悟道) adı, iddialı bir proje için iddialı bir isim olan Çince'de "farkındalığa giden yol" anlamına gelir.

Wu Dao 1.0, 11 Ocak 2021'de dört uzmanlaşmış modelin birlikte çalışmasıyla piyasaya sürüldü. Her biri farklı görevleri üstlendi: Wen Yuan (2,6 milyar parametre) soru cevaplama ve dilbilgisi düzeltmesine odaklandı. Wen Lan (1 milyar parametre) 50 milyon görüntü çifti kullanarak görüntü alt yazıları oluşturdu. Wen Hui (11,3 milyar parametre) şiir yazdı, videolar oluşturdu ve karmaşık mantıksal çıkarımları ele aldı. Google'un BERT'i üzerine kurulu Wen Su, AlphaFold'a benzer protein yapılarını tahmin etti.

Ardından 31 Mayıs 2021'de Wu Dao 2.0 geldi. BAAI, GPT-3'ün 175 milyar parametresinden on kat daha büyük, 1,75 trilyon parametre iddiasıyla manşetlere çıktı. Medya bunu "şimdiye kadarki en büyük dil yapay zekâ sistemi" olarak adlandırdı. Yorumcular bunu Çin'in Amerikan yapay zekâ hakimiyetiyle doğrudan rekabet etme girişimi olarak gördüler.

Eğitim verilerinin gerçekliği

Wu Dao 2.0, 4,9 terabayt görüntü ve metin, 1,2 TB Çince, 1,2 TB İngilizce ve ayrıca görüntü verisi kullandı. GPT-3 ise yalnızca 45 terabayt metin üzerinde eğitildi. Wu Dao'nun parametreleri on kat daha fazlaydı ancak eğitim verisi onda birinden daha azdı.

WuDao Corpora veri setinin 2.0 sürümü, 3 TB web metni, 90 TB grafik verisi (630 milyon metin/görüntü çifti) ve 1,4 milyar konuşma turunu temsil eden 181 GB Çince diyalog içeriyordu.

Parametre sayısı ile eğitim verileri arasındaki bu uyumsuzluk önemli bir şeye işaret ediyordu: Wu Dao 2.0, Uzman Karışımı (Mixture-of-Experts - MoE) adı verilen farklı bir mimari kullanıyordu. GPT-3'ün her görev için tüm parametrelerin etkinleştiği "yoğun" modelinin aksine, MoE modelleri her girdi için yalnızca ilgili uzmanları etkinleştirir. Bu, eğitim için çok daha az hesaplama gücü gerektirir, ancak araştırmalar, trilyonlarca parametreye sahip MoE modellerinin, yüzlerce kat daha küçük yoğun modellerle karşılaştırılabilir performans gösterdiğini ortaya koymuştur.

Wu Dao 2.0, özellikle Google'un MoE varyantı olan FastMoE'yi kullandı. Bu, donanım sınırlamaları etrafında zekice bir mühendislikti, ancak BAAI'ün pazarlaması bunun yerine ham parametre sayımlarını vurguladı.

AquilaCode: Metinden koda dönüştürme

Geliştirme aşamasında. İlk sürümler şunları üretebilir:

  • Temel algoritmalar (Fibonacci dizileri, sıralama)
  • Basit oyunlar
  • Yardımcı komut dosyaları

Henüz GitHub Copilot veya GPT-4'nin kodlama yetenekleri seviyesinde değil, ancak gelişiyor. BAAI, Çin teknik bağlamlarında kod üretimine ihtiyaç duyan geliştiricileri hedefliyor.

Wu Dao vizyon serisi

Tek bir sistem değil, bilgisayar görüşü modellerinden oluşan bir koleksiyon:

EVA (1 milyar parametre): Görsel temsil öğrenimine odaklanmaktadır. Herkese açık veri kümeleri üzerinde eğitilmiş olup, aşağıdaki alanlarda yeni ölçütlere ulaşmıştır:

  • Görüntü tanıma
  • Video eylem tespiti
  • Nesne tespiti
  • Segmentasyon görevleri

Rakiplerinin aksine, görüntü işleme modellerini tescilli tutmak yerine açık kaynak kodlu olarak sunar.

  • EVA-CLIP: BAAI, mevcut en iyi açık kaynaklı CLIP alternatifi olduğunu iddia ediyor. Arama ve alma için görüntü-metin eşleştirmesini yönetiyor.
  • Ressam: "Bağlam içi" görsel öğrenmeyi uygular, örnekler gösterir ve yeniden eğitim gerektirmeden yeni görsel görevleri öğrenir. GPT-3'ün metin için bağlam içi öğrenme yöntemine benzer.
  • vid2vid-zero: Sıfır çekim video düzenleme aracı. Özel video düzenleme veri kümeleri üzerinde eğitim almadan, metin açıklamalarına dayalı videoları düzenleyin.
  • Emu (çok modlu modeller): Tek bir modelde hem görüntüleri hem de metni işler. Kullanım alanları arasında görüntü açıklaması, görsel soru cevaplama ve içerik oluşturma yer alır.

FlagOpen: Altyapı Katmanı

BAAI ayrıca 2023'ün başlarında piyasaya sürdükleri FlagOpen platformunu da geliştirdi. Bu sistem, paralel eğitim teknikleri, daha hızlı çıkarım, değerlendirme araçları ve veri işleme yardımcı programları sunarak, büyük yapay zeka modelleri geliştirmek için gereken her şeyi sağlıyor. 1

Wu Dao 2.0 ilk kez Pekin Zhiyuan Konferansı'nda tanıtıldığında, yaratıcıları onun tarafından üretilen Çin şiirlerini ve çizimlerini sergilediler. 2 Bu olayın ardından, Wu Dao'nun yapay zeka modeli Zhibing Hua'ya dayalı sanal bir öğrenci oluşturuldu. Sanal öğrenci Wu Dao tarafından desteklenmektedir. Bu nedenle, bilgi birikimini ve öğrenme yeteneklerini kullanarak şiir yazabilir, resim çizebilir ve müzik besteleyebilir.

Bu özellikler Wu Dao 3.0 için öne çıkarılmamış olsa da, işletmeniz için Wu Dao 3.0 yerine Wu Dao 2.0'ı kullanmayı planlıyorsanız bahsetmeye değer.

Şekil 1: Wu Dao 2.0 tarafından oluşturulan şiirler 3

Sıfır atışlı öğrenme kıyaslamaları

  1. ImageNet: OpenAI'in CLIP'ini aşarak, en gelişmiş sıfır atış performansına ulaştı.
  2. UC Merced Arazi Kullanımı: Havadan arazi kullanım sınıflandırmasında en yüksek sıfır atış doğruluk oranını kaydederek CLIP'i geride bıraktı.

Az sayıda örnekle öğrenme kıyaslaması

  1. SuperGLUE (FewGLUE): GPT-3'ü geride bırakarak en iyi az sayıda örnekle öğrenme sonuçlarını elde eder.

Bilgi ve dil anlama ölçütleri

  1. LAMA Bilgi Algılama: AutoPrompt'u geride bırakarak üstün olgusal bilgi edinme yeteneği sergiler.
  2. LAMBADA Cloze Testi: Okuma anlama ve bağlam kavrama alanlarında Microsoft Turing-NLG'yi aşıyor.

Metinden görüntüye ve görüntüden metne veri alma performans testleri

  1. MS COCO (Metinden Görüntü Oluşturma): Metin açıklamalarından görüntü oluşturmada OpenAI'in DALL·E'sinden daha iyi performans gösterir.
  2. MS COCO (İngilizce Görüntü-Metin alma): Altyazılardan görüntü alma (ve tersi) konusunda OpenAI'in CLIP ve Google ALIGN'ını geride bırakıyor.
  3. MS COCO (Çok Dilli Görüntü-Metin Arama): Çok dilli görüntü-metin aramada UC2 ve M3P'den daha iyi performans gösterir.
  4. Multi30K (Çok Dilli Görüntü-Metin Arama): UC2 ve M3P'yi de geride bırakarak güçlü çok dilli çok modlu yeteneklerini teyit eder.

Wu Dao 3.0 ve OpenAI GPT

İşte Wu Dao 3.0 LLM modelleri ile BAAI temel alınarak üretilen çeşitli OpenAI modellerinin kapsamlı bir karşılaştırması. 4 Wu Dao için daha detaylı ve güncel karşılaştırmalar sunamıyoruz çünkü yakın tarihli ve tutarlı kıyaslama verileri mevcut değil.

Uzun bağlam performansı

Dört farklı görev üzerinden test yapılması 5 :

  • VCSUM (Çince özetleme)
  • LSHT (Çin uzun dizi işleme yöntemi)
  • HotpotQA (İngilizce çok aşamalı mantık yürütme)
  • 2WikiMQA (İngilizce çoklu belge soru-cevap sistemi)

Akıl yürütme performansı kıyaslaması

6 farklı görevde test yapılıyor. 6 :

  • bAbI #16 ve CLUTRR (tümevarımsal akıl yürütme)
  • bAbI #15 ve Çıkarım Bankası (tümdengelimli akıl yürütme)
  • αNLI (tümdengelimsel akıl yürütme)
  • E-Bakım (nedensel akıl yürütme)

Wu Dao'yu kullanmak istiyorsanız, ücretsiz olarak indirip bilgisayarınıza kurabilirsiniz. 7

Wu Dao 3.0 rakipleri

Qwen3.5

Qwen3.5, Alibaba tarafından yerel çok modlu Uzmanlar Karışımı (MoE) sistemi olarak tasarlanmış, açık ağırlıklı büyük bir dil modeli ailesidir.

Amiral gemisi modeli (Qwen3.5-397B-A17B) yaklaşık 397 milyar parametre içerir ancak çıkarım başına yalnızca ~17 milyar parametreyi etkinleştirir; bu da daha düşük hesaplama maliyetleriyle yüksek performans sağlar.

Bu model , seyrek MoE yönlendirmesini, Geçitli Delta Ağlarını ve doğrusal dikkati birleştiren hibrit bir mimari kullanır; bu sayede gelişmiş akıl yürütme, kodlama ve çok modlu anlama yeteneklerini desteklerken verimli çıkarım yapmayı mümkün kılar.

Qwen3.5, erken birleştirilmiş çok modlu veriler üzerinde eğitilmiştir ve bu sayede metin ve görsel girdileri birleşik bir model içinde işleyebilir ve arayüzler hakkında akıl yürütebilen ve karmaşık çok adımlı görevleri gerçekleştirebilen "yerel çok modlu ajanları" destekleyebilir. 8

Kimi K2.5

Kimi K2.5, kodlama ve iş akışı otomasyonu için ajan merkezli bir mimari etrafında tasarlanmış, Moonshot AI tarafından geliştirilen açık kaynaklı çok modlu bir modeldir. Model, metin, görüntü ve videoları yorumlayabilme ve üretime hazır kod üretebilme olanağı sağlayan görüntü ve dil yeteneklerini entegre eder.

K2.5, yaklaşık 15 trilyon çok modlu belirteç üzerinde eğitilmiştir ve uzun bağlamlı akıl yürütmeyi (yaklaşık 256 bin belirtece kadar), araç çağırmayı ve otonom ajan iş akışlarını destekler.

Ayırt edici özelliği, birden fazla koordineli ajanın karmaşık mühendislik veya geliştirme iş akışlarını çözmek için alt görevleri paralel olarak ele alabileceği "ajan sürüsü" paradigmasıdır .

Moonshot, Kimi K2.5'i, yapay zeka destekli yazılım sistemleri oluşturmak için tescilli öncü modellere geliştirici odaklı bir alternatif olarak konumlandırarak, modeli bir kodlama aracıyla birlikte piyasaya sürdü. 9

ERNIE 5.0

ERNIE 5.0, Baidu'nun amiral gemisi niteliğindeki temel modelidir ve tek bir mimari içinde metin, görüntü, ses ve video işleyen ve üreten, doğal olarak çok modlu bir sistemdir.

Modelin , Uzmanlar Karışımı tasarımını kullanarak yaklaşık 2,4 trilyon parametre içerdiği ve verimlilik için çıkarım başına parametrelerin yalnızca bir kısmını etkinleştirirken yüksek kapasite sağladığı bildiriliyor.

ERNIE 5.0, Baidu'nun ERNIE Bot ve kurumsal Qianfan platformuna entegre edilerek, tüketici ve kurumsal ürünler genelinde çeşitli üretken yapay zeka uygulamalarını desteklemektedir. 10

SSS'ler

Hayır. Aquila modelleri farklı kullanım durumlarını hedefliyor. Sınırlı işlem gücüne sahip Çince dil görevleri için pratiktirler. Genel İngilizce yetenekleri için ise GPT-5 onlardan önemli ölçüde daha iyi performans gösterir.

Evet, modeller açık kaynaklıdır. Her Aquila bileşeni için özel lisansları kontrol edin, ancak ticari kullanım genellikle izinlidir.

Dil engeli (dokümantasyon), ekosistem entegrasyonu (Çin araçları için geliştirilmiş) ve İngilizce görevlerdeki performans açıkları.

Cem Dilmegani
Cem Dilmegani
Baş Analist
Cem, 2017'den beri AIMultiple'da baş analist olarak görev yapmaktadır. AIMultiple, her ay Fortune 500 şirketlerinin %55'i de dahil olmak üzere yüz binlerce işletmeye (benzer Web'e göre) bilgi sağlamaktadır. Cem'in çalışmaları, Business Insider, Forbes, Washington Post gibi önde gelen küresel yayınlar, Deloitte, HPE gibi küresel firmalar, Dünya Ekonomik Forumu gibi STK'lar ve Avrupa Komisyonu gibi uluslararası kuruluşlar tarafından alıntılanmıştır. AIMultiple'ı referans gösteren daha fazla saygın şirket ve kaynağı görebilirsiniz. Kariyeri boyunca Cem, teknoloji danışmanı, teknoloji alıcısı ve teknoloji girişimcisi olarak görev yapmıştır. On yıldan fazla bir süre McKinsey & Company ve Altman Solon'da işletmelere teknoloji kararları konusunda danışmanlık yapmıştır. Ayrıca dijitalleşme üzerine bir McKinsey raporu yayınlamıştır. Bir telekom şirketinin CEO'suna bağlı olarak teknoloji stratejisi ve tedarikini yönetmiştir. Ayrıca, 2 yıl içinde sıfırdan 7 haneli yıllık yinelenen gelire ve 9 haneli değerlemeye ulaşan derin teknoloji şirketi Hypatos'un ticari büyümesini yönetmiştir. Cem'in Hypatos'taki çalışmaları TechCrunch ve Business Insider gibi önde gelen teknoloji yayınlarında yer aldı. Cem düzenli olarak uluslararası teknoloji konferanslarında konuşmacı olarak yer almaktadır. Boğaziçi Üniversitesi'nden bilgisayar mühendisliği diplomasına ve Columbia Business School'dan MBA derecesine sahiptir.
Tam Profili Görüntüle

Yorum yapan ilk kişi olun

E-posta adresiniz yayınlanmayacak. Tüm alanlar gereklidir.

0/450