Robotların ve otonom araçların (AV'ler) fiziksel dünyada eğitilmesi maliyetli, zaman alıcı ve riskli olabilir. World Foundation Models, gerçek dünya ortamlarının gerçekçi simülasyonlarını sağlayarak ölçeklenebilir bir alternatif sunar.
Bu modeller, fiziksel testlere olan bağımlılığı azaltarak robotik, otonom araçlar ve diğer alanlarda geliştirme ve uygulama süreçlerini hızlandırıyor.
Dünya Temel Modellerinin nasıl çalıştığını, gerçek hayattaki kullanım örneklerini ve sağladıkları somut faydaları keşfedin.
Dünyanın En İyi 9 Fondöten Modeli
1) NVIDIA'in Alpamayo'su
NVIDIA'in Alpamayo'su, akıl yürütmeye dayalı karar verme yoluyla otonom araçları daha güvenli hale getirmek için tasarlanmış yeni bir açık kaynaklı yapay zeka modelleri, simülasyon araçları ve veri kümeleri ailesidir.
Bu yaklaşımı desteklemek için Alpamayo üç temel bileşeni bir araya getiriyor:
- Alpamayo 1, yönlendirici kararlarını açıklayan, 10 milyar parametreli, düşünce zinciri tabanlı bir VLA modelidir.
- AlpaSim, test ve doğrulama için açık kaynaklı bir simülasyon çerçevesidir.
- 1.700 saatten fazla çeşitli gerçek dünya sürüş verisini içeren Fiziksel Yapay Zeka Açık Veri Kümeleri.
Bu modeller doğrudan araçlarda çalıştırılmak üzere tasarlanmamıştır. Bunun yerine, geliştiricilerin ince ayar yapıp üretim amaçlı otonom araç sistemlerine entegre edebilecekleri, böylece güvenliği ve ölçeklenebilirliği artırabilecekleri büyük eğitim modelleri olarak hizmet vermektedirler. 1
2) NVIDIA Araştırmanın GR00T N1.6'sı
NVIDIA Research'ün GR00T N1.6'sı, genel amaçlı insansı robotlar için güncellenmiş açık kaynaklı bir modeldir. GR00T N1.5 üzerine inşa edilen yeni sürüm, YAM, AgiBot Genie-1 ve Unitree G1 gibi robotlarda çift elle manipülasyon ve tüm vücut hareket görevleri de dahil olmak üzere hem simülasyon hem de gerçek dünya testlerinde daha güçlü performans sunmaktadır (aşağıdaki şekle bakınız).
Şekil 1: GR00T N1.6 ve GR00T N1.5 karşılaştırma grafikleri.
GR00T N1.6, daha büyük bir difüzyon transformatörü, daha yetenekli bir görüntü-dil modeli ve binlerce saatlik uzaktan kumandalı robot gösterimlerini içeren genişletilmiş ön eğitim verileri gibi mimari ve eğitim iyileştirmeleri içerir. Bu değişiklikler, modelin daha akıcı, daha doğru hareketler öğrenmesine ve eğitim sonrası süreçte daha hızlı uyum sağlamasına yardımcı olur.
GR00T N1.6, tek bir robota veya göreve odaklanmak yerine, farklı insansı robot platformlarında uygulanabilen genel bir politika olarak tasarlanmıştır.
NVIDIA, daha hızlı yakınsama, daha iyi el becerisi ve uzun vadeli görevlerde gelişmiş performans bildirerek N1.6'yı açık, ölçeklenebilir insansı robot öğrenimi için anlamlı bir adım haline getiriyor. 2
GR00T N1.6'nın çalışmasını görmek için aşağıdaki videoyu izleyin.
3) PAN
PAN, uzun vadeli tahmin ve eyleme bağlı simülasyon için tasarlanmış genel bir etkileşimli dünya modelidir. Otoregresif gizli dinamik modelini video difüzyon kod çözücüsüyle birleştiren Üretken Gizli Tahmin mimarisine dayanmaktadır.
Bu tasarım, sistemin zamansal tutarlılığı ve görsel uyumu korurken, doğal dilde verilen belirli eylemlere yanıt olarak bir ortamın nasıl evrimleştiğini simüle etmesine olanak tanır.
PAN, bir ajanın eylemler önerebileceği, olası sonuçlarını simüle edebileceği ve tanımlanmış bir hedefe daha iyi ulaşan dizileri seçebileceği çok adımlı uygulama oluşturmayı destekler. Model ayrıca, nesne etkileşimleri veya hareket yörüngeleri değiştirilirse görev sonuçlarının nasıl değişebileceğini değerlendirerek karşıolgusal akıl yürütme de gerçekleştirebilir.
Deneysel sonuçlar, uzun vadeli görsel tahmin, fiziksel akıl yürütme ve planlama kıyaslama testlerinde, karşılaştırılabilir açık kaynaklı modellere göre güçlü bir performans sergilediğini göstermektedir.
Robotik alanında, bu yetenekler robotların veya eğitim sistemlerinin çevresel dinamikleri tahmin etmelerini, stratejileri uygulamadan önce dahili olarak test etmelerini ve görev politikalarını iyileştirmelerini sağlayarak tekrarlanan fiziksel denemelerin maliyetini ve risklerini azaltır.
Şekil 2: Uzun vadeli dünya simülasyonu için otoregresif LLM tabanlı bir omurgayı birleştiren PAN model mimarisini gösteren görüntü. 3
4) World Labs'in Mermeri
World Labs' Marble, metin komutlarından, tek veya çoklu görüntülerden, videolardan, panoramalardan ve 3 boyutlu düzenlerden kalıcı ve düzenlenebilir 3 boyutlu ortamlar oluşturur.
Keşif sırasında sahneleri sürekli olarak değiştiren gerçek zamanlı üretken sistemlerin aksine, Marble, Gauss dağılımları, ağlar veya videolar olarak dışa aktarılabilecek kararlı dünyalar üretir. Platform, mekansal yapıyı görsel stilden ayıran hibrit bir 3D düzenleyici olan Chisel'ı içerir.
Bu araç, geliştiricilerin duvarlar veya büyük nesneler gibi temel geometrik unsurları düzenlemelerine ve ardından sahneyi tamamlamak için stilistik ipuçları uygulamalarına olanak tanır.
Kullanıcılar ayrıca nesneleri doğrudan düzenleyici içinde yeniden konumlandırabilir ve oluşturulan dünyayı yakındaki ek bölgeleri içerecek şekilde genişletebilirler. Bu özellikler, robotik ekiplerinin çalışma alanlarının gerçekçi dijital ikizlerini oluşturmalarını, kontrollü ortamlarda navigasyon ve manipülasyonu test etmelerini ve tüm sahneleri yeniden oluşturmak zorunda kalmadan düzen veya görev tasarımında hızlı bir şekilde yineleme yapmalarını sağlar.
Marble'ın çok açılı görsel girdileri kabul etme yeteneği, yüksek doğrulukta simülasyon ortamlarının oluşturulmasını destekler. Bu tutarlı simülasyon ortamları, robotik eğitimin verimliliğini artırabilir ve kapsamlı fiziksel prototipleme ihtiyacını azaltabilir.
Şekil 3: Grafik, Marble'ın giriş-çıkış işlem hattını göstermektedir. 4
5) Meta'nın V-JEPA 2'si
Meta, fiziksel akıl yürütme, görsel tahmin ve sıfır atışlı robotik planlamada yeni ölçütler belirleyen gelişmiş video tabanlı bir dünya modeli olan V-JEPA 2'yi tanıttı.
Ortak Gömülü Tahmin Mimarisi (JEPA) üzerine inşa edilen 1,2 milyar parametreli model, bir milyondan fazla saatlik video ve ek robot etkileşim verisiyle eğitilmiştir; bu sayede model, alışılmadık nesnelerin ve ortamların dinamiklerini anlayıp tahmin edebilmektedir.
V-JEPA 2, kodlayıcı-tahminleyici mimarisi ve kendi kendine denetimli öğrenme yoluyla planlamayı destekler ve eylem tanıma, tahmin etme ve video soru cevaplama gibi görevlerde gelişmiş sonuçlar elde eder.
Meta ayrıca yapay zekada fiziksel muhakemeyi değerlendirmek ve yapay zeka ile insan performansı arasındaki mevcut boşlukları vurgulamak için üç kıyaslama testi yayınladı: IntPhys 2 , MVPBench ve CausalVQA .
Model, hem araştırma hem de ticari kullanım için açık kaynaklıdır ve bu da Meta'nın gelişmiş makine zekası (AMI) ve pratik, uyarlanabilir yapay zeka ajanlarının geliştirilmesi hedefine doğru önemli bir adım teşkil etmektedir. 5
Şekil 4: V-JEPA 2, büyük ölçekli video ve görüntü verileri üzerinde önceden eğitilmiş, daha sonra görsel görevler için bir dil modeliyle hizalanmış ve robotikte planlama ve kontrol için az miktarda robot verisiyle genişletilmiştir. 6
6) NVIDIA Kozmos Dünya Vakfı Modelleri
NVIDIA Cosmos World Foundation Models, otonom araçlar (AV'ler) ve robotlar da dahil olmak üzere fiziksel yapay zeka sistemlerinin geliştirilmesini hızlandırmak için tasarlanmış gelişmiş bir platformdur.
NVIDIA Cosmos Suite, üretken dünya temel modellerini (WFM'ler), gelişmiş belirteçleyicileri, yerleşik güvenlik önlemlerini ve yüksek hızlı video işleme hattını entegre eder.
NVIDIA NeMo Curator, CUDA hızlandırmalı işlem hattıyla birlikte, 20 milyon saatlik videoyu sadece iki haftada işleyerek maliyetleri ve zamanı azaltıyor.
NVIDIA Cosmos Tokenizer, üstün sıkıştırma ve daha hızlı görüntü ve video veri işleme performansı sunar. İşte NVIDIA Cosmos Suite'in temel özellikleri:
- Yapay zekâ modellerinin eğitimi ve değerlendirilmesi için büyük miktarda fotogerçekçi, fizik tabanlı sentetik veri oluşturulmasını sağlar.
- Metin, resim, video ve sensör verileri gibi çeşitli girdileri kullanarak fizik tabanlı videolar oluşturur.
- Depolar ve çeşitli yol koşulları da dahil olmak üzere karmaşık endüstriyel ve sürüş ortamlarını simüle eder.
- Simüle edilmiş koşullar altında belirli senaryolar için video aramayı ve model değerlendirmesini kolaylaştırır.
- Geliştiriciler, belirli uygulamalara uygun özel modeller oluşturmak için iş gücü yönetim modellerini (WFM) ince ayar yapabilirler.
- WFM'ler, robotik ve otonom araç toplulukları içinde işbirliğini teşvik etmek amacıyla açık bir lisans altında erişilebilir durumdadır.
- Modeller, NVIDIA'in API kataloğu üzerinden önizlenebilir veya NVIDIA NGC ve Hugging Face platformlarından indirilebilir. 7
Şekil 5: NVIDIA Cosmos Suite'in başlıca bileşenleri: video küratörü, video belirteçleyici, önceden eğitilmiş dünya temel modeli, dünya temel modelinin eğitim sonrası örnekleri ve güvenlik bariyeri. 8
Waabi, Foretellix, XPENG ve Wayve, trafik senaryolarını, hava koşullarını ve yaya davranışlarını simüle etmek için NVIDIA Cosmos World Foundation Modellerini kullanıyor. Bu şirketler, fiziksel denemeler yapmadan sanal ortamlarda testler yürütüyor. 9
Platform, NVIDIA NeMo Curator'ı kullanarak CUDA hızlandırması aracılığıyla yaklaşık iki haftada 20 milyondan fazla saatlik videoyu işliyor ve etiketliyor.
Başlıca özellikler:
- Etiketlenmiş trafik, hava durumu, aydınlatma ve yaya senaryoları oluşturur.
- Sensör verilerini kullanarak fotogerçekçi videolar üretir.
- Yerelleştirme için bölgesel sürüş normlarını simüle eder.
- Otonom araçların risksiz bir şekilde doğrulanmasını sağlar.
7) Proc4Gem
Proc4Gem sistemi, simülasyonla eğitilmiş bir model kullanarak dört ayaklı bir robotu dil komutlarını takip etmesi ve daha önce görülmemiş gerçek dünya ortamlarında nesneleri doğru bir şekilde itmesi konusunda yönlendirir. 10
Başlıca özellikler:
- Algılama ve motor kontrol becerilerini geliştirmek için gerçekçi 3 boyutlu ortamları simüle eder.
- Dil yoluyla talimatları takip etmeyi destekler.
- Uzun vadeli planlama ve etkileşim görevlerini mümkün kılar.
- Modellerin simülasyondan gerçek robotlara aktarılmasını sağlar.
- Çerçeveler ve modeller açık kaynak kodlu olarak herkese açık şekilde sunulmaktadır.
8) DeepMind'ın Genie 3'ü
DeepMind, metinsel açıklamalardan gerçek zamanlı olarak etkileşimli sanal ortamlar oluşturmak üzere tasarlanmış bir yapay zeka sistemi olan Genie 3'ü piyasaya sürdü.
Teknik özellikler:
- Performans özellikleri : Sistem saniyede 24 kare hızında çalışarak 720p çözünürlükte çıktı üretir ve birkaç dakika süren etkileşim boyunca ortam tutarlılığını korur.
- Model, yaklaşık bir dakika öncesine kadar uzanan geçmiş etkileşimlere ilişkin görsel hafıza yeteneklerini göstermektedir.
- Ortam kategorileri : Genie 3, birden fazla türde sanal dünya oluşturur:
- Akışkan dinamiği, aydınlatma efektleri ve çevre fiziğini içeren fiziksel simülasyonlar .
- Biyolojik ekosistemler, flora, fauna ve ekolojik etkileşimlerden oluşur.
- Gerçekçi olmayan unsurlar ve animasyonlu karakterler içeren kurgusal ortamlar .
- Gerçek dünya konumlarının ve zaman dilimlerinin coğrafi ve tarihi yeniden canlandırmaları .
- Etkileşim mekanizmaları:
- İsteme dayalı dünya olayları, çevresel koşulların ve nesne yerleşiminin çalışma zamanında değiştirilmesine olanak tanır.
- Zamansal tutarlılık, uzun süreli etkileşim oturumları boyunca tutarlı fiziksel özelliklerin korunmasını sağlar.
- Ajan entegrasyonu, oluşturulan ortamlarda hedef odaklı görevler gerçekleştiren otonom ajanları destekler.
- Teknik mimari: Sistem, açık 3 boyutlu sahne temsilleri yerine otoregresif kare üretimi kullanır.
- Bu yaklaşım, gerçek zamanlı etkileşim sırasında giderek büyüyen zamansal dizilerde tutarlılığı koruma konusundaki hesaplama zorluğunu ele alırken, dinamik ortam oluşturmayı da mümkün kılar.
Araştırma uygulamaları ve erişim:
Erişim şu anda sınırlı bir ön izleme programı aracılığıyla seçilmiş akademik araştırmacılar ve içerik oluşturucularla sınırlıdır. Potansiyel araştırma uygulamaları arasında eğitim simülasyonu, otonom sistem eğitimi, ajan davranış değerlendirmesi ve makine öğrenme sistemleri için karşıolgusal senaryo analizi yer almaktadır. 11
9) NVIDIA'in Dünya-2'si
NVIDIA'in Earth-2 projesi, yapay zeka ve yüksek performanslı bilgi işlem (HPC) kullanarak Dünya'nın iklim ve hava sistemlerini yüksek çözünürlükte simüle etmeyi amaçlayan bir girişimdir. Hava tahmini ve iklim modellemesine yeni bir yaklaşım getirmektedir.
Bunun arkasındaki teknoloji nedir?
NVIDIA, grafik işlem birimleri (GPU'lar) ve yapay zeka araçları üzerine kurulu Omniverse platformunu kullanarak gerçekçi simülasyonlar oluşturuyor. Amaç, karmaşık hava modellerini modellemek ve daha hassas tahminler yapmak için yapay zekadan yararlanarak Dünya ikliminin son derece ayrıntılı ve doğru simülasyonlarını üretmektir.
Etkisi nedir?
Earth-2'nin nihai amacı daha iyi hava tahminleri sağlamak, uzun vadeli iklim eğilimlerini anlamaya yardımcı olmak ve iklim değişikliğini hafifletmektir.
Daha doğru simülasyonlar, aşırı hava olaylarına daha iyi hazırlık yapılmasına, enerji kullanımının daha verimli hale getirilmesine ve afet müdahale stratejilerinin geliştirilmesine yol açabilir. 12
NVIDIA'in yapay zeka teknolojisinin hava tahminleri ve iklim modellemesini nasıl geliştirdiğini keşfetmek için, Earth-2 platformuna ve fırtına tahminleri üzerindeki etkisine dair ayrıntılı bir bakış sunan aşağıdaki videoyu izleyin:
Dünya Vakfı Modelleri kullanım örnekleri
Robotik
Robotik alanında, Dünya Temel Modelleri, robotların dinamik, gerçek dünya ortamlarında etkili bir şekilde çalışmasını sağlamada kritik bir rol oynar:
1. Mekansal zekâ oluşturma
Robotlar, simüle edilmiş eğitim ortamları sayesinde çevrelerini daha iyi anlayarak, nesneleri hassas bir şekilde yönlendirme ve manipüle etme yeteneği kazanırlar.
2. Geliştirilmiş öğrenme verimliliği
Simüle edilmiş ortamlar, robotların fiziksel sonuçlar olmadan deney yapabileceği ve hatalardan ders çıkarabileceği kontrollü senaryolar sağlayarak eğitimi hızlandırır.
3. Görev genellemesi
Dünya Temel Modelleri, görsel, işitsel ve dokunsal sensörler gibi çeşitli yöntemlerden gelen girdileri entegre ederek, robotların minimum yeniden eğitimle yeni ortamlara ve görevlere uyum sağlamasını sağlayan transfer öğrenmeyi destekler.
4. Karmaşık görev planlaması
Bu modeller, robotların nesneleri bir araya getirme, insan eylemlerini tahmin etme veya endüstriyel veya işbirlikçi ortamlarda diğer robotlarla koordinasyon sağlama gibi uzun vadeli planlama yapmalarını sağlar.
Otonom araçlar
Dünya çapındaki temel modellerin, otonom araçların (AV'ler) geliştirme sürecini şu şekillerde iyileştirebileceği belirtiliyor:
5. Önceden etiketlenmiş verilerle eğitim
Otonom araç sistemlerinin çeşitli koşullar altında çevredeki araçları, yayaları ve nesneleri doğru bir şekilde tanımlamasına ve yorumlamasına olanak tanıyan önceden etiketlenmiş ve kodlanmış video veri kümeleri sağlarlar.
6. Senaryo oluşturma
Bu modeller, gerçek dünya eğitim verilerindeki boşlukları dolduran çeşitli trafik düzenleri, hava koşulları ve yaya davranışları gibi simüle edilmiş senaryolar oluşturabilir.
7. Ölçeklenebilirlik ve yerelleştirme
Geliştiriciler, sanal ortamları kullanarak yeni coğrafi konumlardaki koşulları kopyalayabilir ve böylece otonom araçların kapsamlı yol testlerine gerek kalmadan çeşitli yol düzenlemelerine, kültürel sürüş davranışlarına ve altyapı tasarımlarına uyum sağlamasına olanak tanıyabilirler.
8. Sensör füzyonu ve kalibrasyonu
WFM'ler, aynı ortamda kamera, LiDAR, radar ve GPS gibi çoklu sensör girişlerini simüle edebilir. Bu, otonom araç sistemlerinin karmaşık sürüş bağlamlarında derinlik, hız ve hareketi anlamak için gerekli olan doğru sensör füzyonu ve kalibrasyonu için eğitim almasına yardımcı olur.
9. Güvenlik ve maliyet verimliliği
AV sistemleri, sanal ortamlarda test yaparak risksiz bir ortamda yineleme ve optimizasyon yapabilir, böylece gerçek dünya denemeleri sırasında maliyetleri ve kaza olasılığını azaltabilir.
Çok modlu entegrasyon
10. Diğer kaynaklarla birlikte WFM'ler
İş fonksiyonu modellerini (WFM ) büyük dil modelleri (LLM) ve yüksek performanslı bilgi işlem (HPC) gibi diğer bilgi işlem kaynaklarıyla entegre etmek, anlamsal anlayış ekleyerek Fiziksel Yapay Zeka sistemlerini geliştirir.
Bu kombinasyon, görsel dil modellerini ve çok modlu yetenekleri destekleyerek görüntü ve video verileriyle daha gelişmiş etkileşimler sağlar.
Dünya Vakıf Modelleri nelerdir?
Dünya temel modelleri, gerçek dünya ortamlarını ve dinamiklerini simüle etmek ve tahmin etmek için tasarlanmış gelişmiş yapay zeka sistemleridir.
Bu modeller, fiziksel ve sanal senaryoların gerçekçi ve sürükleyici simülasyonlarını oluşturmak için metinsel bilgiler, resimler ve videolar gibi görsel veriler ve hareketle ilgili veriler de dahil olmak üzere çeşitli veri girdilerini işler.
Dünya temelleri modellerinin en önemli yeteneği, hareket, kuvvet, nedensellik ve mekansal ilişkiler gibi temel fiziksel prensipleri anlamalarında yatmaktadır.
Bu sayede, bir aracın hareketi, bir robot kolunun dinamikleri veya sanal bir dünyadaki nesnelerin etkileşimi gibi belirli bir ortamda nesnelerin ve varlıkların nasıl etkileşimde bulunduğunu simüle edebiliyorlar.
Bu modellerin önemli bir uygulama alanı, robotlar ve otonom araçlar gibi fiziksel yapay zeka sistemlerinin geliştirilmesi ve iyileştirilmesidir. Eğitim ve test için güvenli ve kontrollü bir ortam sağlayarak, bu modeller maliyetli, zaman alıcı ve potansiyel olarak tehlikeli olabilen gerçek dünya deneylerine olan ihtiyacı azaltabilir.
Ayrıca, dünya çapındaki temel modeller, eğlence, eğitim ve araştırma dahil olmak üzere çeşitli amaçlar için kullanılabilen yüksek kaliteli, gerçekçi video içerikleri üretebilir.
Doğru ve ayrıntılı ortamları simüle etme yetenekleri, onları geliştiriciler için vazgeçilmez araçlar haline getirerek, yapay zeka performansının daha verimli ve hassas bir şekilde iyileştirilmesini sağlıyor.
Fiziksel Yapay Zeka Sistemleri: Tanım ve Önemi
Fiziksel yapay zeka uygulamaları, fiziksel dünyayı algılamak için sensörlerle ve onunla etkileşim kurmak ve onu değiştirmek için aktüatörlerle donatılmış yapay zeka sistemlerini ifade eder.
Bu teknolojiler, robotlar, sürücüsüz arabalar ve diğer cihazlar gibi otonom makinelerin gerçek dünya ortamlarında karmaşık eylemler gerçekleştirmesini sağlar.
Genellikle "üretken fiziksel yapay zeka" olarak tanımlanan bu teknoloji, mekansal ilişkiler ve 3 boyutlu dünyayı yöneten fiziksel kurallar hakkındaki anlayışla üretken yapay zeka modellerini genişletir.
Fiziksel yapay zeka nasıl çalışır?
Üretken fiziksel yapay zeka, gelişmiş işlevsellik için üretken yapay zekayı fiziksel dünya verileriyle birleştirir.
Eğitim sırasında, yapay zeka sistemleri gerçek dünya senaryolarını taklit eden simülasyonlara maruz bırakılır. Bu simülasyonlar, otonom makinelerin ve sensörlerin yerleştirildiği fabrikalar gibi fiziksel alanların son derece doğru sanal kopyaları olan dijital ikizlere dayanır. Sanal ortam, nesne hareketi, çarpışmalar ve ışık dinamikleri gibi etkileşimleri yakalayan 3 boyutlu eğitim verileri üretir.
Bu süreçte pekiştirmeli öğrenme kritik öneme sahiptir. Makinelerin bu simüle edilmiş ortamlarda deneme yanılma yoluyla beceriler öğrenmesini sağlar. İstenen eylemleri tamamlamak için ödüller verilir; bu da yapay zekanın uyum sağlamasına, gelişmesine ve sonunda görevleri hassasiyetle ustalaşmasına olanak tanır. Bu süreç, makineleri gerçek dünya uygulamaları için gerekli olan gelişmiş motor becerileriyle donatır.
Fiziksel yapay zeka sistemleri neden önemlidir?
Daha önce, otonom makineler çevrelerini algılamakta ve onlarla etkili bir şekilde etkileşim kurmakta zorlanıyordu. Fiziksel yapay zeka, robotların ve diğer cihazların çevrelerini algılamalarını, uyum sağlamalarını ve onlarla etkileşim kurmalarını sağlayarak bu sınırlamayı ortadan kaldırıyor.
Fiziksel yapay zeka sistemleri, cerrahi işlemlerden depo navigasyonuna kadar karmaşık görevleri yerine getirebilen makineler oluşturarak, sektörler genelinde verimliliği, güvenliği ve erişilebilirliği artırmaya yardımcı olur.
Fiziksel yapay zeka, makineleri güvenli ve kontrollü ortamlarda eğitmek için gelişmiş fizik tabanlı simülasyonlara dayanır. Bu simülasyonlar geliştirme sürecini hızlandırır, erken öğrenme aşamalarında hasarı önler ve gerçek dünya uygulamalarına hazır olmayı sağlar.
İşte yapay zekanın fiziksel uygulamalarından bazıları:
- Otonom Mobil Robotlar (AMR'ler): Karmaşık depo ortamlarında hareket eder, engellerden kaçınır ve gerçek zamanlı sensör geri bildirimlerine uyum sağlar.
- Manipülatörler : Nesnenin pozisyonuna göre kavrama gücünü ayarlama ve konumlandırma gibi hassas görevleri yerine getirirler.
- İnsansı robotlar: Çeşitli görevleri algılamak, yönlendirmek ve etkileşimde bulunmak için ince ve kaba motor becerilerine ihtiyaç duyarlar.
- Akıllı alanlar: Depolar ve fabrikalar gibi büyük ölçekli iç mekan ortamları, tedarik zinciri uygulamalarında fiziksel yapay zeka ve üretken yapay zekadan, gelişmiş güvenlik, dinamik rota planlaması ve operasyonel verimlilik yoluyla faydalanmaktadır. Gelişmiş bilgisayar görüş modelleri, insan güvenliğine öncelik verirken faaliyetleri izler ve optimize eder.
- Cerrahi robotlar: Dikiş atma ve iğne geçirme gibi hassas işlemleri gerçekleştirir.
Gerçek hayattan bir örnek:
Toronto Üniversitesi, UC Berkeley, ETH Zürih, Georgia Tech ve NVIDIA araştırmacıları tarafından geliştirilen ORBIT-Surgical, cerrahi robotları eğitmek için tasarlanmış açık kaynaklı bir simülasyon çerçevesidir. Cerrahların bilişsel yükünü hafifletir ve ekip performansını artırır.
Isaac Sim üzerine kurulu olan bu sistem, iğne tutma, nesne transferi ve hassas yerleştirme gibi laparoskopik işlemlerden ilham alan görevleri destekler. GPU hızlandırması kullanarak, şant yerleştirme gibi görevleri tek bir RTX GPU üzerinde iki saatten kısa sürede tamamlayarak robotları hızla eğitebilir.
Bu çerçeve ayrıca, yapay zeka algılama modellerini eğitmek, araç tanımayı iyileştirmek ve gerçek dünya veri kümelerine olan bağımlılığı azaltmak için yüksek kaliteli sentetik veri üretmek amacıyla NVIDIA Omniverse'ü kullanmaktadır. 13
Dünya Vakfı Modeli neden önemlidir?
Fiziksel yapay zeka için etkili dünya modelleri oluşturmak, özellikle kapsamlı eğitim için gereken çok çeşitli gerçek dünya senaryolarını yakalamak söz konusu olduğunda, toplanması hem zaman alıcı hem de pahalı olan büyük veri kümeleri gerektirir.
Dünya Temel Modelleri (WFM'ler) , sentetik veri üreterek bu zorluğun üstesinden gelebilir. Bu veri zengin, çeşitli ve ölçeklenebilir olup, geliştiricilerin gerçek dünya bilgilerini toplamanın lojistik sorunları olmadan yapay zeka sistemlerini daha etkili bir şekilde eğitmelerini sağlar.
İş gücü yönetimi (WFM) tarafından oluşturulan sentetik veri kümeleri, gerçek dünyada nadir görülen veya tekrarlanması zor olabilecek senaryolardaki boşlukları doldurmaya da yardımcı olur.
Fiziksel yapay zekâ sistemlerinin gerçek dünya ortamlarında eğitilmesi ve test edilmesi önemli zorluklar içermektedir. Bunlar arasında yüksek maliyetler, ekipman veya çevreye yönelik potansiyel riskler ve tutarlı testler için kontrollü koşulların korunmasındaki zorluk yer almaktadır.
World Foundation Models, yapay zeka sistemlerinin güvenli bir şekilde eğitilebileceği ve test edilebileceği son derece gerçekçi, sanal 3 boyutlu ortamlar sunarak bir çözüm sağlıyor. Bu ortamlar, geliştiricilerin karmaşık fiziksel etkileşimleri simüle etmelerine, yeni yetenekleri test etmelerine ve yapay zeka davranışlarını kontrollü ve tekrarlanabilir bir şekilde iyileştirmelerine olanak tanıyor.
Dünya Vakfı Modellerinin ardındaki temel teknolojiler
Dünya Temel Modellerinin oluşturulması, veri düzenleme, belirteçleme, sinir ağları, iç temsil, ince ayar ve uzmanlaşma dahil olmak üzere çok katmanlı karmaşık süreçler ve teknolojiler içerir:
Veri düzenleme
Veri düzenleme, dünya modellerinin geliştirilmesindeki ilk adımdır. Modelin yüksek kaliteli bilgilerle eğitilmesini sağlamak için kapsamlı gerçek dünya veri kümelerinin sistematik olarak düzenlenmesini, temizlenmesini ve hazırlanmasını içerir. İşte veri düzenlemenin adımları:
- Filtreleme: Yalnızca yüksek kaliteli verileri belirler ve saklar.
- Ek açıklama: Görsel-dil modellerini kullanarak temel nesneleri, eylemleri ve olayları etiketler.
- Sınıflandırma: Belirli eğitim hedeflerine yönelik verileri kategorize eder.
- Tekrarlanan verilerin kaldırılması: Verimlilik için gereksiz verileri belirlemek ve kaldırmak amacıyla video yerleştirmelerini kullanır.
Video işleme
Video işleme şu aşamaları içerir:
- Videoyu daha küçük parçalara bölme ve dönüştürme.
- İlgili yüksek çözünürlüklü verileri ayırmak için kalite filtreleri uygulamak.
Tokenizasyon
Tokenizasyon, ham, yüksek boyutlu görsel verileri token adı verilen daha küçük, daha yönetilebilir birimlere dönüştürerek makine öğrenimi süreçlerini basitleştirir. Amacı, piksel fazlalıklarını azaltmak ve bunları kompakt, anlamsal olarak anlamlı tokenlara dönüştürmektir; bu da daha hızlı ve verimli model eğitimi ve çıkarımı sağlar.
İki tür belirteçleme vardır: ayrık (görsel verileri tamsayılar olarak kodlar) ve sürekli (görsel verileri sürekli vektörler olarak kodlar).
Sinir ağları ve içsel temsil
Dünya temel modellerinin özünde, milyarlarca parametreye sahip sinir ağları bulunur. Bu ağlar, verileri analiz ederek gizli bir durum veya ortamın içsel bir temsilini oluşturur ve günceller.
Başlıca yetenekler şunlardır:
- Algılama: Videolardan ve görüntülerden hareket, derinlik ve diğer 3 boyutlu dinamik davranışları çıkarır.
- Tahmin: Öğrenilen temsillerden yola çıkarak gizli nesneleri, hareket kalıplarını ve olası olayları önceden tahmin eder.
- Uyarlama: Derin öğrenme yoluyla gizli durumu sürekli olarak iyileştirerek yeni senaryolara ve ortamlara karşı duyarlılığı sağlar.
Model mimarileri
Dünya temelli modeller, fiziksel olayları etkili bir şekilde simüle etmek ve tahmin etmek için özel sinir ağı mimarileri kullanır:
Difüzyon modelleri
- Rastgele gürültüyü rafine ederek yüksek kaliteli videolar üretme prensibiyle çalışır.
- Video oluşturma ve stil aktarımı gibi görevler için idealdir.
Otoregresif modeller
- Video karelerini tek tek oluşturun ve her bir sonraki kareyi önceki karelere dayanarak tahmin edin.
- Video tamamlama ve gelecek kare tahmini için uygundur.
İnce ayar ve uzmanlaşma
Başlangıçta genel görevler için eğitilen dünya temel modelleri, belirli uygulamalar için ince ayar yapılabilir.
İnce ayar çerçeveleri, veri hazırlığını, model eğitimini, performans optimizasyonunu ve çözüm dağıtımını basitleştirmek için kütüphaneleri, SDK'ları ve araçları entegre ederken, aynı zamanda robotik, otonom sistemler ve diğer uygulamalardaki özel görevlere uyarlanmayı da mümkün kılar.
Dünya Vakfı Modellerinin Faydaları
Dünya Temel Modellerinden yararlanarak, araştırmacılar ve mühendisler daha sağlam ve uyarlanabilir Fiziksel Yapay Zeka sistemleri oluştururken geliştirme döngülerini hızlandırabilir, maliyetleri düşürebilir ve riskleri en aza indirebilirler.
Bu yaklaşım, gelişmiş yapay zeka uygulamalarının oluşturulmasına ve gerçek dünya senaryolarında daha güvenli ve verimli bir şekilde devreye alınmasına yardımcı olabilir.
Karar verme ve planlama süreçlerinde iyileşme
Dünya Temel Modelleri, çeşitli eylem dizilerine dayalı potansiyel gelecek senaryolarını simüle ederek Fiziksel Yapay Zeka sistemlerini geliştirir. Entegre maliyet veya ödül modüllerini kullanan bu modeller, en uygun stratejileri belirlemek için sonuçları değerlendirir.
Bu öngörü, Fiziksel Yapay Zeka geliştiricilerinin karmaşık zorlukları çözmelerini sağlayarak dinamik ortamlarda verimlilik, uyarlanabilirlik ve güvenliği garanti eder.
Gerçekçi ve fiziksel olarak doğru simülasyonlar
NVIDIA'in yayılım modelleri de dahil olmak üzere Dünya Vakfı Modelleri, nesnelerin nasıl hareket ettiğini ve etkileşimde bulunduğunu anlayarak yüksek doğrulukta 3 boyutlu simülasyonlar üretir. Bu simülasyonlar, algılama yapay zekasını eğitmek ve otonom araçları veya robotik sistemleri çeşitli ortamlarda test etmek için kritik öneme sahiptir.
Örneğin, sürücüsüz araçlar çeşitli hava ve trafik koşullarında değerlendirilebilirken, robotlar gerçek dünyada kullanıma sunulmadan önce nesne manipülasyonu ve görev performansı açısından test edilebilir.
Tahminci zeka
Dünya Temel Modelleri, tahmine dayalı zeka sağlayarak Fiziksel Yapay Zeka sistemlerinin senaryoları öngörmesine ve video eğitimine ve geçmiş verilere dayanarak bilinçli kararlar almasına olanak tanır.
Video tabanlı sanal dünya oluşturma ve fizik kurallarına duyarlı videolar üretme özelliğinden yararlanan bu modeller, fiziksel yapay zeka kurulumlarında stratejileri optimize etmeye, güvenliği artırmaya ve uyarlanabilirliği geliştirmeye yardımcı olur.
Dünya Temel Modelleri ile geliştirilmiş politika geliştirme
Politika değerlendirmesi: NVIDIA Cosmos modelleri gibi Dünya Temel Modelleri, Fiziksel Yapay Zeka sistemlerinin geliştiricilerinin politika modellerini fiziksel dünya yerine sanal ortamlarda test etmelerine ve iyileştirmelerine olanak tanır.
Bu yöntem, dijital ikizleri kullanır ve maliyet açısından verimli ve zaman tasarrufu sağlar. Daha önce görülmemiş koşullar altında çeşitli testler yapılmasına olanak tanır ve geliştiriciler, etkisiz olanları hızla eleyerek, fiziksel yapay zeka görevlerini ve kaynaklarını umut vadeden politikalara odaklayabilirler.
Politika başlatma: Dünya Temel Modelleri, gerçek dünya fiziğini ve dinamiklerini modelleyerek politika modellerinin başlatılması için güçlü bir temel sağlar. Bu yaklaşım, veri kıtlığı sorunlarını ele alır ve Fiziksel Yapay Zeka model geliştirme sürecini hızlandırır.
Politika eğitimi: Ödül modelleriyle birlikte kullanılan Dünya Temel Modelleri, pekiştirmeli öğrenme ortamlarında fiziksel dünyanın yerine geçer. Bu modeller, simüle edilmiş etkileşimler yoluyla politika modellerinin ince ayarını yapmaya ve yeteneklerini geliştirmeye yardımcı olan geri bildirim sağlar.
Dünyanın Geleceği Vakfı Model Platformları
Dünya temel modellerinin uygulamalarının otonom araçlar ve robotik alanlarının çok ötesine uzanması bekleniyor. Dünya temel modellerinin olası gelecekteki uygulamalarından bazıları şunlardır:
Sağlık hizmeti
Bu modeller , cerrahi robotlar ve tıbbi cihazlar için simülasyonlu eğitim olanağı sağlayarak karmaşık işlemler sırasında hassasiyet ve güvenliği garanti altına alır ve nihayetinde hasta sonuçlarını iyileştirir.
Eğitim ve öğretim
Sanal ortamlar, gerçek dünyadaki riskler olmadan yüksek riskli senaryoları taklit ederek, özellikle ağır makine operatörleri, pilotlar ve acil durum müdahale ekipleri için eğitim ve öğretim amacıyla sürükleyici simülasyonlar sağlayabilir.
Oyun ve eğlence
Bu modeller, daha etkileşimli ve uyarlanabilir yapay zekâ karakterleri oluşturarak sanal ve artırılmış gerçeklik deneyimlerini dönüştürebilir, onları daha ilgi çekici ve gerçekçi hale getirebilir.
Şehir planlaması
Şehir planlamacıları, bu modelleri trafik düzenlerini, yaya dinamiklerini ve altyapı değişikliklerini simüle etmek ve fiziksel uygulamadan önce tasarımları optimize etmek için kullanabilirler.
Güvenlik ve savunma
Dünya modellerinin, güvenli ve kontrollü sanal senaryolar içinde gözetleme, arama kurtarma görevleri ve afet müdahalesi için insansız hava araçlarının ve otonom ajanların eğitiminde hayati önem taşıması bekleniyor.
Yorum yapan ilk kişi olun
E-posta adresiniz yayınlanmayacak. Tüm alanlar gereklidir.