Kontaktieren Sie uns

Kontaktieren Sie uns

Keine Ergebnisse gefunden.

Weltweite Stiftungsmodelle: 10 Anwendungsfälle

mit

aktualisiert am Mai 15, 2026

Siehe unsere ethischen Normen

Das Training von Robotern und autonomen Fahrzeugen (AVs) in der realen Welt kann kostspielig, zeitaufwändig und riskant sein. World Foundation Models bieten eine skalierbare Alternative, indem sie realistische Simulationen realer Umgebungen ermöglichen.

Diese Modelle beschleunigen die Entwicklung und den Einsatz in der Robotik, bei autonomen Fahrzeugen und anderen Bereichen, indem sie die Abhängigkeit von physischen Tests verringern.

Erfahren Sie mehr über die Funktionsweise der World Foundation Models, ihre Anwendungsfälle in der Praxis und die konkreten Vorteile, die sie bieten.

Die 9 besten Foundation-Modelle der Welt

1) NVIDIAs Alpamayo

Alpamayo (NVIDIA) ist eine neue Familie von Open-Source-KI-Modellen, Simulationswerkzeugen und Datensätzen, die entwickelt wurden, um autonome Fahrzeuge durch auf Vernunft basierende Entscheidungsfindung sicherer zu machen.

Um diesen Ansatz zu unterstützen, vereint Alpamayo drei Schlüsselkomponenten:

Alpamayo 1, ein VLA-Modell mit 10 Milliarden Parametern, das seine Fahrentscheidungen erklärt
AlpaSim, ein Open-Source-Simulationsframework für Tests und Validierung
Physical AI Open Datasets, die mehr als 1.700 Stunden vielfältiger realer Fahrdaten umfassen.

Diese Modelle sind nicht für den direkten Einsatz in Fahrzeugen vorgesehen. Vielmehr dienen sie als große Lehrmodelle, die Entwickler verfeinern und in produktionsreife AV-Systeme integrieren können, wodurch Sicherheit und Skalierbarkeit verbessert werden. ¹

2) NVIDIA Forschungsprojekt GR00T N1.6

NVIDIA Das GR00T N1.6 von Research ist ein aktualisiertes Open-Foundation-Modell für universell einsetzbare humanoide Roboter. Aufbauend auf GR00T N1.5 bietet die neue Version eine höhere Leistungsfähigkeit sowohl in Simulationen als auch in realen Tests, einschließlich beidhändiger Manipulation und Ganzkörper-Fortbewegungsaufgaben mit Robotern wie YAM, AgiBot Genie-1 und Unitree G1 (siehe Abbildung unten).

Abbildung 1: Vergleichsdiagramme GR00T N1.6 vs GR00T N1.5.

GR00T N1.6 beinhaltet architektonische und trainingsbezogene Verbesserungen, darunter einen größeren Diffusionstransformator, ein leistungsfähigeres Bildverarbeitungsmodell und erweiterte Vortrainingsdaten mit Tausenden von Stunden an Demonstrationen ferngesteuerter Roboter. Diese Änderungen tragen dazu bei, dass das Modell flüssigere und präzisere Bewegungen erlernt und sich während des Nachtrainings schneller anpasst.

Anstatt sich auf einen einzelnen Roboter oder eine einzelne Aufgabe zu konzentrieren, ist GR00T N1.6 als Generalisten-Richtlinie konzipiert, die auf verschiedene humanoide Plattformen übertragbar ist.

NVIDIA berichtet von schnellerer Konvergenz, besserer Geschicklichkeit und verbesserter Leistung bei Aufgaben mit großem Zeithorizont, was N1.6 zu einem bedeutenden Schritt nach vorn für offenes, skalierbares humanoides Roboterlernen macht. ²

Sehen Sie sich das untenstehende Video an, um den GR00T N1.6 in Aktion zu sehen.

Video zur Einführung der GR00T N1.6-Richtlinie.

3) PAN

PAN ist ein allgemeines interaktives Weltmodell, das für Langzeitprognosen und handlungsbedingte Simulationen entwickelt wurde. Es basiert auf einer generativen latenten Prädiktionsarchitektur, die ein autoregressives latentes Dynamikmodell mit einem Videodiffusionsdecoder kombiniert.

Dieses Design ermöglicht es dem System, zu simulieren, wie sich eine Umgebung als Reaktion auf spezifische, in natürlicher Sprache vorgegebene Aktionen entwickelt, wobei zeitliche Konsistenz und visuelle Kohärenz erhalten bleiben.

PAN unterstützt die mehrstufige Generierung von Aktionsabläufen, bei der ein Agent Aktionen vorschlagen, deren wahrscheinliche Folgen simulieren und Sequenzen auswählen kann, die ein definiertes Ziel besser erreichen. Das Modell kann außerdem kontrafaktisches Denken anwenden, indem es bewertet, wie sich Aufgabenergebnisse verändern könnten, wenn Objektinteraktionen oder Bewegungstrajektorien angepasst werden.

Experimentelle Ergebnisse zeigen, dass es im Vergleich zu vergleichbaren Open-Source-Modellen eine starke Leistung bei Benchmarks für visuelle Langzeitprognosen, physikalisches Denken und Planung erzielt.

Für die Robotik ermöglichen diese Fähigkeiten Robotern oder Trainingssystemen, die Dynamik der Umgebung vorherzusagen, Strategien intern zu testen, bevor sie ausgeführt werden, und Aufgabenrichtlinien zu verfeinern, wodurch die Kosten und Risiken wiederholter physischer Versuche reduziert werden.

Abbildung 2: Bild, das die Architektur des PAN-Modells zeigt, welches ein autoregressives LLM-basiertes Backbone für die Simulation der Welt über einen langen Zeithorizont hinweg kombiniert. ³

4) Marmor von World Labs

Marble von World Labs generiert persistente und editierbare 3D-Umgebungen aus Texteingaben, einzelnen oder mehreren Bildern, Videos, Panoramen und 3D-Layouts.

Im Gegensatz zu Echtzeit-Generativsystemen, die Szenen während der Erkundung kontinuierlich verändern, erzeugt Marble stabile Welten, die als Gaußsche Flächen, Netze oder Videos exportiert werden können. Die Plattform umfasst Chisel, einen hybriden 3D-Editor, der räumliche Struktur und visuellen Stil trennt.

Mit diesem Tool können Entwickler grundlegende geometrische Elemente wie Wände oder große Objekte anordnen und anschließend stilistische Vorgaben anwenden, um die Szene zu vervollständigen.

Nutzer können Objekte direkt im Editor neu positionieren und die generierte Welt um weitere nahegelegene Bereiche erweitern. Diese Funktionen ermöglichen es Robotik-Teams, realistische digitale Zwillinge von Arbeitsbereichen zu erstellen, Navigation und Manipulation in kontrollierten Umgebungen zu testen und Layout- oder Aufgabenentwürfe schnell zu optimieren, ohne ganze Szenen neu erstellen zu müssen.

Marbles Fähigkeit, visuelle Eingaben aus verschiedenen Winkeln zu verarbeiten, unterstützt die Erstellung hochpräziser Simulationen. Diese konsistenten Simulationsumgebungen können die Effizienz des Robotertrainings verbessern und den Bedarf an aufwendigen physischen Prototypen reduzieren.

Abbildung 3: Das Diagramm zeigt die Input-Output-Pipeline von Marble. ⁴

5) Metas V-JEPA 2

Meta hat V-JEPA 2 vorgestellt, ein fortschrittliches videobasiertes Weltmodell, das neue Maßstäbe in den Bereichen physikalisches Denken, visuelle Vorhersage und Zero-Shot-Robotikplanung setzt.

Das auf der Joint Embedding Predictive Architecture (JEPA) basierende Modell mit 1,2 Milliarden Parametern wird mit über einer Million Stunden Videomaterial und zusätzlichen Daten zur Roboterinteraktion trainiert, wodurch es in die Lage versetzt wird, die Dynamik unbekannter Objekte und Umgebungen zu verstehen und vorherzusagen.

V-JEPA 2 unterstützt die Planung durch eine Encoder-Prädiktor-Architektur und selbstüberwachtes Lernen und erzielt fortgeschrittene Ergebnisse bei Aufgaben wie Aktionserkennung, Antizipation und Video-Fragebeantwortung.

Meta veröffentlichte außerdem drei Benchmarks: IntPhys 2 , MVPBench und CausalVQA , um physikalisches Denken in KI zu bewerten und die aktuellen Lücken zwischen KI und menschlicher Leistung hervorzuheben.

Das Modell ist sowohl für Forschungszwecke als auch für kommerzielle Nutzung als Open Source verfügbar und stellt einen wichtigen Schritt in Richtung des Ziels von Meta dar, fortgeschrittene maschinelle Intelligenz (AMI) und die Entwicklung praktischer, anpassungsfähiger KI-Agenten zu erreichen. ⁵

Abbildung 4: V-JEPA 2 wird anhand umfangreicher Video- und Bilddaten vortrainiert, anschließend mit einem Sprachmodell für visuelle Aufgaben abgeglichen und mit einer kleinen Menge an Roboterdaten für die Planung und Steuerung in der Robotik erweitert. ⁶

6) NVIDIA Cosmos World Foundation Modelle

NVIDIA Cosmos World Foundation Models ist eine fortschrittliche Plattform, die die Entwicklung physikalischer KI-Systeme, einschließlich autonomer Fahrzeuge (AVs) und Roboter, beschleunigen soll.

NVIDIA Die Cosmos Suite integriert generative Weltfundamentmodelle (WFMs), fortschrittliche Tokenizer, integrierte Schutzmechanismen und eine Hochgeschwindigkeits-Videoverarbeitungspipeline.

NVIDIA NeMo Curator verarbeitet in Verbindung mit der CUDA-beschleunigten Pipeline 20 Millionen Stunden Videomaterial in nur zwei Wochen und reduziert so Kosten und Zeitaufwand.

Der Cosmos Tokenizer (NVIDIA) erzielt eine überlegene Komprimierung und schnellere Bild- und Videodatenverarbeitung. Hier die wichtigsten Funktionen der Cosmos Suite (NVIDIA):

Ermöglicht die Erstellung riesiger Mengen fotorealistischer, physikalisch basierter synthetischer Daten zum Trainieren und Evaluieren von KI-Modellen.
Erzeugt physikbasierte Videos unter Verwendung verschiedener Eingaben wie Text, Bilder, Video und Sensordaten.
Simuliert komplexe Industrie- und Fahrumgebungen, einschließlich Lagerhallen und unterschiedlicher Straßenverhältnisse.
Ermöglicht die Videosuche nach spezifischen Szenarien und die Modellevaluierung unter simulierten Bedingungen.
Entwickler können WFMs feinabstimmen, um maßgeschneiderte Modelle zu erstellen, die auf spezifische Anwendungen zugeschnitten sind.
WFMs sind unter einer offenen Lizenz zugänglich, um die Zusammenarbeit innerhalb der Robotik- und Autonome-Fahrzeug-Communitys zu fördern.
Modelle können über den API-Katalog von NVIDIA in der Vorschau angezeigt oder von den Plattformen NVIDIA NGC und Hugging Face heruntergeladen werden. ⁷

Abbildung 5: Hauptkomponenten der Cosmos Suite NVIDIA: Video-Kurator, Video-Tokenisierer, vortrainiertes World Foundation Model, World Foundation Model Post-Training Samples und Guardrail. ⁸

Waabi, Foretellix, XPENG und Wayve nutzen Modelle der Cosmos World Foundation (NVIDIA), um Verkehrsszenarien, Wetterbedingungen und Fußgängerverhalten zu simulieren. Diese Unternehmen führen Tests in virtuellen Umgebungen ohne physische Versuche durch. ⁹

Die Plattform nutzt NVIDIA NeMo Curator, um über 20 Millionen Stunden Videomaterial mittels CUDA-Beschleunigung in etwa zwei Wochen zu verarbeiten und zu kennzeichnen.

Hauptmerkmale:

Generiert beschriftete Verkehrs-, Wetter-, Licht- und Fußgängerszenarien.
Erzeugt fotorealistische Videos mit Sensordaten.
Simuliert regionale Fahrnormen für die Lokalisierung.
Ermöglicht die risikofreie Validierung von AV-Systemen.

7) Der Proc4Gem

Das Proc4Gem-System nutzt ein simulationstrainiertes Modell, um einen vierbeinigen Roboter bei der Befolgung von Sprachanweisungen zu unterstützen und Objekte in unbekannten realen Umgebungen präzise zu schieben. ¹⁰

Hauptmerkmale:

Simuliert realistische 3D-Umgebungen zum Training von Wahrnehmung und motorischer Kontrolle.
Unterstützt das Befolgen von Anweisungen durch Sprache.
Ermöglicht die Planung und Durchführung von Interaktionsaufgaben mit langem Zeithorizont.
Ermöglicht die Übertragung von Modellen aus der Simulation auf reale Roboter.
Frameworks und Modelle sind als Open Source öffentlich verfügbar.

8) DeepMinds Genie 3

Google DeepMind hat Genie 3 veröffentlicht, ein KI-System, das interaktive virtuelle Umgebungen aus Textbeschreibungen in Echtzeit generieren kann.

Technische Spezifikationen:

Leistungsmerkmale : Das System arbeitet mit 24 Bildern pro Sekunde und erzeugt eine Ausgabe in 720p-Auflösung, wobei die Umgebungskonsistenz über mehrere Minuten der Interaktion hinweg erhalten bleibt.
- Das Modell demonstriert visuelle Gedächtnisfähigkeiten, die sich etwa eine Minute lang auf vergangene Interaktionen erstrecken.
Umgebungskategorien : Genie 3 generiert mehrere Arten von virtuellen Welten:
- Physikalische Simulationen unter Einbeziehung von Fluiddynamik, Lichteffekten und Umweltphysik.
- Biologische Ökosysteme zeichnen sich durch Flora, Fauna und ökologische Wechselwirkungen aus.
- Fiktive Umgebungen mit nicht-realistischen Elementen und animierten Charakteren.
- Geographische und historische Rekonstruktionen realer Orte und Zeiträume.
Interaktionsmechanismen:
- Promptable Weltereignisse ermöglichen die Laufzeitmodifikation von Umgebungsbedingungen und Objektplatzierung.
- Die zeitliche Konsistenz gewährleistet die Kohärenz der physikalischen Eigenschaften über längere Interaktionssitzungen hinweg.
- Die Agentenintegration unterstützt autonome Agenten bei der Ausführung zielgerichteter Aufgaben innerhalb generierter Umgebungen.
Technische Architektur: Das System verwendet autoregressive Frame-Generierung anstelle expliziter 3D-Szenendarstellungen.
- Dieser Ansatz ermöglicht die dynamische Erstellung von Umgebungen und bewältigt gleichzeitig die rechnerische Herausforderung, die Konsistenz über wachsende zeitliche Sequenzen hinweg während der Echtzeitinteraktion aufrechtzuerhalten.

Forschungsanwendungen und Zugang:

Derzeit ist der Zugang auf ausgewählte akademische Forscher und Content-Ersteller im Rahmen eines begrenzten Vorschauprogramms beschränkt. Mögliche Forschungsanwendungen umfassen Bildungssimulationen , das Training autonomer Systeme, die Bewertung des Agentenverhaltens und die kontrafaktische Szenarioanalyse für Systeme des maschinellen Lernens. ¹¹

Video zur Erklärung von Genie 3, einem Weltmodell, das aus Textbeschreibungen vielfältige interaktive Umgebungen erstellt.

9) NVIDIAs Erde-2

Das Projekt Earth-2 (NVIDIA) nutzt künstliche Intelligenz und Hochleistungsrechner (HPC), um das Klima und die Wettersysteme der Erde hochauflösend zu simulieren. Es stellt einen neuen Ansatz für die Wettervorhersage und Klimamodellierung dar.

Welche Technologie steckt dahinter?

NVIDIA nutzt seine Omniverse-Plattform , die auf den Grafikprozessoren (GPUs) und KI-Tools von NVIDIA basiert, um realistische Simulationen zu erstellen. Ziel ist es, mithilfe von KI hochdetaillierte und präzise Simulationen des Erdklimas zu generieren, um komplexe Wettermuster zu modellieren und genauere Vorhersagen zu ermöglichen.

Welche Auswirkungen hat das?

Das ultimative Ziel von Earth-2 ist es, bessere Wettervorhersagen zu liefern, langfristige Klimatrends besser zu verstehen und den Klimawandel abzumildern.

Genauere Simulationen können zu einer besseren Vorbereitung auf extreme Wetterereignisse, einer effizienteren Energienutzung und verbesserten Katastrophenschutzstrategien führen. ¹²

Um zu erfahren, wie die KI-Technologie von NVIDIA die Wettervorhersage und Klimamodellierung voranbringt, sehen Sie sich das untenstehende Video an, das einen detaillierten Einblick in die Earth-2-Plattform und ihre Auswirkungen auf Sturmvorhersagen bietet:

Die Earth-2-Plattform von NVIDIA kombiniert KI-basierte Modelle für globale und regionale Wettervorhersagen und liefert wertvolle Erkenntnisse zur Schadensminimierung. Earth-2 umfasst Dienste für KI-gestützte Vorhersagen, cloudbasierte Simulationen, Datenföderation und interaktive Visualisierung – alles optimiert für die KI-Enterprise-Plattform von NVIDIA.

Anwendungsfälle von Modellen der Weltstiftung

Robotik

In der Robotik spielen die Modelle der World Foundation eine entscheidende Rolle, indem sie es Robotern ermöglichen, in dynamischen, realen Umgebungen effektiv zu arbeiten:

1. Aufbau räumlichen Vorstellungsvermögens

Durch simulierte Trainingsumgebungen erlangen Roboter ein Verständnis ihrer Umgebung, wodurch sie in die Lage versetzt werden, Objekte präzise zu navigieren und zu manipulieren.

2. Verbesserte Lerneffizienz

Simulierte Umgebungen beschleunigen das Training, indem sie kontrollierte Szenarien bieten, in denen Roboter experimentieren und aus Fehlern lernen können, ohne dass dies physische Konsequenzen hat.

3. Aufgabengeneralisierung

Durch die Integration von Eingaben aus verschiedenen Modalitäten wie visuellen, auditiven und taktilen Sensoren unterstützen die World Foundation Models das Transferlernen und ermöglichen es Robotern, sich mit minimalem Nachtraining an neue Umgebungen und Aufgaben anzupassen.

4. Planung komplexer Aufgaben

Mithilfe dieser Modelle können Roboter langfristige Planungen durchführen, wie z. B. das Zusammenbauen von Objekten, das Vorhersagen menschlicher Handlungen oder die Koordination mit anderen Robotern in industriellen oder kollaborativen Umgebungen.

Autonome Fahrzeuge

Weltweite Stiftungsmodelle können die Entwicklungspipeline autonomer Fahrzeuge (AVs) verbessern, indem sie:

5. Training mit vorab gelabelten Daten

Sie liefern vorab gekennzeichnete und kodierte Videodatensätze, die es AV-Systemen ermöglichen, Fahrzeuge, Fußgänger und Objekte in der Umgebung unter verschiedenen Bedingungen präzise zu erkennen und zu interpretieren.

6. Szenariogenerierung

Mithilfe dieser Modelle lassen sich simulierte Szenarien erzeugen, wie beispielsweise verschiedene Verkehrsmuster, Wetterbedingungen und Fußgängerverhalten, die Lücken in den Trainingsdaten aus der realen Welt schließen.

7. Skalierbarkeit und Lokalisierung

Entwickler können virtuelle Umgebungen nutzen, um Bedingungen an neuen geografischen Standorten zu simulieren. Dadurch können sich autonome Fahrzeuge an unterschiedliche Straßenverkehrsregeln, kulturelle Fahrgewohnheiten und Infrastrukturkonzepte anpassen, ohne dass umfangreiche Tests im Straßenverkehr erforderlich sind.

8. Sensorfusion und Kalibrierung

WFMs können Multisensor-Eingaben wie Kamera, LiDAR, Radar und GPS in derselben Umgebung simulieren. Dies hilft AV-Systemen, die präzise Sensorfusion und -kalibrierung zu trainieren, die für das Verständnis von Tiefe, Geschwindigkeit und Bewegung in komplexen Fahrsituationen unerlässlich ist.

9. Sicherheit und Kosteneffizienz

AV-Systeme können durch Tests in virtuellen Umgebungen iterativ verbessert und optimiert werden, wodurch Kosten und das Unfallrisiko bei realen Tests reduziert werden.

Multimodale Integration

10. WFMs mit anderen Ressourcen

Durch die Integration von WFMs mit großen Sprachmodellen (LLMs) und anderen Rechenressourcen, wie z. B. Hochleistungsrechnern (HPC), werden physikalische KI-Systeme durch das Hinzufügen semantischen Verständnisses verbessert.

Diese Kombination unterstützt visuelle Sprachmodelle und multimodale Fähigkeiten und ermöglicht so komplexere Interaktionen mit Bild- und Videodaten.

Was sind die Modelle der Weltstiftung?

Weltweite Grundlagenmodelle sind hochentwickelte KI-Systeme, die entwickelt wurden, um reale Umgebungen und deren Dynamik zu simulieren und vorherzusagen.

Diese Modelle verarbeiten verschiedene Dateneingaben, darunter Textinformationen, visuelle Daten wie Bilder und Videos sowie bewegungsbezogene Daten, um realistische und immersive Simulationen von physischen und virtuellen Szenarien zu erstellen.

Die Kernkompetenz von Weltfundamentmodellen liegt in ihrem Verständnis fundamentaler physikalischer Prinzipien wie Bewegung, Kraft, Kausalität und räumlichen Beziehungen.

Dies ermöglicht es ihnen, zu simulieren, wie Objekte und Einheiten in einer gegebenen Umgebung interagieren, sei es die Bewegung eines Fahrzeugs, die Dynamik eines Roboterarms oder das Zusammenspiel von Objekten in einer virtuellen Welt.

Eine wichtige Anwendung dieser Modelle liegt in der Entwicklung und Optimierung physikalischer KI-Systeme wie Roboter und autonomer Fahrzeuge. Durch die Bereitstellung einer sicheren und kontrollierten Umgebung für Training und Tests können diese Modelle den Bedarf an realen Experimenten reduzieren, die kostspielig, zeitaufwändig und potenziell gefährlich sein können.

Darüber hinaus können Weltfundamentmodelle qualitativ hochwertige, realistische Videoinhalte generieren, die für verschiedene Zwecke genutzt werden können, darunter Unterhaltung, Bildung und Forschung.

Ihre Fähigkeit, präzise und detaillierte Umgebungen zu simulieren, macht sie zu unverzichtbaren Werkzeugen für Entwickler und ermöglicht effizientere und genauere Verbesserungen der KI-Leistung.

Physikalische KI-Systeme: Definition und Bedeutung

Physikalische KI-Anwendungen bezeichnen künstliche Intelligenzsysteme, die mit Sensoren zur Wahrnehmung der physischen Welt und Aktoren zur Interaktion mit und Modifizierung dieser Welt ausgestattet sind.

Sie ermöglichen es autonomen Maschinen wie Robotern, selbstfahrenden Autos und anderen Geräten, komplexe Aktionen in realen Umgebungen auszuführen.

Sie wird oft als „generative physikalische KI“ bezeichnet und erweitert generative KI- Modelle um ein Verständnis räumlicher Beziehungen und der physikalischen Gesetze, die die 3D-Welt bestimmen.

Wie funktioniert physikalische KI?

Generative physikalische KI kombiniert generative KI mit Daten aus der physischen Welt, um die Funktionalität zu erweitern.

Während des Trainings werden KI-Systeme Simulationen ausgesetzt, die reale Szenarien nachbilden. Diese Simulationen basieren auf digitalen Zwillingen – hochpräzisen virtuellen Nachbildungen physischer Räume wie Fabriken, in die autonome Maschinen und Sensoren integriert werden. Die virtuelle Umgebung generiert 3D-Trainingsdaten, die Interaktionen wie Objektbewegungen, Kollisionen und Lichtdynamik erfassen.

Reinforcement Learning ist in diesem Prozess von entscheidender Bedeutung. Es ermöglicht Maschinen, in simulierten Umgebungen durch Ausprobieren Fähigkeiten zu erlernen. Für das Ausführen gewünschter Aktionen werden Belohnungen vergeben, wodurch die KI sich anpassen, verbessern und schließlich Aufgaben präzise beherrschen kann. Dieser Prozess stattet Maschinen mit ausgefeilten motorischen Fähigkeiten aus, die für Anwendungen in der realen Welt unerlässlich sind.

Warum sind physikalische KI-Systeme wichtig?

Bisher hatten autonome Maschinen Schwierigkeiten, ihre Umgebung wahrzunehmen und effektiv mit ihr zu interagieren. Physikalische KI überwindet diese Einschränkung, indem sie Robotern und anderen Geräten ermöglicht, ihre Umgebung wahrzunehmen, sich an sie anzupassen und mit ihr zu interagieren.

Physikalische KI-Systeme tragen branchenübergreifend zur Verbesserung von Effizienz, Sicherheit und Zugänglichkeit bei, indem sie Maschinen schaffen, die in der Lage sind, komplexe Aufgaben auszuführen – von chirurgischen Eingriffen bis hin zur Lagernavigation .

Physikalische KI nutzt fortschrittliche physikbasierte Simulationen, um Maschinen in sicheren, kontrollierten Umgebungen zu trainieren. Diese Simulationen beschleunigen die Entwicklung, verhindern Schäden in frühen Lernphasen und gewährleisten die Einsatzbereitschaft in der realen Welt.

Hier einige Beispiele für physikalische KI-Anwendungen:

Autonome mobile Roboter (AMRs): Navigieren durch komplexe Lagerumgebungen, weichen Hindernissen aus und passen sich in Echtzeit an Sensordaten an.
Manipulatoren : Sie führen heikle Aufgaben aus, wie z. B. die Anpassung der Greifkraft und der Positionierung basierend auf der Objektlage.
Humanoide Roboter: Benötigen Fein- und Grobmotorik, um verschiedene Aufgaben wahrzunehmen, sich zu orientieren und mit ihnen zu interagieren.
Intelligente Räume: Großflächige Innenräume wie Lagerhallen und Fabriken profitieren in Lieferkettenanwendungen von physikalischer und generativer KI durch verbesserte Sicherheit, dynamische Routenplanung und höhere betriebliche Effizienz. Fortschrittliche Computer-Vision-Modelle überwachen und optimieren Abläufe unter Berücksichtigung der Personensicherheit.
Chirurgische Roboter: Sie führen Präzisionsoperationen wie Nähen und Einfädeln von Nadeln aus.

Beispiel aus dem realen Leben:

ORBIT-Surgical, entwickelt von Forschern der Universität Toronto, der UC Berkeley, der ETH Zürich, des Georgia Institute of Technology und NVIDIA, ist ein Open-Source-Simulationsframework zur Ausbildung von Operationsrobotern. Es reduziert die kognitive Belastung von Chirurgen und verbessert die Teamleistung.

Basierend auf Isaac Sim unterstützt es laparoskopisch inspirierte Aufgaben wie das Greifen von Nadeln, das Übertragen von Objekten und präzises Platzieren. Dank GPU-Beschleunigung können Roboter schnell trainiert werden; Aufgaben wie das Einsetzen eines Shunts lassen sich in weniger als zwei Stunden mit einer einzigen RTX-GPU erledigen.

Das Framework nutzt außerdem Omniverse, um qualitativ hochwertige synthetische Daten für das Training von KI-Wahrnehmungsmodellen zu generieren, die Werkzeugerkennung zu verbessern und die Abhängigkeit von realen Datensätzen zu verringern. ¹³

Warum ist das Weltstiftungsmodell wichtig?

Der Aufbau effektiver Weltmodelle für physikalische KI erfordert oft riesige Datensätze, deren Erfassung sowohl zeitaufwändig als auch teuer ist, insbesondere wenn es darum geht, die breite Palette realer Szenarien abzubilden, die für ein umfassendes Training notwendig sind.

Weltweite Stiftungsmodelle (World Foundation Models, WFMs) können diese Herausforderung durch die Generierung synthetischer Daten bewältigen. Diese Daten sind umfangreich, vielfältig und skalierbar und ermöglichen es Entwicklern, KI-Systeme effektiver zu trainieren, ohne die logistischen Probleme der Erfassung realer Daten.

Synthetische Datensätze, die von WFMs erstellt werden, helfen auch dabei, Lücken in Szenarien zu schließen, die in der realen Welt selten oder schwer nachzubilden sein könnten.

Das Training und Testen von Systemen für physikalische KI in realen Umgebungen stellt eine erhebliche Herausforderung dar. Dazu gehören hohe Kosten, potenzielle Risiken für Geräte oder die Umgebung sowie die Schwierigkeit, kontrollierte Bedingungen für konsistente Tests aufrechtzuerhalten.

World Foundation Models bietet eine Lösung durch hochrealistische, virtuelle 3D-Umgebungen, in denen KI-Systeme sicher trainiert und getestet werden können. Diese Umgebungen ermöglichen es Entwicklern, komplexe physikalische Interaktionen zu simulieren, neue Funktionen zu testen und das Verhalten von KI kontrolliert und reproduzierbar zu optimieren.

NVIDIAs Video zur Erklärung physikalischer KI-Systeme.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Kerntechnologien hinter den Weltstiftungsmodellen

Der Aufbau der World Foundation Models umfasst mehrere Ebenen komplexer Prozesse und Technologien, darunter Datenkuratierung, Tokenisierung, neuronale Netze, interne Repräsentation sowie Feinabstimmung und Spezialisierung:

Datenkuratierung

Die Datenkuratierung ist der erste Schritt bei der Entwicklung von Weltmodellen. Sie umfasst die systematische Organisation, Bereinigung und Aufbereitung umfangreicher realer Datensätze, um sicherzustellen, dass das Modell mit qualitativ hochwertigen Informationen trainiert wird. Hier sind die Schritte der Datenkuratierung:

Filterung: Identifiziert und speichert nur qualitativ hochwertige Daten.
Annotation: Kennzeichnet wichtige Objekte, Aktionen und Ereignisse mithilfe von Bild-Sprach-Modellen.
Klassifizierung: Kategorisiert Daten für spezifische Trainingsziele.
Deduplizierung: Nutzt Videoeinbettungen, um redundante Daten zu identifizieren und zu entfernen und so die Effizienz zu steigern.

Videoverarbeitung

Die Videoverarbeitung umfasst:

Aufteilen und Transkodieren von Videos in kleinere Segmente.
Anwendung von Qualitätsfiltern zur Isolierung relevanter hochauflösender Daten.

Tokenisierung

Die Tokenisierung wandelt rohe, hochdimensionale Bilddaten in kleinere, besser handhabbare Einheiten, sogenannte Tokens, um und vereinfacht so maschinelle Lernprozesse. Ziel ist es, Pixelredundanzen zu reduzieren und die Daten in kompakte, semantisch aussagekräftige Tokens umzuwandeln, um ein schnelleres und effizienteres Training und eine effizientere Inferenz von Modellen zu ermöglichen.

Es gibt zwei Arten der Tokenisierung: diskrete (die visuelle Daten als ganze Zahlen kodiert) und kontinuierliche (die visuelle Daten als kontinuierliche Vektoren kodiert).

Neuronale Netze und interne Repräsentation

Das Herzstück der Weltgrundlagenmodelle bilden neuronale Netze mit Milliarden von Parametern. Diese Netze analysieren Daten, um einen verborgenen Zustand oder eine interne Repräsentation der Umgebung zu erstellen und zu aktualisieren.

Zu den wichtigsten Fähigkeiten gehören:

Wahrnehmung: Extrahiert Bewegung, Tiefe und andere dynamische 3D-Verhaltensweisen aus Videos und Bildern.
Vorhersage: Antizipiert versteckte Objekte, Bewegungsmuster und potenzielle Ereignisse auf der Grundlage erlernter Repräsentationen.
Anpassung: Verfeinert kontinuierlich den verborgenen Zustand durch Deep Learning und gewährleistet so die Reaktionsfähigkeit auf neue Szenarien und Umgebungen.

Modellarchitekturen

Weltweite Stiftungsmodelle nutzen spezialisierte neuronale Netzwerkarchitekturen, um physikalische Phänomene effektiv zu simulieren und vorherzusagen:

Diffusionsmodelle

Funktioniert durch Verfeinerung von Zufallsrauschen zur Erzeugung hochwertiger Videos.
Ideal für Aufgaben wie Videoerstellung und Stiltransfer.

Autoregressive Modelle

Generiert Video Bild für Bild und sagt jedes nachfolgende Bild auf Basis der vorherigen voraus.
Geeignet für die Vervollständigung von Videos und die Vorhersage zukünftiger Frames.

Feinabstimmung und Spezialisierung

Die zunächst für allgemeine Aufgaben trainierten Weltgrundlagenmodelle können für spezifische Anwendungen feinabgestimmt werden.

Feinabstimmungsframeworks integrieren Bibliotheken, SDKs und Tools, um die Datenaufbereitung, das Modelltraining, die Leistungsoptimierung und die Lösungsbereitstellung zu vereinfachen und gleichzeitig die Anpassung an spezielle Aufgaben in der Robotik, autonomen Systemen und anderen Anwendungen zu ermöglichen.

Vorteile der Modelle der Weltstiftung

Durch die Nutzung der World Foundation Models können Forscher und Ingenieure Entwicklungszyklen beschleunigen, Kosten senken und Risiken minimieren, während sie gleichzeitig robustere und anpassungsfähigere physikalische KI-Systeme entwickeln.

Dieser Ansatz kann dazu beitragen, fortschrittliche KI-Anwendungen zu entwickeln und einen sichereren und effizienteren Einsatz in realen Szenarien zu gewährleisten.

Verbesserte Entscheidungsfindung und Planung

Die Modelle der World Foundation verbessern physikalische KI-Systeme, indem sie potenzielle Zukunftsszenarien auf Basis verschiedener Handlungsabfolgen simulieren. Mithilfe integrierter Kosten- oder Belohnungsmodule bewerten diese Modelle die Ergebnisse, um optimale Strategien zu identifizieren.

Diese Weitsicht ermöglicht es Entwicklern von physikalischer KI, komplexe Herausforderungen zu meistern und Effizienz, Anpassungsfähigkeit und Sicherheit in dynamischen Umgebungen zu gewährleisten.

Realistische und physikalisch korrekte Simulationen

Die Modelle der World Foundation, darunter die Diffusionsmodelle von NVIDIA, erzeugen hochpräzise 3D-Simulationen, indem sie die Bewegung und Interaktion von Objekten analysieren. Diese Simulationen sind unerlässlich für das Training von KI-Systemen zur Wahrnehmung und das Testen autonomer Fahrzeuge oder Robotersysteme in unterschiedlichen Umgebungen.

Beispielsweise können selbstfahrende Autos unter verschiedenen Wetter- und Verkehrsbedingungen getestet werden, während Roboter vor ihrem Einsatz in der realen Welt auf Objektmanipulation und Aufgabenleistung geprüft werden können.

Vorhersageintelligenz

Die Modelle der World Foundation liefern prädiktive Informationen, die es physikalischen KI-Systemen ermöglichen, Szenarien vorherzusehen und auf der Grundlage von Videotraining und historischen Daten fundierte Entscheidungen zu treffen.

Durch die Nutzung von Video-zu-Welt-Generierung und die Erzeugung physikbasierter Videos tragen diese Modelle dazu bei, Strategien zu optimieren, die Sicherheit zu verbessern und die Anpassungsfähigkeit in physikalischen KI-Setups zu erhöhen.

Verbesserte Politikentwicklung mit Modellen der Weltstiftung

Evaluierung von Richtlinien: Modelle der World Foundation, wie z. B. die Cosmos-Modelle (NVIDIA), ermöglichen es Entwicklern von Systemen für physische KI, Richtlinienmodelle in virtuellen Umgebungen anstatt in der physischen Welt zu testen und zu verfeinern.

Diese Methode nutzt digitale Zwillinge und ist kostengünstig und zeitsparend. Sie ermöglicht vielfältige Tests unter unbekannten Bedingungen, und Entwickler können sich bei den Aufgaben und Ressourcen der physischen KI auf vielversprechende Strategien konzentrieren, indem sie unwirksame Strategien schnell verwerfen.

Richtlinieninitialisierung: Weltweite Grundlagenmodelle bilden eine solide Basis für die Initialisierung von Richtlinienmodellen, indem sie realweltliche Physik und Dynamik modellieren. Dieser Ansatz begegnet Herausforderungen der Datenknappheit und beschleunigt die Entwicklung physikalischer KI-Modelle.

Policy-Training: In Kombination mit Belohnungsmodellen dienen World Foundation Models als Stellvertreter für die physikalische Welt in Reinforcement-Learning-Setups. Diese Modelle liefern Feedback, das durch simulierte Interaktionen zur Feinabstimmung der Policy-Modelle beiträgt und so deren Leistungsfähigkeit verbessert.

Zukunft der Plattformen des Weltstiftungsmodells

Die Anwendungsbereiche von Weltgrundlagenmodellen dürften weit über autonome Fahrzeuge und Robotik hinausgehen. Zu den möglichen zukünftigen Anwendungsgebieten von Weltgrundlagenmodellen gehören unter anderem:

Gesundheitspflege

Mithilfe dieser Modelle kann ein simuliertes Training für chirurgische Roboter und medizinische Geräte durchgeführt werden, wodurch Präzision und Sicherheit bei komplexen Eingriffen gewährleistet und letztendlich die Patientenergebnisse verbessert werden.

Schul-und Berufsbildung

Virtuelle Umgebungen können immersive Simulationen für Aus- und Weiterbildungszwecke bieten, insbesondere für Bediener von Baumaschinen, Piloten und Rettungskräfte, indem sie risikoreiche Szenarien ohne reale Risiken nachbilden.

Gaming und Unterhaltung

Durch die Entwicklung interaktiverer und anpassungsfähigerer KI-Charaktere können diese Modelle virtuelle und erweiterte Realitätserlebnisse transformieren und sie ansprechender und lebensechter gestalten.

Stadtplanung

Stadtplaner können diese Modelle nutzen, um Verkehrsmuster, Fußgängerdynamik und Infrastrukturänderungen zu simulieren und so die Entwürfe vor der physischen Umsetzung zu optimieren.

Sicherheit und Verteidigung

Weltmodelle dürften für die Ausbildung von Drohnen und autonomen Agenten für Überwachungs-, Such- und Rettungsmissionen sowie Katastrophenschutzmaßnahmen unerlässlich sein – alles innerhalb sicherer und kontrollierter virtueller Szenarien.

Referenzlinks

NVIDIA Announces Alpamayo Family of Open-Source AI Models and Tools to Accelerate Safe, Reasoning-Based Autonomous Vehicle Development | NVIDIA Newsroom

https://arxiv.org/pdf/2511.09057

Fei-Fei Li's World Labs speeds up the world model race with Marble, its first commercial product | TechCrunch

Introducing the V-JEPA 2 world model and new benchmarks for physical reasoning

https://arxiv.org/pdf/2506.09985

NVIDIA Launches Cosmos World Foundation Model Platform to Accelerate Physical AI Development | NVIDIA Newsroom

Cosmos World Foundation Model Platform for Physical AI

Cosmos World Foundation Models Openly Available to Physical AI Developers | NVIDIA Blog

Genie 3: A new frontier for world models — Google DeepMind

Google DeepMind

NVIDIA Earth-2 Features First Gen AI to Power Weather Super-Resolution for Continental US | NVIDIA Blog

DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos

Needle-Moving AI Research Trains Surgical Robots in Simulation | NVIDIA Blog

Cem Dilmegani

Leitender Analyst

Cem ist seit 2017 leitender Analyst bei AIMultiple. AIMultiple informiert monatlich Hunderttausende von Unternehmen (laut similarWeb), darunter 55 % der Fortune 500. Cems Arbeit wurde von führenden globalen Publikationen wie Business Insider, Forbes und der Washington Post, von globalen Unternehmen wie Deloitte und HPE sowie von NGOs wie dem Weltwirtschaftsforum und supranationalen Organisationen wie der Europäischen Kommission zitiert. Weitere namhafte Unternehmen und Ressourcen, die AIMultiple referenziert haben, finden Sie hier. Im Laufe seiner Karriere war Cem als Technologieberater, Technologieeinkäufer und Technologieunternehmer tätig. Über ein Jahrzehnt lang beriet er Unternehmen bei McKinsey & Company und Altman Solon in ihren Technologieentscheidungen. Er veröffentlichte außerdem einen McKinsey-Bericht zur Digitalisierung. Bei einem Telekommunikationsunternehmen leitete er die Technologiestrategie und -beschaffung und berichtete direkt an den CEO. Darüber hinaus verantwortete er das kommerzielle Wachstum des Deep-Tech-Unternehmens Hypatos, das innerhalb von zwei Jahren von null auf einen siebenstelligen jährlichen wiederkehrenden Umsatz und eine neunstellige Unternehmensbewertung kam. Cems Arbeit bei Hypatos wurde von führenden Technologiepublikationen wie TechCrunch und Business Insider gewürdigt. Er ist ein gefragter Redner auf internationalen Technologiekonferenzen. Cem absolvierte sein Studium der Informatik an der Bogazici-Universität und besitzt einen MBA der Columbia Business School.

Vollständiges Profil anzeigen

Recherchiert von

Sıla Ermut

Branchenanalyst

Sıla Ermut ist Branchenanalystin bei AIMultiple und spezialisiert auf E-Mail-Marketing und Vertriebsvideos. Zuvor war sie als Personalberaterin in Projektmanagement- und Beratungsunternehmen tätig. Sıla hat einen Master of Science in Sozialpsychologie und einen Bachelor of Arts in Internationalen Beziehungen.

Vollständiges Profil anzeigen

Seien Sie der Erste, der kommentiert

Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.

Als nächstes lesen

Multimodale Einbettungsmodelle: Apple vs. Meta vs. OpenAI

KI-ModelleApr 15

Vergleich relationaler Fundamentmodelle

Grundlagen der KIMär 5

Große quantitative Modelle: Anwendungen und Herausforderungen

Grundlagen der KIFeb 4

Große Weltmodelle: Anwendungsfälle und Beispiele

KI-ModelleFeb 10

Grundlagenmodelle für Zeitreihen: Anwendungsfälle und Vorteile

Einbettungsmodelle: OpenAI vs Gemini vs Cohere