L’entraînement des robots et des véhicules autonomes dans le monde physique peut s’avérer coûteux, long et risqué. Les modèles de la Fondation mondiale offrent une alternative évolutive en permettant des simulations réalistes d’environnements réels.
Ces modèles accélèrent le développement et le déploiement dans les domaines de la robotique, des véhicules autonomes et autres, en réduisant la dépendance aux essais physiques.
Découvrez le fonctionnement des modèles de fondation mondiaux, leurs cas d'utilisation concrets et les avantages tangibles qu'ils apportent.
Les 9 meilleurs modèles de fondations au monde
1) Alpamayo de NVIDIA
Alpamayo de NVIDIA est une nouvelle famille de modèles d'IA open source, d'outils de simulation et d'ensembles de données conçus pour rendre les véhicules autonomes plus sûrs grâce à une prise de décision basée sur le raisonnement.
Pour soutenir cette approche, Alpamayo réunit trois composantes clés :
- Alpamayo 1, un modèle VLA à chaîne de pensée de 10 milliards de paramètres qui explique ses décisions de pilotage
- AlpaSim, un framework de simulation open source pour les tests et la validation
- Les ensembles de données ouverts de Physical AI comprennent plus de 1 700 heures de données de conduite réelles et diversifiées.
Ces modèles ne sont pas destinés à être exécutés directement dans les véhicules. Ils servent plutôt de modèles de base que les développeurs peuvent affiner et intégrer dans des piles logicielles de véhicules autonomes de production, améliorant ainsi la sécurité et l'évolutivité. 1
2) NVIDIA Recherche GR00T N1.6
GR00T N1.6 de NVIDIA Research est un modèle de base ouvert mis à jour pour les robots humanoïdes à usage général. S'appuyant sur GR00T N1.5, cette nouvelle version offre des performances accrues lors de simulations et de tests en conditions réelles, notamment pour la manipulation bimanuelle et la locomotion du corps entier sur des robots tels que YAM, AgiBot Genie-1 et Unitree G1 (voir figure ci-dessous).
Figure 1 : Graphiques de comparaison GR00T N1.6 vs GR00T N1.5.
GR00T N1.6 intègre des améliorations architecturales et d'entraînement, telles qu'un transformateur de diffusion plus grand, un modèle vision-langage plus performant et des données de pré-entraînement enrichies, ajoutant des milliers d'heures de démonstrations de robot téléopéré. Ces modifications permettent au modèle d'apprendre des mouvements plus fluides et précis et de s'adapter plus rapidement après l'entraînement.
Plutôt que de se concentrer sur un seul robot ou une seule tâche, GR00T N1.6 est conçu comme une politique généraliste qui peut être transférée sur différentes plateformes humanoïdes.
NVIDIA fait état d'une convergence plus rapide, d'une meilleure dextérité et de performances améliorées sur les tâches à long terme, faisant de N1.6 une avancée significative pour l'apprentissage des robots humanoïdes ouverts et évolutifs. 2
Regardez la vidéo ci-dessous pour voir le GR00T N1.6 en action.
3) PAN
PAN est un modèle de monde interactif général conçu pour la prédiction à long terme et la simulation conditionnée par l'action. Il repose sur une architecture de prédiction latente générative qui combine un modèle de dynamique latente autorégressive avec un décodeur de diffusion vidéo.
Cette conception permet au système de simuler l'évolution d'un environnement en réponse à des actions spécifiques formulées en langage naturel, tout en maintenant une cohérence temporelle et visuelle.
PAN prend en charge la génération de déploiements en plusieurs étapes, permettant à un agent de proposer des actions, de simuler leurs résultats probables et de sélectionner les séquences les plus adaptées à l'atteinte d'un objectif défini. Le modèle peut également effectuer un raisonnement contrefactuel en évaluant l'impact potentiel d'une modification des interactions entre objets ou des trajectoires de déplacement sur les résultats de la tâche.
Les résultats expérimentaux montrent qu'il atteint de solides performances en matière de prédiction visuelle à long terme, de raisonnement physique et de planification par rapport aux modèles open-source comparables.
En robotique, ces capacités permettent aux robots ou aux systèmes d'entraînement de prévoir la dynamique environnementale, de tester des stratégies en interne avant de les exécuter et d'affiner les politiques de tâches, réduisant ainsi les coûts et les risques liés aux essais physiques répétés.
Figure 2 : Image montrant l'architecture du modèle PAN, qui combine une structure de base autorégressive basée sur LLM pour la simulation du monde à long terme. 3
4) Marbre de World Labs
Marble de World Labs génère des environnements 3D persistants et modifiables à partir d'invites textuelles, d'images uniques ou multiples, de vidéos, de panoramas et de mises en page 3D.
Contrairement aux systèmes génératifs en temps réel qui modifient continuellement les scènes lors de l'exploration, Marble produit des mondes stables exportables sous forme de splats gaussiens, de maillages ou de vidéos. La plateforme inclut Chisel, un éditeur 3D hybride qui dissocie la structure spatiale du style visuel.
Cet outil permet aux développeurs d'agencer des éléments géométriques de base, tels que des murs ou de grands objets, puis d'appliquer des indications stylistiques pour compléter la scène.
Les utilisateurs peuvent également repositionner les objets directement dans l'éditeur et étendre le monde généré pour inclure des régions voisines. Ces fonctionnalités permettent aux équipes de robotique de créer des jumeaux numériques réalistes d'espaces de travail, de tester la navigation et la manipulation dans des environnements contrôlés et d'itérer rapidement sur la conception de l'agencement ou des tâches sans avoir à reconstruire des scènes entières.
La capacité de Marble à accepter des entrées visuelles multi-angulaires permet la création d'environnements de simulation haute fidélité. Ces environnements de simulation cohérents peuvent améliorer l'efficacité de la formation robotique et réduire le besoin de prototypage physique complexe.
Figure 3 : Le graphique montre le pipeline entrée-sortie de Marble. 4
5) V-JEPA 2 de Meta
Meta a introduit V-JEPA 2, un modèle du monde avancé basé sur la vidéo qui établit de nouvelles références en matière de raisonnement physique, de prédiction visuelle et de planification robotique zéro-shot.
Construit sur l'architecture prédictive d'intégration conjointe (JEPA), le modèle de 1,2 milliard de paramètres est entraîné avec plus d'un million d'heures de vidéo et des données d'interaction robotique supplémentaires, ce qui lui permet de comprendre et de prédire la dynamique d'objets et d'environnements inconnus.
V-JEPA 2 prend en charge la planification via une architecture encodeur-prédicteur et un apprentissage auto-supervisé, et obtient des résultats avancés sur des tâches telles que la reconnaissance d'actions, l'anticipation et la réponse aux questions vidéo.
Meta a également publié trois benchmarks : IntPhys 2 , MVPBench et CausalVQA , pour évaluer le raisonnement physique dans l'IA, mettant en évidence les écarts actuels entre l'IA et les performances humaines.
Le modèle est open-source pour la recherche et l'utilisation commerciale, marquant une étape importante vers l'objectif de Meta d'intelligence artificielle avancée (AMI) et le développement d' agents d'IA pratiques et adaptables. 5
Figure 4 : V-JEPA 2 est pré-entraîné sur des données vidéo et d'images à grande échelle, puis aligné avec un modèle de langage pour les tâches visuelles et étendu avec une petite quantité de données robotiques pour la planification et le contrôle en robotique. 6
6) NVIDIA Modèles de la Fondation Cosmos World
NVIDIA Cosmos World Foundation Models est une plateforme avancée conçue pour accélérer le développement de systèmes d'IA physiques, y compris les véhicules autonomes (VA) et les robots.
NVIDIA Cosmos Suite intègre des modèles de fondation du monde génératifs (WFM), des tokeniseurs avancés, des garde-fous intégrés et un pipeline de traitement vidéo à haute vitesse.
NVIDIA NeMo Curator, associé au pipeline accéléré par CUDA, traite 20 millions d'heures de vidéo en seulement deux semaines, réduisant ainsi les coûts et le temps.
Le logiciel Cosmos Tokenizer (référence 991259_1745) offre une compression supérieure et un traitement plus rapide des données d'image et vidéo. Voici les principales caractéristiques de la suite Cosmos (référence 991259_1745) :
- Permet la création de vastes quantités de données synthétiques photoréalistes, basées sur la physique, pour l'entraînement et l'évaluation des modèles d'IA.
- Génère des vidéos basées sur la physique à partir de diverses entrées telles que du texte, des images, de la vidéo et des données de capteurs.
- Simule des environnements industriels et de conduite complexes, y compris des entrepôts et des conditions routières variées.
- Facilite la recherche vidéo pour des scénarios spécifiques et l'évaluation des modèles dans des conditions simulées.
- Les développeurs peuvent affiner les WFM pour créer des modèles personnalisés adaptés à des applications spécifiques.
- Les WFM sont accessibles sous une licence ouverte afin de favoriser la collaboration au sein des communautés de la robotique et des véhicules autonomes.
- Les modèles peuvent être prévisualisés via le catalogue API de NVIDIA ou téléchargés depuis les plateformes NGC et Hugging Face de NVIDIA. 7
Figure 5 : Composants principaux de NVIDIA Cosmos Suite : curateur vidéo, tokeniseur vidéo, modèle de base du monde pré-entraîné, échantillons post-entraînement du modèle de base du monde et garde-fou. 8
Waabi, Foretellix, XPENG et Wayve utilisent les modèles de la Cosmos World Foundation (référence 991259_1745) pour simuler des scénarios de trafic, des conditions météorologiques et le comportement des piétons. Ces entreprises réalisent des tests dans des environnements virtuels sans essais physiques. 9
La plateforme utilise NVIDIA NeMo Curator pour traiter et étiqueter plus de 20 millions d'heures de vidéo via l'accélération CUDA en environ deux semaines.
Caractéristiques principales :
- Génère des scénarios étiquetés pour le trafic, la météo, l'éclairage et les piétons.
- Produit des vidéos photoréalistes à partir de données de capteurs.
- Simule les normes de conduite régionales pour la localisation.
- Permet une validation sans risque des systèmes AV.
7) Le Proc4Gem
Le système Proc4Gem utilise un modèle entraîné par simulation pour guider un robot quadrupède dans le suivi d'instructions linguistiques, poussant avec précision des objets dans des environnements réels inconnus. 10
Caractéristiques principales :
- Simule des environnements 3D réalistes pour l'entraînement de la perception et du contrôle moteur.
- Permet de suivre des instructions grâce au langage.
- Permet la planification à long terme et les tâches d'interaction.
- Permet de transférer les modèles de la simulation aux robots réels.
- Les cadres et les modèles sont disponibles publiquement via l'open source.
8) Genie 3 de DeepMind
Google DeepMind a lancé Genie 3, un système d'IA conçu pour générer des environnements virtuels interactifs à partir de descriptions textuelles en temps réel.
Spécifications techniques :
- Caractéristiques de performance : Le système fonctionne à 24 images par seconde, produisant une sortie en résolution 720p tout en maintenant une cohérence environnementale pendant plusieurs minutes d'interaction.
- Le modèle démontre des capacités de mémoire visuelle s'étendant sur environ une minute d'interactions passées.
- Catégories d'environnements : Genie 3 génère plusieurs types de mondes virtuels :
- Simulations physiques intégrant la dynamique des fluides, les effets d'éclairage et la physique environnementale.
- Les écosystèmes biologiques comprennent la flore, la faune et les interactions écologiques.
- Environnements fictifs avec des éléments non réalistes et des personnages animés.
- Reconstitutions géographiques et historiques de lieux et de périodes réels.
- Mécanismes d'interaction :
- Les événements mondiaux instantanés permettent la modification en temps réel des conditions environnementales et du placement des objets.
- La cohérence temporelle assure le maintien de propriétés physiques cohérentes au cours de sessions d'interaction prolongées.
- L'intégration d'agents permet aux agents autonomes d'effectuer des tâches orientées vers un objectif précis au sein d'environnements générés.
- Architecture technique : Le système utilise une génération de trames autorégressive plutôt que des représentations explicites de scènes 3D.
- Cette approche permet la création d'environnements dynamiques tout en relevant le défi informatique que représente le maintien de la cohérence à travers des séquences temporelles croissantes lors d'interactions en temps réel.
Applications et accès à la recherche :
L'accès est actuellement réservé à une sélection de chercheurs universitaires et de créateurs de contenu via un programme d'accès anticipé. Les applications de recherche potentielles incluent la simulation pédagogique , la formation de systèmes autonomes, l'évaluation du comportement des agents et l'analyse de scénarios contrefactuels pour les systèmes d'apprentissage automatique. 11
9) Terre-2 de NVIDIA
Earth-2 (NVIDIA) est une initiative visant à utiliser l'intelligence artificielle et le calcul haute performance (HPC) pour simuler le climat et les systèmes météorologiques terrestres en haute résolution. Elle représente une nouvelle approche des prévisions météorologiques et de la modélisation climatique.
Quelle est la technologie sous-jacente ?
NVIDIA utilise sa plateforme Omniverse , basée sur ses unités de traitement graphique (GPU) et ses outils d'IA, pour créer des simulations réalistes. L'objectif est de générer des simulations très détaillées et précises du climat terrestre en exploitant l'IA pour modéliser des phénomènes météorologiques complexes et établir des prévisions plus fiables.
Quel est l'impact ?
L'objectif ultime d'Earth-2 est de fournir de meilleures prévisions météorologiques, d'aider à comprendre les tendances climatiques à long terme et d'atténuer le changement climatique.
Des simulations plus précises peuvent permettre une meilleure préparation aux phénomènes météorologiques extrêmes, une utilisation plus efficace de l'énergie et des stratégies d'intervention en cas de catastrophe améliorées. 12
Pour découvrir comment la technologie d'IA de NVIDIA fait progresser les prévisions météorologiques et la modélisation climatique, regardez la vidéo ci-dessous pour un aperçu détaillé de la plateforme Earth-2 et de son impact sur les prévisions de tempêtes :
Cas d'utilisation des modèles de la Fondation mondiale
Robotique
En robotique, les modèles de base mondiaux jouent un rôle essentiel en permettant aux robots de fonctionner efficacement dans des environnements dynamiques et réels, notamment en :
1. Développer l'intelligence spatiale
Les robots acquièrent une compréhension de leur environnement grâce à des environnements d'entraînement simulés, ce qui leur permet de naviguer et de manipuler des objets avec précision.
2. Amélioration de l'efficacité de l'apprentissage
Les environnements simulés accélèrent la formation en proposant des scénarios contrôlés où les robots peuvent expérimenter et apprendre de leurs erreurs sans conséquences physiques.
3. Généralisation de la tâche
En intégrant des données provenant de diverses modalités telles que les capteurs visuels, auditifs et tactiles, les modèles de la Fondation mondiale prennent en charge l'apprentissage par transfert, permettant aux robots de s'adapter à de nouveaux environnements et à de nouvelles tâches avec un minimum de réentraînement.
4. Planification de tâches complexes
Ces modèles permettent aux robots d'effectuer une planification à long terme, comme l'assemblage d'objets, la prédiction des actions humaines ou la coordination avec d'autres robots dans des contextes industriels ou collaboratifs.
véhicules autonomes
Les modèles de fondation mondiaux peuvent améliorer le processus de développement des véhicules autonomes (VA) en :
5. Entraînement avec des données pré-étiquetées
Ils fournissent des ensembles de données vidéo pré-étiquetés et encodés qui permettent aux systèmes de véhicules autonomes d'identifier et d'interpréter avec précision les véhicules, les piétons et les objets environnants dans diverses conditions.
6. Génération de scénarios
Ces modèles peuvent créer des scénarios simulés, tels que différents schémas de circulation, conditions météorologiques et comportements piétonniers, qui comblent les lacunes des données d'entraînement réelles.
7. Évolutivité et localisation
Les développeurs peuvent utiliser des environnements virtuels pour reproduire les conditions dans de nouvelles zones géographiques, permettant ainsi aux véhicules autonomes de s'adapter à diverses réglementations routières, comportements de conduite culturels et conceptions d'infrastructures sans essais approfondis sur route.
8. Fusion et étalonnage des capteurs
Les modèles WFM peuvent simuler des entrées multisensorielles, telles que des caméras, des LiDAR, des radars et des GPS, au sein d'un même environnement. Cela permet aux systèmes de véhicules autonomes d'apprendre à fusionner et à calibrer précisément les données des capteurs, ce qui est essentiel pour comprendre la profondeur, la vitesse et le mouvement dans des contextes de conduite complexes.
9. Sécurité et rentabilité
Les systèmes de véhicules autonomes peuvent itérer et s'optimiser dans un environnement sans risque en effectuant des tests dans des environnements virtuels, ce qui réduit les coûts et le risque d'accidents lors des essais en conditions réelles.
Intégration multimodale
10. Les WFM avec d'autres ressources
L'intégration des WFM avec de grands modèles de langage (LLM) et d'autres ressources informatiques, comme le calcul haute performance (HPC), améliore les systèmes d'IA physique en ajoutant une compréhension sémantique.
Cette combinaison prend en charge les modèles de langage visuel et les capacités multimodales , permettant des interactions plus sophistiquées avec les données d'image et de vidéo.
Que sont les modèles de fondation mondiaux ?
Les modèles de base mondiaux sont des systèmes d'IA avancés conçus pour simuler et prédire les environnements du monde réel et leur dynamique.
Ces modèles traitent diverses données d'entrée, notamment des informations textuelles, des données visuelles telles que des images et des vidéos, et des données relatives au mouvement, afin de créer des simulations réalistes et immersives de scénarios physiques et virtuels.
La principale force des modèles de fondation du monde réside dans leur compréhension des principes physiques fondamentaux, tels que le mouvement, la force, la causalité et les relations spatiales.
Cela leur permet de simuler la manière dont les objets et les entités interagissent au sein d'un environnement donné, qu'il s'agisse du mouvement d'un véhicule, de la dynamique d'un bras robotisé ou de l'interaction d'objets dans un monde virtuel.
L'une des principales applications de ces modèles réside dans le développement et le perfectionnement des systèmes d'IA physique , tels que les robots et les véhicules autonomes. En fournissant un environnement sûr et contrôlé pour l'entraînement et les tests, ces modèles permettent de réduire le recours à l'expérimentation en conditions réelles, qui peut s'avérer coûteuse, chronophage et potentiellement dangereuse.
De plus, les modèles de fondation mondiaux peuvent générer un contenu vidéo réaliste de haute qualité, qui peut être utilisé à diverses fins, notamment le divertissement, l'éducation et la recherche.
Leur capacité à simuler des environnements précis et détaillés en fait des outils essentiels pour les développeurs, permettant des améliorations plus efficaces et précises des performances de l'IA.
Systèmes d'IA physique : définition et importance
Les applications d'IA physique désignent des systèmes d'intelligence artificielle équipés de capteurs pour percevoir le monde physique et d'actionneurs pour interagir avec lui et le modifier.
Elles permettent aux machines autonomes, telles que les robots, les voitures autonomes et autres dispositifs, d'effectuer des actions complexes dans des environnements réels.
Souvent décrite comme une « IA physique générative », elle étend les modèles d'IA générative en y intégrant une compréhension des relations spatiales et des règles physiques qui régissent le monde 3D.
Comment fonctionne l'IA physique ?
L'IA physique générative combine l'IA générative avec des données du monde physique pour des fonctionnalités améliorées.
Lors de leur entraînement, les systèmes d'IA sont confrontés à des simulations reproduisant des scénarios réels. Ces simulations s'appuient sur des jumeaux numériques , répliques virtuelles très précises d'espaces physiques tels que des usines, où sont intégrés des machines autonomes et des capteurs. L'environnement virtuel génère des données d'entraînement 3D, capturant des interactions comme le mouvement des objets, les collisions et la dynamique de la lumière.
L'apprentissage par renforcement est essentiel dans ce processus. Il permet aux machines d'acquérir des compétences par essais et erreurs dans ces environnements simulés. Des récompenses sont attribuées pour la réalisation des actions souhaitées, permettant à l'IA de s'adapter, de s'améliorer et, finalement, de maîtriser les tâches avec précision. Ce processus dote les machines de capacités motrices sophistiquées, indispensables aux applications concrètes.
Pourquoi les systèmes d'IA physiques sont-ils importants ?
Auparavant, les machines autonomes peinaient à percevoir leur environnement et à interagir efficacement avec lui. L'IA physique surmonte cette limitation en permettant aux robots et autres dispositifs de percevoir, de s'adapter et d'interagir avec leur environnement.
Les systèmes d'IA physique contribuent à améliorer l'efficacité, la sécurité et l'accessibilité dans tous les secteurs d'activité en créant des machines capables d'effectuer des tâches complexes, allant des interventions chirurgicales à la navigation dans les entrepôts .
L'IA physique s'appuie sur des simulations physiques avancées pour former les machines dans des environnements sûrs et contrôlés. Ces simulations accélèrent le développement, préviennent les dommages lors des premières phases d'apprentissage et garantissent l'aptitude au déploiement en conditions réelles.
Voici quelques applications physiques de l'IA :
- Robots mobiles autonomes (AMR) : Naviguent dans des environnements d’entrepôt complexes, évitent les obstacles et s’adaptent aux retours d’information des capteurs en temps réel.
- Manipulateurs : Effectuent des tâches délicates comme l'ajustement de la force de préhension et du positionnement en fonction de la pose de l'objet.
- Robots humanoïdes : Ils nécessitent des compétences motrices fines et globales pour percevoir, se déplacer et interagir dans le cadre de tâches diverses.
- Espaces intelligents : Les environnements intérieurs de grande envergure, tels que les entrepôts et les usines, bénéficient de l’IA physique et de l’IA générative dans les applications de la chaîne d’approvisionnement grâce à une sécurité accrue, une planification dynamique des itinéraires et une efficacité opérationnelle optimisée. Des modèles de vision par ordinateur avancés surveillent et optimisent les activités tout en privilégiant la sécurité des personnes.
- Robots chirurgicaux : Exécutent des opérations de précision, telles que la suture et l’enfilage d’aiguilles.
Exemple concret :
ORBIT-Surgical, développé par des chercheurs de l'Université de Toronto, de l'UC Berkeley, de l'ETH Zurich, de Georgia Tech et de NVIDIA, est un outil de simulation open source conçu pour l'entraînement des robots chirurgicaux. Il allège la charge cognitive des chirurgiens et améliore les performances des équipes.
Conçu sur le processeur Isaac Sim (NVIDIA), ce système prend en charge des tâches inspirées de la laparoscopie, comme la préhension d'aiguilles, le transfert d'objets et les placements précis. Grâce à l'accélération GPU, il permet un entraînement rapide des robots ; des tâches telles que l'insertion d'un shunt sont réalisées en moins de deux heures sur un seul GPU RTX (NVIDIA).
Le cadre utilise également Omniverse pour générer des données synthétiques de haute qualité pour l'entraînement des modèles de perception de l'IA, l'amélioration de la reconnaissance des outils et la réduction de la dépendance aux ensembles de données du monde réel. 13
Pourquoi le modèle de fondation mondiale est-il important ?
La construction de modèles du monde efficaces pour l'IA physique nécessite souvent de vastes ensembles de données dont la collecte est à la fois longue et coûteuse, en particulier lorsqu'il s'agit de capturer le large éventail de scénarios du monde réel nécessaires à une formation complète.
Les modèles de base mondiaux (WFM) peuvent relever ce défi en générant des données synthétiques . Ces données, riches, variées et évolutives, permettent aux développeurs d'entraîner plus efficacement les systèmes d'IA sans les difficultés logistiques liées à la collecte d'informations réelles.
Les ensembles de données synthétiques créés par les WFM permettent également de combler les lacunes dans des scénarios qui pourraient être rares ou difficiles à reproduire dans le monde réel.
L’entraînement et les tests des systèmes d’IA physique en environnement réel présentent des défis considérables. Parmi ceux-ci figurent les coûts élevés, les risques potentiels pour le matériel ou l’environnement, et la difficulté à maintenir des conditions contrôlées pour des tests cohérents.
Les modèles de la Fondation World offrent une solution en proposant des environnements 3D virtuels ultra-réalistes où les systèmes d'IA peuvent être entraînés et testés en toute sécurité. Ces environnements permettent aux développeurs de simuler des interactions physiques complexes, de tester de nouvelles fonctionnalités et d'affiner les comportements de l'IA de manière contrôlée et reproductible.
Technologies fondamentales à la base des modèles de la Fondation mondiale
La construction des modèles de la Fondation mondiale implique de multiples couches de processus et de technologies complexes, notamment la curation des données, la tokenisation, les réseaux neuronaux, la représentation interne, ainsi que le réglage fin et la spécialisation :
curation des données
La curation des données est la première étape du développement des modèles du monde réel. Elle consiste à organiser, nettoyer et préparer systématiquement de vastes ensembles de données réelles afin de garantir que le modèle soit entraîné sur des informations de haute qualité. Voici les étapes de la curation des données :
- Filtrage : identifie et conserve uniquement les données de haute qualité.
- Annotation : Étiquette les objets, actions et événements clés à l’aide de modèles vision-langage.
- Classification : catégorise les données en fonction d'objectifs de formation spécifiques.
- Déduplication : Utilise les intégrations vidéo pour identifier et supprimer les données redondantes afin d'améliorer l'efficacité.
Traitement vidéo
Le traitement vidéo implique :
- Découpage et transcodage de la vidéo en segments plus petits.
- Application de filtres de qualité pour isoler les données pertinentes à haute résolution.
Tokenisation
La tokenisation transforme les données visuelles brutes et multidimensionnelles en unités plus petites et plus faciles à gérer, appelées tokens, simplifiant ainsi les processus d'apprentissage automatique. Elle vise à réduire la redondance des pixels et à les convertir en tokens compacts et sémantiquement pertinents, permettant un entraînement et une inférence des modèles plus rapides et plus efficaces.
Il existe deux types de tokenisation : discrète (qui encode les données visuelles sous forme d’entiers) et continue (qui encode les données visuelles sous forme de vecteurs continus).
Réseaux neuronaux et représentation interne
Au cœur des modèles fondamentaux du monde se trouvent des réseaux neuronaux comportant des milliards de paramètres. Ces réseaux analysent les données pour créer et mettre à jour un état caché ou une représentation interne de l'environnement.
Les principales capacités comprennent :
- Perception : Extrait le mouvement, la profondeur et d'autres comportements dynamiques 3D à partir de vidéos et d'images.
- Prédiction : Anticipe les objets cachés, les schémas de mouvement et les événements potentiels en se basant sur des représentations apprises.
- Adaptation : Affine en permanence l'état caché grâce à l'apprentissage profond, garantissant ainsi la réactivité aux nouveaux scénarios et environnements.
Architectures de modèles
Les modèles de la Fondation mondiale utilisent des architectures de réseaux neuronaux spécialisées pour simuler et prédire efficacement les phénomènes physiques :
Modèles de diffusion
- Fonctionne en affinant le bruit aléatoire pour générer des vidéos de haute qualité.
- Idéal pour des tâches telles que la génération vidéo et le transfert de style.
modèles autorégressifs
- Générer la vidéo image par image, en prédisant chaque image suivante à partir des précédentes.
- Adapté à la complétion vidéo et à la prédiction des images futures.
Réglage fin et spécialisation
Initialement conçus pour des tâches générales, les modèles de la Fondation mondiale peuvent être affinés pour des applications spécifiques.
Les frameworks de réglage fin intègrent des bibliothèques, des SDK et des outils pour simplifier la préparation des données, l'entraînement des modèles, l'optimisation des performances et le déploiement des solutions, tout en permettant l'adaptation à des tâches spécialisées en robotique, systèmes autonomes et autres applications.
Avantages des modèles de fondation mondiaux
En tirant parti des modèles de la Fondation mondiale, les chercheurs et les ingénieurs peuvent accélérer les cycles de développement, réduire les coûts et minimiser les risques tout en construisant des systèmes d'IA physique plus robustes et adaptables.
Cette approche peut contribuer à la création d'applications d'IA avancées et garantir un déploiement plus sûr et plus efficace dans des scénarios réels.
Amélioration de la prise de décision et de la planification
Les modèles de la Fondation mondiale améliorent les systèmes d'IA physique en simulant des scénarios futurs potentiels à partir de diverses séquences d'actions. Grâce à des modules intégrés de coûts et de récompenses, ces modèles évaluent les résultats afin d'identifier les stratégies optimales.
Cette vision prospective permet aux concepteurs d'IA physique de résoudre des problèmes complexes, garantissant efficacité, adaptabilité et sécurité dans des environnements dynamiques.
Des simulations réalistes et physiquement exactes
Les modèles de la World Foundation, notamment les modèles de diffusion de NVIDIA, génèrent des simulations 3D haute fidélité en analysant les mouvements et les interactions des objets. Ces simulations sont essentielles pour l'entraînement des intelligences artificielles perceptives et le test des véhicules autonomes ou des systèmes robotiques dans des environnements variés.
Par exemple, les voitures autonomes peuvent être évaluées dans diverses conditions météorologiques et de circulation, tandis que les robots peuvent être testés pour la manipulation d'objets et l'exécution des tâches avant leur déploiement dans le monde réel.
intelligence prédictive
Les modèles de la Fondation mondiale fournissent une intelligence prédictive, permettant aux systèmes d'IA physique d'anticiper les scénarios et de prendre des décisions éclairées basées sur l'entraînement vidéo et les données historiques.
En tirant parti de la génération vidéo-monde et en générant des vidéos prenant en compte la physique, ces modèles contribuent à optimiser les stratégies, à améliorer la sécurité et à renforcer l'adaptabilité des configurations d'IA physique.
Amélioration du développement des politiques grâce aux modèles de la Fondation mondiale
Évaluation des politiques : Les modèles de la Fondation mondiale, tels que les modèles Cosmos NVIDIA, permettent aux développeurs de systèmes d'IA physique de tester et d'affiner les modèles de politiques dans des environnements virtuels plutôt que dans le monde physique.
Cette méthode, qui utilise des jumeaux numériques, est rentable et rapide. Elle permet de réaliser des tests variés dans des conditions inédites, et les développeurs peuvent concentrer les tâches et les ressources d'IA physique sur les politiques prometteuses en abandonnant rapidement les inefficaces.
Initialisation des politiques : les modèles de base du monde offrent une structure solide pour l’initialisation des modèles de politiques en modélisant la physique et la dynamique du monde réel. Cette approche permet de pallier la rareté des données et d’accélérer le développement des modèles d’IA physique.
Entraînement aux politiques : Associés à des modèles de récompense, les modèles World Foundation servent de substituts au monde physique dans les dispositifs d’apprentissage par renforcement. Ces modèles fournissent un retour d’information qui permet d’affiner les modèles de politiques grâce à des interactions simulées, améliorant ainsi leurs performances.
Plateformes du modèle de fondation Future of World
Les applications des modèles de fondation mondiaux devraient s'étendre bien au-delà des véhicules autonomes et de la robotique. Voici quelques exemples d'applications futures possibles :
Soins de santé
Ces modèles permettent une formation simulée pour les robots chirurgicaux et les dispositifs médicaux , garantissant précision et sécurité lors d'interventions complexes et améliorant ainsi les résultats pour les patients.
Éducation et formation
Les environnements virtuels peuvent fournir des simulations immersives à des fins d'éducation et de formation , notamment pour les opérateurs d'engins lourds, les pilotes et les secouristes, en reproduisant des scénarios à haut risque sans les risques du monde réel.
Jeux et divertissement
En créant des personnages d'IA plus interactifs et adaptatifs, ces modèles peuvent transformer les expériences de réalité virtuelle et augmentée , les rendant plus attrayantes et réalistes.
urbanisme
Les urbanistes peuvent exploiter ces modèles pour simuler les schémas de circulation, la dynamique piétonne et les modifications d'infrastructure, optimisant ainsi les conceptions avant leur mise en œuvre physique.
Sécurité et défense
Les modèles du monde devraient jouer un rôle essentiel dans la formation des drones et des agents autonomes pour les missions de surveillance, de recherche et de sauvetage, et d'intervention en cas de catastrophe, le tout dans des scénarios virtuels sûrs et contrôlés.
Soyez le premier à commenter
Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.