Malgré les progrès réalisés dans le domaine des grands modèles de langage, l'intelligence artificielle reste limitée dans sa capacité à comprendre et à interagir avec le monde physique en raison des contraintes des représentations textuelles.
Les modèles à grande échelle du monde comblent cette lacune en intégrant des données multimodales pour raisonner sur les actions, modéliser les dynamiques du monde réel et prédire les changements environnementaux.
Découvrez ce que sont les modèles du monde à grande échelle, en quoi ils diffèrent des autres approches, leurs principaux cas d'utilisation, des exemples concrets et les défis liés à leur construction.
Qu'est-ce qu'un modèle du monde à grande échelle ?
Un modèle de monde étendu (LWM) est une classe avancée de modèles d'intelligence artificielle qui dépasse le cadre textuel des grands modèles de langage (LLM) . Alors que les LLM apprennent des schémas à partir de séquences linguistiques, les LWM sont conçus pour intégrer et traiter des données multimodales selon des dimensions spatiales, temporelles et physiques.
Ces modèles visent à représenter le monde réel en intégrant du texte, des images , de l'audio, des signaux de capteurs, des séquences vidéo et des environnements interactifs.
Les LWM sont souvent décrites comme un pas de plus vers la construction de systèmes d'IA capables de comprendre et d'interagir avec le monde physique, offrant des capacités telles que le raisonnement spatial, la compréhension vidéo à long terme et la capacité de prédire la dynamique dans des environnements complexes.
Figure 1 : Exemple de modèle du monde à grande échelle capable de répondre aux questions posées dans les vidéos YouTube. 1
Architecture des grands modèles du monde
- Inférence des préconditions et des effets : Une caractéristique essentielle, étayée par des recherches récentes, est la modélisation explicite de ce qui doit être vrai avant une action (précondition) et des changements qui surviennent après (effet). 2
- Correspondance d'état sémantique : les LWM utilisent des modules qui alignent les préconditions et les effets inférés avec les états actuels du monde, permettant ainsi la prédiction d'actions valides et de transitions d'état.
- Modèles génératifs : Ilsgénèrent des vidéos , simulent des environnements et prédisent la dynamique dans des séquences vidéo étendues et des environnements réels.
- Évolutivité : L'entraînement repose à la fois sur des données réelles et sur des environnements d'entraînement diversifiés et illimités, y compris des simulations synthétiques.
Des techniques émergentes, telles que les champs de radiance neuronaux (NeRF), le splatting gaussien et les mécanismes d'attention annulaire, sont utilisées pour améliorer la capacité à gérer de longues séquences et des interactions dynamiques.
En quoi diffère-t-il des modèles de fondation mondiale et des autres modèles mondiaux ?
- Les modèles de fondation du monde visent à fournir un cadre général pour raisonner sur le monde. Cependant, ils sont souvent plus proches du paradigme LLM, privilégiant la représentation symbolique et sémantique de la connaissance humaine.
- Les modèles du monde utilisés en apprentissage par renforcement ou en robotique modélisent généralement des environnements spécifiques pour la formation d'agents autonomes, souvent limités à des outils de simulation ou à des tâches spécifiques.
- Modèles à grande échelle : Ils permettent de modéliser de longues séquences d’actions, de prédire les dynamiques et d’intégrer des données multimodales. Ces modèles privilégient le raisonnement précondition-effet, ce qui leur permet de répondre à des questions telles que « Cette action est-elle valide maintenant ? » et « Que se passe-t-il si je fais cela ? » , des capacités souvent absentes des autres modèles.
En résumé, les modèles de base du monde fournissent une base, tandis que les LWM étendent ces capacités aux systèmes d'IA physiques et aux expériences interactives.
Perspectives des chercheurs sur les modèles du monde à grande échelle
D'après les recherches sur les modèles de monde à grande échelle, on peut en déduire qu'il s'agit d'un simulateur interne à usage général qui utilise des représentations abstraites pour prédire et évaluer les états futurs dans des environnements ouverts.
Il se distingue à la fois des petits modèles du monde dédiés à une tâche spécifique et des grandes simulations purement interactives. Son but n'est pas de représenter le monde, mais de le comprendre avant d'agir.
Voici quelques points clés à retenir :
- Tout d'abord, la taille seule ne suffit pas. Les environnements vastes ou les simulations complexes ne produisent pas automatiquement de grands modèles du monde, et les systèmes plus petits peuvent tout à fait servir de modèles du monde s'ils reproduisent l'évolution des environnements. Ce qui compte, c'est la capacité de généraliser à différentes tâches et domaines, et non la taille brute.
- Deuxièmement, les modèles du monde à grande échelle reposent sur l'abstraction. Les détails sensoriels bruts sont souvent trop fragiles pour la planification générale ; ces modèles fonctionnent donc à partir de représentations conceptuelles compressées qui préservent ce qui est pertinent pour le raisonnement dans différents contextes.
- Troisièmement, les modèles du monde à grande échelle modifient le rôle des modèles de langage. Au lieu de générer uniquement des actions ou du texte, les modèles de langage agissent comme des simulateurs internes qui prédisent comment le monde pourrait réagir à des actions hypothétiques, permettant ainsi la délibération plutôt que la réaction.
- Enfin, les modèles du monde à grande échelle redéfinissent la planification. Celle-ci devient un processus de simulation de futurs possibles, de comparaison des résultats et de sélection des actions en fonction des conséquences attendues, rapprochant ainsi le raisonnement de l'IA de la prise de décision humaine.
PoE-World
Article de PoE-World L'article considère les modèles du monde comme des modèles explicites de la dynamique environnementale, facilitant la planification et le contrôle. 3 les perçoit comme des outils permettant de prédire l'évolution de l'environnement en réponse aux actions entreprises. Son principal intérêt réside non pas dans l'échelle, mais dans la structure : comment représenter le monde de manière à permettre la généralisation et le raisonnement à long terme ?
Au lieu de s'appuyer sur un unique et vaste réseau neuronal, les auteurs préconisent une approche compositionnelle pour les modèles du monde. Ils proposent de construire le modèle à partir de plusieurs petits modules experts, chacun responsable d'un facteur spécifique de l'environnement, comme le mouvement des objets ou leurs interactions. Ces modules sont ensuite combinés mathématiquement pour produire des prédictions globales des états futurs.
L'article met en garde contre les grands modèles neuronaux de bout en bout. Il suggère qu'augmenter la taille du modèle à lui seul ne résout pas les problèmes d'interprétabilité ou de raisonnement systématique. Selon ses auteurs, la structure et la modularité sont plus importantes que le nombre de paramètres.
Points clés
- Définit un modèle du monde comme un prédicteur des observations futures à partir des observations et actions passées.
- Privilégie la structure compositionnelle et symbolique plutôt que les grands réseaux neuronaux.
- Utilise plusieurs petits experts combinés en un seul modèle prédictif.
- Il soutient que les modèles monolithiques à grande échelle ont du mal avec le raisonnement à long terme et le raisonnement compositionnel.
- Elle se concentre sur la planification et le contrôle dans des environnements contraints plutôt que dans des contextes ouverts.
LatticeWorld
LatticeWorld Le terme 4 modèle du monde » est employé dans un sens différent dans cet article. Il désigne ici principalement un environnement virtuel interactif à grande échelle plutôt qu’un modèle prédictif appris. L’accent est mis sur la construction de mondes 3D détaillés et explorables, destinés à l’interaction, à la simulation et à la génération de données.
Cet article considère les modèles de monde comme des environnements externes avec lesquels des agents ou des humains peuvent interagir. Ces environnements comprennent le terrain, les objets, la physique et de multiples agents, et sont conçus pour reproduire fidèlement des situations réelles afin de réduire l'écart entre simulation et réalité. L'accent est mis sur le réalisme et l'interactivité, et non sur la prédiction des états futurs.
Les grands modèles de langage jouent un rôle de soutien. Ils servent à traduire les instructions textuelles et visuelles en représentations symboliques qui définissent l'agencement et la configuration des scènes. Le comportement du monde réel, y compris la physique et les interactions, est géré par un moteur de jeu et non par un modèle de monde appris.
Points clés
- Utilise le terme « modèle du monde » pour désigner un environnement simulé interactif de haute fidélité.
- Elle se concentre sur la génération mondiale plutôt que sur la dynamique de l'environnement d'apprentissage.
- Considère les modèles du monde comme des sources de données et d'interaction plutôt que comme des outils de raisonnement.
- Utilise les LLM pour la génération de la configuration et de l'agencement de la scène, et non pour la prédiction ou la planification.
- Ne modélise pas en interne les transitions d'état ni les futurs contrefactuels.
SIMURA
SIMURA L'article 5 place les modèles du monde au cœur du comportement intelligent. Il définit un modèle du monde comme un simulateur interne qu'un agent utilise pour imaginer les états futurs avant d'agir. L'article oppose explicitement ce modèle au raisonnement autorégressif itératif, qui, selon lui, manque de prévoyance et d'aptitude à l'évaluation contrefactuelle.
Dans ce cadre, le modèle du monde prédit la réaction de l'environnement aux actions envisagées. Ces prédictions sont ensuite évaluées au regard des objectifs de l'agent, lui permettant ainsi de choisir ses actions en fonction de résultats simulés plutôt que de réactions immédiates. Le modèle du monde constitue donc le mécanisme qui rend possible la planification.
Ce qui distingue SIMURA, c'est son envergure et sa généralité. Le modèle du monde est implémenté à l'aide de grands modèles de langage et fonctionne dans des environnements ouverts tels que le web. Les états du monde sont représentés en langage naturel, ce qui permet l'abstraction et le transfert entre les tâches sans avoir à réentraîner des modèles distincts pour chaque environnement.
Points clés
- Définit un modèle du monde comme un simulateur interne utilisé pour la planification et la prise de décision.
- Utilise des modèles du monde pour évaluer les futurs contrefactuels avant d'agir.
- Met en œuvre le modèle du monde à l'aide de grands modèles de langage.
- Représente les états et les transitions du monde en langage naturel plutôt qu'en plongements continus.
- Cible des environnements généraux et ouverts plutôt que des tâches spécifiques.
Cas d'utilisation des grands modèles du monde
Soins de santé
Les modèles de réseaux de neurones (LWM) en santé permettent d'intégrer les dossiers patients, les données génomiques et les données biométriques en temps réel aux données environnementales. En modélisant les interactions entre ces ensembles de données, ils peuvent favoriser des traitements personnalisés, prédire plus tôt les risques pour la santé et orienter les décisions chirurgicales grâce à une analyse en temps réel.
Aménagement urbain et villes intelligentes
En analysant les flux de circulation, la consommation d'énergie et les données environnementales, les modèles de gestion de l'environnement (LWM) peuvent simuler des interventions à l'échelle d'une ville. Par exemple, ils peuvent prédire l'impact de nouveaux projets d'infrastructure sur la pollution, la mobilité ou la demande énergétique, permettant ainsi de prendre des décisions éclairées dans des environnements complexes.
Robotique et systèmes autonomes
Pour les véhicules et robots autonomes , les modèles de terrain (LWM) offrent une compréhension plus fine des propriétés spatiales et des interactions entre objets. Ils facilitent l'entraînement dans des environnements variés et en conditions réelles, permettant ainsi aux machines autonomes de naviguer de manière plus sûre et adaptative.
Éducation et formation
Les environnements virtuels interactifs (LWM) peuvent générer des expériences interactives et des mondes virtuels réalistes pour la formation aux compétences. Dans des domaines tels que l'aviation ou la médecine, les LWM peuvent simuler des scénarios à haut risque, permettant aux apprenants de s'exercer dans des environnements virtuels à la fois sûrs et réalistes.
surveillance environnementale
Les modèles de gestion du climat (LWM) traitent les données satellitaires, les flux de capteurs et de longues séquences d'informations environnementales pour prédire la dynamique climatique. Cela permet aux acteurs concernés d'optimiser l'utilisation des ressources, de suivre les impacts de la déforestation ou de modéliser des scénarios de catastrophe.
Jeux et divertissement
Grâce à leur capacité à générer des vidéos et des simulations immersives à partir d'une simple image ou description, les LWM ouvrent la voie à des expériences interactives inédites dans les jeux vidéo, la réalité augmentée et la réalité virtuelle. Leur aptitude à créer des séquences vidéo de plusieurs millions de secondes représente un bond en avant en matière de réalisme et de créativité.
Exemples concrets de maquettes du monde à grande échelle
Marble : un modèle du monde multimodal
Marbre 6 est un modèle de monde multimodal développé par World Labs. Il est conçu pour créer des mondes 3D persistants et de haute fidélité, qui peuvent être générés, modifiés et explorés de manière interactive à l'aide de diverses entrées.
Caractéristiques principales
- Génération de mondes multimodaux : Marble peut générer des environnements 3D complets à partir d’invites textuelles , d’images , de vidéos ou de mises en page 3D.
- Édition et extension interactives : Une fois l’environnement créé, Marble propose des outils pour le modifier et l’étendre . Les utilisateurs peuvent peaufiner les éléments du monde, modifier les agencements et itérer sur les conceptions.
- Mondes 3D persistants : Les mondes créés par Marble conservent une cohérence spatiale et peuvent être revisités, itérés ou composés avec d’autres mondes générés.
- Fonctionnalités d'exportation : Marble permet aux utilisateurs d'exporter les mondes générés dans de multiples formats, notamment des projections gaussiennes, des maillages et des vidéos. Ces fichiers peuvent être utilisés dans d'autres outils, flux de travail et applications en aval, au-delà de l'interface de Marble elle-même.
Voir la vidéo ci-dessous pour un exemple de génération de texte en vidéo :
Genie 3 : Un modèle du monde photoréaliste en temps réel pour les environnements interactifs
Google DeepMind a présenté Genie 3 7 comme modèle de monde à usage général capable de générer des environnements interactifs et photoréalistes à partir d'invites textuelles.
Contrairement aux modèles génératifs précédents qui produisent des scènes statiques ou de courts clips vidéo, Genie 3 simule des mondes que l'on peut explorer et avec lesquels on peut interagir en temps réel, ce qui représente une avancée majeure dans la modélisation de l'environnement pour l'IA incarnée.
Ce modèle vise à aider les systèmes d'IA à comprendre le fonctionnement du monde en leur permettant d'expérimenter, d'agir et d'observer les conséquences de leurs actions dans des environnements dynamiques. Genie 3 se positionne ainsi comme une capacité fondamentale pour la formation d'agents capables de raisonner, de planifier et de s'adapter dans des contextes complexes.
La vidéo ci-dessous montre comment Genie peut modéliser le monde physique et créer des résultats à partir d'éléments de l'environnement et des indications des personnages :
Capacités clés
- Simulation du monde en temps réel : Genie 3 génère des environnements qui fonctionnent à environ 20 à 24 images par seconde, permettant une interaction continue plutôt que des séquences pré-générées.
- Contrôlabilité interactive : les mondes générés sont entièrement navigables. Les humains ou les agents IA peuvent se déplacer dans les environnements et interagir avec eux, le modèle simulant la façon dont le monde réagit à ces actions.
- Rendu photoréaliste : les mondes sont produits en résolution 720p avec une haute fidélité visuelle, capturant des textures, un éclairage et des détails environnementaux réalistes.
- Cohérence du monde et mémoire : Genie 3 assure une cohérence interne au fil du temps. Lorsque les utilisateurs revisitent des lieux déjà visités, le modèle se souvient et reconstitue les détails antérieurs au lieu de les générer de nouveau.
- Plausibilité physique : les environnements reflètent la structure et la dynamique du monde réel, permettant au modèle de simuler des paysages et des milieux naturels d’une manière qui favorise une exploration intuitive.
Limitations de Genie 3
- Actions limitées : Genie 3 ne prend actuellement en charge qu’un ensemble restreint d’interactions. Si les utilisateurs peuvent naviguer dans les environnements et déclencher certains changements via des invites textuelles, les agents ne peuvent pas encore effectuer un large éventail d’actions, ni être totalement autonomes, dans le monde virtuel.
- Dynamique multi-agents de base : Le modèle se limite à la simulation d’interactions complexes entre plusieurs agents indépendants. La coordination réaliste, la compétition ou les comportements émergents entre plusieurs agents restent un défi de recherche ouvert.
- Précision limitée par rapport au monde réel : Genie 3 ne produit pas de reconstitutions parfaitement exactes de lieux réels. Bien que les environnements paraissent réalistes, il convient de les considérer comme des simulations plausibles plutôt que commedes jumeaux numériques précis.
- Limitations du rendu du texte : le texte dans les environnements (tels que les panneaux ou les étiquettes écrites) n’est pas généré de manière fiable, sauf s’il est explicitement spécifié dans l’invite, et même dans ce cas, il peut être imparfait.
Décart
Les travaux de Decart sur les modèles de monde à grande échelle (LWM) couvrent à la fois les expériences des consommateurs et l'infrastructure des entreprises.
Sa plateforme Oasis permet aux utilisateurs de créer et d'explorer des mondes virtuels adaptatifs avec vidéo en temps réel et des fonctionnalités interactives qui évoluent en fonction des actions de l'utilisateur. Souvent comparée à Minecraft, Oasis a séduit des millions d'utilisateurs grâce à ses expériences audiovisuelles dynamiques.
Pour les entreprises, Decart propose un outil d'optimisation GPU qui améliore l'efficacité lors de l'entraînement et de l'inférence. Cette solution accélère le développement des modèles, réduit les coûts de déploiement et permet aux entreprises de déployer leurs applications d'IA à plus grande échelle et à moindre coût. 8
Les défis et comment les atténuer
Malgré leur potentiel, les LWM font face à plusieurs défis :
- Complexité des données : L’entraînement nécessite des ensembles de données multimodaux massifs comprenant des séquences vidéo, audio, de capteurs et de langage. Pour y remédier, on combine la génération de données synthétiques avec un ajustement fin sur des données réelles.
- Intensité de calcul : Le traitement des longues séquences et la compréhension vidéo exigent une puissance de calcul considérable. Des techniques comme l’attention circulaire et l’optimisation de la longueur des séquences sont développées pour rendre l’entraînement plus efficace.
- Biais et sécurité : L’intégration de connaissances humaines et de données réelles accroît les risques de biais ou d’utilisation abusive. Un entraînement rigoureux du modèle, une évaluation sur de nouveaux critères de référence et un contrôle éthique sont essentiels.
- Protection de la vie privée : Les environnements réels contiennent souvent des informations personnelles et sensibles. Des formations sur la protection de la vie privée et des cadres de gouvernance clairs sont nécessaires.
Perspectives d'avenir
Les modèles du monde à grande échelle représentent un changement de paradigme en intelligence artificielle. Il ne s'agit pas simplement de versions agrandies de modèles existants, mais ils introduisent la capacité d'apprendre à partir d'environnements réels, de générer des vidéos prenant en compte les lois de la physique et de permettre aux machines autonomes d'agir dans des contextes dynamiques.
À mesure que la technologie mûrit, les LWM sont susceptibles de constituer l'épine dorsale des systèmes d'IA physiques qui font le lien entre les expériences virtuelles et réelles, prenant en charge à la fois les applications industrielles spécialisées et les expériences interactives destinées aux consommateurs.
Soyez le premier à commenter
Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.