A pesar de los avances en los modelos de lenguaje a gran escala, la inteligencia artificial sigue teniendo limitaciones para comprender e interactuar con el mundo físico debido a las restricciones de las representaciones basadas en texto.
Los modelos a gran escala abordan esta deficiencia integrando datos multimodales para razonar sobre las acciones, modelar la dinámica del mundo real y predecir los cambios ambientales.
Descubra qué son los modelos de mundo grande, en qué se diferencian de otros enfoques, sus principales casos de uso, ejemplos del mundo real y los desafíos que implica su construcción.
¿Qué es un modelo de mundo grande?
Un modelo de mundo grande (LWM, por sus siglas en inglés) es una clase avanzada de modelos de inteligencia artificial que va más allá del enfoque basado en texto de los modelos de lenguaje grandes (LLM, por sus siglas en inglés) . Mientras que los LLM aprenden patrones a partir de secuencias lingüísticas, los LWM están diseñados para integrar y procesar datos multimodales a través de dimensiones espaciales, temporales y físicas.
Estos modelos pretenden representar el mundo real mediante la incorporación de texto, imágenes , audio, señales de sensores, secuencias de vídeo y entornos interactivos.
Los modelos de mundos vivos (LWM, por sus siglas en inglés) suelen describirse como un paso más hacia la creación de sistemas de IA capaces de comprender e interactuar con el mundo físico, ofreciendo capacidades como el razonamiento espacial, la comprensión de vídeo a largo plazo y la capacidad de predecir la dinámica en entornos complejos.
Figura 1: Un ejemplo de un modelo del mundo real que puede responder preguntas en vídeos de YouTube. 1
Arquitectura de modelos del mundo a gran escala
- Inferencia de precondiciones y efectos : Una característica fundamental, respaldada por investigaciones recientes, es el modelado explícito de lo que debe ser cierto antes de una acción (precondición) y qué cambios ocurren después (efecto). 2
- Coincidencia de estados semánticos : los modelos de mundos latentes utilizan módulos que alinean las precondiciones y los efectos inferidos con los estados actuales del mundo, lo que permite predecir acciones válidas y transiciones de estado.
- Modelos generativos :Generan vídeos , simulan entornos y predicen la dinámica en secuencias de vídeo extensas y entornos del mundo real.
- Escalabilidad : El entrenamiento se basa tanto en datos reales como en entornos de entrenamiento diversos e ilimitados, incluidas simulaciones sintéticas.
Se utilizan técnicas emergentes, como los campos de radiación neuronal (NeRF), la dispersión gaussiana y los mecanismos de atención en anillo, para mejorar la capacidad de manejar secuencias largas e interacciones dinámicas.
¿En qué se diferencia de los modelos de fundación mundial y de otros modelos mundiales?
- Los modelos fundacionales del mundo se centran en proporcionar una estructura general para razonar sobre el mundo. Sin embargo, suelen estar más cerca del paradigma LLM, haciendo hincapié en la representación simbólica y semántica del conocimiento humano.
- En el aprendizaje por refuerzo o la robótica, los modelos del mundo suelen modelar entornos específicos para entrenar agentes autónomos, a menudo limitados a herramientas de simulación o tareas específicas.
- Modelos de mundo grande : Se extienden más allá al modelar largas secuencias de acciones, predecir dinámicas e integrar entradas multimodales. Los modelos de mundo grande enfatizan el razonamiento de precondición-efecto, lo que les permite responder preguntas como "¿Es válida esta acción ahora?" y "¿Qué sucede si hago esto?" , capacidades que a menudo faltan en otros modelos.
En resumen, los modelos fundamentales del mundo proporcionan una base, mientras que los modelos LWM extienden estas capacidades a sistemas de IA físicos y experiencias interactivas.
Perspectivas de los investigadores sobre los modelos del mundo a gran escala.
Según las investigaciones sobre modelos de mundos a gran escala, se puede inferir que se trata de un simulador interno de propósito general que utiliza representaciones abstractas para predecir y evaluar estados futuros en entornos abiertos.
Se distingue tanto de los modelos del mundo pequeños y específicos para tareas como de las simulaciones grandes y puramente interactivas. Su propósito no es representar el mundo, sino razonar sobre él antes de actuar.
Estas son algunas de las conclusiones clave:
- En primer lugar, la escala por sí sola no es suficiente. Los entornos grandes o las simulaciones complejas no generan automáticamente modelos del mundo a gran escala, y los sistemas más pequeños también pueden considerarse modelos del mundo cuando capturan la evolución de los entornos. Lo que importa es la capacidad de generalizar entre tareas y dominios, no el tamaño en sí.
- En segundo lugar, los modelos del mundo a gran escala se basan en la abstracción. Los detalles sensoriales en bruto suelen ser demasiado frágiles para la planificación general, por lo que estos modelos operan con representaciones conceptuales comprimidas que preservan lo que es relevante para el razonamiento en diferentes contextos.
- En tercer lugar, los modelos de mundos complejos modifican el papel de los modelos de lenguaje. En lugar de generar únicamente acciones o texto, los modelos de lenguaje actúan como simuladores internos que predicen cómo podría responder el mundo a acciones hipotéticas, lo que permite la deliberación en lugar de la reacción.
- Finalmente, los modelos de mundos a gran escala redefinen la planificación. Esta se convierte en un proceso de simulación de posibles futuros, comparación de resultados y selección de acciones en función de las consecuencias previstas, acercando así el razonamiento de la IA a la toma de decisiones humanas.
Mundo PoE
Artículo de PoE-World 3 artículo aborda los modelos del mundo como modelos explícitos de la dinámica ambiental que facilitan la planificación y el control. Un modelo del mundo predice cómo cambia el entorno en respuesta a las acciones. Su principal preocupación no es la escala, sino la estructura: cómo representar el mundo de manera que permita la generalización y el razonamiento a largo plazo.
En lugar de basarse en una única red neuronal de gran tamaño, los autores argumentan que los modelos del mundo deberían ser compositivos. Proponen construir el modelo del mundo a partir de múltiples expertos programáticos más pequeños, cada uno responsable de un factor específico del entorno, como el movimiento o las interacciones de los objetos. Estos expertos se combinan matemáticamente para generar predicciones generales de estados futuros.
El artículo se muestra cauto respecto a los modelos neuronales complejos de extremo a extremo. Sugiere que aumentar el tamaño del modelo por sí solo no resuelve problemas como la interpretabilidad o el razonamiento sistemático. En su opinión, la estructura y la modularidad son más importantes que el número de parámetros.
Puntos clave
- Define un modelo mundial como un predictor de observaciones futuras a partir de observaciones y acciones pasadas.
- Hace hincapié en la estructura compositiva y simbólica, en lugar de en las grandes redes neuronales.
- Utiliza la colaboración de varios expertos independientes, combinados en un único modelo predictivo.
- Sostiene que los modelos monolíticos de mundo grande tienen dificultades con el razonamiento a largo plazo y el razonamiento compositivo.
- Se centra en la planificación y el control en entornos restringidos, en lugar de en entornos abiertos.
LatticeWorld
LatticeWorld 4 utiliza el término modelo de mundo en un sentido diferente. En este artículo, un modelo de mundo es principalmente un entorno virtual interactivo a gran escala, en lugar de un modelo predictivo aprendido. El objetivo es construir mundos 3D detallados y explorables para la interacción, la simulación y la generación de datos.
El artículo trata los modelos del mundo como entornos externos con los que los agentes o los humanos pueden interactuar. Estos entornos incluyen terreno, objetos, física y múltiples agentes, y están diseñados para asemejarse lo más posible a escenarios del mundo real, reduciendo así la brecha entre la simulación y la realidad. El énfasis recae en el realismo y la interactividad, no en la predicción interna de estados futuros.
Los modelos de lenguaje a gran escala desempeñan un papel secundario. Se utilizan para traducir texto e instrucciones visuales en representaciones simbólicas que definen la disposición y configuración de las escenas. El comportamiento real del mundo, incluyendo la física y las interacciones, es gestionado por un motor de juego, en lugar de por un modelo del mundo aprendido.
Puntos clave
- Utiliza el término "modelo del mundo" para referirse a un entorno simulado interactivo de alta fidelidad.
- Se centra en la generación del mundo más que en la dinámica del entorno de aprendizaje.
- Considera los modelos del mundo como fuentes de datos e interacción, en lugar de herramientas de razonamiento.
- Utiliza modelos LLM para la generación de configuraciones y diseños de escena, no para predicción ni planificación.
- No modela internamente las transiciones de estado ni los futuros contrafactuales.
SIMURA
SIMURA El 5 sitúa los modelos del mundo en el centro del comportamiento inteligente. Define un modelo del mundo como un simulador interno que un agente utiliza para imaginar estados futuros antes de actuar. El artículo contrasta explícitamente esto con el razonamiento autorregresivo token por token, argumentando que este carece de previsión y de la capacidad de realizar una evaluación contrafactual.
En este marco, el modelo del mundo predice cómo responderá el entorno a las acciones propuestas. Estas predicciones se evalúan en función de los objetivos del agente, lo que le permite elegir acciones basadas en resultados simulados en lugar de respuestas inmediatas. Por lo tanto, el modelo del mundo es el mecanismo que posibilita la planificación.
Lo que distingue a SIMURA es su escala y generalidad. El modelo del mundo se implementa utilizando modelos de lenguaje de gran tamaño y opera en entornos abiertos como la web. Los estados del mundo se representan en lenguaje natural, lo que permite la abstracción y la transferencia entre tareas sin necesidad de reentrenar modelos separados para cada entorno.
Puntos clave
- Define un modelo del mundo como un simulador interno utilizado para la planificación y la toma de decisiones.
- Utiliza modelos del mundo real para evaluar futuros contrafactuales antes de actuar.
- Implementa el modelo del mundo utilizando modelos de lenguaje de gran tamaño.
- Representa estados y transiciones del mundo en lenguaje natural, en lugar de incrustaciones continuas.
- Se centra en entornos generales y abiertos, en lugar de tareas específicas.
Casos de uso de modelos de mundos grandes
Cuidado de la salud
Los modelos de vida basados en datos (LWM, por sus siglas en inglés) en el ámbito sanitario pueden integrar historiales clínicos, datos genómicos y datos biométricos en tiempo real con información ambiental. Al modelar las interacciones entre estos conjuntos de datos, pueden respaldar tratamientos personalizados, predecir riesgos para la salud con mayor antelación y guiar la toma de decisiones quirúrgicas mediante análisis en tiempo real.
Planificación urbana y ciudades inteligentes
Mediante el análisis de los flujos de tráfico, el consumo de energía y los datos ambientales, los modelos de gestión del tráfico urbano (LWM, por sus siglas en inglés) pueden simular intervenciones a escala urbana. Por ejemplo, pueden predecir cómo los nuevos proyectos de infraestructura impactan la contaminación, la movilidad o la demanda de energía, lo que permite tomar decisiones informadas en entornos complejos.
Robótica y sistemas autónomos
Para vehículos autónomos y robots, los modelos de mundo real (LWM) proporcionan una comprensión más profunda de las propiedades espaciales y las interacciones entre objetos. Facilitan el entrenamiento en diversos entornos y condiciones reales, lo que permite a las máquinas autónomas navegar de forma más segura y adaptativa.
Educación y formación
Los LWM pueden generar experiencias interactivas y mundos virtuales realistas para el entrenamiento de habilidades. En campos como la aviación o la medicina, los LWM pueden simular escenarios de alto riesgo, lo que permite a los estudiantes practicar en entornos virtuales seguros y realistas.
Monitoreo ambiental
Los modelos de gestión de la vida procesan datos satelitales, información de sensores y secuencias extensas de datos ambientales para predecir la dinámica climática. Esto permite a las partes interesadas optimizar el uso de los recursos, monitorear los impactos de la deforestación o modelar escenarios de desastre.
Juegos y entretenimiento
Gracias a su capacidad para generar vídeos y simulaciones inmersivas a partir de una sola imagen o descripción en lenguaje natural, los LWM abren un abanico de posibilidades para experiencias interactivas en videojuegos, realidad aumentada y realidad virtual. Su capacidad para crear secuencias de vídeo de un millón de minutos supone un salto cualitativo en realismo y creatividad.
Ejemplos reales de modelos del mundo a gran escala
Mármol: Un modelo mundial multimodal
Mármol 6 es un modelo de mundo multimodal desarrollado por World Labs. Está diseñado para crear mundos 3D persistentes y de alta fidelidad que pueden generarse, editarse y explorarse de forma interactiva mediante diversos tipos de datos de entrada.
Características principales
- Generación de mundos multimodales: Marble puede generar entornos 3D completos a partir de indicaciones de texto , imágenes , vídeos o diseños 3D.
- Edición y expansión interactivas: Una vez creado un entorno, Marble proporciona herramientas para editarlo y expandirlo . Los usuarios pueden refinar elementos del mundo, modificar diseños y perfeccionar los existentes.
- Mundos 3D persistentes: Los mundos creados por Marble mantienen la coherencia espacial y pueden ser revisitados, modificados o combinados con otros mundos generados.
- Funcionalidades de exportación: Marble permite a los usuarios exportar los mundos generados en múltiples formatos, incluyendo imágenes gaussianas, mallas y vídeo. Estos archivos pueden utilizarse en otras herramientas, flujos de trabajo y aplicaciones posteriores, más allá de la propia interfaz de Marble.
Vea el siguiente video para ver un ejemplo de generación de video a partir de texto :
Genie 3: Un modelo de mundo fotorrealista en tiempo real para entornos interactivos.
Google DeepMind presentó Genie 3 7 como un modelo de mundo de propósito general capaz de generar entornos interactivos y fotorrealistas a partir de indicaciones de texto.
A diferencia de los modelos generativos anteriores, que producen escenas estáticas o videoclips cortos, Genie 3 simula mundos que se pueden explorar y con los que se puede interactuar en tiempo real, lo que supone un importante avance en el modelado de entornos para la IA encarnada.
El modelo está diseñado para ayudar a los sistemas de IA a comprender cómo funciona el mundo, permitiéndoles experimentar, actuar y observar las consecuencias de sus acciones en entornos dinámicos. Esto posiciona a Genie 3 como una capacidad fundamental para entrenar agentes que deben razonar, planificar y adaptarse en entornos complejos.
El siguiente vídeo muestra cómo Genie puede modelar el mundo físico y crear resultados utilizando indicaciones del entorno y de los personajes:
Capacidades clave
- Simulación del mundo en tiempo real: Genie 3 genera entornos que se ejecutan a aproximadamente 20-24 fotogramas por segundo, lo que permite una interacción continua en lugar de secuencias pregeneradas.
- Control interactivo: Los mundos generados son totalmente navegables. Los humanos o los agentes de IA pueden moverse por los entornos e interactuar con ellos, y el modelo simula cómo responde el mundo a esas acciones.
- Renderizado fotorrealista: Los mundos se generan con una resolución de 720p y una alta fidelidad visual, capturando texturas, iluminación y detalles ambientales realistas.
- Coherencia y memoria del mundo: Genie 3 mantiene la coherencia interna a lo largo del tiempo. Cuando los usuarios vuelven a visitar lugares vistos anteriormente, el modelo recuerda y reconstruye los detalles previos en lugar de generarlos de nuevo.
- Verosimilitud física: Los entornos reflejan la estructura y la dinámica del mundo real, lo que permite que el modelo simule paisajes y entornos naturales de una manera que facilita la exploración intuitiva.
Limitaciones de Genie 3
- Gama de acciones limitada: Genie 3 actualmente admite un conjunto restringido de interacciones. Si bien los usuarios pueden navegar por los entornos y activar ciertos cambios mediante indicaciones de texto, los agentes aún no pueden realizar un conjunto amplio o totalmente autónomo de acciones dentro del mundo virtual.
- Dinámica básica de múltiples agentes: El modelo se limita a simular interacciones complejas entre múltiples agentes independientes. La coordinación realista, la competencia o el comportamiento emergente entre varios agentes sigue siendo un reto de investigación abierto.
- Sin una precisión absoluta en el mundo real : Genie 3 no produce reconstrucciones totalmente exactas de ubicaciones específicas del mundo real. Si bien los entornos parecen realistas, deben entenderse como simulaciones plausibles en lugarde réplicas digitales precisas.
- Limitaciones en la representación de texto : El texto dentro de entornos (como letreros o etiquetas escritas) no se genera de forma fiable a menos que se especifique explícitamente en la solicitud, e incluso en ese caso, puede ser imperfecto.
Declarar
El trabajo de Decart en modelos de mundo a gran escala (LWM, por sus siglas en inglés) abarca tanto las experiencias del consumidor como la infraestructura empresarial.
Su plataforma Oasis permite a los usuarios generar y explorar mundos virtuales adaptativos con vídeo en tiempo real y funciones interactivas que evolucionan en respuesta a las acciones del usuario. A menudo comparada con Minecraft, Oasis ha atraído a millones de usuarios por sus dinámicas experiencias audiovisuales.
Para las empresas, Decart ofrece una herramienta de optimización de GPU que mejora la eficiencia durante el entrenamiento y la inferencia. Esta solución acelera el desarrollo de modelos, reduce los costos de implementación y permite a las empresas escalar sus aplicaciones de IA de forma más económica. 8
Desafíos y cómo mitigarlos
A pesar de su potencial, los sistemas de gestión de residuos líquidos se enfrentan a varios desafíos:
- Complejidad de los datos : El entrenamiento requiere conjuntos de datos masivos y multimodales que abarquen secuencias de vídeo, audio, sensores y lenguaje. La mitigación implica combinar la generación de datos sintéticos con el ajuste fino en datos del mundo real.
- Intensidad computacional : El manejo de secuencias largas y la comprensión de vídeo requieren una gran capacidad de procesamiento. Se están desarrollando técnicas como la atención en anillo y la optimización de la longitud de las secuencias para hacer que el entrenamiento sea más eficiente.
- Sesgo y seguridad : La incorporación del conocimiento humano y los datos del mundo real aumenta los riesgos de sesgo o mal uso. Es fundamental un entrenamiento cuidadoso del modelo, su evaluación con nuevos parámetros de referencia y la supervisión ética.
- Privacidad : Los entornos del mundo real suelen incluir información personal y sensible. Es necesario contar con capacitación en materia de protección de la privacidad y marcos de gobernanza claros.
Perspectivas futuras
Los modelos de mundos a gran escala representan un cambio de paradigma en la inteligencia artificial. No son simplemente versiones ampliadas de los modelos existentes, sino que introducen la capacidad de aprender de entornos del mundo real, generar vídeos que tengan en cuenta la física y permitir que las máquinas autónomas actúen en entornos dinámicos.
A medida que la tecnología madure, es probable que los LWM (maquinas de manipulación de objetos) constituyan la columna vertebral de los sistemas de IA físicos que conectan las experiencias del mundo virtual y del mundo real, dando soporte tanto a aplicaciones industriales especializadas como a experiencias interactivas orientadas al consumidor.
Sé el primero en comentar
Tu dirección de correo electrónico no será publicada. Todos los campos son obligatorios.