Contáctanos
No se encontraron resultados.

Modelos de fundaciones mundiales: 10 casos de uso

Cem Dilmegani
Cem Dilmegani
actualizado el Feb 11, 2026
Vea nuestra normas éticas

El entrenamiento de robots y vehículos autónomos (VA) en el mundo físico puede ser costoso, lento y arriesgado. Los modelos de World Foundation ofrecen una alternativa escalable al permitir simulaciones realistas de entornos del mundo real.

Estos modelos aceleran el desarrollo y la implementación en robótica, vehículos autónomos y otros ámbitos al reducir la dependencia de las pruebas físicas.

Descubra cómo funcionan los modelos de World Foundation, sus casos de uso reales y los beneficios tangibles que ofrecen.

Los 9 mejores modelos de fundaciones del mundo

1) Alpamayo de NVIDIA

Alpamayo, de NVIDIA, es una nueva familia de modelos de IA de código abierto, herramientas de simulación y conjuntos de datos diseñados para hacer que los vehículos autónomos sean más seguros mediante la toma de decisiones basada en el razonamiento.

Para respaldar este enfoque, Alpamayo reúne tres componentes clave:

  • Alpamayo 1, un modelo VLA de cadena de pensamiento de 10 mil millones de parámetros que explica sus decisiones de conducción.
  • AlpaSim, un marco de simulación de código abierto para pruebas y validación.
  • Conjuntos de datos abiertos de IA física, que incluyen más de 1700 horas de datos de conducción reales y diversos.

Estos modelos no están diseñados para ejecutarse directamente en vehículos. En cambio, sirven como modelos didácticos a gran escala que los desarrolladores pueden perfeccionar e integrar en sistemas de producción para vehículos autónomos, mejorando así la seguridad y la escalabilidad. 1

2) NVIDIA GR00T N1.6 de Investigación

NVIDIA GR00T N1.6 de Research es un modelo de base abierta actualizado para robots humanoides de propósito general. Basado en GR00T N1.5, la nueva versión ofrece un rendimiento superior tanto en simulaciones como en pruebas del mundo real, incluyendo tareas de manipulación bimanual y locomoción de cuerpo completo en robots como YAM, AgiBot Genie-1 y Unitree G1 (ver figura a continuación).

Figura 1: Gráficos comparativos de GR00T N1.6 frente a GR00T N1.5.

GR00T N1.6 incluye mejoras arquitectónicas y de entrenamiento, como un transformador de difusión más grande, un modelo de lenguaje visual más avanzado y datos de preentrenamiento ampliados que suman miles de horas de demostraciones de robots teleoperados. Estos cambios ayudan al modelo a aprender movimientos más fluidos y precisos, y a adaptarse más rápidamente durante el postentrenamiento.

En lugar de centrarse en un solo robot o tarea, GR00T N1.6 está diseñado como una política generalista que puede transferirse a través de diferentes plataformas humanoides.

El informe NVIDIA muestra una convergencia más rápida, mayor destreza y un rendimiento mejorado en tareas a largo plazo, lo que convierte a N1.6 en un importante paso adelante para el aprendizaje abierto y escalable de robots humanoides. 2

Mira el vídeo a continuación para ver el GR00T N1.6 en acción.

Vídeo que muestra el despliegue de la política GR00T N1.6.

3) PAN

PAN es un modelo de mundo interactivo general diseñado para la predicción a largo plazo y la simulación condicionada por la acción. Se basa en una arquitectura de predicción latente generativa que combina un modelo de dinámica latente autorregresiva con un decodificador de difusión de vídeo.

Este diseño permite que el sistema simule cómo evoluciona un entorno en respuesta a acciones específicas proporcionadas en lenguaje natural, manteniendo al mismo tiempo la consistencia temporal y la coherencia visual.

PAN admite la generación de despliegues en múltiples pasos, donde un agente puede proponer acciones, simular sus posibles resultados y seleccionar secuencias que permitan alcanzar mejor un objetivo definido. El modelo también puede realizar razonamientos contrafactuales evaluando cómo podrían cambiar los resultados de la tarea si se modifican las interacciones entre objetos o las trayectorias de movimiento.

Los resultados experimentales demuestran que logra un rendimiento sólido en pruebas comparativas de predicción visual a largo plazo, razonamiento físico y planificación, en comparación con modelos de código abierto similares.

En robótica, estas capacidades permiten a los robots o sistemas de entrenamiento predecir la dinámica del entorno, probar estrategias internamente antes de ejecutarlas y refinar las políticas de las tareas, reduciendo así los costos y riesgos de las repetidas pruebas físicas.

Figura 2: Imagen que muestra la arquitectura del modelo PAN, que combina una estructura base autorregresiva basada en LLM para la simulación mundial a largo plazo. 3

4) Mármol de World Labs

Marble, de World Labs, genera entornos 3D persistentes y editables a partir de indicaciones de texto, imágenes individuales o múltiples, vídeos, panoramas y diseños 3D.

A diferencia de los sistemas generativos en tiempo real que transforman continuamente las escenas durante la exploración, Marble produce mundos estables que se pueden exportar como manchas gaussianas, mallas o vídeos. La plataforma incluye Chisel, un editor 3D híbrido que separa la estructura espacial del estilo visual.

Esta herramienta permite a los desarrolladores organizar elementos geométricos básicos, como paredes u objetos grandes, y luego aplicar indicaciones estilísticas para completar la escena.

Los usuarios también pueden reposicionar objetos directamente en el editor y expandir el mundo generado para incluir regiones cercanas adicionales. Estas funciones permiten a los equipos de robótica crear réplicas digitales realistas de espacios de trabajo, probar la navegación y la manipulación en entornos controlados e iterar rápidamente en el diseño de la disposición o las tareas sin tener que reconstruir escenas completas.

La capacidad de Marble para aceptar entradas visuales desde múltiples ángulos permite crear entornos de simulación de alta fidelidad. Estos entornos de simulación consistentes pueden mejorar la eficiencia del entrenamiento robótico y reducir la necesidad de realizar prototipos físicos extensos.

Figura 3: El gráfico muestra el flujo de entrada a salida de Marble. 4

5) V-JEPA 2 de Meta

Meta ha presentado V-JEPA 2, un modelo del mundo avanzado basado en vídeo que establece nuevos referentes en razonamiento físico, predicción visual y planificación robótica de cero disparos.

Basado en la arquitectura predictiva de incrustación conjunta (JEPA, por sus siglas en inglés), el modelo de 1200 millones de parámetros se entrena con más de un millón de horas de vídeo y datos adicionales de interacción con robots, lo que le permite comprender y predecir la dinámica de objetos y entornos desconocidos.

V-JEPA 2 admite la planificación mediante una arquitectura codificador-predictor y aprendizaje autosupervisado, y logra resultados avanzados en tareas como el reconocimiento de acciones, la anticipación y la respuesta a preguntas en vídeo.

Meta también publicó tres pruebas de rendimiento: IntPhys 2 , MVPBench y CausalVQA , para evaluar el razonamiento físico en la IA, destacando las brechas actuales entre el rendimiento de la IA y el humano.

El modelo es de código abierto tanto para investigación como para uso comercial, lo que marca un paso significativo hacia el objetivo de Meta de inteligencia artificial avanzada (AMI) y el desarrollo de agentes de IA prácticos y adaptables. 5

Figura 4: V-JEPA 2 se preentrena con grandes conjuntos de datos de vídeo e imágenes, luego se alinea con un modelo de lenguaje para tareas visuales y se amplía con una pequeña cantidad de datos de robots para la planificación y el control en robótica. 6

6) NVIDIA Modelos de la Fundación Cosmos World

NVIDIA Cosmos World Foundation Models es una plataforma avanzada diseñada para acelerar el desarrollo de sistemas de IA física, incluidos vehículos autónomos (AV) y robots.

NVIDIA Cosmos Suite integra modelos generativos de base mundial (WFM), tokenizadores avanzados, barandillas incorporadas y una canalización de procesamiento de vídeo de alta velocidad.

NVIDIA NeMo Curator, junto con el sistema acelerado por CUDA, procesa 20 millones de horas de vídeo en tan solo dos semanas, reduciendo así los costes y el tiempo.

El tokenizador Cosmos NVIDIA logra una compresión superior y un procesamiento de datos de imagen y video más rápido. Estas son las características clave de Cosmos Suite NVIDIA:

  • Permite la creación de grandes cantidades de datos sintéticos fotorrealistas basados en la física para el entrenamiento y la evaluación de modelos de IA.
  • Genera vídeos basados en la física utilizando diversas entradas como texto, imágenes, vídeo y datos de sensores.
  • Simula entornos industriales y de conducción complejos, incluyendo almacenes y diversas condiciones de la carretera.
  • Facilita la búsqueda de vídeos para escenarios específicos y la evaluación de modelos en condiciones simuladas.
  • Los desarrolladores pueden ajustar los WFM para crear modelos personalizados adaptados a aplicaciones específicas.
  • Los WFM están disponibles bajo una licencia abierta para fomentar la colaboración dentro de las comunidades de robótica y vehículos autónomos.
  • Los modelos se pueden previsualizar a través del catálogo API de NVIDIA o descargar desde las plataformas NGC y Hugging Face de NVIDIA. 7

Figura 5: Componentes principales de NVIDIA Cosmos Suite: curador de video, tokenizador de video, modelo de base mundial preentrenado, muestras posteriores al entrenamiento del modelo de base mundial y guardabarreras. 8

Waabi, Foretellix, XPENG y Wayve utilizan los modelos de la Fundación Cosmos World (NVIDIA) para simular escenarios de tráfico, condiciones meteorológicas y comportamientos peatonales. Estas empresas realizan pruebas en entornos virtuales sin ensayos físicos. 9

La plataforma utiliza NeMo Curator (NVIDIA) para procesar y etiquetar más de 20 millones de horas de vídeo mediante aceleración CUDA en aproximadamente dos semanas.

Características principales:

  • Genera escenarios etiquetados de tráfico, clima, iluminación y peatones.
  • Produce vídeo fotorrealista a partir de datos de sensores.
  • Simula las normas de conducción regionales para la localización.
  • Permite la validación sin riesgos de los sistemas audiovisuales.

7) El Proc4Gem

El sistema Proc4Gem utiliza un modelo entrenado mediante simulación para guiar a un robot cuadrúpedo a seguir instrucciones en lenguaje natural, empujando objetos con precisión en entornos del mundo real desconocidos. 10

Características principales:

  • Simula entornos 3D realistas para entrenar la percepción y el control motor.
  • Facilita el seguimiento de instrucciones mediante el lenguaje.
  • Permite la planificación a largo plazo y las tareas de interacción.
  • Permite transferir modelos de la simulación a robots reales.
  • Los marcos de trabajo y los modelos están disponibles públicamente a través de código abierto.

8) Genie 3 de DeepMind

Google DeepMind ha lanzado Genie 3, un sistema de IA diseñado para generar entornos virtuales interactivos a partir de descripciones textuales en tiempo real.

Especificaciones técnicas:

  • Características de rendimiento : El sistema funciona a 24 fotogramas por segundo, produciendo una salida con resolución de 720p y manteniendo la consistencia ambiental durante varios minutos de interacción.
    • El modelo demuestra capacidades de memoria visual que se extienden aproximadamente un minuto hacia interacciones pasadas.
  • Categorías de entorno : Genie 3 genera múltiples tipos de mundos virtuales:
    • Simulaciones físicas que incorporan dinámica de fluidos, efectos de iluminación y física ambiental.
    • Los ecosistemas biológicos se caracterizan por la flora, la fauna y las interacciones ecológicas.
    • Entornos ficticios con elementos no realistas y personajes animados.
    • Reconstrucciones geográficas e históricas de lugares y épocas reales.
  • Mecanismos de interacción:
    • Los eventos del mundo que se pueden configurar permiten modificar en tiempo de ejecución las condiciones ambientales y la ubicación de los objetos.
    • La consistencia temporal mantiene propiedades físicas coherentes a lo largo de sesiones de interacción prolongadas.
    • La integración de agentes permite que los agentes autónomos realicen tareas orientadas a objetivos dentro de entornos generados.
  • Arquitectura técnica: El sistema emplea la generación de fotogramas autorregresiva en lugar de representaciones explícitas de escenas 3D.
    • Este enfoque permite la creación de entornos dinámicos al tiempo que aborda el desafío computacional de mantener la coherencia a lo largo de secuencias temporales cada vez mayores durante la interacción en tiempo real.

Aplicaciones y acceso a la investigación:

Actualmente, el acceso está restringido a investigadores académicos y creadores de contenido seleccionados mediante un programa de vista previa limitado. Entre las posibles aplicaciones de investigación se incluyen la simulación educativa , el entrenamiento de sistemas autónomos, la evaluación del comportamiento de agentes y el análisis de escenarios contrafactuales para sistemas de aprendizaje automático. 11

Vídeo que explica Genie 3, un modelo de mundo que crea diversos entornos interactivos a partir de descripciones de texto.

9) Tierra-2 de NVIDIA

Earth-2, de NVIDIA, es una iniciativa diseñada para utilizar inteligencia artificial y computación de alto rendimiento (HPC) para simular los sistemas climáticos y meteorológicos de la Tierra con alta resolución. Representa un nuevo enfoque para la predicción meteorológica y la modelización climática.

¿Qué tecnología hay detrás?

NVIDIA utiliza su plataforma Omniverse , que se basa en las unidades de procesamiento gráfico (GPU) y las herramientas de IA de NVIDIA, para crear simulaciones realistas. El objetivo es generar simulaciones muy detalladas y precisas del clima terrestre mediante el uso de IA para modelar patrones meteorológicos complejos y realizar pronósticos más exactos.

¿Cuál es el impacto?

El objetivo final de Earth-2 es proporcionar mejores pronósticos meteorológicos, ayudar a comprender las tendencias climáticas a largo plazo y mitigar el cambio climático.

Las simulaciones más precisas pueden conducir a una mejor preparación ante fenómenos meteorológicos extremos, un uso más eficiente de la energía y mejores estrategias de respuesta ante desastres. 12

Para explorar cómo la tecnología de IA de NVIDIA está impulsando la predicción meteorológica y la modelización climática, vea el siguiente vídeo para obtener una visión detallada de la plataforma Earth-2 y su impacto en las predicciones de tormentas:

La plataforma Earth-2 de NVIDIA combina modelos basados en IA para proporcionar pronósticos meteorológicos globales y regionales, ofreciendo información valiosa para minimizar los daños. Earth-2 incluye servicios de pronóstico impulsados por IA, simulaciones en la nube, federación de datos y visualización interactiva, todo optimizado para la plataforma empresarial de IA de NVIDIA.

Casos de uso de los modelos de la Fundación Mundial

Robótica

En robótica, los modelos de la Fundación Mundial desempeñan un papel fundamental al permitir que los robots operen eficazmente en entornos dinámicos del mundo real mediante:

1. Desarrollar la inteligencia espacial

Los robots comprenden su entorno a través de entornos de entrenamiento simulados, lo que les permite navegar y manipular objetos con precisión.

2. Mayor eficiencia en el aprendizaje

Los entornos simulados aceleran el entrenamiento al proporcionar escenarios controlados donde los robots pueden experimentar y aprender de sus errores sin consecuencias físicas.

3. Generalización de tareas

Al integrar información procedente de diversas modalidades, como sensores visuales, auditivos y táctiles, los modelos de World Foundation facilitan el aprendizaje por transferencia, lo que permite a los robots adaptarse a nuevos entornos y tareas con un mínimo de reentrenamiento.

4. Planificación de tareas complejas

Estos modelos permiten a los robots realizar una planificación a largo plazo, como ensamblar objetos, predecir acciones humanas o coordinarse con otros robots en entornos industriales o colaborativos.

Vehículos autónomos

Los modelos de base mundial pueden mejorar el proceso de desarrollo de vehículos autónomos (VA) mediante:

5. Entrenamiento con datos preetiquetados

Proporcionan conjuntos de datos de vídeo preetiquetados y codificados que permiten a los sistemas de vehículos autónomos identificar e interpretar con precisión los vehículos, peatones y objetos circundantes en diversas condiciones.

6. Generación de escenarios

Estos modelos pueden crear escenarios simulados, como diversos patrones de tráfico, condiciones climáticas y comportamientos de los peatones, que cubren las deficiencias de los datos de entrenamiento del mundo real.

7. Escalabilidad y localización

Los desarrolladores pueden utilizar entornos virtuales para replicar las condiciones de nuevas ubicaciones geográficas, lo que permite que los vehículos autónomos se adapten a diversas normativas viales, comportamientos de conducción culturales y diseños de infraestructura sin necesidad de extensas pruebas en carretera.

8. Fusión y calibración de sensores

Los WFM pueden simular entradas de múltiples sensores, como cámara, LiDAR, radar y GPS, dentro del mismo entorno. Esto ayuda a los sistemas de vehículos autónomos a entrenarse para lograr una fusión y calibración precisas de los sensores, esenciales para comprender la profundidad, la velocidad y el movimiento en contextos de conducción complejos.

9. Seguridad y eficiencia de costos

Los sistemas AV pueden iterar y optimizarse en un entorno libre de riesgos mediante pruebas en entornos virtuales, lo que reduce los costos y la posibilidad de accidentes durante las pruebas en el mundo real.

Integración multimodal

10. WFM con otros recursos

La integración de los modelos de flujo de trabajo (WFM) con modelos de lenguaje extensos (LLM) y otros recursos informáticos, como la computación de alto rendimiento (HPC), mejora los sistemas de IA física al añadir comprensión semántica.

Esta combinación admite modelos de lenguaje visual y capacidades multimodales , lo que permite interacciones más sofisticadas con datos de imagen y vídeo.

¿Qué son los modelos de la Fundación Mundial?

Los modelos de la Fundación Mundial son sistemas avanzados de IA diseñados para simular y predecir entornos del mundo real y su dinámica.

Estos modelos procesan diversos datos de entrada, incluyendo información textual, datos visuales como imágenes y vídeos, y datos relacionados con el movimiento, para crear simulaciones realistas e inmersivas de escenarios físicos y virtuales.

La capacidad fundamental de los modelos fundacionales del mundo reside en su comprensión de principios físicos fundamentales, como el movimiento, la fuerza, la causalidad y las relaciones espaciales.

Esto les permite simular cómo interactúan los objetos y las entidades dentro de un entorno determinado, ya sea el movimiento de un vehículo, la dinámica de un brazo robótico o la interacción de objetos en un mundo virtual.

Una aplicación clave de estos modelos reside en el desarrollo y perfeccionamiento de sistemas de IA físicos , como robots y vehículos autónomos. Al proporcionar un entorno seguro y controlado para el entrenamiento y las pruebas, estos modelos pueden reducir la necesidad de experimentación en el mundo real, la cual puede ser costosa, consumir mucho tiempo y ser potencialmente peligrosa.

Además, los modelos de la base del mundo pueden generar contenido de vídeo realista y de alta calidad, que puede utilizarse para diversos fines, como entretenimiento, educación e investigación.

Su capacidad para simular entornos precisos y detallados las convierte en herramientas esenciales para los desarrolladores, permitiendo mejoras en el rendimiento de la IA más eficientes y precisas.

Sistemas de IA física: Definición e importancia

Las aplicaciones de IA física se refieren a sistemas de inteligencia artificial equipados con sensores para percibir el mundo físico y actuadores para interactuar con él y modificarlo.

Estas tecnologías permiten que máquinas autónomas, como robots, coches autónomos y otros dispositivos, realicen acciones complejas en entornos del mundo real.

A menudo descrita como "IA física generativa", amplía los modelos de IA generativa con una comprensión de las relaciones espaciales y las reglas físicas que rigen el mundo 3D.

¿Cómo funciona la IA física?

La IA física generativa combina la IA generativa con datos del mundo físico para mejorar la funcionalidad.

Durante el entrenamiento, los sistemas de IA se exponen a simulaciones que imitan escenarios del mundo real. Estas simulaciones se basan en gemelos digitales , réplicas virtuales de alta precisión de espacios físicos como fábricas, donde se introducen máquinas autónomas y sensores. El entorno virtual genera datos de entrenamiento en 3D, capturando interacciones como el movimiento de objetos, las colisiones y la dinámica de la luz.

El aprendizaje por refuerzo es fundamental en este proceso. Permite que las máquinas adquieran habilidades mediante ensayo y error en entornos simulados. Se otorgan recompensas por completar las acciones deseadas, lo que permite a la IA adaptarse, mejorar y, finalmente, dominar las tareas con precisión. Este proceso dota a las máquinas de las sofisticadas habilidades motoras necesarias para aplicaciones del mundo real.

¿Por qué son importantes los sistemas de IA físicos?

Anteriormente, las máquinas autónomas tenían dificultades para percibir e interactuar eficazmente con su entorno. La IA física supera esta limitación al permitir que los robots y otros dispositivos perciban, se adapten e interactúen con su entorno.

Los sistemas de IA física ayudan a mejorar la eficiencia, la seguridad y la accesibilidad en todos los sectores, creando máquinas capaces de realizar tareas complejas, desde procedimientos quirúrgicos hasta la navegación en almacenes .

La IA física se basa en simulaciones avanzadas basadas en la física para entrenar máquinas en entornos seguros y controlados. Estas simulaciones aceleran el desarrollo, previenen daños durante las primeras etapas de aprendizaje y garantizan la preparación para su implementación en el mundo real.

Estas son algunas de las aplicaciones físicas de la IA:

  • Robots móviles autónomos (AMR): Navegan por entornos complejos de almacenes, evitan obstáculos y se adaptan a la información de los sensores en tiempo real.
  • Manipuladores : Realizan tareas delicadas como ajustar la fuerza de agarre y el posicionamiento en función de la postura del objeto.
  • Robots humanoides: Requieren habilidades motoras finas y gruesas para percibir, navegar e interactuar en diversas tareas.
  • Espacios inteligentes: Los entornos interiores a gran escala, como almacenes y fábricas, se benefician de la IA física y la IA generativa en aplicaciones de la cadena de suministro mediante una mayor seguridad, una planificación dinámica de rutas y una mayor eficiencia operativa. Los modelos avanzados de visión artificial supervisan y optimizan las actividades, priorizando la seguridad humana.
  • Robots quirúrgicos: Realizan operaciones de precisión, como suturar y enhebrar agujas.

Ejemplo de la vida real:

ORBIT-Surgical, desarrollado por investigadores de la Universidad de Toronto, UC Berkeley, ETH Zurich, Georgia Tech y NVIDIA, es un marco de simulación de código abierto diseñado para entrenar robots quirúrgicos. Reduce la carga cognitiva de los cirujanos y mejora el rendimiento del equipo.

Basado en el procesador Isaac Sim (NVIDIA), admite tareas inspiradas en la laparoscopia, como sujetar agujas, transferir objetos y realizar colocaciones precisas. Gracias a la aceleración por GPU, puede entrenar robots rápidamente; tareas como la inserción de derivaciones se completan en menos de dos horas con una sola GPU RTX (NVIDIA).

El marco también utiliza Omniverse para generar datos sintéticos de alta calidad para entrenar modelos de percepción de IA, mejorar el reconocimiento de herramientas y reducir la dependencia de conjuntos de datos del mundo real. 13

¿Por qué es importante el Modelo de Fundación Mundial?

La creación de modelos del mundo real eficaces para la IA física a menudo requiere conjuntos de datos enormes, cuya recopilación es laboriosa y costosa, especialmente cuando se trata de capturar la amplia gama de escenarios del mundo real necesarios para un entrenamiento integral.

Los Modelos de Fundación Mundial (WFM, por sus siglas en inglés) pueden abordar este desafío mediante la generación de datos sintéticos . Estos datos son ricos, variados y escalables, y permiten a los desarrolladores entrenar sistemas de IA de manera más eficaz sin los problemas logísticos que implica recopilar información del mundo real.

Los conjuntos de datos sintéticos creados por los WFM también ayudan a llenar los vacíos en escenarios que podrían ser raros o difíciles de replicar en el mundo real.

El entrenamiento y las pruebas de sistemas de IA física en entornos reales plantean desafíos importantes. Estos incluyen altos costos, riesgos potenciales para los equipos o el entorno, y la dificultad de mantener condiciones controladas para realizar pruebas consistentes.

Los modelos de World Foundation ofrecen una solución al proporcionar entornos virtuales 3D altamente realistas donde los sistemas de IA pueden entrenarse y probarse de forma segura. Estos entornos permiten a los desarrolladores simular interacciones físicas complejas, probar nuevas capacidades y perfeccionar el comportamiento de la IA de manera controlada y reproducible.

Vídeo de NVIDIA que explica los sistemas de IA física.

Tecnologías clave que sustentan los modelos de la Fundación Mundial

La construcción de los Modelos de la Fundación Mundial implica múltiples capas de procesos y tecnologías complejas, que incluyen la curación de datos, la tokenización, las redes neuronales, la representación interna y el ajuste fino y la especialización:

Curación de datos

La curación de datos es el primer paso en el desarrollo de modelos del mundo real. Implica organizar, limpiar y preparar sistemáticamente conjuntos de datos extensos del mundo real para garantizar que el modelo se entrene con información de alta calidad. Estos son los pasos de la curación de datos:

  • Filtrado: Identifica y conserva únicamente los datos de alta calidad.
  • Anotación: Etiqueta objetos, acciones y eventos clave utilizando modelos de lenguaje visual.
  • Clasificación: Categoriza los datos para objetivos de entrenamiento específicos.
  • Eliminación de duplicados: Utiliza elementos de vídeo incrustados para identificar y eliminar datos redundantes y así mejorar la eficiencia.

Procesamiento de vídeo

El procesamiento de vídeo implica:

  • Dividir y transcodificar el vídeo en segmentos más pequeños.
  • Aplicar filtros de calidad para aislar los datos relevantes de alta resolución.

Tokenización

La tokenización transforma los datos visuales brutos de alta dimensionalidad en unidades más pequeñas y manejables llamadas tokens, simplificando así los procesos de aprendizaje automático. Su objetivo es reducir la redundancia de píxeles y convertirlos en tokens compactos y semánticamente significativos, lo que permite un entrenamiento e inferencia de modelos más rápidos y eficientes.

Existen dos tipos de tokenización: discreta (que codifica los datos visuales como números enteros) y continua (que codifica los datos visuales como vectores continuos).

Redes neuronales y representación interna

En el núcleo de los modelos fundamentales del mundo se encuentran redes neuronales con miles de millones de parámetros. Estas redes analizan datos para crear y actualizar un estado oculto o una representación interna del entorno.

Entre sus principales capacidades se incluyen:

  • Percepción: Extrae movimiento, profundidad y otros comportamientos dinámicos 3D de vídeos e imágenes.
  • Predicción: Anticipa objetos ocultos, patrones de movimiento y eventos potenciales basándose en representaciones aprendidas.
  • Adaptación: Perfecciona continuamente el estado oculto mediante el aprendizaje profundo, lo que garantiza la capacidad de respuesta a nuevos escenarios y entornos.

Arquitecturas de modelos

Los modelos fundacionales mundiales utilizan arquitecturas de redes neuronales especializadas para simular y predecir fenómenos físicos de forma eficaz:

Modelos de difusión

  • Funciona refinando el ruido aleatorio para generar vídeos de alta calidad.
  • Ideal para tareas como la generación de vídeo y la transferencia de estilo.

Modelos autorregresivos

  • Genera vídeo fotograma a fotograma, prediciendo cada fotograma siguiente en función de los anteriores.
  • Adecuado para la finalización de vídeo y la predicción de fotogramas futuros.

Ajuste fino y especialización

Inicialmente entrenados para tareas generales, los modelos base del mundo real pueden ajustarse para aplicaciones específicas.

Los marcos de ajuste fino integran bibliotecas, SDK y herramientas para simplificar la preparación de datos, el entrenamiento de modelos, la optimización del rendimiento y la implementación de soluciones, al tiempo que permiten la adaptación a tareas especializadas en robótica, sistemas autónomos y otras aplicaciones.

Beneficios de los modelos de fundación mundial

Al aprovechar los modelos de World Foundation, los investigadores e ingenieros pueden acelerar los ciclos de desarrollo, reducir los costos y minimizar los riesgos, al tiempo que construyen sistemas de IA física más robustos y adaptables.

Este enfoque puede ayudar a crear aplicaciones de IA avanzadas y garantizar una implementación más segura y eficiente en escenarios del mundo real.

Mejora de la toma de decisiones y la planificación.

Los modelos de World Foundation mejoran los sistemas de IA física simulando posibles escenarios futuros basados en diversas secuencias de acciones. Mediante módulos integrados de coste o recompensa, estos modelos evalúan los resultados para identificar las estrategias óptimas.

Esta capacidad de previsión permite a los desarrolladores de IA física resolver desafíos complejos, garantizando la eficiencia, la adaptabilidad y la seguridad en entornos dinámicos.

Simulaciones realistas y físicamente precisas

Los modelos de la Fundación Mundial, incluidos los modelos de difusión de NVIDIA, generan simulaciones 3D de alta fidelidad al comprender cómo se mueven e interactúan los objetos. Estas simulaciones son fundamentales para entrenar la IA de percepción y probar vehículos autónomos o sistemas robóticos en diversos entornos.

Por ejemplo, los coches autónomos pueden evaluarse en diversas condiciones meteorológicas y de tráfico, mientras que los robots pueden probarse en cuanto a manipulación de objetos y rendimiento en tareas antes de su implementación en el mundo real.

Inteligencia predictiva

Los modelos de World Foundation proporcionan inteligencia predictiva, lo que permite a los sistemas de IA física anticipar escenarios y tomar decisiones informadas basadas en entrenamiento con vídeo y datos históricos.

Aprovechando la generación de vídeos a partir de modelos del mundo real y la creación de vídeos que tienen en cuenta la física, estos modelos ayudan a optimizar las estrategias, mejorar la seguridad y aumentar la adaptabilidad en las configuraciones de IA física.

Mejora del desarrollo de políticas con los modelos de la Fundación Mundial.

Evaluación de políticas: Los modelos de la Fundación Mundial, como los modelos Cosmos NVIDIA, permiten a los desarrolladores de sistemas de IA física probar y refinar modelos de políticas en entornos virtuales en lugar del mundo físico.

Este método utiliza gemelos digitales y resulta rentable y eficiente en cuanto al tiempo. Permite realizar pruebas diversas en condiciones desconocidas, y los desarrolladores pueden centrar las tareas y los recursos de la IA física en las políticas prometedoras, descartando rápidamente las ineficaces.

Inicialización de políticas: Los modelos World Foundation proporcionan una base sólida para inicializar modelos de políticas mediante la modelización de la física y la dinámica del mundo real. Este enfoque aborda los desafíos de la escasez de datos y acelera el desarrollo de modelos de IA física.

Entrenamiento de políticas: En combinación con modelos de recompensa, los modelos World Foundation actúan como sustitutos del mundo físico en configuraciones de aprendizaje por refuerzo. Estos modelos proporcionan retroalimentación que ayuda a ajustar los modelos de políticas mediante interacciones simuladas, mejorando así sus capacidades.

Plataformas del modelo de la Fundación Mundial para el futuro

Se prevé que las aplicaciones de los modelos de fundamentos mundiales se extiendan mucho más allá de los vehículos autónomos y la robótica. Algunas de las posibles aplicaciones futuras de los modelos de fundamentos mundiales incluyen:

Cuidado de la salud

Estos modelos permiten realizar entrenamientos simulados para robots quirúrgicos y dispositivos médicos , garantizando precisión y seguridad durante procedimientos complejos y, en última instancia, mejorando los resultados para los pacientes.

Educación y formación

Los entornos virtuales pueden proporcionar simulaciones inmersivas para la educación y la formación , específicamente para operadores de maquinaria pesada, pilotos y personal de respuesta a emergencias, al replicar escenarios de alto riesgo sin los riesgos del mundo real.

Juegos y entretenimiento

Al crear personajes de IA más interactivos y adaptables, estos modelos pueden transformar las experiencias de realidad virtual y aumentada , haciéndolas más atractivas y realistas.

Planificación urbana

Los planificadores urbanos pueden aprovechar estos modelos para simular patrones de tráfico, dinámicas peatonales y cambios en la infraestructura, optimizando los diseños antes de su implementación física.

Seguridad y defensa

Se prevé que los modelos del mundo real sean esenciales para el entrenamiento de drones y agentes autónomos en misiones de vigilancia, búsqueda y rescate, y respuesta ante desastres, todo ello dentro de escenarios virtuales seguros y controlados.

Cem Dilmegani
Cem Dilmegani
Analista principal
Cem ha sido el analista principal de AIMultiple desde 2017. AIMultiple informa a cientos de miles de empresas (según similarWeb), incluyendo el 55% de las empresas Fortune 500 cada mes. El trabajo de Cem ha sido citado por importantes publicaciones globales como Business Insider, Forbes, Washington Post, firmas globales como Deloitte, HPE y ONG como el Foro Económico Mundial y organizaciones supranacionales como la Comisión Europea. Puede consultar más empresas y recursos de renombre que citan a AIMultiple. A lo largo de su carrera, Cem se desempeñó como consultor, comprador y emprendedor tecnológico. Asesoró a empresas en sus decisiones tecnológicas en McKinsey & Company y Altman Solon durante más de una década. También publicó un informe de McKinsey sobre digitalización. Lideró la estrategia y adquisición de tecnología de una empresa de telecomunicaciones, reportando directamente al CEO. Asimismo, lideró el crecimiento comercial de la empresa de tecnología avanzada Hypatos, que alcanzó ingresos recurrentes anuales de siete cifras y una valoración de nueve cifras partiendo de cero en tan solo dos años. El trabajo de Cem en Hypatos fue reseñado por importantes publicaciones tecnológicas como TechCrunch y Business Insider. Cem participa regularmente como ponente en conferencias internacionales de tecnología. Se graduó en ingeniería informática por la Universidad de Bogazici y posee un MBA de la Columbia Business School.
Ver perfil completo
Investigado por
Sıla Ermut
Sıla Ermut
Analista de la industria
Sıla Ermut es analista de la industria en AIMultiple, especializada en marketing por correo electrónico y vídeos de ventas. Anteriormente trabajó como reclutadora en empresas de gestión de proyectos y consultoría. Sıla es licenciada en Psicología Social y en Relaciones Internacionales.
Ver perfil completo

Sé el primero en comentar

Tu dirección de correo electrónico no será publicada. Todos los campos son obligatorios.

0/450