Apesar dos avanços em modelos de linguagem de grande escala, a inteligência artificial permanece limitada em sua capacidade de compreender e interagir com o mundo físico devido às restrições das representações baseadas em texto.
Os modelos globais de grande escala abordam essa lacuna integrando dados multimodais para raciocinar sobre ações, modelar a dinâmica do mundo real e prever mudanças ambientais.
Descubra o que são modelos de grande escala, como eles diferem de outras abordagens, seus principais casos de uso, exemplos do mundo real e os desafios envolvidos em sua construção.
O que é um modelo de mundo em grande escala?
Um modelo de mundo amplo (LWM, na sigla em inglês) é uma classe avançada de modelos de inteligência artificial que vai além do foco textual dos modelos de linguagem amplos (LLMs, na sigla em inglês) . Enquanto os LLMs aprendem padrões a partir de sequências linguísticas, os LWMs são projetados para integrar e processar dados multimodais em dimensões espaciais, temporais e físicas.
Esses modelos visam representar o mundo real incorporando texto, imagens , áudio, sinais de sensores, sequências de vídeo e ambientes interativos.
Os LWMs são frequentemente descritos como um passo mais perto da construção de sistemas de IA capazes de compreender e interagir com o mundo físico, oferecendo capacidades como raciocínio espacial, compreensão de vídeos a longo prazo e a capacidade de prever dinâmicas em ambientes complexos.
Figura 1: Um exemplo de um modelo de mundo amplo que pode responder a perguntas em vídeos do YouTube. 1
Arquitetura de grandes modelos mundiais
- Inferência de pré-condições e efeitos : Uma característica fundamental, baseada em pesquisas recentes, é a modelagem explícita do que deve ser verdade antes de uma ação (pré-condição) e quais mudanças ocorrem depois (efeito). 2
- Correspondência semântica de estados : os LWMs utilizam módulos que alinham pré-condições e efeitos inferidos com os estados atuais do mundo, permitindo a previsão de ações válidas e transições de estado.
- Modelos generativos : Elesgeram vídeos , simulam ambientes e preveem dinâmicas em sequências de vídeo extensas e ambientes do mundo real.
- Escalabilidade : O treinamento depende tanto de dados reais quanto de ambientes de treinamento diversos e ilimitados, incluindo simulações sintéticas.
Técnicas emergentes, como campos de radiância neural (NeRFs), splatting gaussiano e mecanismos de atenção em anel, são utilizadas para aprimorar a capacidade de lidar com sequências longas e interações dinâmicas.
Em que se diferencia dos modelos de fundamentos mundiais e de outros modelos mundiais?
- Os modelos de fundamentos do mundo se concentram em fornecer uma estrutura geral para o raciocínio sobre o mundo. No entanto, eles costumam estar mais próximos do paradigma LLM, enfatizando a representação simbólica e semântica do conhecimento humano.
- Em aprendizado por reforço ou robótica, os modelos de mundo geralmente modelam ambientes específicos para o treinamento de agentes autônomos, frequentemente limitados a ferramentas de simulação ou tarefas específicas.
- Modelos de mundo amplo : vão além, modelando longas sequências de ações, prevendo dinâmicas e integrando entradas multimodais. Os Modelos de Mundo Amplo (LWMs) enfatizam o raciocínio de pré-condição-efeito, o que lhes permite responder a perguntas como "Esta ação é válida agora?" e "O que acontece se eu fizer isso?" , capacidades frequentemente ausentes em outros modelos.
Em resumo, os modelos de fundamentos do mundo fornecem uma base, enquanto os LWMs estendem essas capacidades para sistemas de IA física e experiências interativas.
Perspectivas de pesquisadores sobre modelos de grande escala mundial
De acordo com pesquisas sobre modelos de grande escala mundial, pode-se inferir que se trata de um simulador interno de propósito geral que utiliza representações abstratas para prever e avaliar estados futuros em ambientes abertos.
É diferente tanto de modelos de mundo pequenos e específicos para tarefas quanto de grandes simulações puramente interativas. Seu propósito não é representar o mundo, mas sim raciocinar sobre ele antes de agir.
Aqui estão alguns dos principais pontos a serem destacados:
- Em primeiro lugar, a escala por si só não é suficiente. Ambientes grandes ou simulações complexas não produzem automaticamente modelos de mundo amplos, e sistemas menores ainda podem ser considerados modelos de mundo quando capturam a forma como os ambientes evoluem. O que importa é a capacidade de generalizar entre tarefas e domínios, não o tamanho bruto.
- Em segundo lugar, os modelos de mundo amplos dependem da abstração. Os detalhes sensoriais brutos são frequentemente muito frágeis para o planejamento geral, portanto, esses modelos operam com representações conceituais compactadas que preservam o que é relevante para o raciocínio em diferentes contextos.
- Em terceiro lugar, os modelos de mundo em larga escala alteram o papel dos modelos de linguagem. Em vez de gerar apenas ações ou texto, os modelos de linguagem atuam como simuladores internos que preveem como o mundo pode reagir a ações hipotéticas, permitindo a deliberação em vez da reação.
- Por fim, os modelos globais em larga escala redefinem o planejamento. O planejamento torna-se um processo de simulação de futuros possíveis, comparação de resultados e seleção de ações com base nas consequências esperadas, aproximando o raciocínio da IA da tomada de decisão humana.
Mundo PoE
Artigo do PoE-World Este artigo aborda 3 abordagens para modelos mundiais, considerando-os como modelos explícitos da dinâmica ambiental que auxiliam no planejamento e controle. O artigo trata um modelo mundial como algo que prevê como o ambiente se altera em resposta a ações. Sua principal preocupação não é a escala, mas a estrutura: como representar o mundo de uma forma que permita a generalização e o raciocínio de longo prazo.
Em vez de depender de uma única rede neural de grande porte, os autores argumentam que os modelos do mundo devem ser composicionais. Eles propõem construir o modelo do mundo a partir de múltiplos especialistas programáticos menores, cada um responsável por um fator específico do ambiente, como o movimento de objetos ou interações. Esses especialistas são combinados matematicamente para produzir previsões gerais de estados futuros.
O artigo demonstra cautela em relação a grandes modelos neurais de ponta a ponta. Sugere que aumentar o tamanho do modelo por si só não resolve problemas como interpretabilidade ou raciocínio sistemático. Em sua visão, estrutura e modularidade importam mais do que o número de parâmetros.
Pontos principais
- Define um modelo mundial como um preditor de observações futuras, dadas observações e ações passadas.
- Enfatiza a estrutura composicional e simbólica em vez de grandes redes neurais.
- Utiliza múltiplos especialistas de pequeno porte combinados em um único modelo preditivo.
- Argumenta que os modelos monolíticos de grandes dimensões do mundo têm dificuldades com o raciocínio de longo prazo e composicional.
- Concentra-se no planejamento e controle em ambientes restritos, em vez de ambientes abertos.
Mundo em forma de rede
Mundo em forma de rede O artigo 4 utiliza o termo modelo de mundo em um sentido diferente. Neste artigo, um modelo de mundo é principalmente um ambiente virtual interativo de grande escala, e não um modelo preditivo aprendido. O foco está na construção de mundos 3D detalhados e exploráveis para interação, simulação e geração de dados.
O artigo trata os modelos de mundo como ambientes externos com os quais agentes ou humanos podem interagir. Esses ambientes incluem terreno, objetos, física e múltiplos agentes, e são projetados para se assemelharem o máximo possível a cenários do mundo real, a fim de reduzir a lacuna entre simulação e realidade. A ênfase está no realismo e na interatividade, e não na previsão interna de estados futuros.
Grandes modelos de linguagem desempenham um papel de apoio. Eles são usados para traduzir texto e instruções visuais em representações simbólicas que definem o layout e as configurações da cena. O comportamento real do mundo, incluindo física e interações, é gerenciado por um motor de jogo, e não por um modelo de mundo aprendido.
Pontos principais
- Utiliza o termo "modelo de mundo" para se referir a um ambiente simulado interativo de alta fidelidade.
- Concentra-se na geração do mundo em vez da dinâmica do ambiente de aprendizagem.
- Trata os modelos do mundo como fontes de dados e interação, em vez de ferramentas de raciocínio.
- Utiliza LLMs para o layout da cena e geração de configuração, não para previsão ou planejamento.
- Não modela internamente transições de estado ou futuros contrafactuais.
SIMURA
SIMURA O 5 coloca os modelos de mundo no centro do comportamento inteligente. Ele define um modelo de mundo como um simulador interno que um agente usa para imaginar estados futuros antes de agir. O artigo contrasta explicitamente isso com o raciocínio autorregressivo token por token, que, segundo o artigo, carece de previsão e da capacidade de realizar avaliações contrafactuais.
Nesse contexto, o modelo do mundo prevê como o ambiente responderá às ações candidatas. Essas previsões são então avaliadas em relação aos objetivos do agente, permitindo que ele escolha ações com base em resultados simulados, em vez de respostas imediatas. O modelo do mundo é, portanto, o mecanismo que possibilita o planejamento.
O que distingue o SIMURA é a sua escala e generalidade. O modelo do mundo é implementado usando grandes modelos de linguagem e opera em ambientes abertos, como a web. Os estados do mundo são representados em linguagem natural, o que permite a abstração e a transferência entre tarefas sem a necessidade de treinar modelos separados para cada ambiente.
Pontos principais
- Define um modelo mundial como um simulador interno usado para planejamento e tomada de decisões.
- Utiliza modelos mundiais para avaliar futuros contrafactuais antes de agir.
- Implementa o modelo do mundo usando grandes modelos de linguagem.
- Representa estados e transições mundiais em linguagem natural, em vez de incorporações contínuas.
- Tem como alvo ambientes gerais e abertos, em vez de tarefas específicas.
Casos de uso de modelos de grande escala mundial
Assistência médica
Na área da saúde, os modelos de linguagem baseados em dados (LWMs) podem integrar registros de pacientes, dados genômicos e biometria em tempo real com informações ambientais. Ao modelar as interações entre esses conjuntos de dados, eles podem apoiar tratamentos personalizados, prever riscos à saúde precocemente e orientar a tomada de decisões cirúrgicas com análises em tempo real.
Planejamento urbano e cidades inteligentes
Ao analisar fluxos de tráfego, consumo de energia e dados ambientais, os Modelos de Águas Urbanas (LWMs) podem simular intervenções em escala urbana. Por exemplo, podem prever como novos projetos de infraestrutura impactam a poluição, a mobilidade ou a demanda de energia, permitindo decisões informadas em ambientes complexos.
Robótica e sistemas autônomos
Para veículos e robôs autônomos , os Modelos de Linguagem Local (LWMs) proporcionam uma compreensão mais profunda das propriedades espaciais e das interações entre objetos. Eles auxiliam no treinamento em diversos ambientes e em condições do mundo real, permitindo que máquinas autônomas naveguem com mais segurança e adaptabilidade.
Educação e formação
Os LWMs (Lower World Models - Modelos de Mundo Aberto) podem gerar experiências interativas e mundos virtuais realistas para o treinamento de habilidades. Em áreas como aviação ou medicina, os LWMs podem simular cenários de alto risco, permitindo que os alunos pratiquem em ambientes virtuais seguros e realistas.
Monitoramento ambiental
Os Modelos de Águas Locais (LWMs) processam dados de satélite, informações de sensores e extensas sequências de dados ambientais para prever a dinâmica climática. Isso permite que as partes interessadas otimizem a utilização de recursos, monitorem os impactos do desmatamento ou modelem cenários de desastres.
Jogos e entretenimento
Com a capacidade de gerar vídeos e simulações imersivas a partir de uma única imagem ou descrição em linguagem natural, os LWMs abrem possibilidades para experiências interativas em jogos, realidade aumentada e realidade virtual. Sua capacidade de criar sequências de vídeo com milhões de episódios oferece um salto em realismo e criatividade.
Exemplos da vida real de modelos de grande escala mundial
Mármore: um modelo de mundo multimodal
Mármore O World Labs 6 é um modelo de mundo multimodal . Ele foi projetado para criar mundos 3D persistentes e de alta fidelidade que podem ser gerados, editados e explorados interativamente usando uma variedade de entradas.
Principais características
- Geração de mundos multimodais: O Marble pode gerar ambientes 3D completos a partir de instruções de texto , imagens , vídeos ou layouts 3D.
- Edição e expansão interativas: Depois de criado um ambiente, o Marble oferece ferramentas para editá-lo e expandi-lo . Os usuários podem refinar elementos do mundo, modificar layouts e iterar sobre os designs.
- Mundos 3D persistentes: Os mundos criados pelo Marble mantêm a consistência espacial e podem ser revisitados, iterados ou combinados com outros mundos gerados.
- Recursos de exportação: O Marble permite que os usuários exportem mundos gerados em vários formatos, incluindo splats gaussianos, malhas e vídeo. Esses arquivos de saída podem ser usados em outras ferramentas, fluxos de trabalho e aplicativos subsequentes, além da própria interface do Marble.
Veja o vídeo abaixo para um exemplo de geração de vídeo a partir de texto :
Genie 3: Um modelo de mundo fotorrealista em tempo real para ambientes interativos
Google DeepMind apresentou o Genie 3 7 como um modelo de mundo de propósito geral capaz de gerar ambientes interativos e fotorrealistas a partir de instruções de texto.
Diferentemente dos modelos generativos anteriores, que produziam cenas estáticas ou videoclipes curtos, o Genie 3 simula mundos que podem ser explorados e com os quais se pode interagir em tempo real, representando um grande avanço na modelagem de ambientes para IA incorporada.
O modelo foi projetado para ajudar sistemas de IA a aprenderem como o mundo funciona, permitindo que eles experimentem, ajam e observem as consequências de suas ações em ambientes dinâmicos. Isso posiciona o Genie 3 como uma capacidade fundamental para o treinamento de agentes que precisam raciocinar, planejar e se adaptar em cenários complexos.
O vídeo abaixo mostra como o Genie pode modelar o mundo físico e criar resultados usando estímulos de ambiente e personagens:
Principais capacidades
- Simulação do mundo em tempo real: Genie 3 gera ambientes que funcionam a aproximadamente 20 a 24 quadros por segundo, permitindo interação contínua em vez de sequências pré-geradas.
- Controle interativo: Os mundos gerados são totalmente navegáveis. Humanos ou agentes de IA podem se mover pelos ambientes e interagir com eles, com o modelo simulando como o mundo responde a essas ações.
- Renderização fotorrealista: Os mundos são produzidos em resolução 720p com alta fidelidade visual, capturando texturas, iluminação e detalhes ambientais realistas.
- Consistência e memória do mundo: o Genie 3 mantém a consistência interna ao longo do tempo. Quando os usuários revisitam locais vistos anteriormente, o modelo recupera e reconstrói detalhes anteriores em vez de gerá-los novamente.
- Plausibilidade física: Os ambientes refletem a estrutura e a dinâmica do mundo real, permitindo que o modelo simule paisagens e ambientes naturais de uma forma que favoreça a exploração intuitiva.
Limitações do Genie 3
- Gama limitada de ações: O Genie 3 atualmente suporta um conjunto restrito de interações. Embora os usuários possam navegar pelos ambientes e acionar certas mudanças por meio de comandos de texto, os agentes ainda não podem executar um conjunto amplo ou totalmente autônomo de ações no mundo virtual.
- Dinâmica básica de múltiplos agentes: O modelo se limita a simular interações complexas entre múltiplos agentes independentes. A coordenação realista, a competição ou o comportamento emergente entre diversos agentes permanecem um desafio de pesquisa em aberto.
- Sem precisão no mundo real : O Genie 3 não produz reconstruções totalmente precisas de locais específicos do mundo real. Embora os ambientes pareçam realistas, devem ser entendidos como simulações plausíveis e não comogêmeos digitais precisos.
- Limitações na renderização de texto : O texto em ambientes (como placas ou rótulos escritos) não é gerado de forma confiável, a menos que seja explicitamente especificado no prompt e, mesmo assim, pode apresentar imperfeições.
Decar
O trabalho da Decart em modelos de grande escala (LWMs, na sigla em inglês) abrange tanto experiências do consumidor quanto infraestrutura empresarial.
A plataforma Oasis permite que os usuários criem e explorem mundos virtuais adaptáveis com vídeo em tempo real e recursos interativos que evoluem em resposta às interações do usuário. Frequentemente comparada ao Minecraft, a Oasis atraiu milhões de usuários por suas experiências audiovisuais dinâmicas.
Para empresas, a Decart oferece uma ferramenta de otimização de GPU que melhora a eficiência durante o treinamento e a inferência. Essa solução acelera o desenvolvimento de modelos, reduz os custos de implantação e permite que as empresas escalem aplicações de IA de forma mais acessível. 8
Desafios e como mitigá-los
Apesar de promissoras, as LWMs enfrentam diversos desafios:
- Complexidade dos dados : O treinamento requer conjuntos de dados massivos e multimodais que abrangem sequências de vídeo, áudio, sensores e linguagem. A mitigação envolve a combinação da geração de dados sintéticos com o ajuste fino em dados do mundo real.
- Computação intensiva : Lidar com sequências longas e compreender vídeos exige grande poder computacional. Técnicas como atenção em anel e comprimentos de sequência otimizados estão sendo desenvolvidas para tornar o treinamento mais eficiente.
- Viés e segurança : Incorporar conhecimento humano e dados do mundo real aumenta os riscos de viés ou uso indevido. Treinamento cuidadoso do modelo, avaliação em novos parâmetros de referência e supervisão ética são essenciais.
- Privacidade : Ambientes do mundo real frequentemente incluem informações pessoais e sensíveis. Treinamentos que preservem a privacidade e estruturas de governança claras são necessários.
Perspectivas futuras
Os modelos de mundo aberto em grande escala representam uma mudança de paradigma na inteligência artificial. Eles não são apenas versões ampliadas de modelos existentes, mas introduzem a capacidade de aprender com ambientes do mundo real, gerar vídeos com reconhecimento de física e permitir que máquinas autônomas atuem em cenários dinâmicos.
À medida que a tecnologia amadurece, os LWMs provavelmente formarão a espinha dorsal dos sistemas de IA física que conectam experiências virtuais e do mundo real, dando suporte tanto a aplicações industriais especializadas quanto a experiências interativas voltadas para o consumidor.
Seja o primeiro a comentar
Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios.