Contate-nos
Nenhum resultado encontrado.

Modelos de ação gigantes: exagero ou realidade?

Cem Dilmegani
Cem Dilmegani
atualizado em Abr 1, 2026
Veja o nosso normas éticas

Após o lançamento do Rabbit, um dispositivo de IA capaz de usar aplicativos móveis, o termo Large Action Models (LAMs, na sigla em inglês) está se popularizando. Esses modelos vão além da conversação, transformando os LLMs ( Large Learning Models, ou Modelos de Aprendizagem de Longo Prazo) em "agentes" que podem conectar o mundo fragmentado e orientado por aplicativos sem exigir que os usuários cliquem em aplicativos ou integrem APIs.

A linha que separa a propaganda da realidade dos LAMs é tênue, mas, em resumo: um LAM é um modelo de linguagem de grande porte (LLM, na sigla em inglês) especificamente treinado para executar ações (como enviar solicitações de API). 1

O que é um modelo de ação em larga escala (LAM)?

Um Modelo de Ação Amplo (LAM, na sigla em inglês) é um tipo avançado de IA que se baseia em Modelos de Linguagem Amplos (LLMs, na sigla em inglês), não apenas compreendendo e gerando texto, mas também planejando e executando ações em ambientes do mundo real (digitais ou físicos), permitindo automatizar tarefas e interagir diretamente com sistemas com base na intenção do usuário.

As principais características dos Modelos de Ação de Grande Porte (LAMs, na sigla em inglês) incluem sua capacidade de compreender a intenção do usuário a partir de diferentes entradas (texto, voz, imagens), transformar essa intenção em ações executáveis, planejar e adaptar tarefas passo a passo em ambientes em constante mudança e operar com eficiência por meio da especialização em domínios específicos, permitindo que eles concluam tarefas complexas do mundo real de forma autônoma.

As principais características dos Modelos de Ação em Grande Escala (LAMs, na sigla em inglês) incluem:

  • Interpretação da intenção do usuário: Eles conseguem entender as solicitações do usuário a partir de texto, voz, imagens ou vídeos, mesmo quando a instrução não é clara ou é implícita.
  • Geração de ações: Elas transformam os objetivos do usuário em ações concretas em ambientes digitais ou físicos, como usar uma interface gráfica, chamar APIs, controlar robôs ou gerar código.
  • Planejamento e adaptação dinâmicos: Eles conseguem dividir tarefas complexas em etapas menores, seguir um plano e ajustá-lo quando a situação muda ou ocorrem erros.
  • Especialização e eficiência: Muitas vezes são construídos para tarefas ou ambientes específicos, o que os torna mais precisos e eficientes do que modelos de uso geral nesse domínio.

Resumindo, os LAMs fazem mais do que entender a linguagem. Eles conectam a compreensão à ação e conseguem realizar tarefas complexas em contextos do mundo real.

Como funcionam os modelos de ação em larga escala (LAM, na sigla em inglês)?

Os LAMs interagem com os aplicativos por meio de suas interfaces de usuário ou, mais comumente, por meio de APIs. Por exemplo, eles podem processar as imagens e o código de um site ou aplicativo para decidir seus próximos passos e executar ações.

Isso permite que os LAMs naveguem pelas interfaces de usuário e de aplicativos. Por exemplo, se a informação já existir ou estiver acessível por meio de outro aplicativo, ela será recuperada desse aplicativo em vez de solicitar ao usuário.

Dentro dos LAMs, esses graus de autonomia e compreensão transformam a IA generativa em um assistente ativo capaz de executar tarefas como:

  • administrar plataformas de mídia social
  • obtendo informações meteorológicas
  • fazer reservas
  • processamento de transações financeiras
  • Conecte-se a dispositivos IoT para permitir que você envie comandos a eles (por exemplo, chamar um Uber).

Fonte: Salesforce 2

LAMs e LLMs: Entendendo a diferença

Fonte: Modelos de Ação de Grande Porte: Da Concepção à Implementação 3

Os Modelos de Ação de Grande Porte (LAMs, na sigla em inglês) ampliam os Modelos de Linguagem de Grande Porte (LLMs, na sigla em inglês) não apenas compreendendo as solicitações do usuário, mas também planejando e executando ações do mundo real, como a conclusão de tarefas em sites, tornando-os mais eficientes, focados em tarefas e práticos para aplicações do mundo real, frequentemente com designs menores e mais especializados.

Embora os LAMs (Modelos de Agregação de Linguagem) e os grandes modelos de linguagem compartilhem algumas semelhanças, como a capacidade de compreender as intenções humanas, seus objetivos principais diferem bastante.

Os LAMs são projetados para executar ações, enquanto os LLMs se destacam no processamento e geração de linguagem. Enquanto um LLM pode sugerir ideias ou gerar texto com base na sua entrada, um LAM vai além, realizando tarefas de forma autônoma, como agendar compromissos, encomendar produtos ou preencher formulários.

Modelos de agentes em larga escala (LAM, do inglês Large Agentic Models): hype ou realidade?

Embora algumas empresas apresentem os LAMs como uma nova arquitetura, as funcionalidades atribuídas a eles já vêm sendo implementadas há algum tempo usando agentes LLM. 4

Além disso, os agentes LLM já executavam tarefas para as quais os LAMs são descritos. Os dois conceitos compartilham funcionalidades comuns (ver figura):

  • Análise baseada no contexto
  • Engenharia rápida
  • Aproveitando as ferramentas
  • Raciocínio 5

Figura: Fluxo de trabalho de um agente de IA baseado em linguagem

Fonte: ICLR 6

Além disso, os LAMs podem ser descritos como projetos de agentes baseados em linguagem, como (1) agentes de IA baseados em modelos de prompts; (2) agentes de IA de prompts aprendíveis; e (3) modelos de ação grandes (LAMs); afirmando que podemos pensar em um LAM como um LLM especificamente treinado para executar ações humanas a partir de dados. 7

Exemplos reais de LAM

1. Preenchimento automático de formulários ou planilhas em sites

Um LAM (Assistente de Gerenciamento de Aplicativos) pode reconhecer os campos necessários em um formulário, coletar os dados requeridos (como endereços, nomes, senhas e números de cartão de crédito) de um banco de dados ou perfil de usuário e inseri-los nos campos apropriados.

Vídeo: Preenchimento automático de formulários ou planilhas com LAM

8

2. Concluir transações online

  Um LAM (Layer Access Manager) pode trabalhar com botões, links e menus suspensos. Ele também pode inserir texto específico em campos de texto e barras de pesquisa. É exatamente isso que significa pedir pizza online: preencher formulários de texto, clicar em botões e selecionar opções do menu.

Vídeo: HyperWriteAI Assistant Studio usando o navegador para fazer um pedido online

Fonte: HyperWriteAI 9

3. Resolver solicitações de atendimento ao cliente de ponta a ponta.

Um Modelo de Ação Ampla (LAM, na sigla em inglês) pode lidar com uma solicitação completa do cliente do início ao fim, entendendo o objetivo do usuário, decidindo as etapas necessárias e executando-as em vários sistemas (como CRM, faturamento e plataformas de suporte).

O Genesys Cloud Agenic Virtual Agent é um exemplo desse caso de uso: ele consegue entender o problema do cliente (por exemplo, um problema de faturamento), determinar o que precisa ser feito e concluir as ações necessárias, como verificar dados da conta, atualizar registros ou acionar processos de serviço, sem intervenção humana. 10

Em vez de apenas fornecer respostas, o sistema executa a tarefa por si próprio, interagindo com diferentes ferramentas e fluxos de trabalho, reduzindo a necessidade de explicações repetidas ou acompanhamento manual.

4. Condução autônoma e tomada de decisões

Um Modelo de Ação Ampla (LAM, na sigla em inglês) pode impulsionar sistemas autônomos, interpretando entradas do mundo real, raciocinando sobre situações e executando ações em tempo real.

O Alpamayo, do modelo NVIDIA, utiliza modelos de Visão-Linguagem-Ação para processar vídeos de câmeras, compreender o ambiente de direção, raciocinar sobre o que está acontecendo e gerar ações de direção, como virar o volante, frear ou acelerar. 11

Em vez de seguir regras fixas, o sistema decide o que fazer com base no contexto (por exemplo, tráfego, obstáculos, condições da estrada) e explica seu raciocínio, possibilitando uma condução autônoma mais segura e transparente.

5. Execução de tarefas pessoais em aplicativos do dia a dia

Um Modelo de Ação Ampla (LAM, na sigla em inglês) pode transformar o objetivo de um usuário em ações concretas em diversas ferramentas, concluindo tarefas sem instruções passo a passo. Por exemplo, sistemas de IA com agentes, como o OpenClaw, utilizam princípios semelhantes: eles podem gerenciar e-mails, calendários e reservas de viagens planejando etapas e executando-as de forma autônoma. Embora o OpenClaw represente um sistema de IA com agentes completo, os LAMs fornecem o núcleo de execução de ações que permite que esses sistemas realizem fluxos de trabalho com várias etapas de forma confiável.

Tecnologias em LAMs

Um LAM pode utilizar as seguintes técnicas:

  • Conexões: Conecte-se a vários aplicativos e APIs.
  • Abordagem neurosimbólica: A programação neurosimbólica é um método que permite que os LAMs (Learning Application Models - Modelos de Aprendizagem Adaptativa) combinem redes neurais treinadas em grandes conjuntos de dados com capacidades de raciocínio lógico simbólico integradas. Isso os capacita a perceber padrões e, ao mesmo tempo, compreender o raciocínio subjacente, tornando-os mais adaptáveis e capazes de fornecer respostas significativas dependendo do "porquê" das solicitações do usuário.
  • Abstração de instruções: Crie instruções que forneçam abstração modular e hierárquica para modelagem por meio de uma interface.
  • Modelagem humana direta: Identificar a intenção, os hábitos e as rotinas do usuário em diferentes aplicativos para desenvolver um modelo de ação.
  • Raciocínio de tarefas: Analisa as relações entre tarefas, identificando dependências e determinando a ordem ideal de execução. Isso garante que as tarefas pré-requisito sejam concluídas antes do início das tarefas dependentes. Dessa forma, o gestor de ativos local (LAM) pode aprimorar os fluxos de trabalho com base em interações anteriores.
  • Aprendizagem contínua: LAMs Não apenas executar tarefas, mas também aprimorar seu desempenho ao longo do tempo por meio de aprendizado contínuo. Por exemplo, o LAM poderia gerenciar consultas de clientes sobre pedidos, devoluções e informações sobre produtos. Com o tempo, ele se tornaria mais eficiente na resolução rápida de problemas, podendo até mesmo prever e solucionar problemas potenciais antes mesmo que os clientes entrem em contato.

Exemplos de modelos de ação em grande escala

O termo LAM abrange uma combinação de produtos de consumo, modelos focados em ação e sistemas de pesquisa que tentam transformar a intenção do usuário em ações de software.

  • Rabbit R1 : A Rabbit comercializa o R1 com base em sua ideia de LAM (Máquina de Autômatos de Objetos), e seus materiais oficiais agora destacam recursos como o LAM Playground e o modo de aprendizado para tarefas em sites. Ao mesmo tempo, as primeiras avaliações foram extremamente críticas; o The Verge classificou o dispositivo como "inacabado" e "inútil", e afirmou que havia poucas evidências de um LAM funcionando de forma confiável no produto no lançamento.
  • Adept ACT-1 : A Adept descreveu o ACT-1 como um "modelo fundamental para ações" treinado para usar ferramentas de software, APIs e aplicativos da web. É melhor compreendido como um sistema de agentes avançado orientado a ações, em vez de uma categoria de IA totalmente separada.
  • Salesforce xLAM : Salesforce lançou o xLAM como uma família de modelos otimizados para chamadas de função e agentes de IA, e posteriormente o expandiu com suporte mais robusto para múltiplas interações. Isso faz do xLAM um dos exemplos oficiais mais claros de uma família de modelos no estilo LAM.
  • TaskMatrix.AI : TaskMatrix.AI é um artigo de pesquisa que propõe conectar modelos fundamentais com milhões de APIs para concluir tarefas. Por ser apresentado como um artigo de pesquisa e posicionamento, é mais adequado descrevê-lo como uma estrutura acadêmica semelhante a um LAM (Layer Access Management) do que como um produto pronto para uso.
Cem Dilmegani
Cem Dilmegani
Analista Principal
Cem é o analista principal da AIMultiple desde 2017. A AIMultiple fornece informações para centenas de milhares de empresas (segundo o SimilarWeb), incluindo 55% das empresas da Fortune 500, todos os meses. O trabalho de Cem foi citado por importantes publicações globais, como Business Insider, Forbes e Washington Post, além de empresas globais como Deloitte e HPE, ONGs como o Fórum Econômico Mundial e organizações supranacionais como a Comissão Europeia. Você pode ver mais empresas e recursos renomados que mencionaram a AIMultiple. Ao longo de sua carreira, Cem atuou como consultor de tecnologia, comprador de tecnologia e empreendedor na área. Ele assessorou empresas em suas decisões tecnológicas na McKinsey & Company e na Altman Solon por mais de uma década. Também publicou um relatório da McKinsey sobre digitalização. Liderou a estratégia de tecnologia e a área de compras de uma empresa de telecomunicações, reportando-se diretamente ao CEO. Além disso, liderou o crescimento comercial da empresa de tecnologia avançada Hypatos, que atingiu uma receita recorrente anual de sete dígitos e uma avaliação de nove dígitos, partindo de zero, em apenas dois anos. O trabalho de Cem no Hypatos foi noticiado por importantes publicações de tecnologia, como TechCrunch e Business Insider. Cem participa regularmente como palestrante em conferências internacionais de tecnologia. Ele se formou em engenharia da computação pela Universidade Bogazici e possui um MBA pela Columbia Business School.
Ver perfil completo

Seja o primeiro a comentar

Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios.

0/450