Análisis

Citar Esta Investigación

Large Action Models: ¿Exageración o Realidad?

actualizado el 1 de jul. de 2026

Vea nuestra normas éticas

Citar Esta Investigación

Tras el lanzamiento de Rabbit, un dispositivo de IA que puede usar aplicaciones móviles, el término large action models (LAMs) está ganando popularidad. Estos models van más allá de la conversación al convertir los LLMs en "agentes" que pueden conectar el mundo aislado y basado en aplicaciones sin necesidad de que los usuarios hagan clic en aplicaciones o integren APIs.

La línea entre la exageración y la realidad de los LAMs es difusa, pero en resumen, LAM es un large language model (LLM) específicamente entrenado para realizar acciones (por ejemplo, enviar solicitudes API).¹

¿Qué es un large action model (LAM)?

Un Large Action Model (LAM) es un tipo avanzado de IA que se basa en los Large Language Models (LLMs) no solo comprendiendo y generando texto, sino también planificando y ejecutando acciones en entornos del mundo real (digitales o físicos), lo que le permite automatizar tareas e interactuar directamente con sistemas basándose en la intención del usuario.

Las características clave de los Large Action Models (LAMs) incluyen su capacidad para comprender la intención del usuario a partir de diferentes entradas (texto, voz, imágenes), convertir esa intención en acciones ejecutables, planificar y adaptar tareas paso a paso en entornos cambiantes, y operar de manera eficiente mediante la especialización en dominios específicos, lo que les permite completar tareas complejas del mundo real de forma autónoma.

Las características clave de los Large Action Models (LAMs) incluyen:

Interpretación de la intención del usuario: Pueden comprender las solicitudes del usuario a partir de texto, voz, imágenes o vídeos, incluso cuando la instrucción no es clara o está implícita.
Generación de acciones: Convierten los objetivos del usuario en acciones concretas en entornos digitales o físicos, como usar una GUI, llamar a APIs, controlar robots o generar código.
Planificación y adaptación dinámicas: Pueden dividir tareas complejas en pasos más pequeños, seguir un plan y ajustarlo cuando la situación cambia o se producen errores.
Especialización y eficiencia: A menudo se construyen para tareas o entornos específicos, lo que los hace más precisos y eficientes que los models de propósito general en ese dominio.

En resumen, los LAMs hacen más que comprender el lenguaje. Conectan la comprensión con la acción y pueden llevar a cabo tareas de varios pasos en entornos del mundo real.

¿Cómo funcionan los large action models (LAM)?

Los LAMs interactúan con las aplicaciones a través de sus interfaces de usuario o, más comúnmente, a través de APIs. Por ejemplo, pueden procesar las imágenes y el código de un sitio web o aplicación para decidir sus próximos pasos y realizar acciones.

Fuente: Salesforce²

Esto permite a los LAMs navegar por las interfaces de usuario y de aplicación. Por ejemplo, si la información existe o es accesible a través de otra aplicación, la recuperará de esa aplicación en lugar de preguntar al usuario.

Dentro de los LAMs, tales grados de autonomía y comprensión transforman la IA generativa en un asistente activo que puede realizar tareas como:

administrar plataformas de redes sociales
obtener información meteorológica
hacer reservas
procesar transacciones financieras
conectarse a dispositivos IoT para permitirle enviar comandos a los mismos (por ejemplo, llamar a un Uber)

LAMs y LLMs: Entendiendo la diferencia

Fuente: Large Action Models: From Inception to Implementation³

Los Large Action Models (LAMs) amplían los Large Language Models (LLMs) al comprender las solicitudes del usuario y planificar y ejecutar acciones del mundo real, como completar tareas en sitios web, haciéndolos más eficientes, enfocados en tareas y prácticos para aplicaciones del mundo real, a menudo con diseños más pequeños y especializados.

Aunque los LAMs y los large language models comparten algunas similitudes, como su capacidad para captar las intenciones humanas, sus propósitos principales difieren enormemente.

Los LAMs están diseñados para tomar acción, mientras que los LLMs destacan en el procesamiento y la generación de lenguaje. Mientras que un LLM podría sugerir ideas o generar texto basado en su entrada, un LAM va un paso más allá al realizar tareas de forma autónoma como hacer citas, pedir productos o rellenar formularios.

Deja que nuestro equipo automatice uno de tus procesos de negocio con agentes de IA, sin coste alguno.

Automatizar un proceso

Large agentic models (LAM): ¿exageración o realidad?

Aunque algunas empresas presentan los LAMs como una nueva arquitectura, las funcionalidades que se les asignan se han implementado durante algún tiempo utilizando agentes LLM.⁴

Además, los agentes LLM han estado realizando previamente tareas que se describe que hacen los LAMs. Los dos conceptos comparten funcionalidades comunes (ver figura):

Análisis basado en contexto
Ingeniería de prompts
Aprovechamiento de herramientas
Razonamiento⁵

Figura: Flujo de trabajo de agente de IA basado en lenguaje

Fuente: ICLR⁶

Además, los LAMs pueden describirse como diseños de agentes basados en lenguaje tales como (1) agentes de IA basados en plantillas de prompts; (2) agentes de IA con prompts aprendibles; y (3) large action models (LAMs); afirmando que podemos pensar en un LAM como un LLM específicamente entrenado para ejecutar acciones humanas a partir de datos.⁷

Para más detalles sobre models de IA, consulte nuestra investigación basada en datos sobre:

Ejemplos reales de LAM

1. Completar automáticamente formularios u hojas de cálculo en sitios web

Un LAM puede reconocer los campos necesarios en un formulario, recopilar los datos requeridos (por ejemplo, direcciones, nombres, contraseñas y números de tarjeta de crédito) de una base de datos o perfil de usuario, e introducirlos en los campos correspondientes.

Vídeo: Completar automáticamente formularios u hojas de cálculo con LAM

2. Completar transacciones en línea

Un LAM puede trabajar con botones, enlaces y menús desplegables. También puede insertar texto específico en campos de texto y barras de búsqueda. Esto es precisamente lo que implica pedir pizza en línea: rellenar formularios de texto, hacer clic en botones y seleccionar opciones de menú.

Vídeo: HyperWriteAI Assistant Studio usando el navegador para realizar un pedido en línea

Fuente: HyperWriteAI⁹

3. Resolver solicitudes de servicio al cliente de extremo a extremo

Un Large Action Model (LAM) puede manejar una solicitud completa del cliente de principio a fin comprendiendo el objetivo del usuario, decidiendo los pasos necesarios y ejecutándolos en múltiples sistemas (como CRM, facturación y plataformas de soporte).

El Genesys Cloud Agentic Virtual Agent es un ejemplo de este caso de uso: puede comprender el problema de un cliente (por ejemplo, un problema de facturación), determinar lo que hay que hacer y completar las acciones requeridas, como verificar los datos de la cuenta, actualizar registros o activar procesos de servicio, sin intervención humana.¹⁰

En lugar de proporcionar respuestas, el sistema completa la tarea por sí mismo interactuando con diferentes herramientas y flujos de trabajo, reduciendo la necesidad de explicaciones repetidas o seguimientos manuales.

4. Conducción autónoma y toma de decisiones

Un Large Action Model (LAM) puede impulsar sistemas autónomos interpretando entradas del mundo real, razonando sobre situaciones y ejecutando acciones en tiempo real.

Alpamayo de NVIDIA utiliza models de Visión-Lenguaje-Acción para procesar vídeo de cámara, comprender el entorno de conducción, razonar sobre lo que está sucediendo y generar acciones de conducción como girar, frenar o acelerar.¹¹

En lugar de seguir reglas fijas, el sistema decide qué hacer basándose en el contexto (por ejemplo, tráfico, obstáculos, condiciones de la carretera) y explica su razonamiento, permitiendo una conducción autónoma más segura y transparente.

5. Ejecución de tareas personales en aplicaciones cotidianas

Un Large Action Model (LAM) puede convertir el objetivo de un usuario en acciones concretas en múltiples herramientas, completando tareas sin instrucciones paso a paso. Por ejemplo, sistemas de IA agéntica como OpenClaw utilizan principios similares: pueden gestionar correos electrónicos, calendarios y reservas de viajes planificando pasos y ejecutándolos de forma autónoma. Mientras que OpenClaw representa un sistema completo de IA agéntica, los LAMs proporcionan el núcleo de acción que permite a dichos sistemas llevar a cabo flujos de trabajo de varios pasos de manera fiable.

No te pierdas nuestros análisis comparativos e insights basados en datos. El botón abre Google; seleccionar AIMultiple confirma que deseas ver AIMultiple con más frecuencia en los resultados de búsqueda de Google.

Añadir como fuente preferida

Tecnologías en los LAMs

Un LAM puede utilizar las siguientes técnicas:

Conexiones: Conectarse a varias aplicaciones y APIs.
Enfoque neuro-simbólico: La programación neuro-simbólica es un método que permite a los LAMs combinar redes neuronales entrenadas en grandes conjuntos de datos con capacidades de razonamiento lógico simbólico incorporadas. Esto les permite notar patrones mientras también comprenden el razonamiento subyacente, haciéndolos más adaptables y capaces de tomar respuestas significativas dependiendo del "por qué" de las solicitudes del usuario.
Abstracción de instrucciones: Crear instrucciones que proporcionen una abstracción modular y jerárquica para el modelado a través de una interfaz.
Modelado humano directo: Identificar la intención, los hábitos y las rutinas del usuario en todas las aplicaciones para desarrollar una plantilla de actuación.
Razonamiento de tareas: Analizar las relaciones entre tareas, identificando dependencias y determinando el orden óptimo de ejecución. Asegura que las tareas previas se completen antes de que comiencen las dependientes. Esto permite al LAM mejorar los flujos de trabajo basándose en interacciones pasadas.
Aprendizaje continuo: Los LAMs ejecutan tareas y mejoran su rendimiento a través del aprendizaje continuo. Por ejemplo, un LAM podría gestionar las consultas de los clientes sobre pedidos, devoluciones e información de productos. Se volvería más hábil para resolver problemas rápidamente, incluso prediciendo y abordando posibles problemas antes de que los clientes se pongan en contacto.

Ejemplos de large action model

El término LAM abarca una mezcla de productos de consumo, models centrados en la acción y sistemas de investigación que intentan convertir la intención del usuario en acciones de software.

Rabbit R1: Rabbit comercializa el R1 en torno a su idea de LAM, y sus materiales oficiales ahora dirigen a los usuarios a características como LAM Playground y el modo de enseñanza para tareas en sitios web. Al mismo tiempo, las primeras críticas fueron muy negativas; The Verge calificó el dispositivo de "inacabado" e "inútil", y dijo que había poca evidencia de un LAM funcionando de manera fiable en el producto en el momento del lanzamiento.
Adept ACT-1: Adept describió ACT-1 como un "foundation model para acciones" entrenado para usar herramientas de software, APIs y aplicaciones web. Se entiende mejor como un sistema de agente avanzado orientado a la acción, en lugar de una categoría de IA completamente separada por sí misma.
Salesforce xLAM: Salesforce lanzó xLAM como una familia de models optimizados para la llamada de funciones y agentes de IA, y más tarde lo amplió con un soporte multi-turno más sólido. Esto convierte a xLAM en uno de los ejemplos oficiales más claros de una familia de models de estilo LAM.
Microsoft TaskMatrix.IA: TaskMatrix.IA es un artículo de visión de Microsoft Research que propone conectar foundation models con millones de APIs para completar tareas. Debido a que se enmarca como una visión de investigación y un artículo de posición, se describe mejor como un framework académico de tipo LAM que como un producto desplegable.

Cita esta investigación

Elige el formato que se ajuste al lugar donde vas a publicar. Pegar la versión con enlace en tu CMS conserva el enlace de retroceso.

Cem Dilmegani (2026) - "Large Action Models: ¿Exageración o Realidad?". Publicado en línea en AIMultiple.com. Recuperado el 1 de Julio de 2026, de: https://aimultiple.com/large-action-models [Recurso en línea]

Dilmegani, C. (2026, 1 de Julio). Large Action Models: ¿Exageración o Realidad?. AIMultiple. https://aimultiple.com/large-action-models

@misc{dilmegani2026,
  author = {Dilmegani, Cem},
  title  = {{Large Action Models: ¿Exageración o Realidad?}},
  year   = {2026},
  month  = jul,
  howpublished    = {\url{https://aimultiple.com/large-action-models}},
  note   = {AIMultiple. Recuperado el 1 de Julio de 2026}
}

Enlaces de referencia

SuperAGI/SAM · Hugging Face

Salesforce/xLAM-1b-fc-r · Hugging Face

[2412.10047] Large Action Models: From Inception to Implementation

Language-based AI Agents and Large Action Models (LAMs) | Juan Carlos Niebles

What Are Large Action Models (LAMs)? - How Do They Work in 2026

Trinetix | Globally Trusted Digital Partner

[2210.03629] ReAct: Synergizing Reasoning and Acting in Language Models

[2402.15506] AgentOhana: Design Unified Data and Training Pipeline for Effective Agent Learning

UiPath joins Large Action Model Race - YouTube

Matt Shumer on X: "Today, we’re unveiling Personal Assistant - @HyperWriteAI's groundbreaking AI agent that can use a web browser like a human. One agent to rule them all. It’s time to reimagine the way we interact with the internet. https://t.c

Genesys unveils industry’s first Agentic virtual agent powered by LAMs for enterprise CX – Intelligent CIO Europe

Sawyer Merritt on X: "NEWS: NVIDIA just announced Alpamayo, what CEO Jensen Huang calls the world’s first thinking, reasoning autonomous vehicle AI, launching on U.S. roads later this year, starting with the Mercedes CLA. Jensen: "It's trai

Cem Dilmegani

Analista principal

Cem ha sido el analista principal de AIMultiple desde 2017. AIMultiple informa a cientos de miles de empresas (según similarWeb), incluyendo el 55% de las empresas Fortune 500 cada mes. El trabajo de Cem ha sido citado por importantes publicaciones globales como Business Insider, Forbes, Washington Post, firmas globales como Deloitte, HPE y ONG como el Foro Económico Mundial y organizaciones supranacionales como la Comisión Europea. Puede consultar más empresas y recursos de renombre que citan a AIMultiple. A lo largo de su carrera, Cem se desempeñó como consultor, comprador y emprendedor tecnológico. Asesoró a empresas en sus decisiones tecnológicas en McKinsey & Company y Altman Solon durante más de una década. También publicó un informe de McKinsey sobre digitalización. Lideró la estrategia y adquisición de tecnología de una empresa de telecomunicaciones, reportando directamente al CEO. Asimismo, lideró el crecimiento comercial de la empresa de tecnología avanzada Hypatos, que alcanzó ingresos recurrentes anuales de siete cifras y una valoración de nueve cifras partiendo de cero en tan solo dos años. El trabajo de Cem en Hypatos fue reseñado por importantes publicaciones tecnológicas como TechCrunch y Business Insider. Cem participa regularmente como ponente en conferencias internacionales de tecnología. Se graduó en ingeniería informática por la Universidad de Bogazici y posee un MBA de la Columbia Business School.

Ver perfil completo

Sé el primero en comentar

Tu dirección de correo electrónico no será publicada. Todos los campos son obligatorios. Los comentarios se dejan en su idioma original.

Siguiente para leer

Agentes de uso de computadora: Benchmark y arquitectura

Finanzas Agentivas

Comercio de acciones basado en IA: ¿Qué herramienta de IA generativa es mejor?

Ezgi Arslan, PhD.

Software industrial

Evaluación en Mundo Abierto

Principales asistentes de IA empresarial por categoría y caso de uso

Ezgi Arslan, PhD.

Análisis de sentimientos

Principales herramientas de IA emocional probadas

Ezgi Arslan, PhD.

Soluciones WAF: Comparación basada en benchmark

Ezgi Arslan, PhD.

Evaluación en Mundo Abierto

Los 10+ principales software de Mobile Device Management con precios

Aspecto	Large action models (LAMs)	Large language models (LLMs)
Funcionalidad	Realizar acciones para ejecutar tareas	Razonar y generar respuestas de texto
Enfoque de aprendizaje	Aprenden de las interacciones humanas	Entrenados en grandes conjuntos de datos para comprender el contexto y la voz en los humanos
Tarea de ejemplo: Reservar una habitación	Los LAMs pueden manejar el procedimiento completo en un solo comando, incluyendo navegar por interfaces y rellenar formularios de hotel	Los LLMs pueden dar instrucciones y enlaces, pero no pueden finalizar la tarea
Rendimiento	Adecuado para tareas específicas con alcance limitado	Alto rendimiento en una amplia gama de tareas
Adaptabilidad	Requiere más intervención manual para adaptarse a nuevas tareas o dominios	Puede adaptarse más fácilmente a una amplia gama de tareas con un reentrenamiento mínimo