Tras el lanzamiento de Rabbit, un dispositivo de IA que puede usar aplicaciones móviles, el término modelos de acción a gran escala (LAM, por sus siglas en inglés) se está popularizando. Estos modelos van más allá de la conversación, convirtiendo a los LLM en "agentes" que pueden conectar el mundo fragmentado y basado en aplicaciones sin que los usuarios tengan que hacer clic en ellas ni integrar API.
La línea que separa la exageración de la realidad en lo que respecta a los LAM es difusa, pero en resumen: un LAM es un modelo de lenguaje grande (LLM) entrenado específicamente para realizar acciones (por ejemplo, enviar solicitudes a la API). 1
¿Qué es un modelo de acción a gran escala (LAM)?
Un modelo de acción a gran escala (LAM, por sus siglas en inglés) es un tipo avanzado de IA que se basa en modelos de lenguaje a gran escala (LLM, por sus siglas en inglés), ya que no solo comprende y genera texto, sino que también planifica y ejecuta acciones en entornos del mundo real (digitales o físicos), lo que le permite automatizar tareas e interactuar directamente con los sistemas en función de la intención del usuario.
Las características clave de los Modelos de Acción a Gran Escala (LAM, por sus siglas en inglés) incluyen su capacidad para comprender la intención del usuario a partir de diferentes entradas (texto, voz, imágenes), convertir esa intención en acciones ejecutables, planificar y adaptar tareas paso a paso en entornos cambiantes y operar de manera eficiente a través de la especialización en dominios específicos, lo que les permite completar tareas complejas del mundo real de forma autónoma.
Las características clave de los Modelos de Acción a Gran Escala (LAM, por sus siglas en inglés) incluyen:
- Interpretación de la intención del usuario: Pueden comprender las peticiones del usuario a través de texto, voz, imágenes o vídeos, incluso cuando la instrucción no es clara o es implícita.
- Generación de acciones: Convierten los objetivos del usuario en acciones concretas en entornos digitales o físicos, como usar una interfaz gráfica de usuario (GUI), llamar a API, controlar robots o generar código.
- Planificación y adaptación dinámicas: Pueden dividir las tareas complejas en pasos más pequeños, seguir un plan y ajustarlo cuando la situación cambia o se producen errores.
- Especialización y eficiencia: Suelen estar diseñados para tareas o entornos específicos, lo que los hace más precisos y eficientes que los modelos de propósito general en ese ámbito.
En resumen, los LAM hacen más que comprender el lenguaje. Conectan la comprensión con la acción y pueden llevar a cabo tareas de varios pasos en entornos del mundo real.
¿Cómo funcionan los modelos de acción a gran escala (LAM, por sus siglas en inglés)?
Los LAM interactúan con las aplicaciones a través de sus interfaces de usuario o, más comúnmente, a través de API. Por ejemplo, pueden procesar las imágenes y el código de un sitio web o una aplicación para determinar los pasos a seguir y realizar acciones.
Esto permite a los LAM navegar por las interfaces de usuario y de las aplicaciones. Por ejemplo, si la información ya existe o es accesible a través de otra aplicación, la recuperará de esa aplicación en lugar de preguntarle al usuario.
Dentro de los LAM, estos grados de autonomía y comprensión transforman la IA generativa en un asistente activo que puede realizar tareas como:
- administrar plataformas de redes sociales
- obtener información meteorológica
- hacer reservas
- procesamiento de transacciones financieras
- Conéctate a dispositivos IoT para poder enviarles comandos (por ejemplo, para pedir un Uber).
Fuente: Salesforce 2
LAM y LLM: Entendiendo la diferencia
Fuente: Modelos de acción a gran escala: desde su concepción hasta su implementación 3
Los modelos de acción a gran escala (LAM, por sus siglas en inglés) amplían los modelos de lenguaje a gran escala (LLM, por sus siglas en inglés) al no solo comprender las solicitudes de los usuarios, sino también al planificar y ejecutar acciones del mundo real, como completar tareas en sitios web, lo que los hace más eficientes, centrados en las tareas y prácticos para aplicaciones del mundo real, a menudo con diseños más pequeños y especializados.
Aunque los modelos de lenguaje a gran escala (LAM, por sus siglas en inglés) y los modelos de lenguaje a gran escala comparten algunas similitudes, como su capacidad para comprender las intenciones humanas, sus propósitos fundamentales difieren enormemente.
Los LAM están diseñados para la acción, mientras que los LLM destacan en el procesamiento y la generación de lenguaje. Si bien un LLM puede sugerir ideas o generar texto a partir de la información proporcionada, un LAM va un paso más allá al realizar tareas de forma autónoma, como concertar citas, pedir productos o rellenar formularios.
¿Los modelos de agencia a gran escala (LAM) son una exageración o una realidad?
Si bien algunas empresas presentan los LAM como una arquitectura nueva, las funcionalidades que se les asignan se han implementado desde hace algún tiempo utilizando agentes LLM. 4
Además, los agentes LLM ya han realizado tareas que se describen para los LAM. Ambos conceptos comparten funcionalidades comunes (véase la figura):
- Análisis basado en el contexto
- Ingeniería rápida
- Aprovechamiento de herramientas
- Razonamiento 5
Figura: Flujo de trabajo del agente de IA basado en el lenguaje
Fuente: ICLR 6
Además, los LAM se pueden describir como diseños de agentes basados en el lenguaje, tales como (1) agentes de IA basados en plantillas de indicaciones; (2) agentes de IA de indicaciones aprendibles; y (3) modelos de acción grandes (LAM); lo que indica que podemos pensar en un LAM como un LLM específicamente entrenado para ejecutar acciones humanas a partir de datos. 7
Para obtener más detalles sobre los modelos de IA, consulte nuestra investigación basada en datos sobre:
Ejemplos reales de LAM
1. Completar automáticamente formularios u hojas de cálculo en sitios web.
Un LAM puede reconocer los campos necesarios en un formulario, recopilar los datos requeridos (por ejemplo, direcciones, nombres, contraseñas y números de tarjetas de crédito) de una base de datos o perfil de usuario, e introducirlos en los campos correspondientes.
Vídeo: Cómo completar automáticamente formularios u hojas de cálculo con LAM
2. Completar transacciones en línea
Un LAM puede funcionar con botones, enlaces y menús desplegables. También puede insertar texto específico en campos de texto y barras de búsqueda. Esto es precisamente lo que implica pedir pizza en línea: completar formularios de texto, hacer clic en botones y seleccionar opciones del menú.
Vídeo: HyperWriteAI Assistant Studio utiliza el navegador para realizar un pedido en línea.
Fuente: HyperWriteAI 9
3. Resolución de solicitudes de servicio al cliente de principio a fin
Un modelo de acción a gran escala (LAM, por sus siglas en inglés) puede gestionar una solicitud completa del cliente de principio a fin, comprendiendo el objetivo del usuario, decidiendo los pasos necesarios y ejecutándolos en múltiples sistemas (como plataformas de CRM, facturación y soporte).
El agente virtual Genesys Cloud Agentic es un ejemplo de este caso de uso: puede comprender el problema de un cliente (por ejemplo, un problema de facturación), determinar qué se debe hacer y completar las acciones necesarias, como verificar los datos de la cuenta, actualizar los registros o activar los procesos de servicio, sin intervención humana. 10
En lugar de limitarse a proporcionar respuestas, el sistema completa la tarea por sí mismo interactuando con diferentes herramientas y flujos de trabajo, lo que reduce la necesidad de explicaciones repetidas o seguimientos manuales.
4. Conducción autónoma y toma de decisiones
Un modelo de acción a gran escala (LAM, por sus siglas en inglés) puede impulsar sistemas autónomos interpretando datos del mundo real, razonando sobre situaciones y ejecutando acciones en tiempo real.
Alpamayo, del modelo NVIDIA, utiliza modelos de Visión-Lenguaje-Acción para procesar el vídeo de la cámara, comprender el entorno de conducción, razonar sobre lo que está sucediendo y generar acciones de conducción como girar el volante, frenar o acelerar. 11
En lugar de seguir reglas fijas, el sistema decide qué hacer en función del contexto (por ejemplo, el tráfico, los obstáculos, las condiciones de la carretera) y explica su razonamiento, lo que permite una conducción autónoma más segura y transparente.
5. Ejecución de tareas personales en aplicaciones cotidianas
Un Modelo de Acción a Gran Escala (LAM, por sus siglas en inglés) puede convertir el objetivo del usuario en acciones concretas a través de múltiples herramientas, completando tareas sin instrucciones paso a paso. Por ejemplo, los sistemas de IA con capacidad de gestión de agentes, como OpenClaw, utilizan principios similares: pueden gestionar correos electrónicos, calendarios y reservas de viajes planificando los pasos y ejecutándolos de forma autónoma. Si bien OpenClaw representa un sistema de IA con capacidad de gestión de agentes completo, los LAM proporcionan el núcleo de ejecución de acciones que permite a dichos sistemas llevar a cabo flujos de trabajo de varios pasos de forma fiable.
Tecnologías en LAMs
Un LAM puede utilizar las siguientes técnicas:
- Conexiones: Conéctese a varias aplicaciones y API.
- Enfoque neurosimbólico: La programación neurosimbólica es un método que permite a los LAM combinar redes neuronales entrenadas con grandes conjuntos de datos con capacidades integradas de razonamiento lógico simbólico. Esto les permite detectar patrones y comprender el razonamiento subyacente, lo que los hace más adaptables y capaces de ofrecer respuestas significativas según el motivo de las solicitudes del usuario.
- Abstracción de instrucciones: Cree instrucciones que proporcionen una abstracción modular y jerárquica para el modelado a través de una interfaz.
- Modelado humano directo: Identificar la intención, los hábitos y las rutinas del usuario en diferentes aplicaciones para desarrollar una plantilla de actuación.
- Razonamiento de tareas: Analiza las relaciones entre tareas, identificando dependencias y determinando el orden óptimo de ejecución. Esto garantiza que las tareas prerrequisito se completen antes de que comiencen las dependientes. De esta forma, el LAM puede optimizar los flujos de trabajo basándose en interacciones anteriores.
- Aprendizaje continuo: LAMs No solo ejecutan tareas, sino que también mejoran su rendimiento con el tiempo mediante el aprendizaje continuo. Por ejemplo, LAM podría gestionar las consultas de los clientes sobre pedidos, devoluciones e información de productos. Con el tiempo, se volvería más eficiente en la resolución rápida de problemas, incluso prediciendo y abordando posibles inconvenientes antes de que los clientes se comuniquen.
Ejemplos de modelos de acción a gran escala
El término LAM abarca una combinación de productos de consumo, modelos centrados en la acción y sistemas de investigación que intentan convertir la intención del usuario en acciones de software.
- Rabbit R1 : Rabbit promociona el R1 en torno a su concepto LAM, y sus materiales oficiales ahora dirigen a los usuarios a funciones como LAM Playground y el modo de aprendizaje para tareas en sitios web. Sin embargo, las primeras reseñas fueron muy críticas; The Verge calificó el dispositivo de "inacabado" e "inútil", y afirmó que había pocas pruebas de que el LAM funcionara de forma fiable en el producto en el momento de su lanzamiento.
- Adept ACT-1 : Adept describió ACT-1 como un “modelo base para acciones” entrenado para usar herramientas de software, API y aplicaciones web. Se entiende mejor como un sistema de agente avanzado orientado a la acción, en lugar de una categoría de IA completamente independiente.
- Salesforce xLAM : Salesforce lanzó xLAM como una familia de modelos optimizados para la llamada a funciones y agentes de IA, y posteriormente la amplió con un soporte más robusto para múltiples turnos. Esto convierte a xLAM en uno de los ejemplos oficiales más claros de una familia de modelos de estilo LAM.
- TaskMatrix.AI : TaskMatrix.AI es un documento de investigación (991259_1730) que propone conectar modelos básicos con millones de API para completar tareas. Dado que se presenta como un documento de investigación y posicionamiento, se describe mejor como un marco académico similar a LAM que como un producto implementable.
Sé el primero en comentar
Tu dirección de correo electrónico no será publicada. Todos los campos son obligatorios.