Suite au lancement de Rabbit, un appareil d'IA capable d'utiliser des applications mobiles, le terme « modèles d'actions à grande échelle » (LAM) gagne en popularité. Ces modèles dépassent le cadre de la simple conversation en transformant les LAM en « agents » capables de connecter l'univers cloisonné des applications sans que les utilisateurs aient à cliquer sur des applications ni à intégrer d'API.
La frontière entre le battage médiatique et la réalité des LAM est floue, mais en bref : un LAM est un grand modèle de langage (LLM) spécifiquement entraîné à prendre des actions (par exemple, envoyer des requêtes API). 1
Qu'est-ce qu'un modèle d'action à grande échelle (LAM) ?
Un Large Action Model (LAM) est un type avancé d'IA qui s'appuie sur les Large Language Models (LLM) en comprenant et en générant du texte, mais aussi en planifiant et en exécutant des actions dans des environnements du monde réel (numériques ou physiques), ce qui lui permet d'automatiser des tâches et d'interagir directement avec les systèmes en fonction de l'intention de l'utilisateur.
Les caractéristiques clés des Large Action Models (LAM) incluent leur capacité à comprendre l'intention de l'utilisateur à partir de différentes entrées (texte, voix, images), à transformer cette intention en actions exécutables, à planifier et à adapter les tâches étape par étape dans des environnements changeants et à fonctionner efficacement grâce à une spécialisation dans des domaines spécifiques, leur permettant d'accomplir de manière autonome des tâches complexes du monde réel.
Les principales caractéristiques des modèles d'action à grande échelle (LAM) sont les suivantes :
- Interprétation de l'intention de l'utilisateur : ils peuvent comprendre les requêtes des utilisateurs à partir de texte, de voix, d'images ou de vidéos, même lorsque l'instruction est imprécise ou implicite.
- Générer des actions : elles transforment les objectifs de l’utilisateur en actions concrètes dans des environnements numériques ou physiques, comme l’utilisation d’une interface graphique, l’appel d’API, le contrôle de robots ou la génération de code.
- Planification et adaptation dynamiques : elles permettent de décomposer des tâches complexes en étapes plus petites, de suivre un plan et de l’ajuster en cas de changement de situation ou d’erreurs.
- Spécialisation et efficacité : ils sont souvent conçus pour des tâches ou des environnements spécifiques, ce qui les rend plus précis et plus efficaces que les modèles à usage général dans ce domaine.
En résumé, les LAM ne se contentent pas de comprendre le langage. Ils relient la compréhension à l'action et peuvent réaliser des tâches complexes dans des situations réelles.
Comment fonctionnent les modèles d'action à grande échelle (LAM) ?
Les LAM interagissent avec les applications via leurs interfaces utilisateur ou, plus couramment, via des API. Par exemple, elles peuvent traiter les images et le code d'un site web ou d'une application pour déterminer les prochaines étapes et exécuter des actions.
Cela permet aux LAM de naviguer dans les interfaces utilisateur et applicatives. Par exemple, si l'information existe déjà ou est accessible via une autre application, elle sera récupérée depuis cette application plutôt que de solliciter l'utilisateur.
Au sein des LAM, de tels degrés d'autonomie et de compréhension transforment l'IA générative en un assistant actif capable d'effectuer des tâches telles que :
- administration des plateformes de médias sociaux
- obtenir des informations météorologiques
- faire des réservations
- traitement des transactions financières
- Se connecter à des appareils IoT pour pouvoir leur envoyer des commandes (par exemple, commander un Uber).
Source : Salesforce 2
LAM et LLM : Comprendre la différence
Source : Modèles d'actions à grande échelle : de la conception à la mise en œuvre 3
Les Large Action Models (LAM) étendent les Large Language Models (LLM) en comprenant non seulement les requêtes des utilisateurs, mais aussi en planifiant et en exécutant des actions du monde réel, telles que l'exécution de tâches sur des sites Web, ce qui les rend plus efficaces, axés sur les tâches et pratiques pour les applications du monde réel, souvent avec des conceptions plus petites et plus spécialisées.
Bien que les LAM et les grands modèles de langage partagent certaines similitudes, comme leur capacité à saisir les intentions humaines, leurs objectifs principaux diffèrent considérablement.
Les LAM sont conçus pour l'action, tandis que les LLM excellent dans le traitement et la génération du langage. Si un LLM peut suggérer des idées ou générer du texte à partir de vos données, un LAM va plus loin en effectuant de manière autonome des tâches telles que la prise de rendez-vous, la commande de produits ou le remplissage de formulaires.
Modèles à grands agents (LAM) : effet de mode ou réalité ?
Alors que certaines entreprises présentent les LAM comme une nouvelle architecture, les fonctionnalités qui leur sont attribuées sont mises en œuvre depuis un certain temps à l'aide d'agents LLM. 4
De plus, les agents LLM ont déjà réalisé des tâches décrites pour les LAM. Les deux concepts partagent des fonctionnalités communes (voir figure) :
- Analyse contextuelle
- Ingénierie rapide
- Tirer parti des outils
- Raisonnement 5
Figure : Flux de travail d’un agent d’IA basé sur le langage
Source : ICLR 6
De plus, les LAM peuvent être décrits comme des conceptions d'agents basées sur le langage telles que (1) les agents d'IA basés sur des modèles d'invite ; (2) les agents d'IA d'invite apprenables ; et (3) les grands modèles d'action (LAM) ; en déclarant que nous pouvons considérer un LAM comme un LLM spécifiquement entraîné à exécuter des actions humaines à partir de données. 7
Pour plus de détails sur les modèles d'IA, consultez nos recherches basées sur les données sur :
Exemples concrets de LAM
1. Remplissage automatique des formulaires ou des feuilles de calcul sur les sites web
Un LAM peut identifier les champs nécessaires sur un formulaire, collecter les données requises (par exemple, adresses, noms, mots de passe et numéros de carte de crédit) à partir d'une base de données ou d'un profil utilisateur, et les saisir dans les champs appropriés.
Vidéo : Remplissage automatique de formulaires ou de feuilles de calcul avec LAM
2. Effectuer des transactions en ligne
Un module d'apprentissage automatique (LAM) peut gérer des boutons, des liens et des menus déroulants. Il peut également insérer du texte dans des champs de texte et des barres de recherche. Commander une pizza en ligne implique précisément cela : remplir des formulaires, cliquer sur des boutons et sélectionner des options dans un menu.
Vidéo : HyperWriteAI Assistant Studio utilise le navigateur pour passer une commande en ligne
Source : HyperWriteAI 9
3. Résolution complète des demandes de service client
Un modèle d'action à grande échelle (LAM) peut gérer une demande client complète du début à la fin en comprenant l'objectif de l'utilisateur, en décidant des étapes nécessaires et en les exécutant sur plusieurs systèmes (tels que les plateformes CRM, de facturation et de support).
L' agent virtuel Genesys Cloud Agentic est un exemple de ce cas d'utilisation : il peut comprendre le problème d'un client (par exemple, un problème de facturation), déterminer ce qui doit être fait et effectuer les actions requises, telles que la vérification des données du compte, la mise à jour des enregistrements ou le déclenchement des processus de service, sans intervention humaine. 10
Au lieu de se contenter de fournir des réponses, le système accomplit lui-même la tâche en interagissant avec différents outils et flux de travail, réduisant ainsi le besoin d'explications répétées ou de suivis manuels.
4. Conduite autonome et prise de décision
Un modèle d'action à grande échelle (LAM) peut alimenter des systèmes autonomes en interprétant des entrées du monde réel, en raisonnant sur des situations et en exécutant des actions en temps réel.
Alpamayo de NVIDIA utilise des modèles Vision-Langage-Action pour traiter la vidéo de la caméra, comprendre l'environnement de conduite, raisonner sur ce qui se passe et générer des actions de conduite telles que la direction, le freinage ou l'accélération. 11
Au lieu de suivre des règles fixes, le système décide de ce qu'il faut faire en fonction du contexte (par exemple, la circulation, les obstacles, l'état de la route) et explique son raisonnement, permettant une conduite autonome plus sûre et plus transparente.
5. Exécution de tâches personnelles dans les applications du quotidien
Un modèle d'action complexe (LAM) permet de traduire l'objectif d'un utilisateur en actions concrètes à travers différents outils, en réalisant des tâches sans instructions détaillées. Par exemple, les systèmes d'IA agentiques comme OpenClaw utilisent des principes similaires : ils gèrent les courriels, les calendriers et les réservations de voyage en planifiant et en exécutant des étapes de manière autonome. Si OpenClaw constitue un système d'IA agentique complet, les LAM fournissent le noyau d'exécution des actions qui permet à ces systèmes de mener à bien des flux de travail complexes de manière fiable.
Technologies dans les LAM
Un LAM peut utiliser les techniques suivantes :
- Connexions : Connectez-vous à plusieurs applications et API.
- Approche neuro-symbolique : La programmation neuro-symbolique est une méthode qui permet aux systèmes d’apprentissage automatique (SAA) de combiner des réseaux neuronaux entraînés sur de vastes ensembles de données avec des capacités de raisonnement logique symbolique intégrées. Cela leur permet de repérer des schémas tout en comprenant le raisonnement sous-jacent, ce qui les rend plus adaptatifs et capables d’apporter des réponses pertinentes en fonction du « pourquoi » des requêtes des utilisateurs.
- Abstraction des instructions : Créer des instructions qui fournissent une abstraction modulaire et hiérarchique pour la modélisation via une interface.
- Modélisation humaine directe : identifier les intentions, les habitudes et les routines d’un utilisateur, à travers différentes applications, afin de développer un modèle d’action.
- Raisonnement sur les tâches : analyse des relations entre les tâches, identification des dépendances et détermination de l’ordre d’exécution optimal. Ce processus garantit que les tâches préalables sont terminées avant le début des tâches dépendantes. Cela permet au système de gestion des apprentissages (LAM) d’améliorer les flux de travail en s’appuyant sur les interactions passées.
- Apprentissage continu : LAM Non seulement le système exécute des tâches, mais il améliore également ses performances au fil du temps grâce à un apprentissage continu. Par exemple, LAM pourrait gérer les demandes des clients concernant les commandes, les retours et les informations sur les produits. Avec le temps, il deviendrait plus apte à résoudre rapidement les problèmes, voire à anticiper et à résoudre les problèmes potentiels avant même que les clients ne le contactent.
Exemples de modèles d'action à grande échelle
Le terme LAM englobe un ensemble de produits de consommation, de modèles axés sur l'action et de systèmes de recherche qui tentent de transformer l'intention de l'utilisateur en actions logicielles.
- Rabbit R1 : Rabbit commercialise le R1 en s’appuyant sur son concept LAM, et sa documentation officielle met désormais en avant des fonctionnalités telles que LAM Playground et le mode d’apprentissage pour les tâches liées aux sites web. Cependant, les premiers tests ont été très critiques ; The Verge a qualifié l’appareil d’« inachevé » et d’« inutile », et a indiqué qu’il y avait peu de preuves du bon fonctionnement du LAM dans le produit au moment de son lancement.
- Adept ACT-1 : Adept décrit ACT-1 comme un « modèle de base pour les actions » entraîné à utiliser des outils logiciels, des API et des applications web. Il est préférable de le considérer comme un système d’agent avancé orienté action, plutôt que comme une catégorie d’IA totalement distincte.
- xLAM ( Salesforce) : xLAM a été publié sous la forme d'une famille de modèles optimisés pour les appels de fonctions et les agents d'IA, puis enrichi d'une meilleure prise en charge des tours multiples. Cela fait de xLAM l'un des exemples officiels les plus clairs d'une famille de modèles de type LAM.
- TaskMatrix.AI (991259_1730) : TaskMatrix.AI est un document de recherche (991259_1730) qui propose de connecter des modèles de base à des millions d'API pour réaliser des tâches. Étant donné qu'il s'agit d'un document de recherche, il est plus proche d'un cadre académique de type LAM que d'un produit déployable.
Soyez le premier à commenter
Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.