Dopo il lancio di Rabbit, un dispositivo AI in grado di utilizzare app mobili, il termine large action model (LAM) sta diventando popolare. Questi modelli vanno oltre la conversazione trasformando gli LLM in "agenti" che possono connettere il mondo isolato e guidato dalle app senza richiedere agli utenti di cliccare sulle app o integrare API.
Il confine tra hype e realtà dei LAM è labile, ma in breve: un LAM è un large language model (LLM) specificamente addestrato per intraprendere azioni (ad es. inviare richieste API).1
Che cos'è un large action model (LAM)?
Un Large Action Model (LAM) è un tipo avanzato di AI che si basa sui Large Language Model (LLM) non solo comprendendo e generando testo, ma anche pianificando ed eseguendo azioni in ambienti reali (digitali o fisici), consentendogli di automatizzare compiti e interagire direttamente con i sistemi in base all'intento dell'utente.
Le caratteristiche chiave dei Large Action Model (LAM) includono la loro capacità di comprendere l'intento dell'utente da diversi input (testo, voce, immagini), trasformare tale intento in azioni eseguibili, pianificare e adattare i compiti passo dopo passo in ambienti mutevoli e operare in modo efficiente attraverso la specializzazione in domini specifici, consentendo loro di completare compiti complessi del mondo reale in autonomia.
Le caratteristiche chiave dei Large Action Model (LAM) includono:
- Interpretare l'intento dell'utente: Possono comprendere le richieste degli utenti da testo, voce, immagini o video, anche quando l'istruzione non è chiara o è implicita.
- Generare azioni: Trasformano gli obiettivi dell'utente in azioni concrete in ambienti digitali o fisici, come l'uso di un'interfaccia grafica, la chiamata di API, il controllo di robot o la generazione di codice.
- Pianificazione dinamica e adattamento: Possono suddividere compiti complessi in passaggi più piccoli, seguire un piano e modificarlo quando la situazione cambia o si verificano errori.
- Specializzazione ed efficienza: Sono spesso costruiti per compiti o ambienti specifici, il che li rende più accurati ed efficienti rispetto ai modelli generici in quel dominio.
In breve, i LAM fanno più che comprendere il linguaggio. Collegano la comprensione con l'azione e possono portare a termine compiti in più fasi in contesti reali.
Come funzionano i large action model (LAM)?
I LAM interagiscono con le applicazioni tramite le loro interfacce utente o, più comunemente, tramite API. Ad esempio, possono elaborare le immagini e il codice di un sito web o di un'applicazione per decidere i passaggi successivi ed eseguire azioni.
Fonte: Salesforce2
Ciò consente ai LAM di navigare nelle interfacce utente e delle applicazioni. Ad esempio, se l'informazione esiste già o è accessibile tramite un'altra app, la recupererà da quell'app anziché chiederla all'utente.
All'interno dei LAM, tali gradi di autonomia e comprensione trasformano l'AI generativa in un assistente attivo che può svolgere compiti come:
- amministrare piattaforme di social media
- ottenere informazioni meteorologiche
- effettuare prenotazioni
- elaborare transazioni finanziarie
- connettersi a dispositivi IoT per consentirti di inviare loro comandi (ad es. chiamare un Uber)
LAM e LLM: comprendere la differenza
Fonte: Large Action Models: From Inception to Implementation3
I Large Action Model (LAM) estendono i Large Language Model (LLM) non solo comprendendo le richieste degli utenti, ma anche pianificando ed eseguendo azioni nel mondo reale, come completare compiti su siti web, rendendoli più efficienti, focalizzati sui compiti e pratici per applicazioni reali, spesso con design più piccoli e specializzati.
Sebbene i LAM e i large language model condividano alcune somiglianze, come la capacità di cogliere le intenzioni umane, i loro scopi principali differiscono notevolmente.
I LAM sono progettati per agire, mentre gli LLM eccellono nell'elaborazione e nella generazione del linguaggio. Mentre un LLM potrebbe suggerire idee o generare testo in base al tuo input, un LAM fa un passo in più eseguendo autonomamente compiti come fissare appuntamenti, ordinare prodotti o compilare moduli.
Large agentic model (LAM): hype o realtà?
Mentre alcune aziende presentano i LAM come una nuova architettura, le funzionalità loro attribuite sono state implementate già da tempo utilizzando agenti LLM.4
Inoltre, gli agenti LLM hanno già svolto in precedenza compiti che si descrivono come propri dei LAM. I due concetti condividono funzionalità comuni (vedi figura):
- Analisi basata sul contesto
- Prompt engineering
- Sfruttamento degli strumenti
- Ragionamento5
Figura: Flusso di lavoro dell'agente AI basato sul linguaggio
Fonte: ICLR6
Inoltre, i LAM possono essere descritti come progetti di agenti basati sul linguaggio come (1) agenti AI basati su modelli di prompt; (2) agenti AI con prompt apprendibili; e (3) large action model (LAM); affermando che possiamo pensare a un LAM come a un LLM specificamente addestrato per eseguire azioni umane a partire dai dati.7
Per maggiori dettagli sui modelli di AI, consulta la nostra ricerca basata sui dati su:
Esempi reali di LAM
1. Completare automaticamente moduli o fogli di calcolo su siti web
Un LAM può riconoscere i campi necessari su un modulo, raccogliere i dati richiesti (ad es. indirizzi, nomi, password e numeri di carta di credito) da un database o dal profilo utente e inserirli nei campi appropriati.
Video: Completare automaticamente moduli o fogli di calcolo con LAM
2. Completare transazioni online
Un LAM può interagire con pulsanti, link e menu a discesa. Può anche inserire testo specifico in campi di testo e barre di ricerca. Questo è esattamente ciò che comporta ordinare una pizza online: compilare moduli di testo, cliccare pulsanti e selezionare voci di menu.
Video: HyperWriteAI Assistant Studio che utilizza il browser per effettuare un ordine online
Fonte: HyperWriteAI9
3. Risolvere le richieste di assistenza clienti end-to-end
Un Large Action Model (LAM) può gestire una richiesta completa del cliente dall'inizio alla fine, comprendendo l'obiettivo dell'utente, decidendo i passaggi necessari ed eseguendoli su più sistemi (come CRM, fatturazione e piattaforme di supporto).
Il Genesys Cloud Agentic Virtual Agent è un esempio di questo caso d'uso: può comprendere il problema di un cliente (ad es. un problema di fatturazione), determinare cosa deve essere fatto e completare le azioni richieste, come controllare i dati dell'account, aggiornare i record o attivare processi di servizio, senza intervento umano.10
Invece di fornire risposte, il sistema completa il compito stesso interagendo con diversi strumenti e flussi di lavoro, riducendo la necessità di spiegazioni ripetute o follow-up manuali.
4. Guida autonoma e processo decisionale
Un Large Action Model (LAM) può alimentare sistemi autonomi interpretando input del mondo reale, ragionando sulle situazioni ed eseguendo azioni in tempo reale.
Alpamayo di NVIDIA utilizza modelli Vision-Language-Action per elaborare video della telecamera, comprendere l'ambiente di guida, ragionare su ciò che sta accadendo e generare azioni di guida come sterzare, frenare o accelerare.11
Invece di seguire regole fisse, il sistema decide cosa fare in base al contesto (ad es. traffico, ostacoli, condizioni stradali) e spiega il suo ragionamento, consentendo una guida autonoma più sicura e trasparente.
5. Esecuzione di compiti personali tra le app quotidiane
Un Large Action Model (LAM) può trasformare l'obiettivo di un utente in azioni concrete su più strumenti, completando i compiti senza istruzioni passo dopo passo. Ad esempio, sistemi di AI agentic come OpenClaw utilizzano principi simili: possono gestire email, calendari e prenotazioni di viaggio pianificando i passaggi ed eseguendoli autonomamente. Mentre OpenClaw rappresenta un sistema di AI agentic completo, i LAM forniscono il nucleo di esecuzione delle azioni che consente a tali sistemi di portare avanti flussi di lavoro in più fasi in modo affidabile.
Tecnologie nei LAM
Un LAM può utilizzare le seguenti tecniche:
- Connessioni: Connettersi a diverse app e API.
- Approccio neuro-simbolico: La programmazione neuro-simbolica è un metodo che consente ai LAM di combinare reti neurali addestrate su grandi dataset con capacità di ragionamento logico simbolico integrate. Ciò consente loro di notare schemi e allo stesso tempo comprendere il ragionamento sottostante, rendendoli più adattivi e capaci di intraprendere risposte significative in base al "perché" delle richieste degli utenti.
- Astrazione delle istruzioni: Creare istruzioni che forniscono un'astrazione modulare e gerarchica per la modellazione tramite un'interfaccia.
- Modellazione umana diretta: Identificare l'intento, le abitudini e le routine di un utente tra le applicazioni per sviluppare un modello per agire.
- Ragionamento sui compiti: Analizzare le relazioni tra i compiti, identificando le dipendenze e determinando l'ordine ottimale di esecuzione. Garantisce che i compiti prerequisiti siano completati prima che inizino quelli dipendenti. Ciò consente al LAM di migliorare i flussi di lavoro in base alle interazioni passate.
- Apprendimento continuo: I LAM non solo eseguono compiti, ma migliorano anche le loro prestazioni attraverso l'apprendimento continuo. Ad esempio, un LAM potrebbe gestire le richieste dei clienti su ordini, resi e informazioni sui prodotti. Nel tempo, diventerebbe più abile nel risolvere rapidamente i problemi, persino prevedendo e affrontando potenziali problemi prima che i clienti li contattino.
Esempi di large action model
Il termine LAM copre un mix di prodotti di consumo, modelli orientati all'azione e sistemi di ricerca che cercano di trasformare l'intento dell'utente in azioni software.
- Rabbit R1: Rabbit commercializza l'R1 intorno alla sua idea di LAM, e i suoi materiali ufficiali ora indirizzano gli utenti a funzionalità come LAM Playground e la modalità di insegnamento per compiti su siti web. Allo stesso tempo, le prime recensioni sono state molto critiche; The Verge ha definito il dispositivo "incompleto" e "inutile", e ha affermato che c'erano poche prove di un LAM funzionante in modo affidabile nel prodotto al momento del lancio.
- Adept ACT-1: Adept ha descritto ACT-1 come un "modello di base per le azioni" addestrato per utilizzare strumenti software, API e app web. È meglio inteso come un sistema agente avanzato orientato all'azione, piuttosto che una categoria di AI completamente separata a sé stante.
- Salesforce xLAM: Salesforce ha rilasciato xLAM come una famiglia di modelli ottimizzati per la chiamata di funzioni e agenti AI, e in seguito l'ha ampliata con un supporto multi-turno più robusto. Questo rende xLAM uno degli esempi ufficiali più chiari di una famiglia di modelli in stile LAM.
- Microsoft TaskMatrix.AI: TaskMatrix.AI è un documento di visione di Microsoft Research che propone di collegare modelli di base con milioni di API per completare compiti. Poiché è inquadrato come una visione di ricerca e un documento di posizione, è meglio descritto come un framework accademico simile a un LAM piuttosto che un prodotto distribuibile.
Cita questa ricerca
Scegli il formato adatto a dove pubblicherai. Incollare la versione con link nel tuo CMS preserva il backlink.
@misc{dilmegani2026,
author = {Dilmegani, Cem},
title = {{Large Action Models: Hype o Realtà?}},
year = {2026},
month = jul,
howpublished = {\url{https://aimultiple.com/large-action-models}},
note = {AIMultiple. Consultato il 1 Luglio 2026}
}


Sii il primo a commentare
Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori. I commenti vengono lasciati nella loro lingua originale.