Approfondimento

Cita Questa Ricerca

Large Action Models: Hype o Realtà?

aggiornato il 1 lug. 2026

Guarda il nostro norme etiche

Cita Questa Ricerca

Dopo il lancio di Rabbit, un dispositivo IA in grado di utilizzare app mobili, il termine large action model (LAM) sta diventando popolare. Questi modelli vanno oltre la conversazione trasformando gli LLM in "agenti" che possono connettere il mondo isolato e guidato dalle app senza richiedere agli utenti di cliccare sulle app o integrare API.

Il confine tra hype e realtà dei LAM è labile, ma in breve: un LAM è un large language model (LLM) specificamente addestrato per intraprendere azioni (ad es. inviare richieste API).¹

Che cos'è un large action model (LAM)?

Un Large Action Model (LAM) è un tipo avanzato di IA che si basa sui Large Language Model (LLM) non solo comprendendo e generando testo, ma anche pianificando ed eseguendo azioni in ambienti reali (digitali o fisici), consentendogli di automatizzare compiti e interagire direttamente con i sistemi in base all'intento dell'utente.

Le caratteristiche chiave dei Large Action Model (LAM) includono la loro capacità di comprendere l'intento dell'utente da diversi input (testo, voce, immagini), trasformare tale intento in azioni eseguibili, pianificare e adattare i compiti passo dopo passo in ambienti mutevoli e operare in modo efficiente attraverso la specializzazione in domini specifici, consentendo loro di completare compiti complessi del mondo reale in autonomia.

Le caratteristiche chiave dei Large Action Model (LAM) includono:

Interpretare l'intento dell'utente: Possono comprendere le richieste degli utenti da testo, voce, immagini o video, anche quando l'istruzione non è chiara o è implicita.
Generare azioni: Trasformano gli obiettivi dell'utente in azioni concrete in ambienti digitali o fisici, come l'uso di un'interfaccia grafica, la chiamata di API, il controllo di robot o la generazione di codice.
Pianificazione dinamica e adattamento: Possono suddividere compiti complessi in passaggi più piccoli, seguire un piano e modificarlo quando la situazione cambia o si verificano errori.
Specializzazione ed efficienza: Sono spesso costruiti per compiti o ambienti specifici, il che li rende più accurati ed efficienti rispetto ai modelli generici in quel dominio.

In breve, i LAM fanno più che comprendere il linguaggio. Collegano la comprensione con l'azione e possono portare a termine compiti in più fasi in contesti reali.

Come funzionano i large action model (LAM)?

I LAM interagiscono con le applicazioni tramite le loro interfacce utente o, più comunemente, tramite API. Ad esempio, possono elaborare le immagini e il codice di un sito web o di un'applicazione per decidere i passaggi successivi ed eseguire azioni.

Fonte: Salesforce²

Ciò consente ai LAM di navigare nelle interfacce utente e delle applicazioni. Ad esempio, se l'informazione esiste già o è accessibile tramite un'altra app, la recupererà da quell'app anziché chiederla all'utente.

All'interno dei LAM, tali gradi di autonomia e comprensione trasformano l'IA generativa in un assistente attivo che può svolgere compiti come:

amministrare piattaforme di social media
ottenere informazioni meteorologiche
effettuare prenotazioni
elaborare transazioni finanziarie
connettersi a dispositivi IoT per consentirti di inviare loro comandi (ad es. chiamare un Uber)

LAM e LLM: comprendere la differenza

Fonte: Large Action Models: From Inception to Implementation³

I Large Action Model (LAM) estendono i Large Language Model (LLM) non solo comprendendo le richieste degli utenti, ma anche pianificando ed eseguendo azioni nel mondo reale, come completare compiti su siti web, rendendoli più efficienti, focalizzati sui compiti e pratici per applicazioni reali, spesso con design più piccoli e specializzati.

Sebbene i LAM e i large language model condividano alcune somiglianze, come la capacità di cogliere le intenzioni umane, i loro scopi principali differiscono notevolmente.

I LAM sono progettati per agire, mentre gli LLM eccellono nell'elaborazione e nella generazione del linguaggio. Mentre un LLM potrebbe suggerire idee o generare testo in base al tuo input, un LAM fa un passo in più eseguendo autonomamente compiti come fissare appuntamenti, ordinare prodotti o compilare moduli.

Lascia che il nostro team automatizzi uno dei tuoi processi aziendali con agenti IA, gratuitamente.

Automatizza un processo

Large agentic model (LAM): hype o realtà?

Mentre alcune aziende presentano i LAM come una nuova architettura, le funzionalità loro attribuite sono state implementate già da tempo utilizzando agenti LLM.⁴

Inoltre, gli agenti LLM hanno già svolto in precedenza compiti che si descrivono come propri dei LAM. I due concetti condividono funzionalità comuni (vedi figura):

Analisi basata sul contesto
Prompt engineering
Sfruttamento degli strumenti
Ragionamento⁵

Figura: Flusso di lavoro dell'agente IA basato sul linguaggio

Fonte: ICLR⁶

Inoltre, i LAM possono essere descritti come progetti di agenti basati sul linguaggio come (1) agenti IA basati su modelli di prompt; (2) agenti IA con prompt apprendibili; e (3) large action model (LAM); affermando che possiamo pensare a un LAM come a un LLM specificamente addestrato per eseguire azioni umane a partire dai dati.⁷

Per maggiori dettagli sui modelli di IA, consulta la nostra ricerca basata sui dati su:

Esempi reali di LAM

1. Completare automaticamente moduli o fogli di calcolo su siti web

Un LAM può riconoscere i campi necessari su un modulo, raccogliere i dati richiesti (ad es. indirizzi, nomi, password e numeri di carta di credito) da un database o dal profilo utente e inserirli nei campi appropriati.

Video: Completare automaticamente moduli o fogli di calcolo con LAM

2. Completare transazioni online

Un LAM può interagire con pulsanti, link e menu a discesa. Può anche inserire testo specifico in campi di testo e barre di ricerca. Questo è esattamente ciò che comporta ordinare una pizza online: compilare moduli di testo, cliccare pulsanti e selezionare voci di menu.

Video: HyperWriteAI Assistant Studio che utilizza il browser per effettuare un ordine online

Fonte: HyperWriteAI⁹

3. Risolvere le richieste di assistenza clienti end-to-end

Un Large Action Model (LAM) può gestire una richiesta completa del cliente dall'inizio alla fine, comprendendo l'obiettivo dell'utente, decidendo i passaggi necessari ed eseguendoli su più sistemi (come CRM, fatturazione e piattaforme di supporto).

Il Genesys Cloud Agentic Virtual Agent è un esempio di questo caso d'uso: può comprendere il problema di un cliente (ad es. un problema di fatturazione), determinare cosa deve essere fatto e completare le azioni richieste, come controllare i dati dell'account, aggiornare i record o attivare processi di servizio, senza intervento umano.¹⁰

Invece di fornire risposte, il sistema completa il compito stesso interagendo con diversi strumenti e flussi di lavoro, riducendo la necessità di spiegazioni ripetute o follow-up manuali.

4. Guida autonoma e processo decisionale

Un Large Action Model (LAM) può alimentare sistemi autonomi interpretando input del mondo reale, ragionando sulle situazioni ed eseguendo azioni in tempo reale.

Alpamayo di NVIDIA utilizza modelli Vision-Language-Action per elaborare video della telecamera, comprendere l'ambiente di guida, ragionare su ciò che sta accadendo e generare azioni di guida come sterzare, frenare o accelerare.¹¹

Invece di seguire regole fisse, il sistema decide cosa fare in base al contesto (ad es. traffico, ostacoli, condizioni stradali) e spiega il suo ragionamento, consentendo una guida autonoma più sicura e trasparente.

5. Esecuzione di compiti personali tra le app quotidiane

Un Large Action Model (LAM) può trasformare l'obiettivo di un utente in azioni concrete su più strumenti, completando i compiti senza istruzioni passo dopo passo. Ad esempio, sistemi di IA agentic come OpenClaw utilizzano principi simili: possono gestire email, calendari e prenotazioni di viaggio pianificando i passaggi ed eseguendoli autonomamente. Mentre OpenClaw rappresenta un sistema di IA agentic completo, i LAM forniscono il nucleo di esecuzione delle azioni che consente a tali sistemi di portare avanti flussi di lavoro in più fasi in modo affidabile.

Non perderti i nostri benchmark e approfondimenti basati sui dati. Il pulsante apre Google; selezionare AIMultiple conferma che desideri vedere AIMultiple più spesso nei risultati di ricerca di Google.

Aggiungi come fonte preferita

Tecnologie nei LAM

Un LAM può utilizzare le seguenti tecniche:

Connessioni: Connettersi a diverse app e API.
Approccio neuro-simbolico: La programmazione neuro-simbolica è un metodo che consente ai LAM di combinare reti neurali addestrate su grandi dataset con capacità di ragionamento logico simbolico integrate. Ciò consente loro di notare schemi e allo stesso tempo comprendere il ragionamento sottostante, rendendoli più adattivi e capaci di intraprendere risposte significative in base al "perché" delle richieste degli utenti.
Astrazione delle istruzioni: Creare istruzioni che forniscono un'astrazione modulare e gerarchica per la modellazione tramite un'interfaccia.
Modellazione umana diretta: Identificare l'intento, le abitudini e le routine di un utente tra le applicazioni per sviluppare un modello per agire.
Ragionamento sui compiti: Analizzare le relazioni tra i compiti, identificando le dipendenze e determinando l'ordine ottimale di esecuzione. Garantisce che i compiti prerequisiti siano completati prima che inizino quelli dipendenti. Ciò consente al LAM di migliorare i flussi di lavoro in base alle interazioni passate.
Apprendimento continuo: I LAM non solo eseguono compiti, ma migliorano anche le loro prestazioni attraverso l'apprendimento continuo. Ad esempio, un LAM potrebbe gestire le richieste dei clienti su ordini, resi e informazioni sui prodotti. Nel tempo, diventerebbe più abile nel risolvere rapidamente i problemi, persino prevedendo e affrontando potenziali problemi prima che i clienti li contattino.

Esempi di large action model

Il termine LAM copre un mix di prodotti di consumo, modelli orientati all'azione e sistemi di ricerca che cercano di trasformare l'intento dell'utente in azioni software.

Rabbit R1: Rabbit commercializza l'R1 intorno alla sua idea di LAM, e i suoi materiali ufficiali ora indirizzano gli utenti a funzionalità come LAM Playground e la modalità di insegnamento per compiti su siti web. Allo stesso tempo, le prime recensioni sono state molto critiche; The Verge ha definito il dispositivo "incompleto" e "inutile", e ha affermato che c'erano poche prove di un LAM funzionante in modo affidabile nel prodotto al momento del lancio.
Adept ACT-1: Adept ha descritto ACT-1 come un "modello di base per le azioni" addestrato per utilizzare strumenti software, API e app web. È meglio inteso come un sistema agente avanzato orientato all'azione, piuttosto che una categoria di IA completamente separata a sé stante.
Salesforce xLAM: Salesforce ha rilasciato xLAM come una famiglia di modelli ottimizzati per la chiamata di funzioni e agenti IA, e in seguito l'ha ampliata con un supporto multi-turno più robusto. Questo rende xLAM uno degli esempi ufficiali più chiari di una famiglia di modelli in stile LAM.
Microsoft TaskMatrix.IA: TaskMatrix.IA è un documento di visione di Microsoft Research che propone di collegare modelli di base con milioni di API per completare compiti. Poiché è inquadrato come una visione di ricerca e un documento di posizione, è meglio descritto come un framework accademico simile a un LAM piuttosto che un prodotto distribuibile.

Cita questa ricerca

Scegli il formato adatto a dove pubblicherai. Incollare la versione con link nel tuo CMS preserva il backlink.

Cem Dilmegani (2026) - "Large Action Models: Hype o Realtà?". Pubblicato online su AIMultiple.com. Consultato il 1 Luglio 2026, da: https://aimultiple.com/large-action-models [Risorsa online]

Dilmegani, C. (2026, 1 Luglio). Large Action Models: Hype o Realtà?. AIMultiple. https://aimultiple.com/large-action-models

@misc{dilmegani2026,
  author = {Dilmegani, Cem},
  title  = {{Large Action Models: Hype o Realtà?}},
  year   = {2026},
  month  = jul,
  howpublished    = {\url{https://aimultiple.com/large-action-models}},
  note   = {AIMultiple. Consultato il 1 Luglio 2026}
}

Collegamenti di riferimento

SuperAGI/SAM · Hugging Face

Salesforce/xLAM-1b-fc-r · Hugging Face

[2412.10047] Large Action Models: From Inception to Implementation

Language-based AI Agents and Large Action Models (LAMs) | Juan Carlos Niebles

What Are Large Action Models (LAMs)? - How Do They Work in 2026

Trinetix | Globally Trusted Digital Partner

[2210.03629] ReAct: Synergizing Reasoning and Acting in Language Models

[2402.15506] AgentOhana: Design Unified Data and Training Pipeline for Effective Agent Learning

UiPath joins Large Action Model Race - YouTube

Matt Shumer on X: "Today, we’re unveiling Personal Assistant - @HyperWriteAI's groundbreaking AI agent that can use a web browser like a human. One agent to rule them all. It’s time to reimagine the way we interact with the internet. https://t.c

Genesys unveils industry’s first Agentic virtual agent powered by LAMs for enterprise CX – Intelligent CIO Europe

Sawyer Merritt on X: "NEWS: NVIDIA just announced Alpamayo, what CEO Jensen Huang calls the world’s first thinking, reasoning autonomous vehicle AI, launching on U.S. roads later this year, starting with the Mercedes CLA. Jensen: "It's trai

Cem Dilmegani

Analista principale

Cem è analista principale presso AIMultiple dal 2017. AIMultiple fornisce informazioni a centinaia di migliaia di aziende (secondo SimilarWeb), tra cui il 55% delle aziende Fortune 500, ogni mese. Il lavoro di Cem è stato citato da importanti pubblicazioni globali come Business Insider, Forbes, Washington Post, società globali come Deloitte e HPE, ONG come il World Economic Forum e organizzazioni sovranazionali come la Commissione Europea. È possibile consultare l'elenco di altre aziende e risorse autorevoli che hanno citato AIMultiple. Nel corso della sua carriera, Cem ha lavorato come consulente tecnologico, responsabile acquisti tecnologici e imprenditore nel settore tecnologico. Ha fornito consulenza alle aziende sulle loro decisioni tecnologiche presso McKinsey & Company e Altman Solon per oltre un decennio. Ha anche pubblicato un report di McKinsey sulla digitalizzazione. Ha guidato la strategia tecnologica e gli acquisti di un'azienda di telecomunicazioni, riportando direttamente al CEO. Ha inoltre guidato la crescita commerciale dell'azienda deep tech Hypatos, che ha raggiunto un fatturato annuo ricorrente a 7 cifre e una valutazione a 9 cifre partendo da zero in soli 2 anni. Il lavoro di Cem in Hypatos è stato oggetto di articoli su importanti pubblicazioni tecnologiche come TechCrunch e Business Insider. Cem partecipa regolarmente come relatore a conferenze internazionali di settore. Si è laureato in ingegneria informatica presso l'Università di Bogazici e ha conseguito un MBA presso la Columbia Business School.

Visualizza il profilo completo

Sii il primo a commentare

Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori. I commenti vengono lasciati nella loro lingua originale.

Prossimo da leggere

Approfondimento

Segnali di proliferazione incontrollata degli agenti IA e checklist per gestirla

Ezgi Arslan, PhD.

Valutazione in Mondo Aperto

I 12 Migliori Software RPA e le Loro Caratteristiche

Valutazione in Mondo Aperto

Analisi dei 5 migliori software di gestione delle modifiche al firewall

Ezgi Arslan, PhD.

Backup e ripristino

Valutazione in Mondo Aperto

Le 7 migliori SaaS soluzioni di backup

Produttività dell'IA

Migliori Strumenti di Generazione Documenti AI

Ezgi Arslan, PhD.

Fondamenti di intelligenza artificiale

Top 20 raffronto dei rilevatori di testo generato dall'IA

Ezgi Arslan, PhD.

Aspetto	Large action model (LAM)	Large language model (LLM)
Funzionalità	Eseguono azioni per portare a termine compiti	Ragionano e generano risposte testuali
Approccio all'apprendimento	Apprendono dalle interazioni umane	Addestrati su grandi dataset per comprendere il contesto e la voce umana
Compito di esempio: Prenotare una stanza	I LAM possono gestire l'intera procedura con un solo comando, inclusa la navigazione delle interfacce e la compilazione dei moduli dell'hotel	Gli LLM possono fornire indicazioni e link, ma non possono finalizzare il compito
Prestazioni	Adeguati per compiti specifici con ambito limitato	Alte prestazioni in un'ampia gamma di compiti
Adattabilità	Richiedono più intervento manuale per adattarsi a nuovi compiti o domini	Possono adattarsi più facilmente a un'ampia gamma di compiti con un riaddestramento minimo