Contattaci
Nessun risultato trovato.

Action figure di grandi dimensioni: clamore mediatico o realtà?

Cem Dilmegani
Cem Dilmegani
aggiornato il Apr 1, 2026
Guarda il nostro norme etiche

In seguito al lancio di Rabbit, un dispositivo basato sull'intelligenza artificiale in grado di utilizzare app per dispositivi mobili, il termine "modelli di azione su larga scala" (LAM, Large Action Models) sta guadagnando popolarità. Questi modelli vanno oltre la semplice conversazione, trasformando i LLM in "agenti" capaci di connettere il mondo frammentato e basato sulle app, senza che gli utenti debbano cliccare sulle app o integrare API.

Il confine tra clamore mediatico e realtà dei LAM è sfumato, ma in breve: un LAM è un modello linguistico di grandi dimensioni (LLM) specificamente addestrato per compiere azioni (ad esempio, inviare richieste API). 1

Che cos'è un modello di azione su larga scala (LAM)?

Un Large Action Model (LAM) è un tipo avanzato di intelligenza artificiale che si basa sui Large Language Model (LLM), non solo comprendendo e generando testo, ma anche pianificando ed eseguendo azioni in ambienti reali (digitali o fisici), consentendo così di automatizzare le attività e interagire direttamente con i sistemi in base all'intento dell'utente.

Le caratteristiche principali dei Large Action Models (LAM) includono la capacità di comprendere l'intento dell'utente a partire da diversi input (testo, voce, immagini), di trasformare tale intento in azioni eseguibili, di pianificare e adattare i compiti passo dopo passo in ambienti mutevoli e di operare in modo efficiente attraverso la specializzazione in domini specifici, consentendo loro di completare autonomamente compiti complessi del mondo reale.

Le caratteristiche principali dei modelli di azione su larga scala (LAM) includono:

  • Interpretazione dell'intento dell'utente: sono in grado di comprendere le richieste dell'utente da testo, voce, immagini o video, anche quando l'istruzione non è chiara o è implicita.
  • Generazione di azioni: Trasformano gli obiettivi dell'utente in azioni concrete in ambienti digitali o fisici, come l'utilizzo di un'interfaccia grafica, la chiamata di API, il controllo di robot o la generazione di codice.
  • Pianificazione dinamica e adattamento: sanno scomporre compiti complessi in fasi più piccole, seguire un piano e modificarlo al variare della situazione o in caso di errori.
  • Specializzazione ed efficienza: spesso sono progettati per compiti o ambienti specifici, il che li rende più precisi ed efficienti rispetto ai modelli generici in quel settore.

In sintesi, i LAM fanno molto più che comprendere il linguaggio. Collegano la comprensione all'azione e sono in grado di svolgere compiti complessi in contesti reali.

Come funzionano i modelli di azione su larga scala (LAM)?

I LAM interagiscono con le applicazioni tramite le loro interfacce utente o, più comunemente, tramite API. Ad esempio, possono elaborare le immagini e il codice di un sito web o di un'applicazione per decidere i passaggi successivi ed eseguire le azioni.

Ciò consente ai LAM di navigare tra le interfacce utente e delle applicazioni. Ad esempio, se le informazioni sono già presenti o accessibili tramite un'altra app, le recupereranno da tale app anziché richiederle all'utente.

All'interno dei LAM, tali livelli di autonomia e comprensione trasformano l'IA generativa in un assistente attivo in grado di svolgere compiti quali:

  • amministrazione delle piattaforme di social media
  • ottenere informazioni meteorologiche
  • effettuare prenotazioni
  • elaborazione delle transazioni finanziarie
  • Connettiti ai dispositivi IoT per poter inviare loro comandi (ad esempio, chiamare un Uber).

Fonte: Salesforce 2

LAM e LLM: comprendere la differenza

Fonte: Modelli di azione su larga scala: dall'ideazione all'implementazione 3

I Large Action Models (LAM) estendono i Large Language Models (LLM) non solo comprendendo le richieste degli utenti, ma anche pianificando ed eseguendo azioni concrete, come il completamento di attività sui siti web, rendendoli più efficienti, focalizzati sul compito e pratici per applicazioni reali, spesso con design più piccoli e specializzati.

Sebbene i modelli LAM e i modelli linguistici di grandi dimensioni condividano alcune somiglianze, come la capacità di cogliere le intenzioni umane, i loro scopi principali differiscono notevolmente.

I LAM sono progettati per agire, mentre gli LLM eccellono nell'elaborazione e nella generazione del linguaggio. Mentre un LLM può suggerire idee o generare testo in base al tuo input, un LAM fa un ulteriore passo avanti eseguendo autonomamente attività come fissare appuntamenti, ordinare prodotti o compilare moduli.

I modelli di agenti su larga scala (LAM): moda passeggera o realtà?

Sebbene alcune aziende presentino i LAM come una nuova architettura, le funzionalità ad essi assegnate sono implementate da tempo tramite agenti LLM. 4

Inoltre, gli agenti LLM hanno già svolto in passato compiti che sono attribuiti agli agenti LAM. I due concetti condividono funzionalità comuni (vedi figura):

  • Analisi contestuale
  • Ingegneria rapida
  • Sfruttare gli strumenti
  • Ragionamento 5

Figura: Flusso di lavoro di un agente di intelligenza artificiale basato sul linguaggio

Fonte: ICLR 6

Inoltre, i LAM possono essere descritti come progetti di agenti basati sul linguaggio come (1) agenti di IA basati su modelli di prompt; (2) agenti di IA di prompt apprendibili; e (3) modelli di azione di grandi dimensioni (LAM); affermando che possiamo pensare a un LAM come a un LLM specificamente addestrato per eseguire azioni umane a partire dai dati. 7

Esempi concreti di LAM

1. Completamento automatico di moduli o fogli di calcolo sui siti web

Un LAM (Latent Asset Management) è in grado di riconoscere i campi necessari in un modulo, raccogliere i dati richiesti (ad esempio indirizzi, nomi, password e numeri di carta di credito) da un database o da un profilo utente e inserirli nei campi appropriati.

Video: Completamento automatico di moduli o fogli di calcolo con LAM

8

2. Completamento delle transazioni online

  Un LAM può funzionare con pulsanti, link e menu a tendina. Può anche inserire testo specifico in campi di testo e barre di ricerca. Questo è esattamente ciò che comporta ordinare una pizza online: compilare moduli di testo, cliccare sui pulsanti e selezionare le voci del menu.

Video: HyperWriteAI Assistant Studio utilizza il browser per effettuare un ordine online

Fonte: HyperWriteAI 9

3. Gestire le richieste di assistenza clienti dall'inizio alla fine

Un Large Action Model (LAM) è in grado di gestire una richiesta completa del cliente dall'inizio alla fine, comprendendo l'obiettivo dell'utente, decidendo i passaggi necessari ed eseguendoli su più sistemi (come CRM, piattaforme di fatturazione e di supporto).

L' agente virtuale Genesys Cloud Agentic è un esempio di questo caso d'uso: è in grado di comprendere il problema di un cliente (ad esempio, un problema di fatturazione), determinare cosa è necessario fare e completare le azioni richieste, come verificare i dati dell'account, aggiornare i record o attivare processi di assistenza, senza intervento umano. 10

Anziché limitarsi a fornire risposte, il sistema completa autonomamente l'attività interagendo con diversi strumenti e flussi di lavoro, riducendo la necessità di ripetute spiegazioni o di interventi manuali.

4. Guida autonoma e processo decisionale

Un modello di azione esteso (LAM, Large Action Model) può alimentare i sistemi autonomi interpretando gli input del mondo reale, ragionando sulle situazioni ed eseguendo azioni in tempo reale.

Alpamayo di NVIDIA utilizza modelli Vision-Language-Action per elaborare i video della telecamera, comprendere l'ambiente di guida, ragionare su ciò che sta accadendo e generare azioni di guida come sterzare, frenare o accelerare. 11

Anziché seguire regole fisse, il sistema decide cosa fare in base al contesto (ad esempio, traffico, ostacoli, condizioni stradali) e spiega il proprio ragionamento, consentendo una guida autonoma più sicura e trasparente.

5. Esecuzione di attività personali su app di uso quotidiano

Un Large Action Model (LAM) può trasformare l'obiettivo di un utente in azioni concrete attraverso diversi strumenti, completando le attività senza istruzioni dettagliate. Ad esempio, i sistemi di intelligenza artificiale agentiva come OpenClaw utilizzano principi simili: possono gestire email, calendari e prenotazioni di viaggio pianificando i passaggi ed eseguendoli autonomamente. Mentre OpenClaw rappresenta un sistema di intelligenza artificiale agentiva completo, i LAM forniscono il nucleo di esecuzione delle azioni che consente a tali sistemi di svolgere flussi di lavoro complessi in modo affidabile.

Tecnologie nei LAM

Un LAM può utilizzare le seguenti tecniche:

  • Connessioni: Connettiti a diverse app e API.
  • Approccio neurosimbolico: la programmazione neurosimbolica è un metodo che consente ai LAM (Logical Adversarial Models) di combinare reti neurali addestrate su grandi insiemi di dati con capacità di ragionamento logico simbolico integrate. Ciò permette loro di individuare schemi e al contempo di comprenderne il ragionamento sottostante, rendendoli più adattabili e capaci di fornire risposte significative a seconda del "perché" delle richieste dell'utente.
  • Astrazione delle istruzioni: creare istruzioni che forniscano un'astrazione modulare e gerarchica per la modellazione tramite un'interfaccia.
  • Modellazione diretta del comportamento umano: identificare l'intento, le abitudini e le routine dell'utente, attraverso diverse applicazioni, per sviluppare un modello di comportamento.
  • Ragionamento sulle attività: analizza le relazioni tra le attività, identificando le dipendenze e determinando l'ordine di esecuzione ottimale. Garantisce che le attività prerequisito vengano completate prima dell'inizio di quelle dipendenti. Ciò consente al LAM di migliorare i flussi di lavoro sulla base delle interazioni passate.
  • Apprendimento continuo: LAMs Non solo esegue le attività, ma migliora anche le proprie prestazioni nel tempo attraverso l'apprendimento continuo. Ad esempio, LAM potrebbe gestire le richieste dei clienti relative a ordini, resi e informazioni sui prodotti. Col tempo, diventerebbe più abile nel risolvere rapidamente i problemi, arrivando persino a prevedere e affrontare potenziali problemi prima ancora che i clienti li segnalino.

Esempi di modelli di azione su larga scala

Il termine LAM (Licensed Asset Management) comprende una combinazione di prodotti di consumo, modelli orientati all'azione e sistemi di ricerca che cercano di trasformare l'intento dell'utente in azioni software.

  • Rabbit R1 : Rabbit commercializza l'R1 attorno alla sua idea di LAM, e i suoi materiali ufficiali ora indirizzano gli utenti verso funzionalità come LAM Playground e la modalità di apprendimento per le attività sui siti web. Allo stesso tempo, le prime recensioni sono state molto critiche; The Verge ha definito il dispositivo "incompiuto" e "inutile", e ha affermato che c'erano poche prove di un funzionamento affidabile del LAM nel prodotto al momento del lancio.
  • Adept ACT-1 : Adept ha descritto ACT-1 come un "modello di base per le azioni" addestrato a utilizzare strumenti software, API e applicazioni web. È più corretto intenderlo come un sistema di agenti avanzato orientato all'azione, piuttosto che come una categoria di intelligenza artificiale completamente separata.
  • Salesforce xLAM : Salesforce ha rilasciato xLAM come famiglia di modelli ottimizzati per la chiamata di funzioni e agenti AI, e successivamente lo ha ampliato con un supporto multi-turno più robusto. Questo rende xLAM uno degli esempi ufficiali più chiari di una famiglia di modelli in stile LAM.
  • Microsoft TaskMatrix.AI : TaskMatrix.AI è un documento di visione di ricerca che propone di connettere modelli di base con milioni di API per completare le attività. Poiché è strutturato come un documento di visione e posizione di ricerca, è meglio descritto come un framework accademico simile a LAM piuttosto che come un prodotto implementabile.
Cem Dilmegani
Cem Dilmegani
Analista principale
Cem è analista principale presso AIMultiple dal 2017. AIMultiple fornisce informazioni a centinaia di migliaia di aziende (secondo SimilarWeb), tra cui il 55% delle aziende Fortune 500, ogni mese. Il lavoro di Cem è stato citato da importanti pubblicazioni globali come Business Insider, Forbes, Washington Post, società globali come Deloitte e HPE, ONG come il World Economic Forum e organizzazioni sovranazionali come la Commissione Europea. È possibile consultare l'elenco di altre aziende e risorse autorevoli che hanno citato AIMultiple. Nel corso della sua carriera, Cem ha lavorato come consulente tecnologico, responsabile acquisti tecnologici e imprenditore nel settore tecnologico. Ha fornito consulenza alle aziende sulle loro decisioni tecnologiche presso McKinsey & Company e Altman Solon per oltre un decennio. Ha anche pubblicato un report di McKinsey sulla digitalizzazione. Ha guidato la strategia tecnologica e gli acquisti di un'azienda di telecomunicazioni, riportando direttamente al CEO. Ha inoltre guidato la crescita commerciale dell'azienda deep tech Hypatos, che ha raggiunto un fatturato annuo ricorrente a 7 cifre e una valutazione a 9 cifre partendo da zero in soli 2 anni. Il lavoro di Cem in Hypatos è stato oggetto di articoli su importanti pubblicazioni tecnologiche come TechCrunch e Business Insider. Cem partecipa regolarmente come relatore a conferenze internazionali di settore. Si è laureato in ingegneria informatica presso l'Università di Bogazici e ha conseguito un MBA presso la Columbia Business School.
Visualizza il profilo completo

Sii il primo a commentare

Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori.

0/450