Gli agenti per l'utilizzo del computer promettono di gestire desktop e applicazioni web reali, ma la loro progettazione, i limiti e i compromessi spesso non sono chiari. Analizziamo i sistemi più avanzati, scomponendoli nel loro funzionamento, nel loro apprendimento e nelle differenze architettoniche. Facciamo inoltre riferimento a un benchmark mirato per la valutazione dell'interfaccia utente, basato su 100 screenshot di desktop, relativi a 4 tipologie di attività e 5 esecuzioni per campione, che isola la qualità della percezione visiva ed evidenzia l'importanza di modelli di linguaggio visivo solidi anche per agenti per l'utilizzo del computer complessi.
Consulta una tabella delle funzionalità, note sull'architettura, spunti pratici e risultati dei benchmark per aiutare gli utenti a scegliere o creare l'agente di utilizzo del computer più adatto alle loro esigenze:
Risultati del benchmark di integrazione dell'interfaccia utente
Per i dettagli sulla metodologia di benchmark, consultare i dettagli del benchmark .
- I modelli Qwen3-VL raggiungono una precisione di circa il 90% , con un errore ridotto (≈7–9 px).
- I modelli specializzati per l'interfaccia utente, come UI-TARS, hanno prestazioni molto peggiori ( circa il 38% di accuratezza ) e mostrano un'elevata varianza ed errori consistenti, soprattutto su interfacce dense e dipendenti dallo stato.
- Le interfacce utente dense e dipendenti dallo stato rappresentano i casi più difficili per la maggior parte dei modelli.
Principali agenti di utilizzo del computer
Consultare la sezione "Funzionalità" per le funzionalità elencate nella tabella e la sezione "Approcci architetturali" per i dettagli sull'architettura degli agenti di utilizzo del computer.
OpenAI Anteprima utilizzo computer
L'anteprima dell'utilizzo del computer OpenAI è un modello specializzato creato per comprendere ed eseguire attività informatiche tramite l'API Responses. Si concentra sull'input e l'output di testo, con input di immagini opzionale, ma non supporta audio o video.
Anthropic Claude Utilizzo del computer
Claude Computer Use è una funzionalità in versione beta che permette a Claude di interagire con un ambiente desktop o a finestre, proprio come farebbe una persona. Funziona visualizzando lo schermo, muovendo il mouse e digitando sulla tastiera.
Claude non può funzionare autonomamente senza una configurazione da parte dello sviluppatore. Non accede automaticamente al tuo computer reale; interagisce con l'ambiente di test (sandbox) che gli fornisci.
Interprete aperto (modalità OS)
Open Interpreter è un agente terminale open-source in grado di eseguire codice e interagire con il sistema.
Funziona sul tuo computer, quindi può utilizzare direttamente i tuoi file, programmi e browser. Gli utenti comunicano con esso in linguaggio naturale e Open Interpreter traduce le loro istruzioni in azioni generando ed eseguendo codice. Prima di eseguire qualsiasi codice, Open Interpreter visualizza ciò che intende eseguire e richiede la tua approvazione.
Agente Simil S/S3
Simular Agent S3 è un agente di utilizzo del computer che funziona osservando gli schermi, pianificando le azioni e controllando il mouse e la tastiera per completare attività complesse. Fa parte del framework open source Agent S per l'interazione autonoma con le interfacce grafiche.
Il metodo Behavior Best-of-N (bBoN) è un metodo fondamentale che consente all'agente S3 di generare molteplici sequenze di azioni possibili ("rollout"), anziché una singola esecuzione. Trasforma ogni rollout in una narrazione comportamentale, ovvero un semplice riassunto di quanto accaduto. Una fase di valutazione separata seleziona quindi l'esecuzione migliore.
Cua AI
Cua AI è un framework open-source che consente di creare, eseguire e testare agenti di intelligenza artificiale per l'utilizzo su computer in diversi ambienti desktop, integrando modelli di visione, modelli di ragionamento e ambienti di sistema operativo isolati in un unico sistema. Cua può eseguire gli agenti nel cloud utilizzando sandbox remote. Permette inoltre di eseguirli localmente per un maggiore controllo o per garantire la privacy.
Cua ti aiuta anche a generare screenshot dell'interfaccia utente e registri delle azioni degli agenti. Puoi registrare interazioni a più passaggi, creare dati di addestramento ed eseguire benchmark per valutare le prestazioni degli agenti.
Claude Cowork
Claude Cowork è un modo per far sì che Claude svolga lavori complessi direttamente sul tuo computer. Utilizza lo stesso design dell'agente di Claude Code, ma con un focus su attività che coinvolgono i tuoi file e programmi locali, piuttosto che limitarsi a fornire brevi risposte in chat. Questa funzionalità è in fase di anteprima di ricerca e funziona all'interno dell'app Claude Desktop per macOS.
Limitazioni attuali:
- Disponibile solo su macOS Desktop.
- Claude non conserva le informazioni tra una sessione e l'altra.
- Cowork non è ancora in grado di condividere il proprio lavoro con altri.
benchmark OSWorld
Risultati per l'utilizzo del computer come agente di intelligenza artificiale
Disclaimer: Lo stesso modello può apparire in posizioni diverse perché OSWorld elenca i risultati in base alla configurazione completa della valutazione ( framework dell'agente , modello di base o di pianificazione, impostazione Best-of-N, numero di esecuzioni e limite di passi), e anche piccole modifiche a queste impostazioni vengono trattate come voci separate con risultati di prestazione differenti.
Metodologia
Il benchmark include 369 attività reali (o 361 escludendo le attività di Google Drive che richiedono una configurazione manuale). Le attività spaziano dalle applicazioni web e desktop, alle operazioni sui file del sistema operativo, fino ai flussi di lavoro multi-applicazione. Ogni attività parte da uno stato iniziale riproducibile ed è abbinata a uno script di valutazione personalizzato basato sull'esecuzione, garantendo un punteggio affidabile.
processo di valutazione
Gli agenti interagiscono con un ambiente di sistema operativo reale. Il successo viene misurato in base a ciò che l'agente fa effettivamente, non in base agli output di testo. Gli ambienti supportano l'esecuzione parallela e senza interfaccia grafica, consentendo test scalabili.
Ambito del benchmark
OSWorld supporta attività a risposta aperta in applicazioni arbitrarie, input multimodali, flussi di lavoro tra applicazioni e stati iniziali intermedi. Rispetto ai benchmark precedenti, offre una copertura più ampia e condizioni più realistiche.
Dati di riferimento e analisi
Il benchmark valuta modelli generali, modelli specializzati e framework agentici nelle famiglie LLM e VLM. I risultati mostrano un ampio divario tra le prestazioni umane (~72%) e gli agenti attuali, evidenziando le sfide nella definizione dell'interfaccia utente e nella conoscenza operativa. OSWorld consente inoltre un'analisi dettagliata in base al tipo di attività, alla complessità dell'interfaccia utente, agli input e ai sistemi operativi.
Due approcci architettonici ai modelli di utilizzo del computer
Oggi, la maggior parte degli agenti utente dei computer rientra in uno di questi due modelli di progettazione:
- Agenti end-to-end (E2E)
- Agenti composti
Entrambi mirano a completare compiti al computer. Differiscono nel modo in cui suddividono percezione, ragionamento e azione.
Agenti end-to-end (E2E)
Gli agenti end-to-end utilizzano un unico modello di linguaggio visivo per gestire l'intero ciclo. Il modello riceve uno screenshot e una descrizione dell'attività, quindi restituisce direttamente l'azione successiva.
Non esiste un confine netto tra vedere, ragionare e agire. Questi processi vengono appresi insieme all'interno dello stesso modello.
Come funzionano gli agenti E2E
Screenshot + Attività → Rappresentazione unificata → Azione
Il modello ragiona direttamente su pixel e testo. Non crea un elenco esplicito di pulsanti o campi. Piuttosto, apprende le associazioni tra modelli visivi e azioni durante la fase di addestramento.
Punti di forza
- Progettazione del sistema più semplice
- Minor numero di punti di integrazione in cui possono verificarsi errori.
- Spesso più stabile su compiti di lunga durata
Limitazioni
- Visibilità limitata sul motivo per cui è stata scelta un'azione
- È più difficile individuare e risolvere i problemi quando qualcosa va storto.
- Minore controllo sulle fasi intermedie del ragionamento
Implicazioni pratiche
Poiché percezione e pianificazione sono strettamente collegate, è meno probabile che piccoli errori visivi si trasformino in fallimenti completi. Quando un'azione non funziona, l'agente può rivalutare la schermata aggiornata e adattarsi.
Compromesso: è difficile esaminare le decisioni intermedie o individuare la causa dei fallimenti.
Agenti composti
Gli agenti composti suddividono il ciclo di interazione in fasi separate. Ciascuna fase è gestita da un modello o sottosistema differente.
Come funzionano gli agenti di intelligenza artificiale composti
Una pipeline tipica si presenta così:
- Grounding: Rileva gli elementi dell'interfaccia utente grafica dallo screenshot
- Pianificazione: Decidi cosa fare dopo
- Esecuzione: Eseguire attività sul sistema
Questo progetto rende esplicito ogni passaggio.
Punti di forza
- Chiara separazione delle responsabilità
- Più facile ispezionare i risultati intermedi
- Più adatto per la ricerca e gli esperimenti controllati
Limitazioni
- Maggiore complessità del sistema
- Gli errori possono propagarsi tra i componenti
- Spesso meno affidabile negli ambienti desktop reali
Implicazioni pratiche
Gli agenti composti si basano su rappresentazioni strutturate dello schermo, come pulsanti o campi di testo rilevati. Ciò migliora la trasparenza ma aggiunge fragilità. Se il radicamento è impreciso, è probabile che le decisioni di pianificazione falliscano.
Compromesso : le attività di lunga durata sono particolarmente impegnative. Piccole discrepanze tra lo stato percepito e quello effettivo dello schermo possono accumularsi nel tempo.
Elementi costitutivi fondamentali degli agenti che utilizzano il computer (CUA)
I moderni agenti di utilizzo dei computer sono costruiti utilizzando tre componenti principali:
1. Modelli di linguaggio visivo (VLM)
I singoli VLM costituiscono il nucleo della maggior parte degli agenti end-to-end. Elaborano screenshot e istruzioni congiuntamente e producono direttamente le azioni in uscita.
Screenshot + Attività → Spazio Visione-Linguaggio Congiunto → Azione
Il modello codifica gli input visivi e testuali in uno spazio interno condiviso. In questo spazio, apprende come i modelli visivi si relazionano alle azioni senza etichette esplicite.
Non è previsto un passaggio di radicamento separato. La comprensione dell'interfaccia utente e la pianificazione delle attività avvengono in modo implicito e simultaneo.
Implicazioni pratiche: i VLM singoli riducono la complessità architetturale e limitano la propagazione degli errori. Privilegiano la robustezza e la semplicità rispetto alla trasparenza e al controllo granulare.
2. Modelli di messa a terra
I modelli di grounding si concentrano esclusivamente sulla percezione e svolgono un ruolo cruciale negli agenti composti. Il loro compito è tradurre schermate grezze in descrizioni strutturate dell'interfaccia del computer. Non ragionano sugli obiettivi né selezionano le azioni.
Screenshot → Modello di base → Rappresentazione strutturata dell'interfaccia utente
I risultati spesso includono:
- Elementi dell'interfaccia utente rilevati
- Posizioni spaziali (riquadri di delimitazione)
- Etichette semantiche (pulsante, campo di input, testo)
- Testo estratto
Questa rappresentazione viene trasmessa a un modello di pianificazione.
Punti di forza
- Percezione chiara e ispezionabile
- È più facile registrare e analizzare i guasti.
- Trasparenza migliorata
Limitazioni
- Gli errori si propagano a valle
- Sensibile ai cambiamenti visivi e ai layout dinamici
- Difficile mantenere la coerenza in molti passaggi
Implicazioni pratiche: la messa a terra è spesso l'anello debole nei sistemi composti. Elementi mancanti o obsoleti possono indurre in errore i modelli di pianificazione e causare guasti ripetuti.
Benchmark di riferimento per la messa a punto dell'interfaccia utente: perché la qualità visiva è importante
Per isolare il ruolo della percezione visiva, facciamo riferimento a un benchmark specifico per l'interfaccia utente che valuta la precisione con cui i modelli identificano l'esatta posizione in pixel di un elemento dell'interfaccia utente a partire da un'istruzione in linguaggio naturale.
Configurazioni di benchmark
- 100 schermate del desktop
- 4 tipi di attività: semplice, relazionale, dipendente dallo stato, interfaccia utente densa
- 5 prove per campione per misurare la coerenza
- Risoluzione fissa: 2560×1440
Per un dataset e una metodologia più dettagliati, visita AIMultiple UI Grounding su HuggingFace.
Porta via
Una solida comprensione dell'interfaccia utente rimane un ostacolo importante. Le evidenze attuali dimostrano che una percezione visiva robusta e una comprensione implicita dell'interfaccia utente sono più importanti di una specializzazione ristretta, soprattutto per agenti di utilizzo del computer affidabili che operano su desktop reali.
Modelli di pianificazione
I modelli di pianificazione determinano i passi successivi. Lavorano con dati strutturati dell'interfaccia utente, obiettivi delle attività e cronologia delle interazioni. Non elaborano immagini grezze. Questi modelli svolgono un ruolo cruciale nell'architettura dell'agente composto.
Interfaccia utente strutturata + Obiettivo dell'attività → Modello di pianificazione → Azione successiva
I modelli di pianificazione possono:
- Suddividi i compiti in fasi
- Monitora i progressi
- Applicare regole o euristiche
- Il ragionamento del registro è esplicito
Sfide nella pratica
- Elevata sensibilità agli errori di input
Una messa a terra errata porta a progetti difettosi. - Deriva dello stato nel tempo
Le modifiche all'interfaccia utente possono invalidare le ipotesi precedenti. - Recupero limitato in caso di guasto
Senza un feedback efficace, i pianificatori potrebbero entrare in un circolo vizioso o bloccarsi. - Discrepanze di esecuzione
Errori di tempistica, di concentrazione o di coordinamento possono mandare a monte i piani.
Implicazioni pratiche: i modelli di pianificazione aggiungono struttura e trasparenza, ma la loro efficacia dipende in larga misura da una percezione accurata e da un'esecuzione affidabile.
Spiegazione delle principali funzionalità degli agenti di utilizzo del computer
Ambiente di runtime
Definisce dove viene eseguito l'agente di utilizzo del computer e come controlla il sistema operativo (macchina virtuale nel cloud, macchina locale o ambiente di runtime basato su container).
Accesso al sistema locale
Questo indica se l'agente può leggere o scrivere file sul computer effettivo dell'utente, e non solo in un ambiente di test remoto. L'accesso locale è utile per i flussi di lavoro personali, ma solleva maggiori preoccupazioni in termini di sicurezza.
Qual è il compromesso complessivo tra agenti end-to-end e agenti composti?
Attualmente, gli agenti end-to-end risultano più affidabili per l'utilizzo diretto su personal computer. La loro progettazione unificata riduce i problemi di coordinamento e i punti di guasto.
Gli agenti composti non sono intrinsecamente più deboli. Offrono maggiore flessibilità, personalizzazione e interpretabilità. Tuttavia, richiedono basi più solide, una gestione dello stato più rigorosa e un'integrazione attenta per funzionare bene in ambienti reali.
Il compromesso fondamentale non è la capacità, ma la robustezza rispetto al controllo .
Che cosa sono gli agenti di utilizzo del computer?
Gli agenti utente (USA) sono sistemi progettati per far funzionare un computer in modo simile a un essere umano. Osservano lo schermo, decidono cosa fare e interagiscono attraverso azioni come cliccare, digitare e scorrere.
A prima vista, sembra semplice. In pratica, è difficile. Gli ambienti desktop sono dinamici. Le interfacce cambiano spesso. Non esistono API fisse o strutture stabili su cui fare affidamento. Questi agenti devono lavorare a partire da ciò che vedono sullo schermo e ragionare su di esso in tempo reale.
Nonostante le diverse implementazioni, la maggior parte degli agenti di utilizzo dei computer segue lo stesso ciclo di base:
Osservare → Interpretare → Decidere → Eseguire
Il modo in cui questo ciclo viene implementato determina quanto un agente sia stabile, flessibile e affidabile nell'uso reale.
Sii il primo a commentare
Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori.