Contattaci
Nessun risultato trovato.

Agenti di utilizzo del computer: benchmark e architettura

Cem Dilmegani
Cem Dilmegani
aggiornato il Apr 27, 2026
Guarda il nostro norme etiche

Gli agenti per l'utilizzo del computer promettono di gestire desktop e applicazioni web reali, ma la loro progettazione, i limiti e i compromessi spesso non sono chiari. Analizziamo i sistemi più avanzati, scomponendoli nel loro funzionamento, nel loro apprendimento e nelle differenze architettoniche. Facciamo inoltre riferimento a un benchmark mirato per la valutazione dell'interfaccia utente, basato su 100 screenshot di desktop, relativi a 4 tipologie di attività e 5 esecuzioni per campione, che isola la qualità della percezione visiva ed evidenzia l'importanza di modelli di linguaggio visivo solidi anche per agenti per l'utilizzo del computer complessi.

Consulta una tabella delle funzionalità, note sull'architettura, spunti pratici e risultati dei benchmark per aiutare gli utenti a scegliere o creare l'agente di utilizzo del computer più adatto alle loro esigenze:

Risultati del benchmark di integrazione dell'interfaccia utente

Loading Chart

Per i dettagli sulla metodologia di benchmark, consultare i dettagli del benchmark .

  • I modelli Qwen3-VL raggiungono una precisione di circa il 90% , con un errore ridotto (≈7–9 px).
  • I modelli specializzati per l'interfaccia utente, come UI-TARS, hanno prestazioni molto peggiori ( circa il 38% di accuratezza ) e mostrano un'elevata varianza ed errori consistenti, soprattutto su interfacce dense e dipendenti dallo stato.
  • Le interfacce utente dense e dipendenti dallo stato rappresentano i casi più difficili per la maggior parte dei modelli.

Principali agenti di utilizzo del computer

Consultare la sezione "Funzionalità" per le funzionalità elencate nella tabella e la sezione "Approcci architetturali" per i dettagli sull'architettura degli agenti di utilizzo del computer.

OpenAI Anteprima utilizzo computer

L'anteprima dell'utilizzo del computer OpenAI è un modello specializzato creato per comprendere ed eseguire attività informatiche tramite l'API Responses. Si concentra sull'input e l'output di testo, con input di immagini opzionale, ma non supporta audio o video.

Anthropic Claude Utilizzo del computer

Claude Computer Use è una funzionalità in versione beta che permette a Claude di interagire con un ambiente desktop o a finestre, proprio come farebbe una persona. Funziona visualizzando lo schermo, muovendo il mouse e digitando sulla tastiera.

Claude non può funzionare autonomamente senza una configurazione da parte dello sviluppatore. Non accede automaticamente al tuo computer reale; interagisce con l'ambiente di test (sandbox) che gli fornisci.

Interprete aperto (modalità OS)

Open Interpreter è un agente terminale open-source in grado di eseguire codice e interagire con il sistema.

Funziona sul tuo computer, quindi può utilizzare direttamente i tuoi file, programmi e browser. Gli utenti comunicano con esso in linguaggio naturale e Open Interpreter traduce le loro istruzioni in azioni generando ed eseguendo codice. Prima di eseguire qualsiasi codice, Open Interpreter visualizza ciò che intende eseguire e richiede la tua approvazione.

Agente Simil S/S3

Simular Agent S3 è un agente di utilizzo del computer che funziona osservando gli schermi, pianificando le azioni e controllando il mouse e la tastiera per completare attività complesse. Fa parte del framework open source Agent S per l'interazione autonoma con le interfacce grafiche.

Il metodo Behavior Best-of-N (bBoN) è un metodo fondamentale che consente all'agente S3 di generare molteplici sequenze di azioni possibili ("rollout"), anziché una singola esecuzione. Trasforma ogni rollout in una narrazione comportamentale, ovvero un semplice riassunto di quanto accaduto. Una fase di valutazione separata seleziona quindi l'esecuzione migliore.

Cua AI

Cua AI è un framework open-source che consente di creare, eseguire e testare agenti di intelligenza artificiale per l'utilizzo su computer in diversi ambienti desktop, integrando modelli di visione, modelli di ragionamento e ambienti di sistema operativo isolati in un unico sistema. Cua può eseguire gli agenti nel cloud utilizzando sandbox remote. Permette inoltre di eseguirli localmente per un maggiore controllo o per garantire la privacy.

Cua ti aiuta anche a generare screenshot dell'interfaccia utente e registri delle azioni degli agenti. Puoi registrare interazioni a più passaggi, creare dati di addestramento ed eseguire benchmark per valutare le prestazioni degli agenti.

Claude Cowork

Claude Cowork è un modo per far sì che Claude svolga lavori complessi direttamente sul tuo computer. Utilizza lo stesso design dell'agente di Claude Code, ma con un focus su attività che coinvolgono i tuoi file e programmi locali, piuttosto che limitarsi a fornire brevi risposte in chat. Questa funzionalità è in fase di anteprima di ricerca e funziona all'interno dell'app Claude Desktop per macOS.

Limitazioni attuali:

  • Disponibile solo su macOS Desktop.
  • Claude non conserva le informazioni tra una sessione e l'altra.
  • Cowork non è ancora in grado di condividere il proprio lavoro con altri.

benchmark OSWorld

Risultati per l'utilizzo del computer come agente di intelligenza artificiale

Disclaimer: Lo stesso modello può apparire in posizioni diverse perché OSWorld elenca i risultati in base alla configurazione completa della valutazione ( framework dell'agente , modello di base o di pianificazione, impostazione Best-of-N, numero di esecuzioni e limite di passi), e anche piccole modifiche a queste impostazioni vengono trattate come voci separate con risultati di prestazione differenti.

Metodologia

Il benchmark include 369 attività reali (o 361 escludendo le attività di Google Drive che richiedono una configurazione manuale). Le attività spaziano dalle applicazioni web e desktop, alle operazioni sui file del sistema operativo, fino ai flussi di lavoro multi-applicazione. Ogni attività parte da uno stato iniziale riproducibile ed è abbinata a uno script di valutazione personalizzato basato sull'esecuzione, garantendo un punteggio affidabile.

processo di valutazione

Gli agenti interagiscono con un ambiente di sistema operativo reale. Il successo viene misurato in base a ciò che l'agente fa effettivamente, non in base agli output di testo. Gli ambienti supportano l'esecuzione parallela e senza interfaccia grafica, consentendo test scalabili.

Ambito del benchmark

OSWorld supporta attività a risposta aperta in applicazioni arbitrarie, input multimodali, flussi di lavoro tra applicazioni e stati iniziali intermedi. Rispetto ai benchmark precedenti, offre una copertura più ampia e condizioni più realistiche.

Dati di riferimento e analisi

Il benchmark valuta modelli generali, modelli specializzati e framework agentici nelle famiglie LLM e VLM. I risultati mostrano un ampio divario tra le prestazioni umane (~72%) e gli agenti attuali, evidenziando le sfide nella definizione dell'interfaccia utente e nella conoscenza operativa. OSWorld consente inoltre un'analisi dettagliata in base al tipo di attività, alla complessità dell'interfaccia utente, agli input e ai sistemi operativi.

Due approcci architettonici ai modelli di utilizzo del computer

Oggi, la maggior parte degli agenti utente dei computer rientra in uno di questi due modelli di progettazione:

  • Agenti end-to-end (E2E)
  • Agenti composti

Entrambi mirano a completare compiti al computer. Differiscono nel modo in cui suddividono percezione, ragionamento e azione.

Agenti end-to-end (E2E)

Gli agenti end-to-end utilizzano un unico modello di linguaggio visivo per gestire l'intero ciclo. Il modello riceve uno screenshot e una descrizione dell'attività, quindi restituisce direttamente l'azione successiva.

Non esiste un confine netto tra vedere, ragionare e agire. Questi processi vengono appresi insieme all'interno dello stesso modello.

Come funzionano gli agenti E2E

Screenshot + Attività → Rappresentazione unificata → Azione

Il modello ragiona direttamente su pixel e testo. Non crea un elenco esplicito di pulsanti o campi. Piuttosto, apprende le associazioni tra modelli visivi e azioni durante la fase di addestramento.

Punti di forza

  • Progettazione del sistema più semplice
  • Minor numero di punti di integrazione in cui possono verificarsi errori.
  • Spesso più stabile su compiti di lunga durata

Limitazioni

  • Visibilità limitata sul motivo per cui è stata scelta un'azione
  • È più difficile individuare e risolvere i problemi quando qualcosa va storto.
  • Minore controllo sulle fasi intermedie del ragionamento

Implicazioni pratiche

Poiché percezione e pianificazione sono strettamente collegate, è meno probabile che piccoli errori visivi si trasformino in fallimenti completi. Quando un'azione non funziona, l'agente può rivalutare la schermata aggiornata e adattarsi.

Compromesso: è difficile esaminare le decisioni intermedie o individuare la causa dei fallimenti.

Agenti composti

Gli agenti composti suddividono il ciclo di interazione in fasi separate. Ciascuna fase è gestita da un modello o sottosistema differente.

Come funzionano gli agenti di intelligenza artificiale composti

Una pipeline tipica si presenta così:

  1. Grounding: Rileva gli elementi dell'interfaccia utente grafica dallo screenshot
  2. Pianificazione: Decidi cosa fare dopo
  3. Esecuzione: Eseguire attività sul sistema

Questo progetto rende esplicito ogni passaggio.

Punti di forza

  • Chiara separazione delle responsabilità
  • Più facile ispezionare i risultati intermedi
  • Più adatto per la ricerca e gli esperimenti controllati

Limitazioni

  • Maggiore complessità del sistema
  • Gli errori possono propagarsi tra i componenti
  • Spesso meno affidabile negli ambienti desktop reali

Implicazioni pratiche

Gli agenti composti si basano su rappresentazioni strutturate dello schermo, come pulsanti o campi di testo rilevati. Ciò migliora la trasparenza ma aggiunge fragilità. Se il radicamento è impreciso, è probabile che le decisioni di pianificazione falliscano.

Compromesso : le attività di lunga durata sono particolarmente impegnative. Piccole discrepanze tra lo stato percepito e quello effettivo dello schermo possono accumularsi nel tempo.

Elementi costitutivi fondamentali degli agenti che utilizzano il computer (CUA)

I moderni agenti di utilizzo dei computer sono costruiti utilizzando tre componenti principali:

1. Modelli di linguaggio visivo (VLM)

I singoli VLM costituiscono il nucleo della maggior parte degli agenti end-to-end. Elaborano screenshot e istruzioni congiuntamente e producono direttamente le azioni in uscita.

Screenshot + Attività → Spazio Visione-Linguaggio Congiunto → Azione

Il modello codifica gli input visivi e testuali in uno spazio interno condiviso. In questo spazio, apprende come i modelli visivi si relazionano alle azioni senza etichette esplicite.

Non è previsto un passaggio di radicamento separato. La comprensione dell'interfaccia utente e la pianificazione delle attività avvengono in modo implicito e simultaneo.

Implicazioni pratiche: i VLM singoli riducono la complessità architetturale e limitano la propagazione degli errori. Privilegiano la robustezza e la semplicità rispetto alla trasparenza e al controllo granulare.

2. Modelli di messa a terra

I modelli di grounding si concentrano esclusivamente sulla percezione e svolgono un ruolo cruciale negli agenti composti. Il loro compito è tradurre schermate grezze in descrizioni strutturate dell'interfaccia del computer. Non ragionano sugli obiettivi né selezionano le azioni.

Screenshot → Modello di base → Rappresentazione strutturata dell'interfaccia utente

I risultati spesso includono:

  • Elementi dell'interfaccia utente rilevati
  • Posizioni spaziali (riquadri di delimitazione)
  • Etichette semantiche (pulsante, campo di input, testo)
  • Testo estratto

Questa rappresentazione viene trasmessa a un modello di pianificazione.

Punti di forza

  • Percezione chiara e ispezionabile
  • È più facile registrare e analizzare i guasti.
  • Trasparenza migliorata

Limitazioni

  • Gli errori si propagano a valle
  • Sensibile ai cambiamenti visivi e ai layout dinamici
  • Difficile mantenere la coerenza in molti passaggi

Implicazioni pratiche: la messa a terra è spesso l'anello debole nei sistemi composti. Elementi mancanti o obsoleti possono indurre in errore i modelli di pianificazione e causare guasti ripetuti.

Benchmark di riferimento per la messa a punto dell'interfaccia utente: perché la qualità visiva è importante

Per isolare il ruolo della percezione visiva, facciamo riferimento a un benchmark specifico per l'interfaccia utente che valuta la precisione con cui i modelli identificano l'esatta posizione in pixel di un elemento dell'interfaccia utente a partire da un'istruzione in linguaggio naturale.

Configurazioni di benchmark

  • 100 schermate del desktop
  • 4 tipi di attività: semplice, relazionale, dipendente dallo stato, interfaccia utente densa
  • 5 prove per campione per misurare la coerenza
  • Risoluzione fissa: 2560×1440

Per un dataset e una metodologia più dettagliati, visita AIMultiple UI Grounding su HuggingFace.

Porta via
Una solida comprensione dell'interfaccia utente rimane un ostacolo importante. Le evidenze attuali dimostrano che una percezione visiva robusta e una comprensione implicita dell'interfaccia utente sono più importanti di una specializzazione ristretta, soprattutto per agenti di utilizzo del computer affidabili che operano su desktop reali.

Modelli di pianificazione

I modelli di pianificazione determinano i passi successivi. Lavorano con dati strutturati dell'interfaccia utente, obiettivi delle attività e cronologia delle interazioni. Non elaborano immagini grezze. Questi modelli svolgono un ruolo cruciale nell'architettura dell'agente composto.

Interfaccia utente strutturata + Obiettivo dell'attività → Modello di pianificazione → Azione successiva

I modelli di pianificazione possono:

  • Suddividi i compiti in fasi
  • Monitora i progressi
  • Applicare regole o euristiche
  • Il ragionamento del registro è esplicito

Sfide nella pratica

  • Elevata sensibilità agli errori di input
    Una messa a terra errata porta a progetti difettosi.
  • Deriva dello stato nel tempo
    Le modifiche all'interfaccia utente possono invalidare le ipotesi precedenti.
  • Recupero limitato in caso di guasto
    Senza un feedback efficace, i pianificatori potrebbero entrare in un circolo vizioso o bloccarsi.
  • Discrepanze di esecuzione
    Errori di tempistica, di concentrazione o di coordinamento possono mandare a monte i piani.

Implicazioni pratiche: i modelli di pianificazione aggiungono struttura e trasparenza, ma la loro efficacia dipende in larga misura da una percezione accurata e da un'esecuzione affidabile.

Spiegazione delle principali funzionalità degli agenti di utilizzo del computer

Ambiente di runtime

Definisce dove viene eseguito l'agente di utilizzo del computer e come controlla il sistema operativo (macchina virtuale nel cloud, macchina locale o ambiente di runtime basato su container).

Accesso al sistema locale

Questo indica se l'agente può leggere o scrivere file sul computer effettivo dell'utente, e non solo in un ambiente di test remoto. L'accesso locale è utile per i flussi di lavoro personali, ma solleva maggiori preoccupazioni in termini di sicurezza.

Qual è il compromesso complessivo tra agenti end-to-end e agenti composti?

Attualmente, gli agenti end-to-end risultano più affidabili per l'utilizzo diretto su personal computer. La loro progettazione unificata riduce i problemi di coordinamento e i punti di guasto.

Gli agenti composti non sono intrinsecamente più deboli. Offrono maggiore flessibilità, personalizzazione e interpretabilità. Tuttavia, richiedono basi più solide, una gestione dello stato più rigorosa e un'integrazione attenta per funzionare bene in ambienti reali.

Il compromesso fondamentale non è la capacità, ma la robustezza rispetto al controllo .

Che cosa sono gli agenti di utilizzo del computer?

Gli agenti utente (USA) sono sistemi progettati per far funzionare un computer in modo simile a un essere umano. Osservano lo schermo, decidono cosa fare e interagiscono attraverso azioni come cliccare, digitare e scorrere.

A prima vista, sembra semplice. In pratica, è difficile. Gli ambienti desktop sono dinamici. Le interfacce cambiano spesso. Non esistono API fisse o strutture stabili su cui fare affidamento. Questi agenti devono lavorare a partire da ciò che vedono sullo schermo e ragionare su di esso in tempo reale.

Nonostante le diverse implementazioni, la maggior parte degli agenti di utilizzo dei computer segue lo stesso ciclo di base:

Osservare → Interpretare → Decidere → Eseguire

Il modo in cui questo ciclo viene implementato determina quanto un agente sia stabile, flessibile e affidabile nell'uso reale.

Cem Dilmegani
Cem Dilmegani
Analista principale
Cem è analista principale presso AIMultiple dal 2017. AIMultiple fornisce informazioni a centinaia di migliaia di aziende (secondo SimilarWeb), tra cui il 55% delle aziende Fortune 500, ogni mese. Il lavoro di Cem è stato citato da importanti pubblicazioni globali come Business Insider, Forbes, Washington Post, società globali come Deloitte e HPE, ONG come il World Economic Forum e organizzazioni sovranazionali come la Commissione Europea. È possibile consultare l'elenco di altre aziende e risorse autorevoli che hanno citato AIMultiple. Nel corso della sua carriera, Cem ha lavorato come consulente tecnologico, responsabile acquisti tecnologici e imprenditore nel settore tecnologico. Ha fornito consulenza alle aziende sulle loro decisioni tecnologiche presso McKinsey & Company e Altman Solon per oltre un decennio. Ha anche pubblicato un report di McKinsey sulla digitalizzazione. Ha guidato la strategia tecnologica e gli acquisti di un'azienda di telecomunicazioni, riportando direttamente al CEO. Ha inoltre guidato la crescita commerciale dell'azienda deep tech Hypatos, che ha raggiunto un fatturato annuo ricorrente a 7 cifre e una valutazione a 9 cifre partendo da zero in soli 2 anni. Il lavoro di Cem in Hypatos è stato oggetto di articoli su importanti pubblicazioni tecnologiche come TechCrunch e Business Insider. Cem partecipa regolarmente come relatore a conferenze internazionali di settore. Si è laureato in ingegneria informatica presso l'Università di Bogazici e ha conseguito un MBA presso la Columbia Business School.
Visualizza il profilo completo

Sii il primo a commentare

Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori.

0/450