Abbiamo testato oltre 30 agenti web open source suddivisi in quattro categorie: agenti autonomi, controller di utilizzo del computer, web scraper e framework per sviluppatori.
Abbiamo eseguito benchmark identici utilizzando la suite di test WebVoyager, che copre 643 attività su 15 siti web reali, per misurare quali strumenti completano effettivamente attività web a più passaggi e quali falliscono quando i siti utilizzano menu a tendina dinamici o layout con un uso intensivo di JavaScript.
- Agenti web autonomi e copiloti:
- Strumenti per l'automazione e lo scraping web:
- Strumenti di supporto per gli agenti:
- Framework e librerie per controlli web per sviluppatori :
Agenti web open source: GitHub Stars
Consulta le fonti di riferimento.
Valutazione: benchmark di Web Voyager
Risultati del benchmark di Web Voyager
Il test di benchmark esegue 643 attività su Google, GitHub, Wikipedia, Booking.com, Google Flights, Apple, Amazon, Hugging Face e altri 12 siti web reali. Le attività includono l'invio di moduli, la navigazione tra più pagine, le operazioni di ricerca, le interazioni con i menu a tendina e la selezione della data.
I migliori performer:
- Utilizzo del browser: 89,1%
- Skyvern 2.0: 85,85%
- Agente E: 73,1%
- WebVoyager: 57,1%
Confronto tra i test:
Ciascuna squadra ha modificato il parametro di riferimento in modo diverso, rendendo difficili i confronti diretti dei punteggi.
Browser-Use ha testato 586 attività dopo averne rimosse 55 obsolete (prodotti Apple non più disponibili, date di volo scadute, ricette eliminate dai siti web di origine). I test sono stati eseguiti su macchine locali utilizzando GPT-4o per la valutazione. Modifiche tecniche: migrazione dall'API OpenAI a LangChain, riscrittura dei prompt di sistema.
Skyvern ha eseguito 635 attività in Skyvern Cloud utilizzando browser cloud asincroni, anziché IP locali sicuri. Sono state rimosse 8 attività con risposte non valide. Le date 2023/2024 nelle attività relative a voli/hotel sono state aggiornate al 2025. I test in cloud espongono gli agenti al rilevamento di bot e CAPTCHA, che i test locali evitano. Le registrazioni complete dei test sono disponibili su eval.skyvern.com e mostrano ogni azione e decisione. Recentemente si è tenuta la "Settimana di lancio" (fine gennaio) per il debutto dell'SDK v1+ con supporto per le modalità embedded (locale) e remota (cloud), oltre alla nuova funzionalità "Caricamento SOP" che importa documenti di procedure operative standard per guidare le attività web senza richieste manuali. 1
Agent-E ha testato l'intero dataset di 643 attività senza modifiche. È stato utilizzato solo il parsing del DOM, senza modelli di visione o screenshot. Baseline di confronto: agente WebVoyager originale, non la valutazione GPT-4o. Le prestazioni sono diminuite sui siti con moduli dinamici in cui la struttura del DOM cambia dopo l'input dell'utente (menu a tendina che rivelano nuovi campi in base alle selezioni). Ottime prestazioni sui siti statici: Wolfram (95,7%), Google Search (90,7%), Google Maps (87,8%). Scarse prestazioni sui siti dinamici: Booking.com (27,3%), Google Flights (35,7%).
Limitazione critica: questi benchmark vengono eseguiti su siti collaborativi senza una protezione aggressiva contro i bot. I tassi di successo nel mondo reale saranno inferiori in presenza di Cloudflare, DataDome o difese simili. Skyvern ha eseguito i test su infrastrutture cloud per simulare le condizioni di produzione, mentre Browser-Use e Agent-E hanno utilizzato macchine locali con indirizzi IP inseriti in una lista bianca.
Aggiornamenti importanti recenti
Crisi di sicurezza: distribuzione del malware OpenClaw
Tra la fine di gennaio e l'inizio di febbraio, oltre 400 "skill" dannose sono state caricate su ClawHub (il marketplace di OpenClaw), distribuendo malware per il furto di credenziali. 2 IBM, Anthropic e Palo Alto Networks hanno emesso degli avvisi. I ricercatori di sicurezza ora raccomandano di utilizzare solo ambienti isolati e fonti verificate.
Crescita virale di OpenClaw
OpenClaw (precedentemente Moltbot/Clawdbot) ha raggiunto 147.000 stelle su GitHub, diventando il progetto di intelligenza artificiale open source in più rapida crescita. Funziona localmente, si integra con le piattaforme di messaggistica e utilizza il Model Context Protocol per oltre 100 servizi. 3 Cloudflare ha rilasciato il middleware Moltworker per supportare la sua infrastruttura. 4
Moltbook: Social network basato su agenti di intelligenza artificiale
Il social network basato esclusivamente sull'intelligenza artificiale, lanciato a fine gennaio, ha raggiunto 1,5 milioni di utenti in pochi giorni. Gli utenti pubblicano contenuti e interagiscono autonomamente, mentre gli esseri umani osservano. 5
Standardizzazione del protocollo di contesto del modello
MCP è diventato il protocollo dominante per l'integrazione tra agenti e strumenti, con oltre 100 server disponibili. La gestione e la governance sono ora fondamentali per le implementazioni aziendali.
NVIDIA Modelli Nemotron 3
NVIDIA ha rilasciato la famiglia Nemotron 3 (Nano, Super, Ultra) ottimizzata per l'IA agentica, che offre una velocità di elaborazione 4 volte superiore. Include NeMo Gym e Agentic Safety Dataset su GitHub e Hugging Face. 6
Agenti Web autonomi e copiloti
Strumenti che consentono di navigare nei siti web e completare attività in più fasi con un minimo di assistenza.
Agenti autonomi di uso generale
OpenClaw (precedentemente Moltbot/Clawdbot) : Esegui questo programma sul tuo computer locale per automatizzare attività tra app di messaggistica, calendari ed e-mail. Basta dirgli "pianifica una riunione con il team per martedì prossimo e invia gli inviti del calendario" e si occuperà dell'intero flusso di lavoro. Utilizza il Model Context Protocol per connettersi a oltre 100 servizi senza chiamate API cloud.
Chi lo utilizza: Gli utenti pionieri disposti a gestire i rischi per la sicurezza dell'automazione locale. Gli utenti che desiderano interfacce conversazionali per i flussi di lavoro desktop.
Limitazioni:
- Gravi vulnerabilità di sicurezza nell'ecosistema delle competenze (oltre 400 pacchetti dannosi in una settimana)
- Ancora in rapido sviluppo con frequenti modifiche sostanziali
- La documentazione è incoerente a causa dei molteplici cicli di rebranding.
- Richiede molte risorse (richiede una notevole potenza di calcolo locale)
AgenticSeek: Sostituisci i servizi commerciali basati su cloud con un'alternativa locale che non invia i dati di navigazione a server esterni. Installalo sul tuo computer, descrivi le tue esigenze ("estrarre tutti i prezzi dei prodotti da questa pagina") e si occuperà dei clic e della raccolta dei dati. Basato su Python, funziona completamente in locale.
Chi lo utilizza: Utenti attenti alla privacy che non desiderano condividere i dati di navigazione. Organizzazioni con requisiti di residenza dei dati.
Limitazioni:
- Limitato all'esecuzione simultanea su una singola macchina (5-10 istanze del browser).
- Nessuna funzione integrata di rotazione proxy o di anti-rilevamento
- Richiede la configurazione e la manutenzione dell'ambiente Python.
- Più lento delle soluzioni cloud per attività su larga scala
Auto-GPT: Gestisce la navigazione web, le operazioni sui file e l'esecuzione del codice. Può essere distribuito tramite l'interfaccia del browser o la riga di comando. Quando si assegna un'attività come "ricercare i prezzi della concorrenza e salvarli in un foglio di calcolo", Auto-GPT determina quali siti web visitare, quali dati recuperare e come organizzare l'output.
Chi lo utilizza: Sviluppatori che creano flussi di lavoro di automazione personalizzati. Utenti che hanno familiarità con gli strumenti da riga di comando.
Limitazioni:
- Mancano funzionalità specifiche del web come la rotazione dei proxy e la gestione dei cookie.
- Nessun sistema integrato per evitare il rilevamento dei bot (i siti con Cloudflare lo bloccheranno)
- Richiede molte risorse (avvia più istanze del browser)
- Richiede un intervento manuale immediato per le attività complesse
AgentGPT: Configura gli agenti direttamente nel tuo browser senza scrivere codice. Sviluppa agenti specializzati come "ResearchGPT" o "DataGPT" che scompongono gli obiettivi in fasi. La piattaforma gestisce l'orchestrazione. Tu descrivi cosa vuoi ottenere. È possibile installare l'agente autonomamente se non si desidera utilizzare la versione ospitata dalla piattaforma.
Chi lo utilizza: Utenti non tecnici che necessitano di automazione semplice. I team desiderano configurazioni di agenti condivise.
Limitazioni:
- Personalizzazione limitata rispetto alle soluzioni codificate
- Colli di bottiglia nelle prestazioni su attività complesse a più fasi
- La versione ospitata invia i dati ai loro server (l'hosting autonomo è richiesto per motivi di privacy).
- Nessuna funzionalità avanzata come il fingerprinting del browser o la gestione dei CAPTCHA.
SuperAGI: Framework per la creazione di agenti autonomi personalizzati con modelli per flussi di lavoro comuni. Estendilo con la tua logica. Gestisce l'automazione del browser come componente di flussi di lavoro più ampi. Implementa in locale o carica su infrastruttura cloud.
Chi lo utilizza: Team di sviluppo che creano sistemi di agenti di produzione. Le organizzazioni necessitano di framework di automazione personalizzabili.
Limitazioni:
- Curva di apprendimento ripida (richiede la comprensione dell'architettura dell'agente)
- La libreria di modelli è ancora limitata (richiede uno sviluppo personalizzato per la maggior parte dei casi d'uso).
- Lacune nella documentazione per le funzionalità avanzate
- Lo sviluppo attivo implica modifiche sostanziali tra le versioni
Nanobrowser: si installa come estensione per Chrome e poi si controllano gli agenti dalla barra degli strumenti del browser. Ottimo per attività rapide come "estrarre tutte le email da questa pagina" o "compilare questo modulo con i dati del mio foglio di calcolo".
A chi è destinato: Utenti occasionali che necessitano di automatizzare il browser di tanto in tanto. Utenti che non intendono configurare server o ambienti Python.
Limitazioni:
- Non è possibile scalare oltre poche schede (nessuna elaborazione simultanea)
- Nessuna integrazione con le pipeline di automazione del backend
- Limitato al browser Chrome
- Le autorizzazioni di estensione sollevano preoccupazioni in materia di sicurezza
OpenManus : alternativa open-source ai servizi commerciali di automazione del browser. Esegue attività del browser che richiedono ore o giorni, come il monitoraggio dei siti per rilevare variazioni di prezzo o l'attesa del ritorno in magazzino dei prodotti. Installabile localmente con Python e Docker, permette di eseguirlo in background.
Aggiornamento recente: DeepWisdom (società madre di OpenManus) ha ufficialmente rinominato la sua tecnologia principale per agenti in Atoms a metà gennaio. Il nuovo framework Atoms sposta l'attenzione dagli strumenti per sviluppatori amatoriali alla distribuzione di agenti di livello commerciale con moduli integrati per pagamenti e autenticazione. 7
Chi lo utilizza: Utenti che eseguono attività di monitoraggio di lunga durata. Gli sviluppatori che creano sistemi di notifica automatizzati.
Limitazioni:
- Richiede la configurazione di Docker e Python.
- Nessun supporto proxy integrato (i siti rileveranno le richieste ripetute provenienti dallo stesso indirizzo IP).
- Perdite di memoria durante le attività di lunga durata (richiedono riavvii periodici)
- Il cambio di nome in Atoms potrebbe causare confusione nella documentazione.
Agenti di utilizzo del computer
Automazione del desktop che controlla i browser come parte integrante di flussi di lavoro informatici più ampi.
OpenInterpreter: un agente basato su terminale che esegue script Python, JavaScript e shell in base a ciò che digiti. Chiedigli di "estrarre dati da questo sito e analizzarli con pandas" e genererà il codice di scraping, lo eseguirà e poi effettuerà l'analisi. L'automazione del browser si integra con l'accesso al file system e l'elaborazione dei dati.
Chi lo utilizza: Sviluppatori che hanno familiarità con le interfacce a riga di comando. Gli scienziati dei dati che combinano il web scraping con i flussi di lavoro di analisi.
Quando è opportuno: Hai bisogno di automazione che abbracci la navigazione web e l'elaborazione locale. Vuoi ispezionare e modificare il codice generato prima dell'esecuzione. I tuoi flussi di lavoro prevedono la trasformazione dei dati dopo la raccolta.
Limitazioni:
- Interfaccia solo terminale (senza interfaccia grafica)
- Rischio per la sicurezza (esegue codice arbitrario sul tuo computer)
- Nessuna sandboxing per impostazione predefinita (è possibile accedere a qualsiasi file o risorsa di sistema).
- Curva di apprendimento per chi non è programmatore
UI-TARS: Framework di ricerca di origine accademica che acquisisce schermate del desktop, le analizza con modelli di visione artificiale e genera comandi per controllare gli elementi dell'interfaccia grafica. Progettato per testare nuovi approcci all'automazione del desktop, non per l'utilizzo in produzione.
Chi lo utilizza: Ricercatori accademici che studiano l'automazione basata sulla visione. Laboratori che testano sistemi di controllo multimodali.
Quando ha senso: Stai conducendo una ricerca sull'automazione basata sulla visione artificiale. Devi sperimentare approcci di analisi degli screenshot. Stai scrivendo articoli accademici sull'automazione delle interfacce grafiche.
Limitazioni:
- Non ancora pronto per la produzione (prototipo di ricerca)
- Latenza elevata (l'elaborazione del modello visivo richiede 2-3 secondi per azione)
- Costoso (GPT-4V addebita per token immagine)
- Nessuna logica di recupero o ritentativo degli errori.
AutoBrowser MCP: server MCP che consente a Claude di controllare i browser Chrome tramite il Model Context Protocol, fornendo funzionalità di interazione con il browser basate sulla visione artificiale. Claude analizza lo schermo del browser, decide su cosa cliccare ed esegue l'azione. Funziona sia come estensione di Chrome che come server locale.
Chi lo utilizza: utenti di Claude che desiderano controllare il browser. Sviluppatori che creano sistemi di automazione basati su MCP.
Quando ha senso: stai già usando Claude e vuoi aggiungere l'automazione del browser. Preferisci il controllo conversazionale alle API programmatiche. L'interazione basata sulla visione è necessaria per layout complessi.
Limitazioni:
- Richiede l'accesso all'API di Claude (non disponibile in tutte le regioni).
- I costi del modello visionario si accumulano rapidamente
- La latenza è superiore a quella degli approcci basati su DOM.
- Limitato al browser Chrome
Open Operator: la risposta del team Browser-Use all'Operator di OpenAI. Fornisce modelli linguistici con accesso diretto a Chrome tramite una visualizzazione DOM semplificata. Eseguilo in modalità completamente autonoma o abilita la modalità di approvazione, in cui confermi ogni azione prima dell'esecuzione. Installalo tramite Python o estensione del browser.
Aggiornamento recente: a fine gennaio Browser-Use ha annunciato l'integrazione strategica con Parallel AI, che consente ricerche web multi-thread. L'aggiornamento permette agli agenti di eseguire fino a 20 passaggi del browser al minuto, eguagliando o superando le prestazioni umane in attività di ricerca complesse. 8
Chi lo utilizza: Team che già utilizzano il framework Browser-Use. Le organizzazioni desiderano flussi di lavoro di approvazione per le azioni degli agenti.
Quando è opportuno: Hai bisogno di navigazione autonoma con supervisione umana. I tuoi flussi di lavoro richiedono velocità (esecuzione multi-thread). Stai sviluppando sull'ecosistema Browser-Use.
Limitazioni:
- Richiede l'installazione del framework Browser-Use
- La modalità di approvazione rallenta notevolmente l'automazione.
- Funzionalità anti-rilevamento limitate (i siti con protezione anti-bot lo bloccheranno)
- Solo Python (nessun supporto per JavaScript/TypeScript)
Claude Cowork: è stata recentemente annunciata un'anteprima di ricerca che estende l'API "Computer Use" di Claude per interagire direttamente con i file system e gli ambienti browser all'interno di un'applicazione desktop unificata. Stabilisce un nuovo punto di riferimento per gli agenti open source. 9
Chi lo utilizza: I primi utilizzatori con accesso in anteprima alla ricerca. I team che stanno valutando le funzionalità di utilizzo dei computer di nuova generazione.
Quando ha senso: Desideri un'automazione unificata di file e browser. Non hai problemi con funzionalità sperimentali che potrebbero cambiare. Hai bisogno di un controllo del desktop basato sulla visione artificiale.
Limitazioni:
- Anteprima di ricerca disponibile solo in versione limitata (disponibilità limitata).
- Proprietario (non open-source, incluso a scopo di confronto)
- Prezzi non ancora annunciati
- Le funzionalità potrebbero subire modifiche significative prima del rilascio generale.
Agenti di navigazione web
Concentrati in particolare sui flussi di lavoro dei siti web composti da più fasi.
Agent-E : legge l'HTML della pagina per trovare elementi cliccabili e percorsi di navigazione. Utilizza la "DOM Distillation" per ridurre le pagine agli elementi interattivi essenziali, oltre alla "Skill Harvesting" per memorizzare i modelli di successo. Ha ottenuto un punteggio del 73,1% nel benchmark WebVoyager utilizzando solo testo, senza modelli di visione.
Chi lo utilizza: Organizzazioni che privilegiano i costi rispetto alla precisione. Sviluppatori che creano sistemi di automazione basati sul DOM.
Quando ha senso: Hai bisogno di un'automazione rapida ed economica per siti web statici. I siti di destinazione non utilizzano moduli dinamici con un uso intensivo di JavaScript. Puoi accettare un tasso di successo del 73% in cambio di costi inferiori.
Limitazioni:
- Nessun meccanismo integrato di recupero degli errori quando la struttura DOM cambia in modo imprevisto
- Difficoltà con i moduli dinamici in cui i menu a tendina mostrano nuove opzioni in base alle selezioni
- Le prestazioni calano significativamente sui siti che fanno un uso intensivo di JavaScript.
- Risultati deludenti sui siti di prenotazione
AutoWebGLM : Semplifica l'HTML prima di fornirlo ai modelli linguistici. Le pagine complesse vengono ridotte agli elementi di navigazione essenziali e ai campi modulo. Utilizza l'apprendimento per rinforzo per migliorare le decisioni di navigazione nel tempo. Funziona in locale tramite Python.
Chi lo utilizza: team di ricerca che esplorano l'automazione web basata sull'apprendimento per rinforzo. Organizzazioni con risorse di calcolo per l'addestramento dei modelli.
Quando ha senso: puoi investire nell'addestramento di modelli personalizzati per i tuoi siti web specifici. I tuoi flussi di lavoro sono sufficientemente ripetitivi da trarre vantaggio dall'ottimizzazione tramite apprendimento per rinforzo. Disponi di un'infrastruttura Python per l'apprendimento automatico.
Limitazioni:
- Documentazione e supporto della comunità limitati.
- Richiede una fase di formazione prima dell'implementazione (non è un sistema plug-and-play).
- Servono esempi significativi per apprendere politiche efficaci
- Interruzioni quando i siti web riprogettano il layout
Agenti di navigazione basati sulla visione
Combina le schermate con l'analisi del testo per interpretare il layout visivo della pagina.
Estensione Autogen WebSurfer : integra il framework AutoGen di Microsoft per aggiungere la navigazione web. Richiede l'installazione di Playwright. Il framework consente di creare team di agenti: un agente effettua la ricerca, un altro elabora i risultati e un terzo interagisce con l'utente.
Chi lo utilizza: Team che già utilizzano il framework AutoGen. Utenti dell'ecosistema Microsoft.
Quando è opportuno: stai creando sistemi multi-agente all'interno di AutoGen. Hai bisogno di una collaborazione orchestrata tra gli agenti. Desideri il supporto e la documentazione di Microsoft.
Limiti reali:
- Esempi limitati e progetti comunitari
- Richiede l'adozione dell'intero framework AutoGen (non è possibile utilizzarlo in modalità standalone).
- Il sovraccarico del framework non vale la pena per semplici attività di automazione.
- Curva di apprendimento ripida per l'orchestrazione multi-agente
Skyvern : Sistema a tre fasi: il pianificatore suddivide le attività in passaggi, l'attore le esegue e il validatore ne conferma il successo. Acquisisce screenshot per identificare visivamente pulsanti e moduli. Questo approccio è ideale per siti web con un uso intensivo di JavaScript, in cui il DOM cambia dopo il caricamento della pagina. Ha ottenuto un punteggio dell'85,85% su WebVoyager. È possibile implementarlo in locale o utilizzare il loro servizio cloud gestito.
WebVoyager : un sistema a tre fasi in cui il pianificatore suddivide le attività in passaggi, l'attore le esegue e il validatore ne conferma il successo. Acquisisce screenshot per identificare visivamente pulsanti e moduli. Gestisce siti con un uso intensivo di JavaScript, dove il DOM cambia dopo il caricamento della pagina. Ha ottenuto un punteggio dell'85,85% su WebVoyager. È possibile implementarlo in locale o utilizzare un servizio cloud gestito.
Aggiornamento recente: Skyvern ha tenuto la Launch Week a fine gennaio, rilasciando l'SDK v1+ con librerie client Python e TypeScript. L'SDK supporta sia la modalità integrata (locale) che quella remota (cloud), con condivisione dello stato del browser tramite Chrome DevTools Protocol. Può essere combinato con le azioni di Playwright per abilitare flussi di lavoro di automazione ibridi. 10
A chi è destinato: Organizzazioni che necessitano di elevata precisione nelle moderne applicazioni web. Team disposti a sostenere i costi del modello di visione per ottenere risultati migliori.
Quando ha senso: i siti di destinazione utilizzano JavaScript intensivo e layout dinamici. È necessaria un'accuratezza superiore all'85%. È possibile sostenere costi da 10 a 20 volte superiori rispetto al parsing del DOM. I flussi di lavoro giustificano un'infrastruttura cloud.
Limitazioni:
- La versione self-hosted richiede una potenza di calcolo significativa per i modelli di visione
- Costoso (GPT-4V addebita un costo per token immagine; ogni visualizzazione di pagina costa da 10 a 20 volte di più rispetto al parsing del DOM)
- Più lento rispetto agli approcci DOM (2-3 secondi per pagina per l'elaborazione visiva)
- L'implementazione nel cloud ti espone al rilevamento dei bot
LiteWebAgent : modello di linguaggio Vision con memoria e pianificazione che controlla Chrome tramite il protocollo DevTools. Mantiene il contesto tra i caricamenti delle pagine, ricordando ciò che ha visto nelle pagine precedenti quando prende decisioni di navigazione. Framework Python, installazione self-hosted.
Chi lo utilizza: Sviluppatori che creano agenti personalizzati basati sulla visione artificiale. I team hanno bisogno di memoria tra pagine.
Quando è opportuno utilizzarlo: i tuoi flussi di lavoro richiedono di memorizzare informazioni su più pagine. Hai bisogno di funzionalità di visione artificiale ma desideri un controllo maggiore rispetto a Skyvern. Puoi gestire l'infrastruttura di machine learning in Python.
Limitazioni:
- Richiede una notevole potenza di calcolo per i modelli di visione
- L'architettura della memoria aumenta la complessità e le modalità di guasto.
- Test limitati su siti web di produzione con rilevamento di bot
- Comunità di piccole dimensioni (meno esempi e integrazioni rispetto alle alternative)
Strumenti di abilitazione dell'agente
Framework che consentono ai LLM o agli utenti di inviare comandi ai browser senza pianificazione autonoma delle attività.
Conversione del linguaggio naturale in azione web
LaVague : tu dici "Clicca sul pulsante verde". LaVague lo trova e lo clicca. Gestisce l'identificazione degli elementi in diversi layout di pagina. Ottimo per attività ripetitive in cui sai esattamente cosa vuoi ma non vuoi scrivere selettori. Basato su Python, funziona in locale.
ZeroStep : trasforma le istruzioni conversazionali in codice di test Playwright. Descrivi l'azione in linguaggio naturale e genera i comandi Playwright. Velocizza la scrittura dei test se utilizzi già Playwright. Strumento CLI per Node.js.
LLM-Browser Bridges
Collega i modelli linguistici direttamente ai controlli del browser.
Browser-Use : Ristruttura il DOM disordinato per i LLM (Latent Libraries Models). Elimina gli elementi irrilevanti, etichetta i componenti interattivi e fornisce interfacce di controllo. È questo che ha permesso a Browser-Use di raggiungere l'89,1% su WebVoyager. Disponibile come libreria Python o API, può essere distribuito in locale o tramite il loro servizio cloud.
Browserless : istanze remote di Chrome che puoi controllare tramite REST o WebSocket. Avvia centinaia di browser nel cloud senza dover gestire l'infrastruttura. Ogni browser viene eseguito senza interfaccia grafica, eliminando così il sovraccarico dell'interfaccia utente. Utilizza la loro API ospitata o Docker per l'hosting autonomo.
ZeroStep (Playwright AI) : Livello di intelligenza artificiale sopra Playwright. Scrivi prompt invece di selettori. Combina l'affidabilità di Playwright con la flessibilità di LLM per l'identificazione degli elementi. Richiede Node.js e l'installazione di Playwright.
Strumenti di automazione web e scraping
Strumenti specifici per ogni attività, che consentono di avviare ogni lavoro singolarmente.
Estensioni per l'automazione del browser
PulsarRPA : estensione per Chrome per l'estrazione di dati. Basta puntarla su una tabella o un elenco, specificare i dati da estrarre e si occuperà del resto. Include un backend per la pianificazione e il salvataggio dei risultati.
Chi lo utilizza: Utenti non tecnici che necessitano di estrarre dati regolarmente. Gli analisti aziendali estraggono dati e li inseriscono in fogli di calcolo.
Quando ha senso: estrai dati dagli stessi siti ripetutamente; non vuoi scrivere codice; hai bisogno di pianificazione e archiviazione dei risultati; i siti di destinazione non bloccano le estensioni del browser.
Limitazioni:
- Solo Chrome (no Firefox o Safari)
- Interruzioni quando i siti di destinazione cambiano layout
- Nessun supporto proxy (i siti rilevano richieste ripetute dallo stesso IP)
- Limitato all'estrazione di dati tabellari
VimGPT : Progetto sperimentale in cui GPT-4 Vision controlla il tuo browser tramite le scorciatoie da tastiera di Vimium. Il modello analizza gli screenshot e genera i comandi da tastiera.
Chi lo usa: Ricercatori che studiano la combinazione di visione artificiale e controllo tramite tastiera. Gli appassionati di Vim sono curiosi di scoprire l'automazione basata sull'intelligenza artificiale.
Quando ha senso: stai conducendo una ricerca sull'automazione tramite tastiera. Cerchi di comprendere le capacità dei modelli di visione. Non stai implementando l'automazione in produzione.
Limitazioni:
- Solo a scopo sperimentale (non applicabile a lavori reali)
- Richiede l'estensione Vimium e il backend Python.
- Latenza elevata (elaborazione delle immagini + generazione dei comandi)
- Costoso (GPT-4V costa per screenshot)
Scraper e crawler basati sull'intelligenza artificiale
Crawl4AI : un crawler che utilizza i modelli LLM per decidere cosa è importante su una pagina. Invece di acquisire tutto, identifica i contenuti rilevanti in base al tuo obiettivo. Basato su Python, si integra con le librerie di scraping standard.
Crescita recente: ha raggiunto il primo posto nella classifica delle tendenze di GitHub e ha superato le 58.000 stelle. Ottimizzato per l'integrazione con LLM, con output in formato Markdown e filtro dei contenuti BM25. Scelta popolare per le pipeline RAG che richiedono un'implementazione locale prioritaria. 11
Chi lo utilizza: Sviluppatori che creano sistemi RAG. Team che necessitano di supporto LLM locale senza costi API.
Quando ha senso: stai sviluppando applicazioni LLM che necessitano di dati web. Desideri un output formattato in Markdown. Hai bisogno di un'implementazione locale senza dipendenze dalle API cloud. Il tuo caso d'uso prevede il filtraggio dei contenuti e la classificazione per pertinenza.
Limitazioni:
- Richiede che LLM sia in esecuzione localmente o tramite API (non in modalità standalone).
- Più lento rispetto agli scraper tradizionali (elaborazione LLM per pagina)
- Potrebbero mancare contenuti importanti se il LLM valuta in modo errato
- Maggiore utilizzo di risorse rispetto agli scraper basati su regole
FireCrawl : converte i siti web in Markdown o JSON puliti. Gestisce la navigazione, il rendering JavaScript e l'estrazione dei contenuti. L'output è strutturato per essere utilizzato nelle finestre di contesto di LLM. Libreria Node.js o interfaccia a riga di comando.
Chi lo utilizza: gli sviluppatori di applicazioni LLM. I team stanno creando sistemi di intelligenza artificiale che elaborano contenuti web.
Quando è opportuno utilizzarlo: Hai bisogno di un'estrazione di testo pulita per l'elaborazione LLM. I tuoi siti di destinazione utilizzano il rendering JavaScript. Desideri un output strutturato (Markdown/JSON). Stai sviluppando applicazioni Node.js.
Limitazioni:
- Solo Node.js (nessun binding Python)
- Conversione Markdown con formattazione predefinita (potrebbe perdere la formattazione necessaria).
- Personalizzazione limitata delle regole di estrazione
- Nessuna limitazione di velocità o anti-rilevamento integrata
GPT-crawler : analizza i siti web e genera dati di addestramento per GPT personalizzati. È sufficiente indicargli la documentazione o una knowledge base per estrarne il contenuto e formattarlo per la messa a punto. Strumento da riga di comando in Python.
Chi lo utilizza: Team che sviluppano modelli GPT personalizzati. Organizzazioni che creano assistenti IA specifici per settore.
Quando ha senso: stai perfezionando modelli linguistici; hai bisogno di dati di addestramento strutturati provenienti da fonti web; il tuo contenuto è costituito da documentazione o basi di conoscenza; puoi utilizzare strumenti CLI di Python.
Limitazioni:
- Formato di output specifico per la messa a punto di GPT (non generico)
- Nessun aggiornamento incrementale (è necessario eseguire nuovamente la scansione dell'intero sito per verificare la presenza di aggiornamenti).
- Gestione limitata dell'autenticazione o dei sistemi di pagamento
- Presuppone una struttura di contenuto statica
ScrapeGraphAI : Crea grafi della conoscenza a partire da contenuti acquisiti tramite crawling. Ideale per siti di documentazione in cui è necessario comprendere le relazioni tra i concetti. Genera riepiloghi strutturati o grafi di fatti. Implementazione in Python.
Chi lo utilizza: team di gestione della conoscenza. I ricercatori creano mappe concettuali a partire da contenuti web.
Quando ha senso: Hai bisogno di estrarre relazioni, non solo contenuti. I tuoi siti di destinazione sono documentazione o contenuti didattici. Stai creando basi di conoscenza o mappe concettuali. Hai un'infrastruttura Python.
Limitazioni:
- Configurazione complessa (richiede database a grafo e modelli NLP)
- Più lento dei semplici scraper (estrazione di entità + mappatura delle relazioni)
- La qualità dipende dalla struttura del contenuto di origine
- Limitato al testo (non gestisce bene tabelle o immagini)
AutoScraper: uno scraper che impara dagli esempi. Mostragli una pagina con i dati che desideri, e lui individuerà lo schema e lo applicherà a pagine simili. Libreria Python leggera per semplici attività di estrazione.
Chi lo utilizza: Sviluppatori che necessitano di un'estrazione rapida senza dover scrivere selettori XPath o CSS. Team che stanno prototipando flussi di lavoro di scraping.
Quando ha senso: Le tue pagine di destinazione seguono schemi coerenti. Non vuoi scrivere i selettori manualmente. Hai bisogno di prototipi rapidi. I tuoi siti non cambiano layout frequentemente.
Limitazioni:
- Si interrompe quando cambia il layout della pagina
- Limitato a strutture di pagina simili (non generalizzabile a siti diversi)
- Nessun supporto per il rendering JavaScript
- Semplice corrispondenza di modelli (nessun ragionamento basato sull'IA relativo al contenuto)
LLM Scraper : Invia una pagina a un LLM e chiedi: "Estrai tutti i prezzi dei prodotti" o "Trova le informazioni di contatto". Il modello interpreta la tua richiesta ed estrae i dati pertinenti. Flessibile ma più costoso degli scraper basati su regole. Basato su Python.
Chi lo utilizza: Team che necessitano di un'estrazione flessibile senza dover scrivere regole. Sviluppatori che creano attività di estrazione una tantum.
Quando ha senso: le strutture delle pagine variano troppo per un'estrazione basata su regole. È necessaria una comprensione semantica ("trova il nome dell'autore"). Il costo non è la preoccupazione principale. Si desidera uno sviluppo rapido senza dover ricorrere all'ingegneria dei selettori.
Limitazioni:
- Costoso (l'API LLM ha un costo per pagina)
- Più lento degli scraper basati su regole (latenza API)
- Potrebbe estrarre dati errati se la richiesta non è chiara
- Non è garantita un'estrazione coerente dei campi tra le pagine.
Strumenti di ricerca basati sull'intelligenza artificiale
BingGPT : Interfaccia di chat che combina la ricerca di Bing con le risposte GPT. Poni domande e ricevi risposte con relative fonti. Applicazione desktop, non basata su browser.
BraveGPT : estensione per il rowser basata sull'intelligenza artificiale che aggiunge risposte GPT ai risultati di Brave Search. Visualizza contemporaneamente i risultati di ricerca tradizionali e un riepilogo generato dall'IA. Si sovrappone direttamente alle pagine di ricerca.
Framework di controllo Web per sviluppatori
Librerie di basso livello per il controllo programmatico del browser.
Framework di test
Automazione cross-browser del drammaturgo Microsoft. Supporta Chromium, Firefox e WebKit. Funzionalità integrate di attesa, intercettazione di rete ed emulazione mobile. Disponibile in JavaScript, Python, .NET e Java. Standard di settore per i moderni test web.
Selenium : il framework originale per l'automazione del browser. Funziona su tutti i principali browser. Vanta un ecosistema più ampio, ma un'architettura più datata. Offre binding per diversi linguaggi di programmazione, tra cui Python, Java, C#, Ruby e altri. Si basa sullo standard del protocollo WebDriver.
taiko : Framework ThoughtWorks con sintassi leggibile. Ottimo per i test funzionali dove la leggibilità dei test è fondamentale. Solo per Node.js.
Librerie di automazione
Puppeteer : libreria di Google per il controllo di Chrome/Chromium. API di alto livello per screenshot, generazione di PDF e scraping. L'ecosistema Node.js funziona con TypeScript. Scelta standard per l'automazione headless di Chrome.
Browser-Use : precedentemente indicato come bridge LLM, ma funziona anche come libreria di automazione per sviluppatori. Converte il DOM in un formato strutturato, gestisce la navigazione e l'interazione. Libreria Python con opzione API.
Cosa rende diversi questi agenti web?
Browser-Use ha ottenuto un punteggio dell'89,1% nei test di WebVoyager (dopo aver rimosso 55 attività obsolete), mentre Agent-E ha raggiunto il 73,1% sull'intero set di dati. Browser-Use utilizza la pianificazione autonoma delle attività con l'integrazione di LangChain. Agent-E analizza direttamente la struttura DOM senza modelli di visione, risultando più veloce ma in difficoltà quando i siti web utilizzano menu a tendina dinamici o mostrano nuove opzioni in base alle scelte dell'utente.
Livelli di autonomia
Agenti completamente autonomi come Browser-Use, Skyvern e Agent-E accettano obiettivi di alto livello ("trova il volo più economico per Parigi") e pianificano autonomamente i propri passaggi di navigazione. Si adattano a elementi imprevisti come banner sui cookie o captcha. Tuttavia, ogni decisione richiede una chiamata LLM, aumentando sia i costi che i tempi di risposta.
Strumenti di guida passo passo come LaVague e ZeroStep eseguono comandi specifici ("clicca sul pulsante di ricerca", "inserisci il testo nel campo 2"). L'esecuzione è più rapida perché evitano la fase di pianificazione. Tuttavia, se un sito web modifica il layout, è necessario aggiornare le istruzioni manualmente.
I framework di programmazione manuale come Playwright e Selenium richiedono codice esplicito per ogni clic, compilazione di moduli e navigazione. I test vengono eseguiti in modo identico ogni volta finché il sito non cambia l'ID di un elemento o il nome di una classe. A quel punto i selettori smettono di funzionare ed è necessario riscrivere il codice.
Come interpretano le pagine
Elaborazione basata sulla visione: Skyvern 2.0, WebVoyager e VimGPT acquisiscono schermate e le inviano a modelli di visione come GPT-4V. Questi modelli identificano pulsanti e moduli analizzando la pagina renderizzata.
Skyvern 2.0 utilizza un ciclo pianificatore-attore-validatore. Il pianificatore scompone i compiti complessi in obiettivi più piccoli, l'attore li esegue e il validatore verifica se ogni obiettivo è stato raggiunto. Questo approccio in tre fasi ha permesso a Skyvern di passare dal 45% (versione a richiesta singola) al 68,7% (con pianificatore) all'85,85% (con validatore che controlla se le azioni sono state effettivamente eseguite).
L'elaborazione delle immagini funziona sui siti che fanno un uso intensivo di JavaScript, dove il DOM viene ricostruito dopo il caricamento della pagina. Tuttavia, GPT-4V addebita un costo per ogni token immagine, rendendo ogni visualizzazione di pagina 10-20 volte più costosa rispetto alla lettura dell'HTML. I modelli di visione aggiungono inoltre 2-3 secondi per pagina rispetto all'analisi del DOM.
Analisi del DOM: Browser-Use e Agent-E leggono direttamente l'HTML della pagina. Analizzano il codice alla ricerca di elementi cliccabili, campi di input e link di navigazione.
Agent-E utilizza la "DOM Distillation" per ridurre le pagine complesse agli elementi essenziali, oltre alla "Skill Harvesting" per memorizzare e riutilizzare i modelli di interazione di successo. Ha superato l'agente multimodale WebVoyager (che utilizza la visione artificiale) su siti come Huggingface, Apple e Amazon, utilizzando solo testo. Tuttavia, la pianificazione di Agent-E si desincronizza quando i siti web rivelano dinamicamente nuove opzioni, come i menu a tendina che cambiano in base alle selezioni dell'utente.
L'analisi del DOM costa meno ed è più veloce. L'accuratezza dell'89,1% di Browser-Use deriva in parte dall'integrazione con LangChain e dai prompt aggiornati, non solo dall'omissione delle chiamate a vision. Tuttavia, gli approcci basati sul DOM faticano quando i siti utilizzano Shadow DOM, nomi di classi offuscati o manipolazioni JavaScript intensive.
Approccio combinato: LiteWebAgent e AutoWebGLM analizzano il DOM per individuarne la struttura, quindi utilizzano la visione artificiale per verificare ciò che gli utenti effettivamente vedono. Più preciso del solo DOM, più economico della sola visione artificiale, ma si utilizzano due sistemi per pagina.
Specializzazione
Auto-GPT e AgenticSeek gestiscono la navigazione web, le operazioni sui file e l'esecuzione di codice. Mancano di funzionalità specifiche per il web, come la rotazione dei proxy e la gestione dei cookie, il che ne limita l'efficacia sui siti con sistemi di rilevamento dei bot.
Agent-E e WebVoyager si occupano esclusivamente della navigazione web. Agent-E ha raggiunto il 73,1% complessivo sull'intero dataset WebVoyager di 643 attività, superando il 57,1% dell'agente multimodale WebVoyager. Ottime prestazioni su siti come Wolfram (95,7%), Google Search (90,7%) e Google Maps (87,8%). Prestazioni deludenti su siti dinamici: solo il 27,3% su Booking.com e il 35,7% su Google Flights, dove i menu a tendina e i campi dei moduli cambiano in base alle selezioni dell'utente.
Crawl4AI e FireCrawl estraggono dati e convertono le pagine in Markdown o JSON. Non compilano moduli né eseguono flussi di lavoro complessi. Utilizzateli quando avete bisogno di contenuti in formato strutturato, non quando dovete completare attività in più fasi.
Playwright e Selenium automatizzano i test sui browser. Producono risultati identici in tutte le esecuzioni, un aspetto essenziale per i test di regressione. Tuttavia, questo determinismo implica che non siano in grado di adattarsi. Quando un sito cambia, la suite di test smette di funzionare.
Opzioni di implementazione
Esecuzione locale: AgenticSeek, Nanobrowser e OpenInterpreter vengono eseguiti sul tuo computer. I tuoi dati di navigazione rimangono in locale ed eviti i costi delle API. Tuttavia, una workstation tipica gestisce da 5 a 10 istanze simultanee del browser prima che CPU e RAM raggiungano il limite massimo.
API cloud: Browserless fornisce istanze remote di Chrome tramite REST o WebSocket. È possibile avviare centinaia di sessioni parallele con rotazione automatica del proxy. Ogni richiesta aggiunge una latenza di 100-300 ms rispetto ai browser locali e il traffico viene instradato attraverso i loro server, a meno che non si utilizzi l'hosting autonomo con Docker.
Implementazione flessibile: Skyvern viene eseguito localmente durante lo sviluppo, per poi essere distribuito sul cloud in produzione. Il loro benchmark è stato effettivamente eseguito su Skyvern Cloud (non su macchine locali) per testare condizioni reali con browser cloud asincroni e indirizzi IP realistici. La maggior parte dei benchmark viene eseguita su IP locali sicuri con impronte digitali del browser affidabili, il che non rispecchia la realtà della produzione.
Modelli di integrazione
AutoGen's WebSurfer richiede l'adozione dell'intero framework multi-agente di Microsoft. Si ottengono funzionalità integrate di orchestrazione degli agenti e gestione della memoria, ma non è facile integrarlo con i sistemi esistenti.
Browser-Use e Playwright funzionano come librerie indipendenti. Puoi integrarle in qualsiasi progetto Python o Node.js. Tuttavia, dovrai implementare autonomamente il coordinamento degli agenti, la gestione degli errori e l'archiviazione dei risultati.
Nanobrowser e BraveGPT si installano come estensioni di Chrome. Non è necessaria alcuna configurazione del server: basta aggiungerli al browser e avviarli. Non sono scalabili oltre poche schede simultanee e non si integrano con le pipeline di automazione back-end.
Considerazioni sulla produzione
Skyvern e Browserless includono il supporto per proxy residenziali, movimenti del mouse casuali e rotazione dell'impronta digitale del browser. Queste funzionalità impediscono il blocco degli indirizzi IP e l'attivazione dei CAPTCHA sui siti protetti.
WebVoyager e AutoWebGLM si concentrano sugli algoritmi di navigazione. Agent-E ha raggiunto il 73,1% utilizzando l'analisi del DOM basata solo sul testo, superando il 57,1% dell'approccio multimodale di WebVoyager. Tuttavia, i siti di produzione con Cloudflare o DataDome bloccheranno gli agenti privi di un'adeguata protezione anti-rilevamento.
Contesto importante del benchmark: Browser-Use e Agent-E hanno eseguito i test in locale con indirizzi IP sicuri. Skyvern ha eseguito i propri test specificamente in un'infrastruttura cloud per simulare le reali condizioni di produzione, dove si incontrano rilevamento di bot, fingerprinting del browser e sfide CAPTCHA. I test di benchmark stessi vengono eseguiti su siti collaborativi senza protezioni aggressive contro i bot, quindi i tassi di successo nel mondo reale saranno inferiori a quelli indicati da questi numeri.
Sii il primo a commentare
Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori.