Abbiamo effettuato un benchmark su 8 server MCP per attività di ricerca ed estrazione web, nonché per attività di automazione del browser, eseguendo 4 attività diverse per 5 volte su tutti gli MCP idonei. Abbiamo anche condotto un test di carico con 250 agenti AI simultanei.
Server MCP con funzionalità di accesso web
Prodotto | Tasso di successo per il web cercare ed estrarre | Tasso di successo per automazione del browser | Ricerca sul Web e velocità di estrazione (s) | Automazione del browser velocità (s) | Punteggio di scalabilità |
|---|---|---|---|---|---|
100% | 90% | 30 | 30 | 77% | |
78% | 0% | 32 | N / A | 19% | |
75% | N / A | 14 | N / A | 54% | |
Nimble | 93% | N / A | 16 | N / A | 51% |
Firecrawl | 83% | N / A | 7 | N / A | 65% |
Hyperbrowser | 63% | 90% | 118 | 93 | N / A |
Browserbase | 48% | 5% | 51 | 104 | N / A |
Tavily | 38% | N / A | 14 | N / A | 45% |
Exa | 23% | N / A | 15 | N / A | N / A |
*Le attività di ricerca ed estrazione web vengono eseguite con il server MCP predefinito di Bright Data, mentre le attività di automazione del browser vengono eseguite con la modalità MCP Pro di Bright Data, poiché gli strumenti necessari per l'automazione del browser sono disponibili nella modalità Pro.
**La tabella è ordinata in base ai punteggi nella categoria ricerca ed estrazione web, con gli sponsor visualizzati in cima.
Ciascuna delle dimensioni sopra elencate e i relativi metodi di misurazione sono descritti di seguito:
Tasso di successo dei server MCP nell'accesso web
*N/D indica che il server MCP non dispone di questa funzionalità.
Abbiamo confrontato i prodotti in due diverse categorie: ricerca ed estrazione web e automazione del browser. I risultati del nostro benchmark rivelano che Bright Data ha il tasso di successo più elevato nelle attività di ricerca ed estrazione web, completando con successo il 100% di queste attività. Nelle attività di automazione del browser, Bright Data (Modalità Pro) e Hyperbrowser hanno i tassi di successo più elevati, con un tasso di completamento delle attività del 90%.
Tra tutti gli strumenti che abbiamo analizzato, Apify, Bright Data, Browserbase e Hyperbrowser sono gli unici a possedere entrambe le funzionalità richieste agli agenti che lavorano sul web:
- La ricerca e l'estrazione di dati sul web includono la ricerca sul web e l'utilizzo dei link presenti sulla pagina per navigare tra le pagine al fine di raccogliere ed elaborare i dati.
- L'automazione del browser include l'interazione con elementi JavaScript per compilare moduli, ecc.
Per visualizzare in dettaglio le attività utilizzate nel benchmark, consultare la nostra metodologia.
Velocità
La nostra valutazione mostra che:
- Ricerca ed estrazione web: Firecrawl è l'MCP più veloce con un tempo di esecuzione medio dell'MCP per risultati corretti di 7 secondi e un tasso di accuratezza dell'83%.
- Automazione del browser: Bright Data è il più veloce con un tempo di esecuzione MCP medio di 30 secondi per risultati corretti e un tasso di accuratezza del 90%.
Tutte le metriche di velocità si riferiscono a operazioni completate correttamente. Talvolta i server MCP forniscono risposte rapide che indicano un errore, ma queste non sono paragonabili al tempo effettivo necessario per completare un'operazione.
Il nostro set di dati per la navigazione includeva la partecipazione di tutti i marchi e ha prodotto 80 punti dati (ovvero 8 marchi, 2 attività e 5 ripetizioni per ogni attività). Sulla base di questi punti dati, sembra esserci una correlazione negativa tra tassi di successo e velocità:
Questa correlazione è intuitiva:
- A volte i siti web identificano i bot come traffico sospetto e attivano funzionalità anti-scraping .
- Ciò causa il malfunzionamento di alcuni server MCP.
- Coloro che non falliscono devono utilizzare una tecnologia di sblocco che può essere più lenta (ovvero l'intervallo di confidenza del 95% include 4 secondi per uno dei fornitori nel nostro benchmark di sblocco web ).
Scalabilità
Questo benchmark misura le prestazioni e l'affidabilità dei server MCP sottoposti a un elevato volume di attività simultanee e autonome di agenti AI. L'asse X, Tasso di successo (%) , rappresenta il punteggio del fornitore nel nostro benchmark di ricerca ed estrazione web con un singolo agente. L'asse Y, Punteggio di scalabilità (%) , è derivato dal test di carico ad alta concorrenza descritto di seguito, che misura la stabilità e l'affidabilità del server sotto stress.
Ciascun agente è stato creato utilizzando il framework LangChain create_react_agent, basato sul modello linguistico gpt-4.1-nano-2025-04-14. Agli agenti sono stati assegnati diversi prompt di ricerca per l'e-commerce, come ad esempio "Vai su target.com e trova un cuscino decorativo a meno di 20 dollari". Un'attività era considerata riuscita solo se l'agente navigava sul sito web, trovava un prodotto corrispondente e restituiva i dati richiesti (URL, prezzo, valutazione) in un formato JSON strutturato entro un limite di tempo di 5 minuti.
Il test ha rivelato le seguenti differenze chiave sia nel tasso di successo che nel tempo medio necessario per completare un'attività con successo:
- Nel test di stress con 250 agenti simultanei, Bright Data ha raggiunto un tasso di successo del 76,8% con un tempo medio di completamento competitivo di 48,7 secondi per attività completata con successo, emergendo come leader assoluto.
- Firecrawl ha registrato un tasso di successo del 64,8%, con una durata media dell'operazione di 77,6 secondi.
- Oxylabs ha dimostrato le prestazioni più rapide, completando con successo i suoi compiti in una media di soli 31,7 secondi, mantenendo al contempo un solido tasso di successo del 54,4%.
- Nimble ha registrato un tasso di successo del 51,2%, ma le attività completate con successo hanno richiesto un tempo significativamente maggiore, con una media di 182,3 secondi.
- Tavily ha completato i compiti con un tasso di successo del 45%, con il secondo tempo medio di completamento più veloce di 41,3 secondi.
- Apify ha completato il test con un tasso di successo inferiore, pari al 18,8%, sebbene le attività completate con successo siano state relativamente veloci, con una media di 45,9 secondi.
Metodologia per valutare le capacità di accesso web dei server MCP
Gli MCP funzionano in diversi ambienti di sviluppo, tra cui Claude Desktop, VSCode e Cursor. Nella nostra valutazione, abbiamo integrato gli MCP in un framework di agenti LangGraph utilizzando la libreria langchain-mcp-adapters. Abbiamo utilizzato quattro prompt nel benchmark. Prompt di ricerca ed estrazione web:
- Assistente agli acquisti: " Vai su Amazon e trova 3 paia di cuffie a meno di 30 dollari. Indica i nomi, le valutazioni e gli URL."
- Specialista SDR basato sull'IA per la generazione di lead: "Vai su LinkedIn, trova 2 persone che lavorano presso AIMultiple, fornisci i loro nomi e gli URL dei profili."
Suggerimenti automatici del browser:
- Assistente di viaggio: "Trova il miglior prezzo per il Betsy Hotel, South Beach, Miami per il 16 giugno 2025. Inserisci il prezzo e l'URL."
- Compilatore automatico del modulo: "https://aimultiple.com/ vai a questa pagina, inserisci il mio indirizzo e-mail xxx@aimultiple.com per l'iscrizione alla newsletter e clicca sul pulsante Iscriviti."
Abbiamo eseguito ciascun compito 5 volte per ogni agente di intelligenza artificiale e valutato le prestazioni sulla base di specifici punti dati.
Ciascun compito contribuiva in egual misura al punteggio totale, con punti assegnati per il recupero riuscito di ogni elemento di dati richiesto. Il nostro codice ha monitorato sia il tempo di esecuzione degli strumenti MCP sia la durata complessiva dell'elaborazione da parte dell'agente, utilizzando claude-3-5-sonnet-20241022 come modello linguistico di grandi dimensioni dell'agente di intelligenza artificiale.
Per correttezza nei confronti di tutti gli MCP, abbiamo utilizzato lo stesso agente con gli stessi prompt e gli stessi prompt di sistema. Il prompt di sistema è scritto in un linguaggio adatto a tutti gli agenti (senza menzioni di strumenti specifici o istruzioni dettagliate).
I primi tre compiti hanno misurato le capacità di ricerca ed estrazione dei MCP, mentre l'ultimo compito ha misurato le loro capacità di automazione del browser.
Caratteristiche
Abbiamo inoltre misurato alcune caratteristiche importanti di questi server MCP. Per una spiegazione delle caratteristiche, si prega di consultare la sezione metodologia nel benchmark del browser dell'agente .
Supporto per i motori di ricerca
Targeting
Sicurezza
La sicurezza dei dati è fondamentale per le operazioni aziendali. Abbiamo verificato se le aziende produttrici di questi browser agent possedessero una certificazione di sicurezza dei dati. Tutte le aziende dichiarano sui propri siti web di essere in possesso di una certificazione ISO 27001 o SOC 2.
Benchmark dei prezzi
Poiché tutti i server MCP con funzionalità di accesso web utilizzano parametri di prezzo diversi, è difficile confrontarli.
Pertanto, abbiamo misurato il loro prezzo per una singola attività. È difficile misurare il costo solo per le attività corrette, poiché la maggior parte dei fornitori non fornisce una ripartizione dettagliata dei costi nel tempo. Pertanto, per essere equi con tutti i prodotti, abbiamo scelto la prima attività per misurare il successo del benchmark di ricerca ed estrazione web, poiché presenta il tasso di successo complessivo più elevato. Per il benchmark di automazione del browser, abbiamo scelto l'ultima attività per misurarne il costo.
La maggior parte dei prodotti è disponibile tramite diversi piani con limiti differenti, e alcuni di questi piani consentono anche l'acquisto di crediti aggiuntivi. I crediti utilizzati vengono calcolati in base a diversi parametri, come per chiamata API, per GB o per pagina.
Si prega di notare che questi prezzi non includono il costo dell'LLM e che il nostro costo di utilizzo di Claude Sonnet 3.5 è stato superiore ai costi di navigazione durante queste attività. Pertanto, il prezzo dell'LLM è probabilmente più importante del prezzo del server MCP durante la creazione di agenti per attività correlate al web.
*I prezzi possono variare a seconda del piano selezionato e degli sconti aziendali.
Partecipanti
Abbiamo incluso tutti i server MCP che offrono funzionalità di navigazione web basate sul cloud:
- Apify
- Bright Data
- Browserbase
- Exa
- Firecrawl
- Hyperbrowser
- Nimble
- Oxylabs
- Tavily
Apify, Bright Data e Oxylabs sono sponsor di AIMultiple.
Per questa versione del nostro benchmark, abbiamo escluso i server MCP che operano sui dispositivi degli utenti, poiché hanno capacità limitate nel rispondere a un elevato numero di richieste. Se ci fosse sfuggito qualche server MCP basato su cloud con funzionalità di navigazione web, vi preghiamo di segnalarcelo nei commenti.
Problemi e soluzioni per la navigazione web in MCP
Se configurati in un client MCP come Claude Desktop, gli LLM possono sfruttare server MCP specializzati. Gli MCP con accesso web sono particolarmente utili in quanto consentono l'estrazione di dati web, inclusa la capacità di visualizzare pagine con un elevato utilizzo di JavaScript, aggirare le comuni restrizioni di accesso, eseguire azioni, compilare moduli e accedere a contenuti con restrizioni geografiche da diverse posizioni nel mondo, ma presentano anche alcune problematiche.
Sebbene ci siamo trovati di fronte a sfide simili per il benchmark del browser agente, gli MCP presentano nuove sfide per il benchmarking. Gli LLM, con l'aggiunta di una funzione di memoria esterna, possono essere utilizzati come macchine di Turing e, con un server MCP che fornisce funzionalità di navigazione, è teoricamente possibile completare qualsiasi attività di navigazione web o automazione del browser con server MCP che offrono tali funzionalità.
Pertanto, scrivendo codice personalizzato per ogni agente, è possibile raggiungere un tasso di successo del 100%. Tuttavia, questa non è una soluzione ideale per gli utenti MCP che desiderano fornire istruzioni semplici e ottenere un elevato tasso di successo. Per questo motivo, abbiamo scelto dei prompt il più semplici e universali possibile, che non facciano riferimento a funzionalità specifiche dei server MCP.
Finestra di contesto
La finestra di contesto può essere superata in attività lunghe. Gli agenti consumano pagine intere mentre navigano sul web e di conseguenza la finestra di contesto limitata degli LLM viene prima o poi superata. Pertanto, per creare agenti che completano attività che coinvolgono molte pagine, gli utenti hanno bisogno
- LLM con ampie finestre di contesto
- Ottimizza le dimensioni delle pagine passate a LLM. Ad esempio, potresti essere in grado di rimuovere programmaticamente le parti non necessarie delle pagine e fare in modo che LLM si concentri solo sulle parti importanti.
Esperienza di sviluppo
Gli sviluppatori esperti possono utilizzare i server MCP sui client MCP che richiedono la programmazione e possono facilmente eseguire test in parallelo o utilizzare l'esecuzione di codice MCP. Inoltre, i client MCP senza codice come Claude o Cursor possono essere utilizzati facilmente senza che sia richiesta alcuna esperienza di sviluppo.
FAQ
MCP (Model Context Protocol) stabilisce un ponte di comunicazione standardizzato tra agenti di intelligenza artificiale e applicazioni, consentendo alle app di IA e ai modelli di apprendimento basati su IA (LLM) di interagire con strumenti e servizi esterni.
Sii il primo a commentare
Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori.