Realizamos testes comparativos com 8 servidores MCP em tarefas de busca e extração na web, bem como em automação de navegadores, executando 4 tarefas diferentes 5 vezes em todos os MCPs adequados. Também realizamos um teste de carga envolvendo 250 agentes de IA simultâneos.
Servidores MCP com recursos de acesso web
Produto | Taxa de sucesso para a web pesquisar e extrair | Taxa de sucesso para automação do navegador | Pesquisa na Web e velocidade de extração (s) | Automação do navegador velocidade (s) | Pontuação de escalabilidade |
|---|---|---|---|---|---|
100% | 90% | 30 | 30 | 77% | |
78% | 0% | 32 | N / D | 19% | |
75% | N / D | 14 | N / D | 54% | |
Nimble | 93% | N / D | 16 | N / D | 51% |
Firecrawl | 83% | N / D | 7 | N / D | 65% |
Hipernavegador | 63% | 90% | 118 | 93 | N / D |
Base de navegador | 48% | 5% | 51 | 104 | N / D |
Tavily | 38% | N / D | 14 | N / D | 45% |
Exa | 23% | N / D | 15 | N / D | N / D |
*As tarefas de pesquisa e extração na Web são executadas com o servidor MCP padrão do Bright Data, enquanto as tarefas de automação de navegador são executadas com o Modo Pro do MCP do Bright Data, já que as ferramentas necessárias para a automação de navegador estão disponíveis no Modo Pro.
**A tabela está ordenada com base nas pontuações da categoria de pesquisa e extração na web, com os patrocinadores exibidos no topo.
Cada uma das dimensões acima e seus respectivos métodos de medição são descritos abaixo:
Taxa de sucesso dos servidores MCP no acesso à web
*N/A indica que o servidor MCP não possui essa capacidade.
Comparamos os produtos em duas categorias diferentes: busca e extração na web e automação de navegador. Nossos resultados de comparação revelam que o Bright Data tem a maior taxa de sucesso em tarefas de busca e extração na web, concluindo 100% dessas tarefas com êxito. Nas tarefas de automação de navegador, o Bright Data (Modo Pro) e o Hyperbrowser têm as maiores taxas de sucesso, com 90% de conclusão de tarefas.
Dentre todas as ferramentas que avaliamos, Apify, Bright Data, Browserbase e Hyperbrowser são as únicas que possuem ambas as funcionalidades necessárias para agentes que trabalham na web:
- A pesquisa e extração na Web inclui a busca na Web e o uso de links na página para navegar entre páginas, a fim de coletar e processar dados.
- A automação do navegador inclui a interação com elementos JS para preencher formulários, etc.
Para ver em detalhes as tarefas utilizadas no benchmark, consulte nossa metodologia.
Velocidade
Nossa avaliação demonstra:
- Busca e extração na Web: Firecrawl é o MCP mais rápido, com um tempo médio de execução para resultados corretos de 7 segundos e uma taxa de precisão de 83%.
- Automação do navegador: Bright Data é a mais rápida, com um tempo médio de execução do MCP de 30 segundos para resultados corretos e uma taxa de precisão de 90%.
Todas as métricas de velocidade referem-se a tarefas concluídas corretamente. Às vezes, os servidores MCP geram respostas rápidas indicando falhas, que não são comparáveis ao tempo necessário para concluir uma tarefa.
Nosso conjunto de dados para navegação incluiu a participação de todas as marcas e gerou 80 pontos de dados (ou seja, 8 marcas, 2 tarefas e 5 repetições para cada tarefa). Com base nesses pontos de dados, parece haver uma correlação negativa entre as taxas de sucesso e a velocidade.
Essa correlação é intuitiva:
- Às vezes, os sites identificam bots como tráfego suspeito e acionam recursos anti-raspagem .
- Isso leva à falha de alguns servidores MCP.
- Aqueles que não falham precisam usar tecnologia de desbloqueio, que pode ser mais lenta (ou seja, o intervalo de confiança de 95% inclui 4 segundos para um dos provedores em nosso teste de desbloqueio da web ).
Escalabilidade
Este teste de desempenho mede a performance e a confiabilidade dos servidores MCP quando submetidos a um alto volume de tarefas simultâneas de agentes de IA autônomos. O eixo X, Taxa de Sucesso (%) , representa a pontuação do provedor em nosso teste de desempenho de busca e extração na web com um único agente. O eixo Y, Pontuação de Escalabilidade (%) , é derivado do teste de carga de alta concorrência detalhado abaixo, que mede a estabilidade e a confiabilidade do servidor sob estresse.
Cada agente foi construído com base no framework create_react_agent do LangChain, utilizando o modelo de linguagem gpt-4.1-nano-2025-04-14. Os agentes receberam diversas tarefas de busca em e-commerce, como "Acesse target.com e encontre uma almofada decorativa por menos de 20 dólares". Uma tarefa era considerada bem-sucedida somente se o agente navegasse pelo site, encontrasse um produto correspondente e retornasse os dados necessários (URL, preço, avaliação) em formato JSON estruturado dentro de um limite de tempo de 5 minutos.
O teste revelou as seguintes diferenças principais tanto na taxa de sucesso quanto no tempo médio necessário para concluir uma tarefa com sucesso:
- No teste de estresse com 250 agentes simultâneos, o Bright Data alcançou uma taxa de sucesso de 76,8% com um tempo médio de conclusão competitivo de 48,7 segundos por tarefa bem-sucedida, emergindo como o líder geral.
- O modelo Firecrawl apresentou uma taxa de sucesso de 64,8%, com uma duração média da tarefa de 77,6 segundos.
- O sistema Oxylabs demonstrou o desempenho mais rápido, concluindo suas tarefas com sucesso em uma média de apenas 31,7 segundos, mantendo uma sólida taxa de sucesso de 54,4%.
- Nimble registrou uma taxa de sucesso de 51,2%, mas suas tarefas bem-sucedidas levaram significativamente mais tempo, com uma média de 182,3 segundos para serem concluídas.
- Tavily concluiu as tarefas com uma taxa de sucesso de 45%, com o segundo tempo médio de conclusão mais rápido, de 41,3 segundos.
- O dispositivo Apify concluiu o teste com uma taxa de sucesso menor, de 18,8%, embora suas tarefas bem-sucedidas tenham sido relativamente rápidas, com uma média de 45,9 segundos.
Metodologia para avaliar as capacidades de acesso web dos servidores MCP
Os MCPs funcionam em diversos ambientes de desenvolvimento, incluindo Claude Desktop, VSCode e Cursor. Em nossa avaliação, integramos os MCPs a uma estrutura de agentes LangGraph usando a biblioteca langchain-mcp-adapters. Utilizamos quatro prompts no benchmark. Prompts de busca e extração na web:
- Assistente de compras: “ Acesse a Amazon e encontre 3 fones de ouvido com preço inferior a 30 dólares. Forneça os nomes, avaliações e URLs.”
- SDR com IA para geração de leads: “Acesse o LinkedIn, encontre duas pessoas que trabalham na AIMultiple, forneça seus nomes e URLs de perfil.”
Instruções de automação do navegador:
- Assistente de viagens: “Encontre o melhor preço para o Betsy Hotel, em South Beach, Miami, no dia 16 de junho de 2025. Forneça o preço e o URL.”
- Preenchimento do formulário: “Acesse https://aimultiple.com/, insira meu e-mail xxx@aimultiple.com na inscrição da newsletter e clique no botão de inscrição.”
Executamos cada tarefa 5 vezes por agente de IA e avaliamos o desempenho com base em pontos de dados específicos.
Cada tarefa contribuía com uma parcela igual da pontuação total, sendo atribuídos pontos pela recuperação bem-sucedida de cada elemento de dados necessário. Nosso código monitorou tanto o tempo de execução das ferramentas MCP quanto a duração total do processamento do agente, utilizando claude-3-5-sonnet-20241022 como modelo de linguagem para o agente de IA.
Para sermos justos com todos os MCPs, usamos o mesmo agente com os mesmos prompts e os mesmos prompts do sistema. O prompt do sistema está escrito em uma linguagem adequada para todos os agentes (sem menção a ferramentas específicas ou instruções detalhadas).
As três primeiras tarefas mediram as capacidades de busca e extração dos MCPs, e a última tarefa mediu suas habilidades de automação de navegador.
Características
Também medimos algumas características importantes desses servidores MCP. Para obter uma explicação das características, consulte a seção de metodologia no benchmark do navegador de agentes .
Suporte para mecanismos de busca
Direcionamento
Segurança
A segurança de dados é crucial para as operações empresariais. Verificamos se as empresas fornecedoras desses navegadores de agentes possuíam certificação de segurança de dados. Todas as empresas afirmam em seus sites possuir certificação ISO 27001 ou SOC 2.
Referência de preços
Como todos os servidores MCP com capacidade de acesso à web utilizam parâmetros diferentes para definir seus preços, é difícil compará-los.
Portanto, medimos o preço para uma única tarefa. É difícil medir o custo apenas para tarefas concluídas corretamente, pois a maioria dos fornecedores não detalha os custos ao longo do tempo. Assim, para sermos justos com todos os produtos, escolhemos a primeira tarefa para medir o sucesso do benchmark de busca e extração na web, já que ela apresenta a maior taxa de sucesso geral. Para o benchmark de automação de navegador, escolhemos a última tarefa para medir o custo da tarefa.
A maioria dos produtos está disponível em diversos planos com diferentes limites, e alguns desses planos também permitem a compra de créditos adicionais. O consumo de créditos é medido por diferentes parâmetros, como por chamada de API, por GB ou por página.
Observe que esses preços não incluem o custo do LLM e que nosso custo de utilização do Claude Sonnet 3.5 foi superior aos custos de navegação durante essas tarefas. Portanto, o preço do LLM provavelmente será mais importante do que o preço do servidor MCP ao criar agentes para tarefas relacionadas à web.
*Os preços podem variar dependendo do plano selecionado e dos descontos empresariais.
Participantes
Incluímos todos os servidores MCP que oferecem recursos de navegação na web baseados em nuvem:
- Apify
- Bright Data
- Base de navegador
- Exa
- Firecrawl
- Hipernavegador
- Nimble
- Oxylabs
- Tavily
Apify, Bright Data e Oxylabs são patrocinadores do AIMultiple.
Para esta versão do nosso benchmark, excluímos servidores MCP que funcionavam nos dispositivos dos próprios usuários, visto que eles têm capacidade limitada para responder a um grande número de requisições. Caso tenhamos deixado de fora algum servidor MCP baseado em nuvem com recursos de navegação web, por favor, nos avise nos comentários.
Desafios e soluções para a navegação na web com MCP
Quando configurados em um cliente MCP, como o Claude Desktop, os LLMs podem aproveitar servidores MCP especializados. Os MCPs de acesso web são particularmente valiosos, pois permitem a extração de dados da web, incluindo a capacidade de renderizar páginas com uso intensivo de JavaScript, contornar restrições de acesso comuns, executar ações, preencher formulários e acessar conteúdo com restrição geográfica de várias localizações globais, mas apresentam alguns desafios.
Embora tenhamos enfrentado desafios semelhantes aos do benchmark de navegador de agente, os MCPs apresentam novos desafios para a avaliação comparativa. Os LLMs, com a adição de uma função de memória externa, podem ser usados como uma máquina de Turing e, com um servidor MCP que ofereça recursos de navegação, é teoricamente possível concluir qualquer tarefa de navegação na web ou automação de navegador com servidores MCP que ofereçam esses recursos.
Portanto, ao escrever código personalizado para cada agente, é possível atingir taxas de sucesso de 100%. No entanto, isso não é uma boa solução para usuários do MCP que desejam fornecer instruções simples e obter altas taxas de sucesso. Por isso, optamos por prompts o mais simples e universais possível, sem fazer referência a funcionalidades específicas de servidores MCP.
Janela de contexto
A janela de contexto pode ser excedida em tarefas longas. Os agentes consomem páginas inteiras enquanto navegam na web e, como resultado, a janela de contexto limitada dos LLMs (Learning Language Models) é excedida mais cedo ou mais tarde. Portanto, para criar agentes que concluam tarefas que envolvam muitas páginas, os usuários precisam...
- LLMs com grandes janelas de contexto
- Otimize os tamanhos das páginas enviadas para o LLM. Por exemplo, você pode remover programaticamente partes desnecessárias das páginas e fazer com que o LLM se concentre apenas nas partes importantes.
Experiência do desenvolvedor
Desenvolvedores experientes podem usar servidores MCP em clientes MCP que exigem programação e podem executar facilmente testes paralelos ou usar a execução de código MCP. Além disso, clientes MCP sem código, como Claude ou Cursor, podem ser usados facilmente sem a necessidade de experiência em desenvolvimento.
Perguntas frequentes
O MCP (Model Context Protocol) estabelece uma ponte de comunicação padronizada entre agentes de IA e aplicativos, permitindo que aplicativos de IA e LLMs interajam com ferramentas e serviços externos.
Seja o primeiro a comentar
Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios.