Realizamos pruebas de rendimiento en 8 servidores MCP para búsqueda y extracción web, así como para tareas de automatización de navegadores, ejecutando 4 tareas diferentes 5 veces en todos los MCP adecuados. También llevamos a cabo una prueba de carga con 250 agentes de IA concurrentes.
Servidores MCP con capacidades de acceso web
Producto | Tasa de éxito para la web buscar y extraer | Tasa de éxito para automatización del navegador | Búsqueda web y velocidad de extracción (s) | Automatización del navegador velocidad (s) | Puntuación de escalabilidad |
|---|---|---|---|---|---|
100% | 90% | 30 | 30 | 77% | |
78% | 0% | 32 | N / A | 19% | |
75% | N / A | 14 | N / A | 54% | |
Nimble | 93% | N / A | 16 | N / A | 51% |
Firecrawl | 83% | N / A | 7 | N / A | 65% |
Hipernavegador | 63% | 90% | 118 | 93 | N / A |
Base de navegador | 48% | 5% | 51 | 104 | N / A |
Tavily | 38% | N / A | 14 | N / A | 45% |
Exa | 23% | N / A | 15 | N / A | N / A |
*Las tareas de búsqueda y extracción web se ejecutan con el servidor MCP predeterminado de Bright Data, las tareas de automatización del navegador se ejecutan con el modo Pro de MCP de Bright Data, ya que las herramientas necesarias para la automatización del navegador están disponibles en el modo Pro.
**La tabla está ordenada según las puntuaciones en la categoría de búsqueda y extracción web, y los patrocinadores se muestran en la parte superior.
Cada una de las dimensiones mencionadas anteriormente y sus métodos de medición se describen a continuación:
Tasa de éxito de los servidores MCP en el acceso web
*N/A indica que el servidor MCP no tiene esta capacidad.
Comparamos los productos en dos categorías diferentes: búsqueda y extracción web y automatización del navegador. Nuestros resultados revelan que Bright Data tiene la mayor tasa de éxito en las tareas de búsqueda y extracción web, completando el 100% de estas tareas con éxito. En las tareas de automatización del navegador, Bright Data (Modo Pro) e Hyperbrowser tienen las tasas de éxito más altas, con un 90% de finalización de las tareas.
De todas las herramientas que evaluamos, Apify, Bright Data, Browserbase e Hyperbrowser son las únicas que cuentan con las dos capacidades necesarias para los agentes que trabajan en la web:
- La búsqueda y extracción web incluye la búsqueda en la web y el uso de enlaces en la página para navegar entre páginas con el fin de recopilar y procesar datos.
- La automatización del navegador incluye la interacción con elementos JS para rellenar formularios, etc.
Para ver en detalle las tareas utilizadas en la evaluación comparativa, consulte nuestra metodología.
Velocidad
Nuestra evaluación muestra:
- Búsqueda y extracción web: Firecrawl es el MCP más rápido con un tiempo de ejecución promedio de MCP para obtener resultados correctos de 7 segundos y su tasa de precisión fue del 83%.
- Automatización del navegador: Bright Data es la más rápida, con un tiempo de ejecución promedio de MCP de 30 segundos para obtener resultados correctos y una tasa de precisión del 90 %.
Todas las métricas de velocidad corresponden a tareas completadas correctamente. En ocasiones, los servidores MCP generan respuestas rápidas que indican un fallo, las cuales no son comparables con el tiempo necesario para completar una tarea.
Nuestro conjunto de datos para la navegación incluyó la participación de todas las marcas y arrojó 80 puntos de datos (es decir, 8 marcas, 2 tareas y 5 repeticiones para cada tarea). Con base en estos puntos de datos, parece existir una correlación negativa entre las tasas de éxito y la velocidad:
Esta correlación es intuitiva:
- En ocasiones, los sitios web identifican a los bots como tráfico sospechoso y activan funciones anti-scraping .
- Esto provoca fallos en algunos servidores MCP.
- Los que no fallan necesitan usar tecnología de desbloqueo que puede ser más lenta (es decir, el intervalo de confianza del 95% incluye 4 segundos para uno de los proveedores en nuestra evaluación comparativa de desbloqueadores web ).
Escalabilidad
Esta prueba de rendimiento mide la eficacia y fiabilidad de los servidores MCP ante un alto volumen de tareas simultáneas de agentes de IA autónomos. El eje X, Tasa de éxito (%) , representa la puntuación del proveedor en nuestra prueba de rendimiento de búsqueda y extracción web con un solo agente. El eje Y, Puntuación de escalabilidad (%) , se deriva de la prueba de carga de alta concurrencia que se detalla a continuación y que mide la estabilidad y fiabilidad del servidor bajo estrés.
Cada agente se construyó sobre el marco de trabajo create_react_agent de LangChain, impulsado por el modelo de lenguaje gpt-4.1-nano-2025-04-14. A los agentes se les asignaron diversas indicaciones de búsqueda de comercio electrónico, como «Ve a target.com y encuentra un cojín decorativo por menos de 20 dólares». Una tarea se consideraba exitosa solo si el agente navegaba por el sitio web, encontraba un producto que coincidiera y devolvía los datos requeridos (URL, precio, calificación) en formato JSON estructurado dentro de un límite de tiempo de 5 minutos.
La prueba reveló las siguientes diferencias clave tanto en la tasa de éxito como en el tiempo promedio necesario para completar una tarea con éxito:
- En la prueba de estrés con 250 agentes concurrentes, Bright Data logró una tasa de éxito del 76,8% con un tiempo promedio de finalización competitivo de 48,7 segundos por tarea exitosa, y emergió como el líder general.
- Firecrawl obtuvo una tasa de éxito del 64,8%, con una duración media de la tarea de 77,6 segundos.
- Oxylabs demostró el rendimiento más rápido, completando sus tareas exitosas en un promedio de solo 31,7 segundos, manteniendo una sólida tasa de éxito del 54,4%.
- Nimble registró una tasa de éxito del 51,2%, pero sus tareas exitosas tardaron significativamente más, con un promedio de 182,3 segundos para completarse.
- Tavily completó las tareas con una tasa de éxito del 45%, con el segundo tiempo promedio de finalización más rápido, de 41,3 segundos.
- Apify completó la prueba con una tasa de éxito menor del 18,8%, aunque sus tareas exitosas fueron relativamente rápidas, con un promedio de 45,9 segundos.
Metodología para evaluar las capacidades de acceso web de los servidores MCP
Los MCP funcionan en diversos entornos de desarrollo, incluidos Claude Desktop, VSCode y Cursor. En nuestra evaluación, integramos los MCP en un marco de agente LangGraph utilizando la biblioteca langchain-mcp-adapters. Utilizamos cuatro indicaciones en la prueba comparativa. Indicaciones de búsqueda y extracción web:
- Asistente de compras: “ Ve a Amazon y encuentra 3 auriculares por menos de 30 dólares. Proporciona sus nombres, valoraciones y URL.”
- SDR con IA para la generación de leads: “Vaya a LinkedIn, busque a 2 personas que trabajen en AIMultiple, proporcione sus nombres y las URL de sus perfiles”.
Mensajes de automatización del navegador:
- Asistente de viajes: “Encuentre el mejor precio para el Hotel Betsy, South Beach, Miami, el 16 de junio de 2025. Proporcione el precio y la URL.”
- Formulario para completar: “https://aimultiple.com/ Vaya a esa página, ingrese mi correo electrónico xxx@aimultiple.com para suscribirse al boletín informativo y haga clic en el botón de suscripción.”
Ejecutamos cada tarea 5 veces por agente de IA y evaluamos el rendimiento en función de puntos de datos específicos.
Cada tarea constituía una parte igual de la puntuación total, y se otorgaban puntos por recuperar con éxito cada elemento de datos requerido. Nuestro código registraba tanto el tiempo de ejecución de las herramientas MCP como la duración total del procesamiento del agente, utilizando claude-3-5-sonnet-20241022 como modelo de lenguaje a gran escala del agente de IA.
Para ser justos con todos los MCP, utilizamos el mismo agente con las mismas indicaciones y las mismas indicaciones del sistema. Las indicaciones del sistema están escritas en un lenguaje compatible con todos los agentes (sin menciones a herramientas específicas ni instrucciones detalladas).
Las tres primeras tareas midieron las capacidades de búsqueda y extracción de los MCP, y la última tarea midió sus capacidades de automatización del navegador.
Características
También hemos medido algunas características importantes de estos servidores MCP. Para obtener una explicación de las características, consulte la sección de metodología en la evaluación comparativa del navegador de agentes .
Soporte para motores de búsqueda
Objetivo
Seguridad
La seguridad de los datos es fundamental para las operaciones empresariales. Verificamos si las empresas que desarrollan estos navegadores de agente contaban con certificación de seguridad de datos. Todas las empresas afirman en sus sitios web tener la certificación ISO 27001 o SOC 2.
Referencia de precios
Dado que todos los servidores MCP con capacidades de acceso web utilizan parámetros de precios diferentes, resulta difícil compararlos.
Por lo tanto, medimos su precio para una sola tarea. Es difícil medir el costo solo para las tareas correctas, ya que la mayoría de los proveedores no desglosan los costos de manera detallada a lo largo del tiempo. Por consiguiente, para ser justos con todos los productos, elegimos la primera tarea para medir el éxito de la prueba comparativa de búsqueda y extracción web, ya que tiene la tasa de éxito general más alta. Para la prueba comparativa de automatización del navegador, elegimos la última tarea para medir el costo de la misma.
La mayoría de los productos están disponibles a través de diversos planes con diferentes límites, y algunos de estos planes también permiten la compra de créditos adicionales. El consumo de créditos se mide según distintos parámetros, como por llamada a la API, por GB o por página.
Tenga en cuenta que estos precios no incluyen el costo del LLM y que nuestro costo de uso de Claude Sonnet 3.5 fue superior al costo de navegación durante estas tareas. Por lo tanto, es probable que el precio del LLM sea más importante que el del servidor MCP al crear agentes para tareas relacionadas con la web.
*Los precios pueden variar según el plan seleccionado y los descuentos para empresas.
Participantes
Hemos incluido todos los servidores MCP que ofrecen capacidades de navegación web basadas en la nube:
- Apify
- Bright Data
- Base de navegador
- Exa
- Firecrawl
- Hipernavegador
- Nimble
- Oxylabs
- Tavily
Apify, Bright Data y Oxylabs son patrocinadores de AIMultiple.
Para esta versión de nuestra prueba de rendimiento, excluimos los servidores MCP que funcionaban en los dispositivos de los usuarios, ya que tienen capacidades limitadas para responder a un gran número de solicitudes. Si hemos omitido algún servidor MCP en la nube con capacidad de navegación web, por favor, háganoslo saber en los comentarios.
Problemas y soluciones para la navegación web en pacientes con MCP
Cuando se configuran en un cliente MCP como Claude Desktop, los LLM pueden aprovechar servidores MCP especializados. Los MCP con acceso web son particularmente valiosos, ya que permiten la extracción de datos web, incluyendo la capacidad de renderizar páginas con mucho JavaScript, sortear las restricciones de acceso comunes, realizar acciones, completar formularios y acceder a contenido con restricciones geográficas desde diversas ubicaciones globales, pero también presentan algunos desafíos.
Si bien nos enfrentamos a desafíos similares a los de la evaluación comparativa del navegador del agente, los MCP presentan desafíos novedosos para la evaluación comparativa. Los LLM, con la adición de una función de memoria externa, pueden usarse como una máquina de Turing, y con un servidor MCP que proporcione capacidades de navegación, es teóricamente posible completar cualquier tarea de navegación web o automatización del navegador con servidores MCP que ofrezcan estas capacidades.
Por lo tanto, al escribir código personalizado para cada agente, es posible lograr una tasa de éxito del 100 %. Sin embargo, esto no es una buena solución para los usuarios de MCP que desean proporcionar instrucciones sencillas y obtener altas tasas de éxito. Por consiguiente, elegimos indicaciones lo más simples y universales posible, sin hacer referencia a funcionalidades específicas de servidores MCP.
Ventana de contexto
La ventana de contexto puede superarse en tareas largas. Los agentes consumen páginas completas mientras navegan por la web y, como resultado, la ventana de contexto limitada de los LLM se supera tarde o temprano. Por lo tanto, para crear agentes que completen tareas que involucren muchas páginas, los usuarios necesitan
- LLM con grandes ventanas de contexto
- Optimice el tamaño de las páginas que se pasan al LLM. Por ejemplo, puede eliminar mediante programación las partes innecesarias de las páginas y hacer que el LLM se centre únicamente en las partes importantes.
Experiencia del desarrollador
Los desarrolladores experimentados pueden usar servidores MCP en clientes MCP que requieren programación, y pueden ejecutar fácilmente pruebas en paralelo o usar la ejecución de código MCP. Además, los clientes MCP sin código, como Claude o Cursor, se pueden usar fácilmente sin necesidad de experiencia en programación.
Preguntas frecuentes
MCP (Protocolo de Contexto de Modelo) establece un puente de comunicación estandarizado entre agentes de IA y aplicaciones, lo que permite que las aplicaciones de IA y los LLM interactúen con herramientas y servicios externos.
Sé el primero en comentar
Tu dirección de correo electrónico no será publicada. Todos los campos son obligatorios.