Wir haben acht MCP-Server hinsichtlich Websuche und Datenextraktion sowie Browserautomatisierung getestet, indem wir vier verschiedene Aufgaben jeweils fünfmal auf allen geeigneten MCPs ausgeführt haben. Zusätzlich führten wir einen Lasttest mit 250 gleichzeitig aktiven KI-Agenten durch.
MCP-Server mit Webzugriffsfunktionen
Produkt | Erfolgsquote für Web suchen und extrahieren | Erfolgsquote für Browserautomatisierung | Websuche und Extraktionsgeschwindigkeit (s) | Browserautomatisierung Geschwindigkeit (s) | Skalierbarkeitswert |
|---|---|---|---|---|---|
100% | 90 % | 30 | 30 | 77 % | |
78 % | 0 % | 32 | N / A | 19% | |
75% | N / A | 14 | N / A | 54 % | |
Nimble | 93 % | N / A | 16 | N / A | 51% |
Firecrawl | 83 % | N / A | 7 | N / A | 65% |
Hyperbrowser | 63 % | 90 % | 118 | 93 | N / A |
Browserbase | 48 % | 5% | 51 | 104 | N / A |
Tavily | 38 % | N / A | 14 | N / A | 45 % |
Exa | 23 % | N / A | 15 | N / A | N / A |
*Web-Such- und Extraktionsaufgaben werden mit dem Standard-MCP-Server von Bright Data ausgeführt, Browser-Automatisierungsaufgaben werden mit dem MCP Pro-Modus von Bright Data ausgeführt, da die für die Browser-Automatisierung benötigten Tools im Pro-Modus verfügbar sind.
Die Tabelle ist nach den Punktzahlen in der Kategorie Websuche & -extraktion sortiert, wobei die Sponsoren oben angezeigt werden.
Die einzelnen Dimensionen und ihre Messmethoden werden im Folgenden erläutert:
Erfolgsrate von MCP-Servern beim Webzugriff
*N/A bedeutet, dass der MCP-Server diese Funktion nicht besitzt.
Wir haben die Produkte in zwei Kategorien verglichen: Websuche & Datenextraktion sowie Browserautomatisierung. Die Ergebnisse zeigen, dass Bright Data bei der Websuche & Datenextraktion die höchste Erfolgsquote aufweist und alle Aufgaben erfolgreich abschließt. Bei der Browserautomatisierung erzielen Bright Data (Pro-Modus) und Hyperbrowser mit jeweils 90 % erfolgreicher Aufgabenerfüllung die höchsten Erfolgsquoten.
Von allen von uns getesteten Tools verfügen nur Apify, Bright Data, Browserbase und Hyperbrowser über beide Funktionen, die für Agenten im Web erforderlich sind:
- Die Websuche und -extraktion umfasst das Durchsuchen des Internets und die Verwendung von Links auf der Seite, um zwischen Seiten zu navigieren und Daten zu sammeln und zu verarbeiten.
- Die Browserautomatisierung umfasst die Interaktion mit JS-Elementen zum Ausfüllen von Formularen usw.
Um die im Benchmark verwendeten Aufgaben im Detail zu sehen, lesen Sie bitte unsere Methodik.
Geschwindigkeit
Unsere Auswertung zeigt:
- Websuche & Extraktion: Firecrawl ist der schnellste MCP mit einer durchschnittlichen MCP-Laufzeit für korrekte Ergebnisse von 7 Sekunden und einer Genauigkeitsrate von 83%.
- Browserautomatisierung: Bright Data ist mit einer durchschnittlichen MCP-Laufzeit von 30 Sekunden für korrekte Ergebnisse und einer Genauigkeitsrate von 90 % die schnellste.
Alle Geschwindigkeitskennzahlen beziehen sich auf korrekt abgeschlossene Aufgaben. Manchmal liefern MCP-Server schnelle Antworten, die auf einen Fehler hindeuten und nicht mit der Zeit für die Ausführung einer Aufgabe vergleichbar sind.
Unser Datensatz zur Navigation umfasste die Teilnahme aller Marken und ergab 80 Datenpunkte (d. h. 8 Marken, 2 Aufgaben und 5 Wiederholungen pro Aufgabe). Basierend auf diesen Datenpunkten scheint eine negative Korrelation zwischen Erfolgsraten und Geschwindigkeit zu bestehen:
Dieser Zusammenhang ist intuitiv:
- Manchmal erkennen Websites Bots als verdächtigen Datenverkehr und aktivieren Anti-Scraping-Funktionen .
- Dies führt zum Ausfall einiger MCP-Server.
- Diejenigen, die nicht scheitern, müssen eine Entsperrungstechnologie verwenden, die langsamer sein kann (d. h. das 95%-Konfidenzintervall umfasst 4 Sekunden für einen der Anbieter in unserem Web-Entsperrungs-Benchmark ).
Skalierbarkeit
Dieser Benchmark misst die Leistung und Zuverlässigkeit von MCP-Servern unter einer hohen Anzahl gleichzeitiger, autonomer KI-Agentenaufgaben. Die X-Achse ( Erfolgsrate in %) repräsentiert das Ergebnis des Anbieters aus unserem Benchmark für Websuche und Datenextraktion mit einem einzelnen Agenten. Die Y-Achse ( Skalierbarkeitswert in %) basiert auf dem unten beschriebenen Lasttest mit hoher Parallelität, der die Stabilität und Zuverlässigkeit des Servers unter Last misst.
Jeder Agent wurde auf Basis des LangChain-Frameworks `create_react_agent` und des Sprachmodells gpt-4.1-nano-2025-04-14 erstellt. Den Agenten wurden verschiedene Suchaufgaben für E-Commerce-Produkte zugewiesen, beispielsweise „Gehe zu target.com und finde ein Dekokissen unter 20 Dollar“. Eine Aufgabe galt nur dann als erfolgreich, wenn der Agent die Website durchsuchte, ein passendes Produkt fand und die erforderlichen Daten (URL, Preis, Bewertung) innerhalb von fünf Minuten in einem strukturierten JSON-Format zurückgab.
Der Test ergab folgende wesentliche Unterschiede sowohl hinsichtlich der Erfolgsquote als auch der durchschnittlichen Zeit, die für die erfolgreiche Erledigung einer Aufgabe benötigt wurde:
- Im Stresstest mit 250 gleichzeitigen Agenten erreichte Bright Data eine Erfolgsquote von 76,8 % bei einer wettbewerbsfähigen durchschnittlichen Bearbeitungszeit von 48,7 Sekunden pro erfolgreicher Aufgabe und ging als Gesamtsieger hervor.
- Firecrawl erzielte eine Erfolgsquote von 64,8 % bei einer durchschnittlichen Aufgabendauer von 77,6 Sekunden.
- Oxylabs zeigte die schnellste Leistung und erledigte seine erfolgreichen Aufgaben im Durchschnitt in nur 31,7 Sekunden bei einer soliden Erfolgsquote von 54,4 %.
- Nimble verzeichnete eine Erfolgsquote von 51,2 %, die erfolgreichen Aufgaben dauerten jedoch deutlich länger und benötigten im Durchschnitt 182,3 Sekunden zur Erledigung.
- Tavily erledigte die Aufgaben mit einer Erfolgsquote von 45 % und der zweitschnellsten durchschnittlichen Bearbeitungszeit von 41,3 Sekunden.
- Apify hat den Test mit einer niedrigeren Erfolgsquote von 18,8 % abgeschlossen, allerdings wurden die erfolgreich erledigten Aufgaben relativ schnell gelöst, im Durchschnitt in 45,9 Sekunden.
Methodik zur Bewertung der Webzugriffsfähigkeiten der MCP-Server
MCPs funktionieren in verschiedenen Entwicklungsumgebungen, darunter Claude Desktop, VSCode und Cursor. In unserer Evaluierung integrierten wir MCPs mithilfe der Bibliothek langchain-mcp-adapters in ein LangGraph-Agenten-Framework. Wir verwendeten vier Eingabeaufforderungen im Benchmark: Eingabeaufforderungen für Websuche und Datenextraktion.
- Einkaufsassistent: „ Gehe zu Amazon und finde 3 Kopfhörer unter 30 Dollar. Gib ihre Namen, Bewertungen und URLs an.“
- KI-SDR zur Leadgenerierung: „Gehen Sie zu LinkedIn, suchen Sie zwei Personen, die bei AIMultiple arbeiten, und geben Sie deren Namen und Profil-URLs an.“
Browser-Automatisierungsaufforderungen:
- Reiseassistent: „Finden Sie den besten Preis für das Betsy Hotel, South Beach, Miami am 16. Juni 2025. Geben Sie den Preis und die URL an.“
- Formularausfüller: „Gehen Sie auf die Seite https://aimultiple.com/, geben Sie meine E-Mail-Adresse xxx@aimultiple.com für das Newsletter-Abonnement ein und klicken Sie auf die Schaltfläche „Abonnieren“.
Wir haben jede Aufgabe 5 Mal pro KI-Agent ausgeführt und die Leistung anhand spezifischer Datenpunkte bewertet.
Jede Aufgabe trug gleich viel zur Gesamtpunktzahl bei; Punkte wurden für das erfolgreiche Abrufen jedes benötigten Datenelements vergeben. Unser Code erfasste sowohl die Ausführungszeit der MCP-Tools als auch die gesamte Verarbeitungsdauer des Agenten. Als großes Sprachmodell des KI-Agenten diente claude-3-5-sonnet-20241022.
Um allen MCPs gerecht zu werden, verwendeten wir denselben Agenten mit denselben Ansagen und denselben Systemansagen. Die Systemansagen sind in einer für alle Agenten geeigneten Sprache verfasst (ohne spezifische Tool-Hinweise oder detaillierte Anweisungen).
Die ersten drei Aufgaben dienten der Messung der Such- und Extraktionsfähigkeiten der MCPs, die letzte Aufgabe der Messung ihrer Browserautomatisierungsfähigkeiten.
Merkmale
Wir haben außerdem einige wichtige Merkmale dieser MCP-Server gemessen. Eine Erläuterung der Merkmale finden Sie im Abschnitt „Methodik“ des Agent-Browser-Benchmarks .
Suchmaschinenunterstützung
Zielsetzung
Sicherheit
Datensicherheit ist für den Unternehmensbetrieb unerlässlich. Wir haben überprüft, ob die Hersteller dieser Agentenbrowser über eine Datensicherheitszertifizierung verfügen. Alle Unternehmen geben auf ihren Webseiten an, entweder nach ISO 27001 oder nach SOC 2 zertifiziert zu sein.
Preisvergleich
Da alle MCP-Server mit Webzugriffsfunktionen unterschiedliche Preisparameter verwenden, ist ein Vergleich schwierig.
Daher haben wir den Preis für eine einzelne Aufgabe gemessen. Es ist schwierig, die Kosten nur für korrekt ausgeführte Aufgaben zu ermitteln, da die meisten Anbieter die Kosten nicht detailliert über die Zeit aufschlüsseln. Um alle Produkte fair zu bewerten, haben wir daher für die Erfolgsmessung des Web-Such- und Extraktions-Benchmarks die erste Aufgabe gewählt, da diese die höchste Erfolgsquote aufweist. Für den Browser-Automatisierungs-Benchmark haben wir die letzte Aufgabe zur Kostenmessung herangezogen.
Die meisten Produkte sind über verschiedene Tarife mit unterschiedlichen Limits erhältlich, und einige dieser Tarife ermöglichen auch den Kauf zusätzlicher Guthaben. Die verbrauchten Guthaben werden anhand verschiedener Parameter gemessen, z. B. pro API-Aufruf, pro GB oder pro Seite.
Bitte beachten Sie, dass diese Preise die Kosten für LLM nicht beinhalten und unsere Kosten für die Nutzung von Claude Sonnet 3.5 höher waren als die Browserkosten während dieser Aufgaben. Daher ist die LLM-Preisgestaltung beim Erstellen von Agenten für webbezogene Aufgaben wahrscheinlich wichtiger als die MCP-Serverpreisgestaltung.
*Die Preise können je nach gewähltem Tarif und Unternehmensrabatten variieren.
Teilnehmer
Wir haben alle MCP-Server einbezogen, die cloudbasierte Webbrowser-Funktionen bieten:
- Apify
- Bright Data
- Browserbase
- Exa
- Firecrawl
- Hyperbrowser
- Nimble
- Oxylabs
- Tavily
Apify, Bright Data und Oxylabs sind Sponsoren von AIMultiple.
Für diese Version unseres Benchmarks haben wir MCP-Server, die auf den Geräten der Nutzer selbst laufen, ausgeschlossen, da deren Kapazität zur Bearbeitung einer hohen Anzahl von Anfragen begrenzt ist. Sollten wir cloudbasierte MCP-Server mit Webbrowser-Funktionalität übersehen haben, teilen Sie uns dies bitte in den Kommentaren mit.
Herausforderungen und Gegenmaßnahmen beim Web-Browsing für MCPs
Bei der Konfiguration in einem MCP-Client wie Claude Desktop können LLMs spezialisierte MCP-Server nutzen. Webzugriffs-MCPs sind besonders wertvoll, da sie die Extraktion von Webdaten ermöglichen, einschließlich der Darstellung von JavaScript-intensiven Seiten, der Umgehung gängiger Zugriffsbeschränkungen, der Durchführung von Aktionen, des Ausfüllens von Formularen und des Zugriffs auf geografisch beschränkte Inhalte von verschiedenen Standorten weltweit. Allerdings bringen sie auch einige Herausforderungen mit sich.
Obwohl wir beim Agenten-Browser-Benchmark vor ähnlichen Herausforderungen standen, stellen MCPs neuartige Herausforderungen für das Benchmarking dar. LLMs können mit einer zusätzlichen externen Speicherfunktion als Turingmaschine verwendet werden, und mit einem MCP-Server, der Browserfunktionen bereitstellt, ist es theoretisch möglich, jede Webnavigations- oder Browserautomatisierungsaufgabe mit MCP-Servern zu lösen, die diese Funktionen bieten.
Durch die Entwicklung von individuellem Code für jeden Agenten lassen sich zwar theoretisch 100% Erfolgsquoten erzielen, dies ist jedoch kein geeigneter Ersatz für MCP-Nutzer, die einfache Anweisungen geben und gleichzeitig hohe Erfolgsquoten erreichen möchten. Daher haben wir uns für möglichst einfache und universelle Eingabeaufforderungen entschieden, die keine Verweise auf Funktionen bestimmter MCP-Server enthalten.
Kontextfenster
Bei längeren Aufgaben kann das Kontextfenster überschritten werden. Agenten verarbeiten beim Navigieren im Web ganze Seiten, wodurch das begrenzte Kontextfenster von LLMs früher oder später überschritten wird. Um Agenten zu entwickeln, die Aufgaben mit vielen Seiten bewältigen können, benötigen Benutzer daher …
- LLMs mit großen Kontextfenstern
- Optimieren Sie die Größe der an den LLM übergebenen Seiten. Beispielsweise können Sie unnötige Seitenteile programmatisch entfernen und den LLM so konfigurieren, dass er sich nur auf die wichtigen Seitenteile konzentriert.
Entwicklererfahrung
Erfahrene Entwickler können MCP-Server auf MCP-Clients nutzen, die Programmierung erfordern, und problemlos parallele Tests ausführen oder die MCP-Codeausführung verwenden. Auch No-Code-MCP-Clients wie Claude oder Cursor lassen sich ohne Entwicklerkenntnisse einfach einsetzen.
FAQs
Das MCP (Model Context Protocol) stellt eine standardisierte Kommunikationsbrücke zwischen KI-Agenten und Anwendungen her und ermöglicht es KI-Apps und LLMs, mit externen Tools und Diensten zu interagieren.
Seien Sie der Erste, der kommentiert
Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.