6 beste Anbieter für Web-Scraping im Vergleich (991259_843 Bewertungen)
Um zu testen, wie Web-Scraping -Anbieter die Extraktion von Rezensionen mit der URL Google handhaben, haben wir 2.500 Anfragen an 5 Anbieter für 500 Google Maps-Unternehmens-URLs gesendet und dabei Erfolgsquote, Bearbeitungszeit und Metadatenausgabe gemessen.
Google Benchmark für das Scraping von Kartenrezensionen
Weitere Einzelheiten zum Testprozess finden Sie in der Benchmark-Methodik .
Antwortformat und verfügbare Metadatenfelder nach Anbieter
Google Kartenbewertungen, Anbieter und Benchmark-Ergebnisse
Bright Data erreichte eine Erfolgsquote von 39 % auf Google Maps mit seiner dedizierten Google Maps Reviews Dataset API. Die API lieferte strukturiertes JSON mit 26 Feldern pro Bewertung, darunter Name des Rezensenten, Bewertungstext, Bewertung, Datum, Antworten des Eigentümers, Fotos und Metadaten auf Ortsebene. Es war der einzige Anbieter, der strukturierte Daten für diese Domain bereitstellte.
Oxylabs bietet eine dedizierte Google Maps-Quelle für lokale Suchergebnisse, diese ist jedoch für den Abruf standortbezogener Einträge und nicht für das Extrahieren von Bewertungen von einzelnen Unternehmensseiten ausgelegt. Da keine dedizierte Quelle zum Extrahieren von Bewertungen verfügbar war, verwendeten wir die allgemeine Google-Quellen-API (Quelle: Google), die beliebige URLs akzeptiert. Die API lieferte für alle 500 URLs keine Ergebnisse, was einer Erfolgsquote von 0 % entspricht.
Decodo bietet verschiedene Konfigurationen zum Auslesen von Daten, darunter die Suche und lokale Ergebnisse von Google Maps. Es gibt jedoch keinen dedizierten Endpunkt für die Extraktion von Kartenbewertungen. Wir verwendeten den Web-Unblocker -Proxy mit JavaScript-Rendering als Fallback, der jedoch für alle 500 URLs leere oder fehlerhafte Antworten lieferte, was zu einer Erfolgsquote von 0 % führte.
SerpAPI bietet eine dedizierte Google Maps Reviews API, die strukturiertes JSON aus Google Maps-Einträgen zurückgibt, einschließlich Rezensionstext, Bewertungen, Rezensentendetails und aggregierter Metadaten wie Themenerwähnungen und Unterbewertungen für Essen, Service und Atmosphäre.
Zyte erzielte mit seiner Extract API und Headless-Browser-Rendering die höchste Erfolgsquote von 41 % auf Google Maps. Die Bewertungsdaten wurden mithilfe von CSS-Selektoren aus dem gerenderten HTML extrahiert. Obwohl dies der beste Wert für die Domain war, verdeutlicht er die generelle Herausforderung des Scrapings von Google Maps, da Bewertungen die Ausführung von JavaScript und häufig auch Benutzerinteraktionen zum vollständigen Laden erfordern.
Nimble nutzte seine Web-API mit aktiviertem JavaScript-Rendering und gab gerendertes HTML zurück, das mit CSS-Selektoren analysiert wurde. Die Erfolgsquote bei Google Maps lag bei 1 %. Obwohl die Seiten gerendert wurden, wurden die Rezensionen in den meisten Fällen nicht geladen. Dies deutet darauf hin, dass Google Maps mehr als das Standard-Browser-Rendering benötigt, um Rezensionen anzuzeigen.
Wie schneidet Google Maps im Vergleich zu anderen Bewertungsplattformen beim Web-Scraping ab?
Google Maps war die schwierigste Domain in unserem Benchmark für das Auslesen von Kundenbewertungen . Die höchste Erfolgsquote lag bei 41 %, weit unter dem Wert unseres Amazon-Benchmarks (96 %). Selbst in unserem Yelp-Benchmark , in dem zwei Anbieter 0 % erreichten, wurde ein Spitzenwert von 77 % erzielt.
Bei Google Maps erreichten zwei von fünf Anbietern 0 %, einer 1 % und die beiden besten 39 % bzw. 41 %. Kein anderer Bereich des Benchmarks wies so einheitlich niedrige Ergebnisse über alle Anbieter hinweg auf.
Der Hauptunterschied liegt in der Art der Bereitstellung von Rezensionen. Bei Amazon und Trustpilot sind Rezensionen entweder direkt im HTML-Code der Startseite enthalten oder über strukturierte APIs mit hoher Zuverlässigkeit abrufbar. Bei Google Maps hingegen werden Rezensionen erst nach dem ersten Seitenaufbau per JavaScript geladen, wodurch sie für die meisten Web-Scraping-Methoden unzugänglich sind.
Warum ist Google Maps die am schwierigsten zu scrapende Bewertungsplattform?
Google Kartenbewertungen sind nicht im HTML-Code der Startseite enthalten. Die Seite lädt zunächst ein Shell-Layout und führt anschließend mehrere JavaScript-Aufrufe aus, um die Bewertungsinhalte abzurufen und darzustellen. In vielen Fällen müssen weitere Bewertungen durch Scrollen oder Klicken auf die Schaltfläche „Mehr Bewertungen“ angezeigt werden.
Das bedeutet, dass Standard-HTTP-Anfragen eine Seite ohne jegliche Bewertungsdaten zurückgeben. Selbst die Darstellung im Headless-Browser, die auf Plattformen wie TripAdvisor und Yelp gut funktionierte, lieferte auf Google Maps nur begrenzte Ergebnisse. Die höchste Erfolgsquote bei HTML-basierten Anbietern lag bei 41 %, während zwei Anbieter mit Proxy-basierten Ansätzen 0 % erreichten.
Google Maps nutzt zudem aggressive Anti-Bot-Erkennung, einschließlich Request-Fingerprinting und dynamischer Inhaltssteuerung. In Kombination mit dem JavaScript-basierten Laden von Bewertungen ist Google Maps dadurch deutlich schwerer zu scrapen als andere Bewertungsplattformen, deren Inhalte serverseitig gerendert oder über dedizierte APIs verfügbar sind.
Google Kartenbewertungen Benchmark-Methodik
Wir testeten fünf Web-Scraping-Anbieter anhand von 500 URLs mit Unternehmensbewertungen der Kategorie Google Maps. Jede URL wurde von allen Anbietern abgefragt, insgesamt wurden 2.500 Anfragen gestellt. Die Anbieter wurden aus Web-Scraping-Unternehmen mit mindestens 100 Mitarbeitern ausgewählt. Jeder Anbieter erhielt denselben URL-Satz, und wir bewerteten drei Kennzahlen: Erfolgsquote, Bearbeitungszeit und verfügbare Metadatenfelder.
Antworttypen
Ein Anbieter (Bright Data) lieferte strukturiertes JSON mit 26 analysierten Bewertungsfeldern über seine dedizierte API für den Datensatz „Maps Reviews“ (Google). Die anderen vier Anbieter lieferten gerendertes HTML, aus dem wir die Bewertungsdaten mithilfe von CSS-Selektoren für fünf Standardfelder extrahierten: reviewer_name, review_text, rating, review_date und review_title.
Validierung
Die Antworten wurden in drei Schritten validiert:
- Einreichung : Der Anbieter musste einen HTTP-Statuscode zwischen 200 und 399 oder 404 zurückgeben.
- Ausführung : Bei Anbietern mit asynchroner Verarbeitung musste der Auftrag ohne Timeout oder Fehler abgeschlossen werden.
- Datenprüfung : Die Antwort musste extrahierbare Bewertungsdaten enthalten. Bei JSON war mindestens eine Bewertung mit einem Bewertungstext (review_text) oder einer Bewertungszahl erforderlich. Bei HTML musste mindestens ein CSS-Selektor Inhalt zurückgeben.
Wir haben jeden Anbieter mit defekten URLs, bekannten 404-Fehlerseiten und Seiten ohne Bewertungen vorgetestet, um zu verstehen, wie er diese Fälle meldet. Wenn ein Anbieter eine fehlende oder leere Seite korrekt meldete, wurde das Ergebnis als gültig gewertet.
Anschließend wurde eine anbieterübergreifende Prüfung durchgeführt: Wenn ein Anbieter für eine URL, von der ein anderer Anbieter erfolgreich Bewertungen extrahiert hatte, keine Daten lieferte, wurde dieses leere Ergebnis als Fehler markiert. Dadurch wurden Seiten ohne Bewertungen von Fällen getrennt, in denen der Anbieter die verfügbaren Daten nicht extrahieren konnte.
Fertigstellungszeit
Wir haben die reine Laufzeit von der ersten Anfrage bis zur endgültigen Antwort gemessen, einschließlich etwaiger asynchroner Abfrage- oder Wartezeiten.
URL-Auswahl
Die 500 URLs stammen von den Unternehmensseiten von Google Maps und decken verschiedene Bewertungsanzahlen, Unternehmensarten und Standorte ab. Sowohl das URL-Format maps/search als auch maps/place wurden berücksichtigt. Lokalisierungsparameter und ungültige Formate wurden vor dem Test entfernt.
Testbedingungen
Alle Anbieter unterlagen denselben Beschränkungen:
- Es wird jeweils nur eine Anfrage bearbeitet, keine parallele Ausführung.
- 2 Sekunden Verzögerung zwischen den Anfragen
- HTTP 429 wird mit 30 Sekunden Wartezeit und bis zu 3 Wiederholungsversuchen behandelt.
- 300-Sekunden-Einreichungs-Timeout
- 600 Sekunden Ausführungszeitüberschreitung
- Einmaliger Durchlauf pro URL und Anbieter
Anbieterkonfigurationen
Bright Data nutzte seine Dataset-API mit einem dedizierten Google Maps Reviews-Dataset und gab strukturiertes JSON mit 26 Feldern pro Bewertung zurück. Die API wurde über den Endpunkt /progress/{snapshot_id} im Sekundentakt abgefragt, bis die Daten verfügbar waren.
Oxylabs verwendete eine dedizierte Google Quell-API (Quelle: Google), aber die Konfiguration lieferte leere Ergebnisse für alle URLs auf dieser Domain.
Zyte verwendete seine Extract API mit aktiviertem browserHtml, rendert Seiten über einen Headless-Browser und gibt HTML zurück, das mit CSS-Selektoren geparst wurde.
Nimble verwendete seine Web-API mit render: true für das JavaScript-Rendering und gab gerendertes HTML zurück, das mit CSS-Selektoren geparst wurde.
Decodo verwendete seinen Web-Unblocker-Proxy mit dem X-SU-Headless-Header für das JavaScript-Rendering.
FAQs
Google Maps-Bewertungs-Scraping ist die automatisierte Extraktion von Kundenrezensionen, Bewertungen und Metadaten aus den Unternehmenseinträgen von Google Maps. Es wird für lokales SEO-Monitoring, Reputationsmanagement, Wettbewerbsanalysen und standortbezogene Marktforschung eingesetzt.
Google Kartenbewertungen werden nach dem ersten Seitenaufbau dynamisch per JavaScript geladen. Zuerst wird das Seitenlayout geladen, dann führt der Browser API-Aufrufe aus, um die Bewertungsinhalte abzurufen. Weitere Bewertungen werden erst nach Scrollen angezeigt. Daher liefern Standard-HTTP-Anfragen und einfaches Proxy-basiertes Web-Scraping keine Ergebnisse.
Anbieter mit dedizierten Karten-APIs (z. B. der Dataset-API von Bright Data) können Bewertungen extrahieren, ohne dass ein Headless-Browser benötigt wird. Die API übernimmt das Rendering und die Interaktion intern. Für HTML-basierte Ansätze ist ein Headless-Browser mit JavaScript-Rendering erforderlich, allerdings lieferte auch dieser in unserem Benchmark nur begrenzte Ergebnisse.
Ja, Google Maps zeigt Bewertungen standardmäßig in der Originalsprache an. Dieselben URLs und Provider-Konfigurationen funktionieren für alle Sprachen. Stellen Sie sicher, dass URLs keine Gebietsschema-Parameter enthalten, da diese die Seitendarstellung und die Sichtbarkeit von Bewertungen beeinträchtigen können.
Seien Sie der Erste, der kommentiert
Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.