Um zu vergleichen, wie Web-Data-Scraping-Anbieter die Extraktion von Amazon-Rezensionen handhaben, haben wir 5 Web-Scraping-Anbieter mit dem gleichen Satz von Amazon-Produktrezensions-URLs getestet, was insgesamt 2.500 Anfragen über alle Anbieter hinweg ergab.
Benchmark für das Auslesen von Amazon-Rezensionen
Weitere Details zu unserem Testverfahren finden Sie in unserer Benchmark-Methodik .
Antwortformat und verfügbare Metadatenfelder nach Anbieter
Benchmark-Ergebnisse zum Auslesen von Amazon-Rezensionen
Bright Data erzielte auf Amazon eine Erfolgsquote von 96 % und lieferte die umfassendsten strukturierten Daten aller Anbieter mit 29 JSON-Feldern pro Rezension. Es war einer von drei Anbietern, die strukturierte JSON-Daten für diese Domain bereitstellten, und der einzige, der neben den Standard-Rezensionsdaten auch erweiterte Felder wie Rezensionsbilder, Variantendetails und detaillierte Produktbewertungen enthielt. Bei den 348 URLs, bei denen alle vier führenden Anbieter erfolgreich waren, lieferte Bright Data durchweg die vollständigsten Ergebnisse.
Oxylabs erzielte auf Amazon eine Erfolgsquote von 92 % und die schnellste Bearbeitungszeit im Benchmark mit 4 Sekunden pro Anfrage. Pro Überprüfung wurden 10 strukturierte JSON-Felder zurückgegeben. Die Kombination aus hoher Erfolgsquote und geringer Latenz machte es zur effizientesten Option in dieser Domäne.
Die API Decodo erzielte auf Amazon eine Erfolgsquote von 11 % bei einer durchschnittlichen Verarbeitungszeit von 10 Sekunden für die bearbeiteten URLs. Obwohl ein spezieller Amazon-Parser mit strukturierter JSON-Ausgabe verwendet wurde, lieferte die API für die überwiegende Mehrheit der URLs leere Ergebnisse. Die erfolgreichen Antworten resultierten hauptsächlich aus der korrekten Erkennung von 404-Fehlern und nicht aus der tatsächlichen Extraktion von Rezensionen.
Zyte erreichte auf Amazon eine Erfolgsquote von 75 % bei einer durchschnittlichen Ausführungszeit von 13 Sekunden. Es lieferte gerendertes HTML anstelle strukturierter Daten, wobei die Bewertungsfelder über CSS-Selektoren extrahiert wurden. Obwohl die Erfolgsquote niedriger war als bei der Spitzengruppe, deckte es die Mehrheit der Test-URLs ab, ohne dass eine domänenspezifische Konfiguration erforderlich war.
Nimble erzielte bei Amazon eine Erfolgsquote von 92 % und entsprach damit Oxylabs. Die durchschnittliche Ausführungszeit betrug 13 Sekunden. Es wurde gerendertes HTML mit CSS-Selektoren zurückgegeben. Die Ergebnisse waren über alle URLs hinweg konsistent und wiesen keine signifikanten Einbrüche auf.
Benchmark-Methodik für Amazon-Rezensionen
Wir testeten 5 Web-Scraping-Anbieter anhand von 500 Amazon-Produkt-URLs. Jeder Anbieter erhielt denselben Satz von URLs.
Anbieter und Integrationsarten
Drei Anbieter lieferten strukturiertes JSON mit analysierten Bewertungsfeldern: Bright Data (29 Felder), Oxylabs (10 Felder) und Decodo (spezieller Amazon-Parser). Nimble und Zyte lieferten gerendertes HTML, das wir mithilfe von CSS-Selektoren analysierten, um fünf Standard-Bewertungsfelder zu extrahieren (Name des Rezensenten, Bewertungstext, Bewertung, Bewertungsdatum, Bewertungstitel).
Validierung
Jede Antwort durchlief einen dreistufigen Validierungsprozess:
- Einreichung : Zum Bestehen war ein HTTP-Statuscode zwischen 200 und 399 oder 404 erforderlich.
- Ausführung : Bei asynchronen Anbietern musste der Scraping-Job ohne Timeout oder Fehler abgeschlossen werden.
- Validierung : Die Antwort musste verwertbare Bewertungsdaten enthalten. Bei JSON-Antworten bedeutete dies mindestens eine Bewertung mit einem gültigen Bewertungstext (Zeichenkette) oder einer gültigen Bewertungszahl (Ganzzahl). Bei HTML-Antworten musste mindestens ein CSS-Selektor übereinstimmen und den Bewertungsinhalt zurückgeben.
Vor dem vollständigen Benchmark sendeten wir jedem Anbieter eine Reihe absichtlich defekter URLs, bestätigte 404-Fehlerseiten und aktive Seiten ohne Bewertungen. Dadurch konnten wir nachvollziehen, wie die Anbieter diese Sonderfälle kommunizieren – sei es durch explizite Fehlercodes, HTTP-Statuscodes oder leere Antworttexte. Seiten mit dem Fehlercode 404 oder ohne Bewertungen wurden als gültig gewertet, da der Anbieter die Anfrage korrekt verarbeitet und eine entsprechende Antwort zurückgegeben hatte.
Anschließend führten wir eine anbieterübergreifende Verifizierung der gesamten Ergebnisse durch: Wenn ein Anbieter für eine URL, für die mindestens ein anderer Anbieter Bewertungsdaten extrahiert hatte, keine Ergebnisse lieferte, wurde dieses leere Ergebnis als Fehler gewertet. Dadurch wurden Extraktionsfehler von Seiten getrennt, die keine Bewertungen lieferten.
Fertigstellungszeit
Die Bearbeitungszeit wurde von der ersten API-Anfrage bis zum Empfang der endgültigen Antwort gemessen. Bei asynchronen Anbietern umfasst dies die Abfrage- und Wartezeit bis zum Vorliegen der Ergebnisse.
Datensatz
Die 500 Test-URLs wurden von Amazon-Produktseiten mit unterschiedlicher Anzahl an Bewertungen und Produktkategorien ausgewählt. Vor dem Test wurden die URLs bereinigt, um ungültige Formate und Duplikate zu entfernen.
Gemeinsame Konfiguration
Alle Anbieter erhielten identische URLs und wurden unter denselben Bedingungen getestet:
- Sequenzielle Ausführung: jeweils eine Anfrage, keine parallelen Anfragen
- Verzögerung zwischen den Anfragen: 2 Sekunden
- Ratenbegrenzungsbehandlung: 30 Sekunden Wartezeit mit bis zu 3 Wiederholungsversuchen bei HTTP 429
- Zeitlimit für die Einreichung: 300 Sekunden
- Ausführungs-Timeout: 600 Sekunden
- Jede URL wurde einmal pro Anbieter getestet.
Anbieterkonfigurationen
Bright Data nutzte die Dataset-API mit einem dedizierten Amazon-Reviews-Datensatz und gab strukturiertes JSON mit 29 Feldern pro Review zurück. Die API wurde über den Endpunkt /progress/{snapshot_id} im Sekundentakt abgefragt, bis die Daten verfügbar waren.
Oxylabs verwendete eine dedizierte Amazon-Quell-API (Quelle: amazon) mit strukturierter JSON-Ausgabe, die 10 Felder pro Rezension zurückgab.
Decodo verwendete einen dedizierten Amazon-Parser (target: amazon, parse: true) mit strukturierter JSON-Ausgabe. Trotz domänenspezifischer Konfiguration lieferte die API für die meisten URLs leere Ergebnisse.
Nimbleway nutzte die Web-API mit `render: true` für die JavaScript-Darstellung. Alle Anfragen lieferten gerendertes HTML, das mit CSS-Selektoren geparst war.
Zyte verwendete die Extract API mit browserHtml: true, wodurch JavaScript-gerendertes HTML über einen Headless-Browser zurückgegeben wurde, das mit CSS-Selektoren analysiert wurde.
FAQs
Amazon-Review-Scraping bezeichnet die automatisierte Extraktion von Kundenrezensionsdaten von Amazon-Produktseiten, einschließlich Rezensionstext, Bewertungen, Autorenangaben und Datum. Es wird häufig für Stimmungsanalysen, Wettbewerbsbeobachtung, Produktrecherchen und umfangreiche Marktanalysen eingesetzt.
Amazon nutzt Ratenbegrenzung, CAPTCHAs und Browser-Fingerprinting, um automatisierte Zugriffe zu erkennen. Web-Scraping-Anbieter umgehen dies durch rotierende Residential-Proxys, Headless-Browser-Rendering und Drosselung von Anfragen. Einige Anbieter stellen dedizierte Amazon-APIs bereit, die diese Schutzmaßnahmen intern verwalten, während andere universelle Unblocker verwenden, die die Seite rendern und HTML zurückgeben.
Die meisten Web-Scraping-APIs liefern standardmäßig zwischen 10 und 30 Rezensionen pro Anfrage. Anbieter mit dedizierten Amazon-APIs, wie z. B. Bright Data und Oxylabs, ermöglichen die Konfiguration der Anzahl der Rezensionen pro Produkt über Parameter wie `limit_multiple_results`. HTML-basierte Anbieter liefern alle Rezensionen, die auf der Seite angezeigt werden, typischerweise die der ersten Seite (etwa 10).
Die in diesem Benchmark getesteten Anbieter extrahieren Bewertungen von öffentlich zugänglichen Produktseiten ohne Authentifizierung. Bewertungen, die nur für angemeldete Nutzer sichtbar sind, wie beispielsweise bestimmte Vine-Bewertungen oder kaufbezogene Inhalte, sind über diese APIs nicht zugänglich.
Seien Sie der Erste, der kommentiert
Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.