Why scrape customer reviews instead of collecting them manually?

Manual product review scraping is slow and incomplete. Scraping customer reviews using automated tools allows you to extract hundreds or thousands of reviews in minutes. This saves time and ensures your data collection process captures both positive and negative reviews.

How can businesses use scraped review data?

Scraped reviews provide valuable customer insights for market research. Companies can track customer concerns, measure customer loyalty, and analyze customer preferences over time.

What are the risks of scraping review platforms?

Most review platforms set restrictions on automated data extraction. Running web scrapers too aggressively can trigger CAPTCHA, IP blocks, or bans. To reduce risks, use a respectful automated process with rate limits, random delays, and residential proxies if needed.

What kind of data can be extracted from reviews?

Typical fields include review text, star ratings, user names, dates, and metadata. Some setups also track structured data like location, product category, or business type.

How many websites can I scrape reviews from?

You can collect customer reviews from various websites, including e-commerce platforms, social media networks, and popular platforms like Amazon, Walmart, Yelp, Google Play, and Trustpilot.

Daten Web-Data-Scraping E-Commerce-Scraping

Wie man mit Python kostenlos Rezensionen ausliest (ohne APIs)

Nazlı Şipi

aktualisiert am Apr 16, 2026

Siehe unsere ethischen Normen

Wir haben mithilfe von Python Bewertungen von Google Play, Yelp und Trustpilot extrahiert. Jede Plattform erforderte eine andere Methode:

Trustpilot-Unternehmensseiten : Anfragen + BeautifulSoup mit mehreren Selektoren zum Ändern des HTML-Codes.
Yelp-Unternehmen : Selenium mit einer Anti-Erkennungskonfiguration, um den starken Bot-Schutz zu umgehen.
Google Play Store Apps: Selenium liefert in Kombination mit der Google Play Scraper Bibliothek schnelle und strukturierte Ergebnisse.

Wie man Play-Rezensionen mit Python und Selenium extrahiert

Schritt 1: Einrichtung der Anti-Erkennungs-Funktion

Google Play baut den Spamschutz weiter aus. Laut dem Android-Sicherheitsbericht von Google hat die Plattform 160 Millionen Spam-Bewertungen und -Rezensionen blockiert und zusätzliche Maßnahmen gegen Review-Bombing eingeführt. ¹

Das Auslesen von Google Play-Rezensionen erfordert das Ausblenden von Automatisierungssignalen. Das Skript konfiguriert Chrome mit deaktivierten Automatisierungsflags, einem benutzerdefinierten User-Agent und einer festen Fenstergröße.

Beginnen Sie mit headless=False, um den Browser zu überwachen, und wechseln Sie dann zu True , sobald er stabil ist.

Hinweis: Bibliotheken für die Browserautomatisierung entwickeln sich schnell weiter. Selenium hat 2026 mehrere Updates veröffentlicht (darunter Versionen ab 4.40). Durch die Verwendung kompatibler Versionen von Selenium, ChromeDriver und Chrome lassen sich Fehler beim Web-Scraping aufgrund von Browser-Updates vermeiden.

Teil 2: Suche nach Apps

Diese Funktion durchsucht den Play Store nach Apps, die Ihrem Suchbegriff entsprechen, und extrahiert App-Namen und URLs.

Die Funktion erstellt eine Such-URL mit &c=apps, um Apps zu filtern. Gesucht werden Links, die /store/apps/details?id= enthalten, was dem URL-Muster von Google Play (Google) entspricht. Die App-ID wird aus der URL extrahiert, der App-Name aus dem übergeordneten <span>-Tag.

Wird kein Name gefunden, verwenden wir die App-ID. Der Parameter `max_apps` steuert die Anzahl der zu durchsuchenden Apps (Standard: 3, einstellbar auf 5, 10 oder mehr). Der Suchbegriff `search_term` definiert die Kategorie, z. B. „Secondhand-Shopping“, „Fitness-Tracking“ oder „Fotobearbeitung“.

Schritt 3: Bewertungen extrahieren

Diese Funktion navigiert zu einer App-Seite, klickt auf „Alle Bewertungen anzeigen“ , scrollt, um weitere Bewertungen zu laden, und extrahiert die Kundenbewertungsdaten.

Die Funktion klickt, falls verfügbar, auf „Alle Bewertungen anzeigen“ und wartet anschließend auf das Vorhandensein von Bewertungselementen. Fehlt die Schaltfläche, wird automatisch gescrollt. Bewertungen werden gesammelt, bis das Limit erreicht ist oder nach fünfmaligem Scrollen keine neuen Daten mehr angezeigt werden.

Der Scraper extrahiert die Bewertungs-ID, den Benutzernamen, die Bewertung, das Datum und den vollständigen Bewertungstext und erweitert abgeschnittene Bewertungen, wenn möglich.

CSS-Selektoren:

.RHo1pe → Review-Container
.X5PpBb → Benutzername
.iXRFPc → Bewertung (aria-label)
.bp9Aid → Datum
.h3YV2d → Rezensionstext

Der Parameter max_reviews steuert die Anzahl der Bewertungen (Standardwert 20, einstellbar auf 50, 100 oder mehr).

Schritt 4: Alles zusammenfügen

Diese Funktionen kombinieren die App-Suche und das Auslesen von Kundenbewertungen und speichern die Ergebnisse anschließend in einer CSV-Datei.

Beispielausführung

Der Workflow sucht nach Apps, extrahiert Rezensionen und speichert diese in einer CSV-Datei. Jede Rezension wird mit App-Name, ID und URL versehen. Eine dreisekündige Verzögerung zwischen den Apps verhindert eine Begrenzung der Zugriffsrate.

Mit den Standardeinstellungen (3 Apps × 10 Bewertungen) sammelt das Skript in 3–4 Minuten etwa 30 Bewertungen . Die CSV-Datei enthält App-Name, ID, URL, Benutzername, Bewertung, Datum, Bewertungstext und Bewertungs-ID .

Wie man Yelp-Bewertungen mit Python ausliest (ohne API)

Schritt 1: Einrichtung des Anti-Erkennungsmechanismus

Yelp hat die Maßnahmen gegen gefälschte und KI-generierte Bewertungen verschärft. Im aktuellen Trust & Safety-Bericht gab Yelp an, rund 500.000 mutmaßlich KI-generierte Bewertungen gefiltert und über eine Million Konten gesperrt zu haben, die gegen die Plattformrichtlinien verstoßen hatten. Die gesammelten Yelp-Bewertungsdaten stellen daher Inhalte dar, die die Moderationsfilter bereits passiert haben. ²

Als wir zum ersten Mal versuchten, Yelp mit einfachem Selenium zu scrapen, stießen wir sofort auf ein CAPTCHA . Yelp erkennt Automatisierungssignale, daher scheitern einfache Setups.

Tests ergaben, dass Yelp bestimmte Browsereigenschaften prüft. Auch die Automatisierungskennzeichen von Chrome und der User-Agent-String können auf Automatisierung hinweisen.

Folgende Konfiguration hat funktioniert:

Der entscheidende Durchbruch bestand in der Neudefinition der Eigenschaft `navigator.webdriver` . Indem diese so überschrieben wird, dass sie `undefined` zurückgibt, wird Selenium nicht mehr erkannt. In Kombination mit einem benutzerdefinierten User-Agent-String wirkt der Browser dadurch eher wie ein echter Benutzer.

Beginnen Sie mit `headless=False`, um den Betrieb zu überwachen. Sobald er stabil ist, wechseln Sie zu `True` , um das Web-Scraping im Hintergrund zu beschleunigen.

Schritt 2: Unternehmen suchen und finden

Die Suchergebnisse von Yelp werden schrittweise geladen, und der HTML-Code verwendet dynamische Klassennamen, die sich häufig ändern. Dies führt zu Fehlern bei Selektoren, die auf exakten Klassen basieren.

Unsere ersten Versuche erfassten irrelevante Links wie „Weitere Bewertungen ansehen“ und „Menü anzeigen“ . Daher wurde ein Filter hinzugefügt, um nur echte Unternehmenslinks zu erfassen.

Da Yelp die Ergebnisse schrittweise lädt, scrollen wir mehrmals. Der Scraper sammelt Links, die „/biz/“ enthalten, das URL-Muster für Unternehmensseiten bei Yelp. Durch Filter wird sichergestellt, dass nur gültige Unternehmen berücksichtigt werden, während Duplikate und Namen mit weniger als drei Zeichen aussortiert werden.

Der Parameter „max_businesses“ steuert die Anzahl der abgerufenen Ergebnisse. Beginnen Sie mit 3 für Testzwecke und erhöhen Sie den Wert, sobald die Stabilität gewährleistet ist.

Schritt 3: Bewertungen extrahieren

Die größte Herausforderung für Yelp ist instabiles HTML. Standard-CSS-Selektoren funktionierten oft nicht oder gaben die falschen Elemente zurück.

Mithilfe der Chrome-Entwicklertools haben wir Rezensionen innerhalb von Absatz-Tags mit Klassennamen gefunden, die „comment“ enthalten. Innerhalb dieser Absätze enthalten Span-Tags mit dem Klassennamen „raw“ den eigentlichen Rezensionstext. Dieses Muster bleibt auch bei geringfügigen Änderungen der Klassennamen bestehen.

Dieser Ansatz nutzt die partielle Übereinstimmung mit [class*=”comment”] und [class*=”raw”] . Dadurch wird das Web-Scraping-Tool robuster, da Yelp die genauen Klassennamen häufig ändert. Das Skript extrahiert den Bewertungstext, den Benutzernamen, die Bewertung und das Datum.

Schritt 4: Alles zusammenfügen

Jetzt kombinieren wir alles zu einem Workflow, der nach Unternehmen sucht, Produktbewertungen sammelt und die Ergebnisse in einer CSV-Datei speichert.

Beispielausführung

Eine zweisekündige Verzögerung zwischen den Geschäftsvorgängen verhindert eine Begrenzung der Datenrate. In Tests erwies sich diese Verzögerung von zwei Sekunden als zuverlässig; Sie können sie jedoch für kleinere Datenmengen auf eine Sekunde reduzieren oder für umfangreiches Scraping auf fünf Sekunden erhöhen.

Jede Bewertung wird vor dem Speichern mit dem Firmennamen und der URL versehen, sodass Sie die Quelle zurückverfolgen können.

Mit den Standardeinstellungen von 3 Unternehmen und jeweils 10 Bewertungen sammelt das Skript in 2–3 Minuten etwa 30 Bewertungen. Sobald die Einstellungen stabil sind, können Sie die Anzahl erhöhen:

10 Unternehmen × je 20 Bewertungen : ca. 200 Bewertungen in ca. 10 Minuten
20 Unternehmen × je 50 Bewertungen : ca. 1000 Bewertungen in ca. 15–20 Minuten

Die CSV-Datei enthält Spalten für Firmenname, URL, Benutzername, Bewertung, Datum und Rezensionstext. Sie kann in Excel geöffnet oder in pandas importiert werden, um Kundenfeedback zu analysieren.

Wie man Trustpilot-Bewertungen mit Python ausliest

Trustpilot nutzt automatisierte Systeme, um gefälschte Bewertungen zu erkennen und zu entfernen. Laut Trust Center analysieren diese Systeme den Bewertenden, das Unternehmen und den Bewertungstext, um verdächtige oder KI-generierte Bewertungen zu erkennen, bevor sie auf der Plattform erscheinen. ³

Im Jahr 2026 stärkte Trustpilot zudem seine Governance durch die Ernennung eines Chief Trust Officer, einer Position, die für die Verbesserung des Vertrauens in die Plattform, die Betrugsprävention und die Integrität der Bewertungen verantwortlich ist.

Schritt 1: Einrichtung und Suche nach Unternehmen

Erforderliche Bibliotheken

Wir importieren die notwendigen Bibliotheken:

Anfragen : Verarbeitet HTTP-Anfragen
BeautifulSoup : analysiert den empfangenen HTML-Code
JSON : Speichert Daten in einem strukturierten Format
Zeit : Fügt Verzögerungen hinzu, um eine Überlastung des Servers zu vermeiden.
Zitat aus urllib.parse: Kodiert Suchbegriffe für URLs

Die Suchfunktion

Der Suchbegriff wird URL-codiert und in Anführungszeichen gesetzt. Falls ein Standort angegeben wird, wird dieser als Parameter hinzugefügt. Benutzerdefinierte Header simulieren einen echten Browser, um Blockierungen zu vermeiden. Der User-Agent -String identifiziert uns als Chrome unter Windows.

Anfrage stellen und Ergebnisse analysieren

Wir senden die Anfrage mit Headern und analysieren die Ergebnisse mit BeautifulSoup. Da Trustpilot häufig Klassennamen ändert, sind mehrere Selektoren definiert.

Jeder Selektor zielt auf Links mit /review/ ab, die Unternehmensseiten kennzeichnen. Aus jedem Link extrahieren wir den Slug (eindeutige Kennung in der URL), bereinigen ihn zu einem lesbaren Namen und geben die ersten drei gefundenen Unternehmen zurück.

Schritt 2: Abrufen von Bewertungsdaten von Unternehmensseiten

Überprüfen Sie die Abruffunktion.

Die Funktion durchläuft die Seiten, bis die gewünschte Anzahl an Rezensionen erreicht ist. Jede Seite wird mit Headern angefordert, um eine Erkennung zu vermeiden, und die Paginierung erfolgt durch Inkrementieren des Seitenparameters.

Rezensionskarten extrahieren

Wir verwenden mehrere Selektoren, da Trustpilot sein Design häufig ändert. Jeder Selektor zielt auf mögliche Bewertungskartenstrukturen ab. Wenn keiner zutrifft, beenden wir das Scraping.

Analyse einzelner Rezensionen

Für jede Rezension extrahieren wir die Bewertung, den Titel, den Rezensionstext, das Datum und den Benutzernamen. Flexible Selektoren (mit Lambda- Ausdrücken) machen den Scraper robust gegenüber HTML-Änderungen.

Nach der Verarbeitung jeder Seite fügen wir mithilfe von time.sleep(2) eine Verzögerung von 2 Sekunden ein. Dies ist unerlässlich, um die Server von Trustpilot nicht zu belasten und Ratenbegrenzungen oder IP-Sperren zu vermeiden.

Schritt 3: Hauptprogramm und Ausgabe

Einrichtung der Hauptfunktion

Diese Hauptfunktion definiert Suchbegriff, Ort und Bewertungslimit. Der Ort kann auf ein beliebiges Land (z. B. „Deutschland“) oder auf „Keine“ für globale Ergebnisse eingestellt werden. Die Ausweichfunktion gewährleistet die Funktionalität auch dann, wenn die Suche fehlschlägt.

Sammeln und Speichern von Daten

Die Bewertungen jedes Unternehmens werden zusammen mit Metadaten (URL, Anzahl der Bewertungen) in einem Wörterbuch gespeichert. Um die Server von Trustpilot nicht zu überlasten, wird zwischen den einzelnen Unternehmen eine Verzögerung von zwei Sekunden eingefügt. Die Ergebnisse werden schließlich in einer UTF-8-kodierten JSON-Datei gespeichert.

Ergebnisse anzeigen

Das Skript gibt eine übersichtliche Zusammenfassung aller Rezensionen aus. Jede Rezension enthält den Nutzer, die Bewertung, den Titel und den Text . Die Methode `.get()` sorgt dafür, dass fehlende Felder standardmäßig auf „ N/A “ gesetzt werden. Abschließend bestätigt das Skript die Anzahl der erfassten Rezensionen und den Namen der JSON-Datei.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Folgen auf

Schlussgedanken

Das Auslesen von Rezensionen von Play, Yelp und Trustpilot erforderte unterschiedliche Ansätze in Python. Jeder Scraper exportierte pro Durchlauf etwa 30 Rezensionen als CSV/JSON-Datei, einschließlich Benutzernamen, Bewertungen, Datum und Text.

Neben den technischen Herausforderungen beim Web-Scraping setzen Bewertungsplattformen zunehmend auf KI-gestützte Moderationssysteme, Spamfilter und Schutzmechanismen gegen Review-Bombing. Diese Systeme können verdächtige Bewertungen entfernen, bevor diese sichtbar werden, was die Vollständigkeit der gesammelten Datensätze beeinträchtigen kann.

Die folgenden Vergleichswerte verdeutlichen die wichtigsten Unterschiede:

FAQs

Das manuelle Sammeln von Produktbewertungen ist langsam und unvollständig. Mit automatisierten Tools lassen sich hingegen innerhalb von Minuten Hunderte oder Tausende von Bewertungen extrahieren.

Das spart Zeit und stellt sicher, dass Ihr Datenerfassungsprozess sowohl positive als auch negative Bewertungen erfasst.

Ausgelesene Kundenbewertungen liefern wertvolle Einblicke in das Kundenverhalten für die Marktforschung. Unternehmen können Kundenanliegen verfolgen, die Kundentreue messen und Kundenpräferenzen im Zeitverlauf analysieren.

Die meisten Bewertungsplattformen schränken die automatisierte Datenextraktion ein. Zu aggressives Einsetzen von Web-Scrapern kann zu CAPTCHA-Abfragen , IP-Sperren oder Sperrungen führen.

Um Risiken zu minimieren, verwenden Sie einen respektvollen automatisierten Prozess mit Ratenbegrenzungen, zufälligen Verzögerungen und gegebenenfalls Residential Proxies .

Typische Felder umfassen Bewertungstexte, Sternebewertungen, Benutzernamen, Datum und Metadaten. Einige Systeme erfassen auch strukturierte Daten wie Standort, Produktkategorie oder Geschäftsart.

Sie können Kundenbewertungen von verschiedenen Websites sammeln, darunter E-Commerce-Plattformen, soziale Netzwerke und beliebte Plattformen wie Amazon, Walmart, Yelp, Play und Trustpilot.

Referenzlinks

Nazlı Şipi

KI-Forscher

Folgen auf

Nazlı ist Datenanalystin bei AIMultiple. Sie verfügt über Erfahrung in der Datenanalyse in verschiedenen Branchen, wo sie an der Umwandlung komplexer Datensätze in umsetzbare Erkenntnisse gearbeitet hat.

Vollständiges Profil anzeigen

Seien Sie der Erste, der kommentiert

Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.

Als nächstes lesen

Review ScrapingMai 7

Wie man mit Python kostenlos Rezensionen ausliest (ohne APIs)

Wie man Play-Rezensionen mit Python und Selenium extrahiert