Kontaktieren Sie uns
Keine Ergebnisse gefunden.

So scrapen Sie Glassdoor: Die besten Tools & Python-Tutorial

Nazlı Şipi
Nazlı Şipi
aktualisiert am Apr 29, 2026
Siehe unsere ethischen Normen

Glassdoor verwendet aggressive Anti-Scraping-Maßnahmen (CAPTCHA, Overlays, Anmeldeaufforderungen). Sobald Sie die Website laden, werden Sie häufig mit Anmeldeaufforderungen, Pop-up-Overlays, CAPTCHAs und einer aggressiven Bot-Erkennung konfrontiert.

Die Seitenstruktur ändert sich zudem häufig, was HTML-Scraper beeinträchtigt. Anstatt diese Hürden manuell zu überwinden, haben wir eine verwaltete Scraping-Infrastruktur eingesetzt.

Preisvergleich der besten Glassdoor-Scraper

Anbieter
Schabertyp
Startpreis/Monat
Kostenlose Testversion
Spezieller Schaber
1,50 $ / 1.000 Ergebnisse
7 Tage
Jobbörsen-Scraper
1,35 $ / 1.000 Ergebnisse
2.000 Credits
Apify
Spezieller Schaber
19,99 $
3 Tage
ScraperAPI
Jobbörsen-Scraper
49,00 €
5.000 Credits
Schabebiene
Jobbörsen-Scraper
49,00 €
1.000 Credits

Die 5 besten Glassdoor-Scraper-APIs

Mit dem Glassdoor-Scraper (Bright Data) können Sie öffentlich zugängliche Daten zu Unternehmensbewertungen, Gehältern und Stellenanzeigen von Glassdoor extrahieren. Es stehen vorgefertigte, speziell für die Plattform entwickelte Scraper zur Verfügung, die Sie über die Scraper-API oder die No-Code-Schnittstelle ausführen können.

Der Glassdoor-Scraper sammelt Unternehmensprofile direkt von der Glassdoor-Unternehmens-URL und hilft Ihnen, Unternehmen entweder über Eingabefilter, über Schlüsselwörter oder durch Angabe einer Glassdoor-Such-URL zu entdecken.

Bright Data hat die KI-gestützte DOM-Erkennung in seine Glassdoor-Scraping-API integriert. Diese Funktion passt sich automatisch an die häufigen HTML-Strukturaktualisierungen von Glassdoor an.

Der Anbieter stellt außerdem drei sofort einsatzbereite Datensätze zur Verfügung, sodass Sie mit bereits gesammelten Glassdoor-Daten arbeiten können, anstatt diese selbst zu extrahieren.

Oxylabs bietet eine Job-Scraper-API zum Extrahieren von Stellenanzeigendaten von Glassdoor-Seiten an. Ihr Angebot funktioniert ähnlich wie der Ansatz von ScraperAPI: Sie stellen eine allgemeine Job-Scraper-API bereit, die mehrere Jobbörsen (Glassdoor, Indeed, ZipRecruiter) unterstützt, anstatt für jede Website einen eigenen Scraper zu entwickeln.

Dieser Scraper unterstützt jede Jobbörse, einschließlich Glassdoor, da die Oxylabs' Web Scraper API eine universelle Scraping-Engine ist. Das bedeutet, dass Sie eine Ziel-URL (z. B. eine Glassdoor-Jobsucheseite) angeben und die API sich umIP-Rotation , JavaScript-Rendering und die Umgehung von Anti-Bot-Maßnahmen kümmert.

Der Glassdoor-Scraper (Apify) bietet zahlreiche Voreinstellungen, sodass Sie nicht jede Abfrage von Grund auf neu erstellen müssen. Die Ergebnisse können in gängigen, strukturierten Formaten wie JSON, CSV oder XLSX exportiert werden.

Das Tool bietet über vierzig vordefinierte Standorte, darunter Remote-Arbeit sowie globale Metropolen wie New York, San Francisco, London, Berlin und Tokio, aber auch spezifische Länder. Es unterstützt erweiterte Filter: Sie können die Angebote nach Gehaltsspannen, Unternehmensbewertungen (0–5), reinen Remote-Positionen und Stellen mit einfacher Bewerbung eingrenzen.

Es gibt außerdem einen numerischen Parameter namens `page_offset`, mit dem die Startseite für das Web-Scraping festgelegt werden kann. So lassen sich die ersten Seiten überspringen oder das Scraping an einer späteren Seite fortsetzen. Diese Funktion ist kostenpflichtig. Da Glassdoor empfindlich auf Web-Scraping reagiert, bietet der Akteur Optionen zur Proxy- Konfiguration. Sie können zwischen Rechenzentrums- und Wohn-Proxys wählen oder Ihre eigenen Proxys verwenden.

Im Hinblick auf den Umfang kann ein einzelner Durchlauf bis zu 10.000 Stellenanzeigen erfassen. Mit dem Eingabeparameter `max_items` lässt sich die Anzahl der zu erfassenden Stellenanzeigen begrenzen, und mit dem Parameter `max_pages` kann die Anzahl der vom Scraper durchlaufenen Ergebnisseiten auf maximal 30 pro Suchanfrage beschränkt werden.

ScrapingBee bietet einen universellen Web-Scraper, der sich für die Datenerfassung von Glassdoor eignet. Jedes Paket beinhaltet ein monatliches Kontingent an API-Credits. Die Anzahl der Credits pro Anfrage hängt von den aktivierten Funktionen ab. Ein einfacher Aufruf mit rotierendem Proxy und ohne JavaScript-Rendering benötigt einen Credit.

Standardmäßig lädt ScrapingBee die Seite in einem Headless-Browser, führt dessen JavaScript aus und gibt anschließend das vollständig gerenderte HTML zurück. Dieses Standardverhalten kostet 5 Credits pro Aufruf bei Verwendung mit herkömmlichen rotierenden Proxys.

Spezielle Scraper-APIs werden nur für wenige Websites angeboten (Google Search, Amazon, YouTube, Walmart, ChatGPT), und Glassdoor gehört nicht dazu, obwohl die allgemeinen Funktionen, die Sie sehen, denen entsprechen, die Sie auf Websites verwenden würden, die sie zulassen.

ScraperAPI bietet im Gegensatz zu Apify oder Bright Data keinen dedizierten Glassdoor-Scraper. Stattdessen wird mit der Job Board Scraper API eine umfassendere Lösung bereitgestellt, die Stellenanzeigen und -daten von mehreren großen Jobplattformen wie LinkedIn, Glassdoor und Indeed erfasst.

Dadurch ist ihre Lösung vielseitiger und flexibler, aber weniger spezialisiert als die eines Anbieters, der Glassdoor-spezifische Endpunkte bereitstellt. Sie senden eine Anfrage an deren API und geben die Zielseite der Jobbörse (URL) oder die Suchanfrage an. Sie können Premium-Proxys (für Privatkunden) aktivieren und eine Session-ID festlegen, sodass mehrere Anfragen in derselben Sitzung dieselbe IP-Adresse verwenden.

Glassdoor-Bewertungen mit Python auslesen

Schritt 1: Python-Umgebung und API-Zugangsdaten einrichten

Zunächst importieren wir die benötigten Python-Bibliotheken , deaktivieren SSL-Warnungen und definieren unsere Suchparameter (Schlüsselwort, Ort, Land) zusammen mit Ihren API-Zugangsdaten.

Dies richtet Folgendes ein:

  • Erforderliche Bibliotheken
  • Ihr API-Token
  • Ihre Datensatz-ID
  • Suchbegriffe: Stellenbezeichnung, Ort, Land

Schritt 2: Starten des Glassdoor-Scraping-Vorgangs

Nachdem die Umgebung konfiguriert ist, starten wir einen Scraping-Vorgang, indem wir eine POST-Anfrage an die API senden. Im Erfolgsfall wird eine snapshot_id zurückgegeben, die Ihren Datensatzlauf identifiziert.

Schritt 3: Fortschritt prüfen und extrahierte Ergebnisse abrufen

Wir müssen so lange Umfragen durchführen, bis die Stelle als folgende markiert ist:

  • "bereit"
  • "Erledigt"
  • "vollständig"

Das Skript wartet bis zu 15 Minuten und verarbeitet sowohl JSON- als auch JSONL-Antwortformate.

Schritt 4: Verarbeitung und CSV-Export

Sobald die Artikelliste vollständig gefüllt ist, besteht der letzte Schritt darin, die Job-Einträge in einen DataFrame umzuwandeln und sie als CSV-Datei zu exportieren.

Dadurch wird eine übersichtliche CSV-Datei generiert, die Folgendes enthält:

  • Berufsbezeichnung
  • Firmenname und Bewertung
  • Standort
  • URLs
  • Übersichtstext

Glassdoors Anti-Scraping-Richtlinien und -Risiken

Die Nutzungsbedingungen von Glassdoor besagen ausdrücklich, dass Sie nicht 1 :

  • Jegliche Daten von der Plattform extrahieren, extrahieren oder auswerten.
  • Es ist untersagt, ohne ausdrückliche schriftliche Genehmigung Roboter, Spider, Scraper oder andere automatisierte Mittel zum Zugriff auf die Plattform zu verwenden.
  • Jegliche Maßnahmen, die den Zugriff auf die Website verhindern oder einschränken sollen (z. B. robots.txt, IP-Sperren oder CAPTCHA), können umgangen oder ausgehebelt werden.

Wie man Blockaden vermeidet und ein zuverlässiges Scraping gewährleistet

Auch wenn dieser Workflow auf einer API anstatt auf direktem Web-Scraping basiert, gibt es dennoch einige wichtige Punkte zu beachten, um Fehler zu vermeiden. Die gute Nachricht: Ein Großteil der Zuverlässigkeit ist bereits in Ihr Skript integriert.

Beispielsweise beinhaltet die von Ihnen hinzugefügte Abfrageschleife zeitgesteuerte Verzögerungen, Statusprüfungen und eine maximale Wartezeit, wodurch verhindert wird, dass das Skript die API überlastet oder hängen bleibt, wenn die Verarbeitung eines Datensatzes länger dauert.

Eine einfache Vorgehensweise besteht darin, nicht zu viele Scraping -Aufträge gleichzeitig auszuführen. Jeder Auftrag muss Suchparameter wie Schlüsselwörter, Land und Standort verarbeiten. Daher ist es ratsam, die Aufträge in Batches statt alle gleichzeitig auszuführen. Dies erleichtert die Nachverfolgung, welcher Snapshot zu welcher Suche gehört, und verhindert lange Warteschlangen in Stoßzeiten.

Ihr Skript behandelt auch vorübergehende Verzögerungen, indem es auf 202-Antworten prüft und wartet, bevor es einen erneuten Versuch unternimmt. Dies ist beabsichtigt: Dadurch erhält das Backend genügend Zeit, die Datenerfassung abzuschließen, anstatt sofort abzubrechen oder zu viele Wiederholungsversuche zu unternehmen.

Ihr Skript validiert bereits die Ausgabe. Es geht nicht davon aus, dass jede Zeile einer JSONL-Antwort ein vollständiges oder perfekt formatiertes Element enthält.

Stattdessen wird jede Zeile analysiert, fehlerhafte Einträge werden übersprungen, und anschließend wird geprüft, ob verwertbare Daten erfasst wurden. Dies hilft, Fehler zu vermeiden, wenn der Datensatz Antworten in gemischten Formaten oder Teilergebnisse liefert.

Nazlı Şipi
Nazlı Şipi
KI-Forscher
Nazlı ist Datenanalystin bei AIMultiple. Sie verfügt über Erfahrung in der Datenanalyse in verschiedenen Branchen, wo sie an der Umwandlung komplexer Datensätze in umsetzbare Erkenntnisse gearbeitet hat.
Vollständiges Profil anzeigen

Seien Sie der Erste, der kommentiert

Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.

0/450