Um zu vergleichen, wie gut verschiedene Tools mit den CAPTCHAs , Login-Overlays und häufigen Layoutänderungen von Glassdoor umgehen, haben wir 5 führende Web-Data-Scraper anhand von 2.500 Anfragen getestet und die Erfolgsquote, die Bearbeitungszeit und die Metadatenabdeckung jedes Anbieters erfasst.
Glassdoor-Scraping-Benchmark-Ergebnisse
Weitere Einzelheiten zu unserem Testverfahren finden Sie in unserer Benchmark-Methodik .
Ausgabeformat und kostenlose Testoptionen für Glassdoor-Scraper
Datenfelder von Glassdoor, die Sie extrahieren können
Bright Data war der einzige Anbieter, der strukturiertes JSON von Glassdoor mit 19 Feldern pro Stellenanzeige zurückgab.
Sehen Sie die Datenfelder, die für eine einzelne Glassdoor-Stellenseite von Bright Data zurückgegeben werden, gruppiert in Kategorien:
Die 5 besten Glassdoor-Scraper-APIs
Bright Data führte den Glassdoor-Benchmark mit einer Erfolgsquote von 100 % an. Es nutzt seine eigene Glassdoor-Datensatz-API.
Der Glassdoor-Scraper ist sowohl über die Scraper-API als auch über eine No-Code-Schnittstelle verfügbar und bietet neben Stellenanzeigen auch spezielle Scraper für Unternehmensübersichtsdaten und Unternehmensbewertungen an.
Erhalten Sie 25 % Rabatt auf Bright Data Web Scraping APIs
Website besuchenDie Anfrage Oxylabs konnte keine Glassdoor-Daten extrahieren. Von den 500 Anfragen:
- 260 wurde mit HTTP 200 und leerem/nicht lesbarem HTML-Code zurückgegeben.
- 240 wurde zurückgegeben (HTTP 408 – Zeitüberschreitung des Echtzeit-Endpunkts bei rechenintensiven JavaScript-Seiten).
Wir haben Glassdoor-URLs an die Web Scraper API Oxylabs übermittelt und dabei die universelle Quelle für IP-Rotation, JavaScript-Ausführung und Umgehung der Bot-Erkennung genutzt.
Sichern Sie sich 2.000 kostenlose Scraping-Credits
Website besuchen Decodo lieferte keine extrahierbaren Glassdoor-Daten. Die Glassdoor-URLs wurden mit den headless: html und proxy_pool: premium über die Web-Scraper-API von Decodo aufgerufen. 360 der 500 Anfragen lieferten den HTTP-Statuscode 400, die restlichen 140 den HTTP-Statuscode 200, jedoch ohne extrahierbare Stelleninformationen. Die durchschnittliche Bearbeitungszeit bis zum Fehler betrug 117 Sekunden.
Nutzen Sie den Code SCRAPE30 für 30 % Rabatt
Website besuchenZyte erreichte die gleiche Erfolgsquote von 100 % wie Bright Data auf Glassdoor und die schnellste durchschnittliche Bearbeitungszeit von 16 Sekunden. Die Extract API von Zyte verarbeitete Glassdoor-URLs mit aktiviertem JavaScript-Rendering in einem Headless-Browser.
Nimble erreichte auf Glassdoor eine Erfolgsquote von 79 % bei einer durchschnittlichen Bearbeitungszeit von 30 Sekunden. Die Datenextraktion für Glassdoor erfolgte über die Web Extract API von Nimble, konfiguriert mit Browser-Rendering und dem vx10-Treiber. Bei etwa jeder fünften Seite wurden die DOM-Elemente für die Stellenbeschreibung im Testfenster nicht korrekt dargestellt, wodurch sie gemäß unserer CSS-Selektorvalidierung ungültig waren.
Glassdoors Anti-Scraping-Richtlinien und -Risiken
Die Nutzungsbedingungen von Glassdoor besagen ausdrücklich, dass Sie nicht 1 :
- Jegliche Daten von der Plattform extrahieren, extrahieren oder auswerten.
- Es ist untersagt, ohne ausdrückliche schriftliche Genehmigung Roboter, Spider, Scraper oder andere automatisierte Mittel zum Zugriff auf die Plattform zu verwenden.
- Jegliche Maßnahmen, die den Zugriff auf die Website verhindern oder einschränken sollen (z. B. robots.txt, IP-Sperren oder CAPTCHA), können umgangen oder ausgehebelt werden.
Glassdoor-Scraping-Benchmark-Methodik
Wir haben fünf Web-Scraping-Anbieter hinsichtlich der Extraktion von Stellenanzeigen auf Glassdoor verglichen. Jeder Anbieter verarbeitete dieselbe Liste mit 500 einzelnen Stellenanzeigen-URLs. Die Anfragen wurden sequenziell mit einer zweisekündigen Pause dazwischen gesendet, was insgesamt 2.500 Durchläufe ergab.
Anbieter und Integration
Bright Data wurde über die eigens dafür entwickelte Glassdoor Dataset API verarbeitet, die geparstes JSON liefert.
Oxylabs durchlief seine Web Scraper API mit source: universal und gab gerendertes HTML zurück.
Decodo wurde über seine Web Scraper API mit der Einstellung headless: html und proxy_pool: premium ausgeführt und gab auch gerendertes HTML zurück.
Nimble wurde über seine Web Extract API ausgeführt, die mit render: true und driver: vx10 konfiguriert war, und erzeugte gerendertes HTML.
Zyte durchlief seine Extract API mit browserHtml: true und erzeugte erneut gerendertes HTML.
Wenn die Antwort im HTML-Format vorlag, haben wir sie mit lokalen CSS-Selektoren bearbeitet, die auf die Job-Detail-Elemente von Glassdoor abzielten, wie h1[id^="jd-job-title-"] , .EmployerProfile_employerNameHeading__bXBYr h4 , und .JobDetails_badgeStyle__xaoxT[data-test="location"] .
Timeout und Ratenbegrenzung
Asynchrone Anfragen hatten eine maximale Ausführungszeit von 10 Minuten. Wenn ein Provider den HTTP-Statuscode 429 zurückgab, warteten wir 30 Sekunden und versuchten es bis zu dreimal erneut; alle weiteren Anfragen wurden als Fehler für die URL protokolliert.
Validierungsregeln
Wir haben pro Anfrage drei Prüfungen durchgeführt.
Für die Übermittlung musste der Provider einen HTTP-Code zwischen 200 und 399 oder 404 zurückgeben. Asynchrone Jobs (hier nur Bright Data) mussten vor Ablauf des Timeouts fehlerfrei abgeschlossen werden; synchrone Provider erledigten diesen Schritt automatisch. Zur Validierung musste die Antwort entweder job_title oder company_name als nicht leeren String enthalten. Das geparste JSON von Bright Data lieferte diese Information direkt; bei HTML-Antworten verwendeten wir CSS-Selektorübereinstimmungen.
Wir akzeptierten auch 404-Fehler als gültig, sei es durch den HTTP-Code, den Inhalt der Fehlermeldung „Seite nicht gefunden“ oder ein anbieterspezifisches Signal für eine „tote Seite“, da der Anbieter einen fehlenden Eintrag korrekt gekennzeichnet hatte.
Leere Antworten ohne Fehlermeldungen wurden zunächst als gültig eingestuft und am Ende erneut geprüft: Hatte ein anderer Anbieter tatsächliche Auftragsdaten von derselben URL abgerufen, wurde die leere Antwort als Fehler neu klassifiziert. Diese Regelung galt nicht für 404-Fehler, denen wir weiterhin vertrauten, sofern keine tatsächlichen Daten eines anderen Anbieters unter derselben URL vorlagen, die ihnen widersprachen.
Ein Durchlauf wurde erst dann als vollständiger Erfolg gewertet, wenn Einreichung, Ausführung und Validierung alle erfolgreich abgeschlossen wurden.
Gemessene Kennzahlen
Die Validierungserfolgsrate gibt an, wie viele URLs alle drei Prüfungen bestanden haben.
Die Gesamtbearbeitungszeit ist die Zeit in Sekunden, die von der Anfrage bis zum Empfang der Antwort vergeht. Bei der asynchronen Dataset-API von Bright Data beinhaltet sie das Abfragefenster bis zum Abschluss des Auftrags.
Die verfügbaren Metadatenfelder für Anbieter, die strukturiertes JSON zurückgeben, ergeben sich aus der Vereinigung der eindeutigen Feldnamen aller Antworten. Bei HTML-Anbietern entspricht der Wert dem festen Satz der fünf verwendeten CSS-Selektoren.
FAQs
Glassdoor-Daten sind nützlich für Gehaltsvergleiche, Wettbewerbsanalysen zu Einstellungstrends, Arbeitgebermarken-Monitoring, Marktforschung im Talentbereich und die Bereitstellung von Daten für Jobportale. Unternehmen verfolgen häufig die Bewertungen von Wettbewerbern, Gehaltsspannen in verschiedenen Branchen und analysieren, welche Unternehmen ähnliche Positionen besetzen, um ihre eigene Strategie zu optimieren.
Glassdoor verwendet CAPTCHAs, Anmeldebildschirme, JavaScript-generierte Inhalte und häufige Layoutänderungen. Oftmals werden Anmeldeaufforderungen angezeigt, bevor die vollständigen Daten erscheinen, und die zugrunde liegende HTML-Struktur ändert sich regelmäßig, was selektorbasierte Web-Scraper unbrauchbar macht. Aufgrund dieser Schutzmaßnahmen konnten einige der Anbieter in diesem Benchmark ohne spezielle Infrastruktur keine Daten extrahieren.
Seien Sie der Erste, der kommentiert
Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.