Pour comparer la capacité des différents outils à gérer les CAPTCHA , les superpositions de connexion et les changements fréquents de mise en page de Glassdoor , nous avons testé 5 des principaux extracteurs de données Web sur 2 500 requêtes et suivi le taux de réussite, le temps d'exécution et la couverture des métadonnées de chaque fournisseur.
Résultats de référence du scraping Glassdoor
Vous pouvez consulter notre méthodologie d'analyse comparative pour plus de détails sur notre processus de test.
Format de sortie des scrapers Glassdoor et options d'essai gratuit
Champs de données Glassdoor que vous pouvez extraire
Bright Data était le seul fournisseur à renvoyer un JSON structuré de Glassdoor avec 19 champs par offre d'emploi.
Consultez les champs de données renvoyés pour une seule page d'emploi Glassdoor provenant de Bright Data, regroupés en catégories :
Les 5 meilleures API de scraping Glassdoor
Bright Data a dominé le benchmark Glassdoor avec un taux de réussite de 100 %. Il utilise son API dédiée Glassdoor Dataset.
Le scraper Glassdoor est disponible à la fois via l'API Scraper et une interface sans code, et au-delà des offres d'emploi, Bright Data propose également des scrapers dédiés aux données de présentation de l'entreprise et aux avis sur l'entreprise.
Obtenez 25 % de réduction sur les API de web scraping Bright Data
Visitez le site webLa requête Oxylabs n'a pas permis d'extraire les données Glassdoor. Sur 500 requêtes :
- 260 a renvoyé un code HTTP 200 avec du HTML vide/non analysable
- 240 a renvoyé une erreur HTTP 408 (délai d'attente du point de terminaison en temps réel sur les pages JS lourdes)
Nous avons soumis les URL Glassdoor à l'API Web Scraper Oxylabs en utilisant la source universelle pour la rotation IP, l'exécution JavaScript et le contournement de la détection des bots.
Obtenez 2 000 crédits de scraping gratuits
Visitez le site web La requête Decodo n'a renvoyé aucune donnée Glassdoor exploitable. Les URL Glassdoor ont été traitées par l'API Web Scraper de Decodo avec headless: html et proxy_pool: premium . Sur 500 requêtes, 360 ont renvoyé une erreur HTTP 400 et les 140 restantes une erreur HTTP 200, mais sans contenu exploitable. Le temps d'exécution moyen avant échec était de 117 secondes.
Utilisez le code SCRAPE30 pour obtenir 30 % de réduction
Visitez le site webZyte a égalé le taux de réussite de Bright Data sur Glassdoor (100 %) avec un temps d'exécution moyen de 16 secondes, le plus rapide. L'API Extract de Zyte a traité les URL Glassdoor avec le rendu JavaScript activé via un navigateur sans interface graphique.
Le projet Nimble a atteint un taux de réussite de 79 % sur Glassdoor, avec un temps d'exécution moyen de 30 secondes. L'extraction des données Glassdoor a été effectuée via l'API Web Extract de Nimble, configurée avec le rendu navigateur et le pilote vx10. Environ une page sur cinq n'affichait pas les éléments DOM des détails de l'offre d'emploi dans la fenêtre de test, les rendant invalides lors de notre validation par sélecteur CSS.
Politiques et risques liés à l'extraction de données chez Glassdoor
Les conditions d'utilisation de Glassdoor stipulent explicitement que vous n'êtes pas autorisé à 1 :
- Extraire, récupérer ou exploiter des données de la plateforme.
- Il est interdit d'utiliser un robot, un spider, un scraper ou tout autre moyen automatisé pour accéder à la plateforme à quelque fin que ce soit sans autorisation écrite expresse.
- Contourner ou neutraliser toute mesure utilisée pour empêcher ou restreindre l'accès au site (par exemple, robots.txt, blocage d'adresses IP ou CAPTCHA).
Méthodologie de référence pour le scraping de Glassdoor
Nous avons comparé les performances de 5 fournisseurs de web scraping pour l'extraction d'offres d'emploi Glassdoor. Chaque fournisseur traitait la même liste de 500 URL d'offres d'emploi. Les requêtes étaient envoyées séquentiellement avec une pause de 2 secondes entre chaque, pour un total de 2 500 exécutions.
Fournisseurs et intégration
Bright Data a été exécuté via son API Glassdoor Dataset spécialement conçue à cet effet, qui fournit du JSON analysé.
Oxylabs a été exécuté via son API Web Scraper avec source: universal , renvoyant du HTML rendu.
Decodo a été exécuté via son API Web Scraper configurée en headless: html avec proxy_pool: premium , renvoyant également du HTML rendu.
Nimble a été exécuté via son API Web Extract configurée avec render: true et driver: vx10 , produisant du HTML rendu.
Zyte a été exécuté via son API Extract avec browserHtml: true , produisant à nouveau du HTML rendu.
Lorsque la réponse était au format HTML, nous l'avons traitée à l'aide de sélecteurs CSS locaux ciblant les éléments de détail de l'emploi de Glassdoor tels que h1[id^="jd-job-title-"] , .EmployerProfile_employerNameHeading__bXBYr h4 , et .JobDetails_badgeStyle__xaoxT[data-test="location"] .
Délai d'expiration et limitation du débit
Les requêtes asynchrones étaient limitées à 10 minutes d'exécution. Si un fournisseur renvoyait une erreur HTTP 429, nous attendions 30 secondes et réessayions jusqu'à 3 fois ; au-delà, l'URL était considérée comme ayant échoué.
Règles de validation
Nous avons effectué trois vérifications par demande.
Pour la soumission, le fournisseur devait renvoyer un code HTTP compris entre 200 et 399, ou 404. Pour l'exécution, les tâches asynchrones (ici, seule la tâche Bright Data) devaient se terminer avant l'expiration du délai sans erreur ; les fournisseurs synchrones géraient automatiquement cette étape. Pour la validation, la réponse devait contenir soit job_title soit company_name sous forme de chaîne de caractères non vide. Le JSON analysé de la tâche Bright Data fournissait directement cette information ; pour les réponses HTML, nous avons utilisé la correspondance des sélecteurs CSS.
Nous avons également accepté les détections 404 comme valides, que ce soit par code HTTP, contenu du corps « page introuvable » ou signal « page morte » spécifique au fournisseur, puisque le fournisseur avait correctement signalé une entrée manquante.
Les réponses vides sans erreur ont été initialement acceptées, puis réexaminées : si un autre fournisseur avait récupéré des données d'emploi réelles à partir de la même URL, la réponse vide était requalifiée en échec. Ce principe ne s'appliquait pas aux erreurs 404, que nous considérions comme fiables sauf si les données réelles d'un autre fournisseur, disponibles à la même URL, les contredisaient.
Une exécution n'était considérée comme pleinement réussie que lorsque la soumission, l'exécution et la validation étaient toutes concluantes.
Métriques mesurées
Le taux de réussite de la validation indique combien d'URL ont passé avec succès les trois vérifications.
Le temps d'exécution de bout en bout correspond au temps réel écoulé entre l'envoi de la requête et la réception de la réponse, en secondes. Pour l'API de jeu de données asynchrone de Bright Data, ce temps inclut la période d'interrogation jusqu'à ce que la tâche soit prête.
Les champs de métadonnées disponibles, pour les fournisseurs renvoyant du JSON structuré, correspondent à l'ensemble des noms de champs uniques présents dans chaque réponse. Pour les fournisseurs HTML, cette valeur reflète l'ensemble fixe de cinq sélecteurs CSS utilisés.
FAQ
Les données de Glassdoor sont utiles pour l'analyse comparative des salaires, la veille concurrentielle sur les tendances de recrutement, le suivi de la marque employeur, l'étude du marché des talents et l'alimentation des plateformes d'agrégation d'offres d'emploi. Les entreprises consultent souvent les avis des concurrents, les fourchettes de salaires par secteur et les entreprises qui recrutent pour des postes similaires afin d'affiner leur stratégie.
Glassdoor utilise des CAPTCHA, des murs de connexion, du contenu généré par JavaScript et des mises en page fréquemment modifiées. Les pages affichent souvent des invites de connexion avant de révéler l'intégralité des données, et la structure HTML sous-jacente change régulièrement, ce qui rend inefficaces les outils d'extraction de données basés sur des sélecteurs. C'est pourquoi certains fournisseurs de ce comparatif n'ont pas pu extraire de données sans infrastructure spécialisée.
Soyez le premier à commenter
Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.