Farklı araçların Glassdoor'un CAPTCHA'larını , giriş katmanlarını ve sık sık değişen düzenini ne kadar iyi ele aldığını karşılaştırmak için, 2.500 istek üzerinden 5 önde gelen web veri kazıyıcısını test ettik ve her sağlayıcının başarı oranını, tamamlama süresini ve meta veri kapsamını izledik.
Glassdoor veri çekme kıyaslama sonuçları
Test sürecimiz hakkında daha fazla bilgi edinmek için kıyaslama metodolojimizi okuyabilirsiniz.
Glassdoor veri çekme araçlarının çıktı formatı ve ücretsiz deneme seçenekleri
Glassdoor'dan veri çekebileceğiniz alanlar
Bright Data, Glassdoor'dan iş ilanı başına 19 alan içeren yapılandırılmış JSON verisi döndüren tek sağlayıcıydı.
Bright Data numaralı Glassdoor iş ilanından döndürülen veri alanlarını kategoriler halinde gruplandırılmış olarak inceleyin:
En İyi 5 Glassdoor Veri Çekme API'si
Bright Data, %100 başarı oranıyla Glassdoor kıyaslamasında liderliği ele geçirdi. Bu, Glassdoor'a özel Veri Kümesi API'sini kullanmaktadır.
Glassdoor veri çekme aracı hem Veri Çekme API'si hem de kodsuz bir arayüz aracılığıyla kullanılabilir ve iş ilanlarının ötesinde, Bright Data ayrıca şirket genel bakış verileri ve şirket yorumları için özel veri çekme araçları da sunmaktadır.
Web Kazıma API'lerinde %25 indirim kazanın Bright Data
Web Sitesini Ziyaret EtOxylabs numaralı istek Glassdoor verilerinden hiçbirini çıkaramadı. 500 istekten:
- 260 numaralı istek, boş/ayrıştırılamayan HTML ile HTTP 200 yanıtı verdi.
- 240 numaralı bağlantı HTTP 408 hatası döndürdü (yoğun JavaScript sayfalarında gerçek zamanlı uç nokta zaman aşımı).
IP rotasyonu, JavaScript yürütme ve bot algılama atlatma için evrensel kaynak kullanarak Glassdoor URL'lerini Oxylabs'ün Web Kazıyıcı API'sine gönderdik.
2.000 ücretsiz veri kazıma kredisi kazanın
Web Sitesini Ziyaret Et Decodo Glassdoor'dan çıkarılabilecek hiçbir veri döndürmedi. Glassdoor URL'leri headless: html ve proxy_pool: premium parametreleriyle Decodo'in Web Scraper API'sinden geçirildi. 500 isteğin 360'ı HTTP 400, kalan 140'ı ise HTTP 200 döndürdü ancak çıkarılabilecek iş içeriği yoktu. Başarısızlıktan önceki ortalama tamamlama süresi 117 saniyeydi.
SCRAPE30 kodunu kullanarak %30 indirimden yararlanın
Web Sitesini Ziyaret EtZyte, Glassdoor'da Bright Data'in %100 başarı oranına, ortalama 16 saniyelik en hızlı tamamlama süresiyle ulaştı. Zyte'in Extract API'si, başsız bir tarayıcı aracılığıyla JavaScript oluşturma etkinleştirilmiş halde Glassdoor URL'lerini işledi.
Nimble, Glassdoor'da ortalama 30 saniyelik tamamlama süresiyle %79'luk bir başarı oranına ulaştı. Glassdoor veri çıkarma işlemi, tarayıcı oluşturma ve vx10 sürücüsü ile yapılandırılmış Nimble'nin Web Extract API'si aracılığıyla gerçekleştirildi. Test penceresinde her beş sayfadan yaklaşık birinde iş detayı DOM öğeleri oluşturulamadı ve bu da CSS seçici doğrulamamız altında geçersiz kalmalarına neden oldu.
Glassdoor'un veri kazıma karşıtı politikaları ve riskleri
Glassdoor'un Kullanım Şartları, açıkça şunu yapmanıza izin vermemektedir: 1 :
- Platformdan herhangi bir veriyi kazıyın, ayıklayın veya madencilik yoluyla elde edin.
- Platforma herhangi bir amaçla erişmek için, açık yazılı izin alınmaksızın robot, örümcek, veri kazıyıcı veya diğer otomatik araçları kullanmak yasaktır.
- Siteye erişimi engellemek veya kısıtlamak için kullanılan herhangi bir önlemi (örneğin, robots.txt, IP engellemeleri veya CAPTCHA) atlatmak veya aşmak.
Glassdoor veri kazıma kıyaslama metodolojisi
Glassdoor iş ilanlarından veri çıkarma konusunda 5 farklı web kazıma sağlayıcısını karşılaştırdık; her sağlayıcı aynı 500 ayrı iş ilanı URL'sinden oluşan listeyi işledi. İstekler, aralarında 2 saniyelik bir duraklama olacak şekilde ardışık olarak gönderildi ve toplamda 2.500 çalıştırma gerçekleşti.
Sağlayıcılar ve entegrasyon
Bright Data, özel olarak geliştirilmiş Glassdoor Veri Kümesi API'si üzerinden çalıştırıldı ve bu API, ayrıştırılmış JSON verileri sağladı.
Oxylabs, Web Kazıyıcı API'sini source: universal parametresiyle çalıştırarak işlenmiş HTML döndürdü.
Decodo, Web Scraper API'sini headless: html ve proxy_pool: premium ayarlarıyla çalıştırdı ve işlenmiş HTML döndürdü.
Nimble, render: true ve driver: vx10 ayarlarıyla yapılandırılmış Web Extract API'sinden geçerek işlenmiş HTML üretti.
Zyte browserHtml: true parametresiyle Extract API'sinden geçerek yine işlenmiş HTML üretti.
Yanıt HTML olduğunda, Glassdoor'un iş detay öğelerine yönelik yerel CSS seçicilerinden geçirdik; bunlar arasında h1[id^="jd-job-title-"] , .EmployerProfile_employerNameHeading__bXBYr h4 ve .JobDetails_badgeStyle__xaoxT[data-test="location"] .
Zaman aşımı ve hız sınırlaması
Asenkron isteklerin yürütülmesinde 10 dakikalık bir üst sınır vardı. Bir sağlayıcı HTTP 429 hatası döndürürse, 30 saniye bekleyip en fazla 3 kez yeniden deniyorduk; bundan sonraki her şey URL için bir hata olarak kaydediliyordu.
Doğrulama kuralları
Her talep için üç kontrol uyguladık.
Gönderim için, sağlayıcının 200-399 aralığında veya 404 hatası veren bir HTTP kodu döndürmesi gerekiyordu. Yürütme için, eşzamansız işler (burada sadece Bright Data) zaman aşımından önce hatasız bir şekilde tamamlanmalıydı; eşzamanlı sağlayıcılar bu adımı otomatik olarak tamamlıyordu. Doğrulama için, yanıtın boş olmayan bir dize olarak job_title veya company_name içermesi gerekiyordu. Bright Data'in ayrıştırılmış JSON'u bunu doğrudan sağladı; HTML yanıtları için CSS seçici eşleşmelerine güvendik.
Ayrıca, sağlayıcının eksik bir listeyi doğru şekilde işaretlemesi nedeniyle, HTTP kodu, "sayfa bulunamadı" gövde içeriği veya sağlayıcıya özgü "ölü sayfa" sinyali yoluyla yapılan 404 tespitlerini de geçerli kabul ettik.
Hata içermeyen boş yanıtlar geçici olarak onaylandı ve sonunda tekrar incelendi: eğer başka bir sağlayıcı aynı URL'den gerçek iş verilerini çekmişse, boş yanıt başarısızlık olarak yeniden sınıflandırıldı. Bu durum, başka bir sağlayıcının aynı URL'deki gerçek verileriyle çelişmediği sürece güvenilir kabul ettiğimiz 404 hataları için geçerli değildi.
Bir çalıştırma ancak gönderim, yürütme ve doğrulama işlemlerinin tümü sorunsuz tamamlandığında tam bir başarı olarak kabul edildi.
Ölçülen metrikler
Doğrulama başarı oranı, üç kontrolün tamamından geçen URL sayısını gösterir.
Uçtan uca tamamlama süresi, isteğin gönderilmesinden yanıtın alınmasına kadar geçen gerçek zamandır ve saniye cinsinden ifade edilir. Bright Data'in eşzamansız veri kümesi API'si için bu süre, işin hazır olana kadar geçen yoklama penceresini de içerir.
Yapılandırılmış JSON döndüren sağlayıcılar için kullanılabilir meta veri alanları, her yanıttaki benzersiz alan adlarının birleşimidir. HTML sağlayıcıları için değer, kullandığımız beş CSS seçicisinin sabit kümesini yansıtır.
SSS'ler
Glassdoor verileri, maaş karşılaştırması, işe alım trendleri hakkında rekabetçi istihbarat, işveren markası izleme, yetenek piyasası araştırması ve iş ilanı toplama platformlarına veri sağlama açısından faydalıdır. Şirketler genellikle kendi stratejilerini belirlemek için rakip değerlendirmelerini, sektörler arası maaş aralıklarını ve benzer pozisyonlar için hangi şirketlerin işe alım yaptığını takip eder.
Glassdoor, CAPTCHA'lar, giriş duvarları, JavaScript ile oluşturulmuş içerik ve sık sık değişen sayfa düzeni kullanıyor. Sayfalar genellikle tam verileri göstermeden önce giriş istemleri görüntülüyor ve altta yatan HTML yapısı düzenli olarak değişerek seçici tabanlı veri çekme araçlarını bozuyor. Bu koruma önlemleri, bu kıyaslamadaki bazı sağlayıcıların özel altyapı olmadan veri çıkaramamalarının nedenidir.
Yorum yapan ilk kişi olun
E-posta adresiniz yayınlanmayacak. Tüm alanlar gereklidir.