What can you do with scraped job posting data?

Scraped job data is commonly used for hiring market analysis, salary benchmarking, competitive intelligence on which companies are hiring for which roles, talent pool mapping, recruitment automation, and feeding job aggregators. Companies also use it to track posting volume trends, geographic concentration, and how quickly competitors fill roles.

How fresh does scraped job data need to be?

It depends on the use case. For real-time recruitment automation, daily or hourly scrapes are common. For market reports, weekly or monthly scrapes are usually enough. Job postings tend to be removed quickly once filled, so older data loses value fast.

Is scraping job postings legal?

Scraping publicly accessible data is generally legal in most jurisdictions, but most major job platforms (LinkedIn, Glassdoor, Indeed) have Terms of Service that prohibit automated access. Several have brought legal cases against scrapers in the past. Commercial use cases warrant a legal review, especially when personal data is involved.

Why is scraping job postings hard?

Job platforms invest heavily in anti-scraping measures. CAPTCHAs, login overlays, JavaScript-rendered content, frequent layout changes, and IP-based rate limiting are standard. Some platforms also serve different DOM structures to bots versus regular users. These defenses are why many teams rely on managed scraping APIs rather than building their own scrapers.

Veri Web Veri Kazıma

En İyi 5 İş İlanı Veri Çekme API'sinin Karşılaştırması

Nazlı Şipi

güncellendi May 14, 2026

Bakınız etik normlar

5 büyük iş platformunda 5 önde gelen web kazıma sağlayıcısını toplam 12.500 istek çalıştırarak karşılaştırdık ve ardından her sağlayıcının başarı oranını, tamamlama süresini ve meta veri çıktısını ölçtük.

İş ilanı toplama araçları kıyaslaması

Test süreciyle ilgili daha fazla ayrıntı için kıyaslama metodolojisi bölümünü okuyabilirsiniz.

Sağlayıcıya göre alan adı kapsamı

✅ = destekleniyor, HTML döndürüyor
✅ ✅ = destekleniyor, yapılandırılmış veri döndürüyor
❌ = veri bulunamadı

Alan adına göre iş verisi çekme performansı

İş ilanı API'leri için kullanılabilir meta veri alanları

Bright Data, iş ilanları için yapılandırılmış JSON döndüren tek sağlayıcıdır. Aşağıdaki tablo, Bright Data'ün yapılandırılmış alanlarını ortak kategoriler halinde gruplandırarak, platform bazında nelerin mevcut olduğunu karşılaştırmanıza olanak tanır.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Takip Et

İş verisi çekme kıyaslama sonuçları

Bright Data, beş iş platformunda ortalama %90 başarı oranıyla kıyaslamada liderliği ele geçirdi. Kurulumu iki entegrasyon moduna ayrılmıştır:

LinkedIn , Indeed ve Glassdoor için özel veri seti API'leri (yapılandırılmış JSON).
Craigslist ve ZipRecruiter için Web Unblocker proxy'si (HTML olarak oluşturulmuş)

Dört alan adı %100 başarı oranıyla sonuçlandı: LinkedIn, Indeed, Craigslist ve Glassdoor. Tamamlama süreleri entegrasyona bağlıydı. Craigslist'teki Web Unblocker istekleri ortalama 1 saniyede, LinkedIn'de 7 saniyede ve Indeed'de 17 saniyede sonuçlandı. Glassdoor 53 saniye sürdü. ZipRecruiter, %53 ile eşiğin altında kalan tek alan adı oldu; burada Web Unblocker, URL'lerin bir kısmında belirteç süresi dolmuş yönlendirmelerle karşılaştı.

Web Kazıma API'lerinde %25 indirim kazanın, promosyon kodu API25

Web Sitesini Ziyaret Et

Oxylabs, beş platformda ortalama %77 başarı oranına ulaştı. Bu kıyaslama, yerel ayrıştırma için işlenmiş HTML döndüren source: universal kullanılarak Web Scraper API'si üzerinden gerçekleştirildi.

Dört alan adı iyi performans gösterdi: Craigslist'te %100, Indeed'de %100, LinkedIn'de %98 ve ZipRecruiter'da %90. Glassdoor ise istisna oldu; gerçek zamanlı uç nokta, Glassdoor'un JavaScript ağırlıklı sayfalarını kendi iç sınırları içinde işleyemediği için isteklerin çoğu HTTP 408 hatasıyla sonuçlandı. Çalışan alan adlarındaki tamamlama süreleri 11 ile 28 saniye arasında kaldı.

2.000 ücretsiz veri kazıma kredisi kazanın

Web Sitesini Ziyaret Et

Decodo 'nin genel performansı, %77'lik ortalama başarı oranıyla Oxylabs ile aynıydı. Web Kazıyıcı API'si headless: html ve proxy_pool: premium ile çalıştı ve yerel olarak CSS seçicileri aracılığıyla ayrıştırdığımız işlenmiş HTML döndürdü.

Platform bazındaki sonuçlar neredeyse Oxylabs ile aynıydı: Craigslist'te %100, Indeed'de %100, LinkedIn'de %98, ZipRecruiter'da %89 ve Glassdoor'da %0. Ancak Glassdoor'daki başarısızlık farklıydı; çoğu istek sayfa yüklenmeden önce API düzeyinde reddedildi. Çalışan alan adlarındaki tamamlama süreleri 12 ila 29 saniye arasında değişiyordu ve bu da Decodo'yi alanın daha yavaş yarısına yerleştiriyordu.

SCRAPE30 kodunu kullanarak %30 indirimden yararlanın

Web Sitesini Ziyaret Et

Nimble'ün genel sonucu %69 oldu ve kayıpların çoğu tek bir platformla ilgiliydi. Web Extract API'si tarayıcı oluşturma etkinleştirilmiş halde çalıştı ( render: true , driver: vx10 ).

Craigslist %100, LinkedIn %86, Glassdoor %79 ve ZipRecruiter %69 oranında sonuç verdi. Indeed ise %14'e düştü çünkü oluşturulan sayfalar, seçicilerimizin hedeflediği iş detayı DOM öğelerini nadiren içeriyordu. Burada dikkat çekici olan hızdı: Indeed, Craigslist, LinkedIn ve ZipRecruiter 6 ila 8 saniye içinde sonuç verirken, Glassdoor 30 saniye ile tek istisna oldu.

Zyte, %58 ile en düşük genel başarı oranını kaydetti. Extract API'si browserHtml: true ile çalıştı ve sayfaları başsız bir tarayıcı üzerinden işledi. Üç alan adı sorunsuz çalıştı: Craigslist'te %100, Glassdoor'da %100 ve ZipRecruiter'da %89. Diğer ikisi tamamen başarısız oldu:

LinkedIn, 500 isteğin tamamına HTTP 451 Yasal Nedenlerle Kullanılamıyor hatası döndürdü.
Indeed tarafından oluşturulan HTML, iş detaylarına ait DOM öğelerini hiçbir zaman içermedi.

Çalışma alanlarındaki işlem tamamlama süreleri ZipRecruiter'da 7 saniyeden Craigslist'te 17 saniyeye, Glassdoor'da ise 16 saniyeye kadar değişti.

İş kaydı tutma kıyaslama metodolojisi

Beş büyük iş platformunda (LinkedIn, Indeed, Glassdoor, Craigslist ve ZipRecruiter) beş önde gelen web kazıma sağlayıcısını karşılaştırdık ve toplamda 12.500 istek çalıştırdık. Her sağlayıcıya, platform başına aynı 500 ayrı iş ilanı URL'si seti, istekler arasında 2 saniyelik gecikmeyle ardışık olarak gönderildi.

Sağlayıcılar ve entegrasyon

Her sağlayıcı, önünde özel proxy veya üçüncü taraf ara yazılım bulunmayan kendi üretim uç noktasında çalıştı.

Bright Data iki entegrasyon modunu birleştirdi. LinkedIn, Indeed ve Glassdoor için yapılandırılmış JSON döndüren özel Veri Kümesi API'lerini kullandı. Craigslist ve ZipRecruiter için ise işlenmiş HTML döndüren Web Unblocker proxy'sini kullandı.

Oxylabs, Web Kazıyıcı API'sini source: universal parametresiyle çalıştırarak her alanda işlenmiş HTML döndürdü.

Decodo, Web Scraper API'sini headless: html ve proxy_pool: premium parametreleriyle çalıştırdı ve işlenmiş HTML döndürdü.

Nimble, render: true ve driver: vx10 parametreleriyle Web Extract API'sinden geçerek işlenmiş HTML üretti.

Zyte browserHtml: true parametresiyle Extract API'sinden geçerek yine işlenmiş HTML üretti.

HTML yanıtları için, her platformun iş detay öğelerini (iş unvanı, şirket adı, konum, maaş, istihdam türü ve sayfa göstergesi) hedefleyen CSS seçicileri kullanarak sayfayı yerel olarak ayrıştırdık.

Zaman aşımı ve hız sınırlaması

Asenkron isteklerin yürütülmesinde 10 dakikalık bir üst sınır vardı. HTTP 429 yanıtları, 30 saniyelik bir bekleme süresi ve en fazla 3 yeniden denemeyi tetikliyordu; bundan sonraki her şey URL için bir hata olarak kaydediliyordu.

Doğrulama kuralları

Her talep üç aşamadan geçirildi.

Gönderim kontrolü, sağlayıcıdan 200 ile 399 arasında veya 404 HTTP durum kodu gerektiriyordu. Yürütme kontrolü, eşzamansız işlerin hatasız ve zaman aşımı süresi içinde tamamlanmasını gerektiriyordu; eşzamanlı sağlayıcılar otomatik olarak geçti. Doğrulama kontrolü, job_title veya company_name en az birinin boş olmayan bir dize olarak döndürülmesini gerektiriyordu. JSON sağlayıcılar için bu, ayrıştırılmış yanıttan; HTML sağlayıcılar için ise CSS seçici eşleşmelerinden geliyordu.

404 sayfası (HTTP 404, "sayfa bulunamadı" içeriği veya sağlayıcının açıkça belirttiği "ölü sayfa" sinyali) tespit eden bir istek de geçerli sayıldı, çünkü sağlayıcı mevcut olmayan bir listeyi doğru bir şekilde tanımlamıştı.

Hata içermeyen boş yanıtlar başlangıçta geçerli olarak kabul edildi, ardından tekrar kontrol edildi: başka bir sağlayıcı aynı URL'den gerçek iş verileri çıkardıysa, boş yanıt geçersiz olarak işaretlendi. 404 hataları bu işlemden muaf tutuldu; bir sağlayıcının açıkça verdiği "sayfa mevcut değil" sinyali, başka bir sağlayıcıdan çıkarılan gerçek verilerle çelişmediği sürece güvenilir kabul edildi.

Bir çalıştırma, ancak gönderim, yürütme ve doğrulama işlemlerinin tümü başarılı olursa genel olarak başarılı sayıldı.

Ölçülen metrikler

Doğrulama başarı oranı, üç kontrolün tamamından geçen URL'lerin oranıdır.

Uçtan uca tamamlama süresi, isteğin gönderilmesinden yanıtın alınmasına kadar geçen gerçek süredir ve saniye cinsinden ifade edilir. Asenkron sağlayıcılar için bu süre, veri kümesi işi tamamlanana kadar geçen yoklama süresini de içerir.

Yapılandırılmış JSON döndüren sağlayıcılar için kullanılabilir meta veri alanları, tüm yanıtlardaki benzersiz alan sayısının bir küme birleşimi olarak hesaplanmasıyla elde edilir. HTML sağlayıcıları için ise bu, platform başına kullandığımız sabit beş seçicili CSS şemasıdır.

SSS'ler

Kazınarak elde edilen iş verileri genellikle işe alım piyasası analizi, maaş karşılaştırması, hangi şirketlerin hangi pozisyonlar için işe alım yaptığına dair rekabet istihbaratı, yetenek havuzu haritalaması, işe alım otomasyonu ve iş ilanı toplayıcılarına veri sağlama amacıyla kullanılır. Şirketler ayrıca bu verileri ilan hacmi trendlerini, coğrafi yoğunlaşmayı ve rakiplerin pozisyonları ne kadar hızlı doldurduğunu takip etmek için de kullanırlar.

Kullanım senaryosuna bağlıdır. Gerçek zamanlı işe alım otomasyonu için günlük veya saatlik veri çekme işlemleri yaygındır. Piyasa raporları için ise genellikle haftalık veya aylık veri çekme işlemleri yeterlidir. İş ilanları doldurulduktan sonra hızla kaldırıldığı için eski veriler hızla değerini kaybeder.

Herkese açık verilerden veri çekmek çoğu yargı bölgesinde genellikle yasaldır, ancak çoğu büyük iş platformunun (LinkedIn, Glassdoor, Indeed) otomatik erişimi yasaklayan Hizmet Şartları vardır. Geçmişte birçoğu veri çekenlere karşı dava açmıştır. Ticari kullanım durumları, özellikle kişisel veriler söz konusu olduğunda, hukuki bir incelemeyi gerektirir.

İş bulma platformları, veri kazıma karşıtı önlemlere büyük yatırımlar yapıyor. CAPTCHA'lar, giriş katmanları, JavaScript ile oluşturulmuş içerik, sık düzen değişiklikleri ve IP tabanlı hız sınırlaması standart uygulamalar arasında yer alıyor. Bazı platformlar ayrıca botlara ve normal kullanıcılara farklı DOM yapıları sunuyor. Bu savunmalar nedeniyle birçok ekip, kendi veri kazıyıcılarını oluşturmak yerine yönetilen veri kazıma API'lerine güveniyor.

Nazlı Şipi

Yapay Zeka Araştırmacısı

Takip Et

Nazlı, AIMultiple'da veri analisti olarak çalışmaktadır. Daha önce çeşitli sektörlerde veri analizi alanında deneyim kazanmış olup, karmaşık veri kümelerini eyleme dönüştürülebilir içgörülere dönüştürme konusunda çalışmıştır.

Tam Profili Görüntüle