Web veri kazıma araçlarının Expedia'nın CAPTCHA doğrulama yöntemlerini, dinamik JavaScript oluşturmayı ve agresif bot tespitini ne kadar iyi ele aldığını karşılaştırmak için, 2.500 istek üzerinden 5 önde gelen web veri kazıma aracını test ettik ve her sağlayıcının başarı oranını ve tamamlama süresini takip ettik.
Expedia veri kazıma kıyaslaması
Test sürecimiz hakkında daha fazla bilgi için kıyaslama metodolojimizi okuyabilirsiniz.
En İyi 5 Expedia Veri Çekme API'si
Bright Data , Expedia kıyaslamasında %99 ile en yüksek başarı oranına ve 12 saniye ile en hızlı ortalama tamamlama süresine sahipti.
Expedia URL'lerini Bright Data Web Unlocker bölgesinden geçirdik ve işlenmiş HTML geri aldık. Engelleyici, CAPTCHA doğrulamalarını ve bot tespitini kendi başına halletti, ek bir yapılandırmaya gerek kalmadı.
Oxylabs %85 başarı oranı ve ortalama 25 saniyelik tamamlama süresiyle ortada yer alıyor. Expedia URL'leri, JavaScript yürütmesi için render: html ile evrensel kaynak kullanılarak Gerçek Zamanlı Web Kazıyıcı API'sinden geçirildi. Başarısız olan 75 isteğin çoğu HTTP 200 döndürdü, ancak otel detay sayfası yerine Expedia'nın genel "Seyahat Alışverişi" şablonunu kullandı; bu da doğrudan engelleme yerine yumuşak bir yönlendirme anlamına geliyor. Birkaç istek de daha yoğun sayfalarda gerçek zamanlı uç noktadan HTTP 408 zaman aşımı hatası verdi.
Decodo için, JavaScript ile oluşturulmuş HTML'i geri almak üzere target: universal ve headless: html ile Web Scraper API v2'yi kullandık. Sonuçlar Oxylabs'a yakın çıktı: %78 başarı ve ortalama tamamlanma süresi 27 saniye. Başarısız olan 109 isteğin neredeyse tamamı HTTP 200 döndürdü, ancak HTML'de otel sayfası CSS seçicileri eksikti; bu da Oxylabs'un karşılaştığı aynı yumuşak yönlendirme modelidir. Expedia, gerçek otel sayfası yerine farklı bir şablon döndürüyor.
Zyte için, browserHtml: true ile Extract API'yi kullandık. Expedia'nın otel sayfaları büyük ölçüde JavaScript tabanlıdır, bu nedenle düz bir HTTP isteği çoğunlukla boş işaretleme döndürür. Her sayfayı gerçek bir başsız Chromium'dan geçirmek ve HTML'yi yakalamadan önce JavaScript'in otel ayrıntılarını oluşturmasını beklemek için Zyte'e ihtiyacımız vardı. Bu bekleme süresi, tamamlama sürelerini ortalama 67 saniyeye kadar çıkardı ve bu da kıyaslamadaki en uzun süre oldu.
Zyte'ün başarı oranı %95'e ulaştı. 22 başarısızlığın tamamı HTTP 520 ("Web Sitesi Yasağı") döndürdü; bu, Zyte'ün, bot algılamasına takılmadan hedef siteden içerik döndürememesi durumunda gönderdiği hatadır. Sayfaya daha fazla zaman tanımak için waitForSelector gibi ekstra actions ile denemeler yaptık, ancak önceki testlerimizde bu ekstra beklemeler aslında 520 oranını artırdı, çünkü tarayıcı Expedia'da ne kadar uzun süre açık kalırsa, o kadar çok bot sinyali gönderiyordu. Son çalıştırma için daha basit olan browserHtml: true kurulumunu kullandık.
Nimble, %23 ile en düşük başarı oranına sahipti; bunun başlıca nedeni, başsız tarayıcı Expedia'yı işlerken isteklerin yarısından fazlasının HTTP 500 ("sorgu yanıtı indirilemiyor") hatası döndürmesiydi.
Extract API'yi tarayıcıda görüntüleme etkinleştirilmiş ve vx10 gizli sürücüsü ile yapılandırdık.
Expedia veri çekme zorlukları
Expedia, güçlü bot algılaması, yoğun istemci tarafı oluşturma ve sayfa türleri arasında örtüşen bir kullanıcı arayüzü çerçevesi nedeniyle, güvenilir bir şekilde veri kazımak için en zorlu büyük sitelerden biridir. Expedia veri kazıma testinde karşılaştığımız özel sorunlar şunlardır.
CAPTCHA ve bot tespiti
Expedia, doğrudan isteklerde Cloudflare tarzı bir doğrulama sayfası içeren HTTP 429 hatası döndürüyor. Gerçek bir başsız tarayıcıya ve temiz bir proxy havuzuna sahip olmayan sağlayıcılar bunu aşamıyor. Expedia veri çekme kıyaslamasında, Zyte'ün 22 adet HTTP 520 "Web Sitesi Yasaklaması" yanıtının kaynağı buydu.
Genel bir şablona yumuşak yönlendirmeler
Expedia, istenen otel detayları yerine genellikle genel bir "Seyahat alışverişi" sayfasıyla HTTP 200 yanıtı döndürüyor. Yanıt başarılı görünüyor ancak içeriği yanlış. Doğrulama bunu başarılı olarak sayıyor; otel özelinde CSS seçicilerinin eşleşmesini gerektirerek bunu yakaladık.
Yoğun JavaScript işleme
Otel verileri yalnızca JavaScript çalıştırıldıktan sonra görünür. Düz HTTP istekleri çoğunlukla boş işaretleme döndürür. Zyte'ün ortalama 67 saniyelik süresi, tam render işleminin tamamlanmasını beklemekten kaynaklanmaktadır.
CSS sınıf çakışmaları
Expedia'nın uitk- tasarım sistemi ana sayfa, arama ve otel sayfalarında kullanılmaktadır. Bir sağlayıcı yanlış sayfaya yönlendirilse bile genel bir seçiciyle eşleşebilir. En az bir otel özelinde eşleşme gerektirecek şekilde doğrulamayı sıkılaştırdık.
Expedia'dan hangi verileri kazıyabilirsiniz?
Test edilen sağlayıcılardan hiçbiri Expedia için yapılandırılmış JSON döndürmedi; her başarılı yanıt, daha sonra yerel olarak ayrıştırılması gereken işlenmiş HTML olarak geri döndü.
Expedia'nın herkese açık sayfalarından aşağıdaki veri türleri toplanabilir:
- Oteller: otel adı, kimlik numarası, marka zinciri, tam adres, semt, puanlama skoru, puanlama etiketi, yorum sayısı, bireysel yorumlar, açıklamalar, olanaklar, fotoğraflar, giriş/çıkış politikaları
- Fiyatlandırma ve müsaitlik: gecelik fiyat, toplam fiyat, para birimi, vergiler, oda tipleri, seçilen tarihler için müsaitlik
- Uçuşlar: güzergah detayları, havayolları, kalkış ve varış saatleri, ücretler, aktarma sayısı, bekleme süreleri
- Araç kiralama: araç sınıfı, teslim alma ve bırakma yerleri ve saatleri, günlük ücretler, dahil edilen kilometre
- Tatil paketleri: otel + uçak + araç kiralama fırsatları, toplam paket fiyatı, dahil edilen bileşenler.
- Arama ve listeleme sayfaları: varış noktasına göre sıralanmış sonuçlar, filtreler, toplu fiyat aralıkları, sıralama düzeni
Expedia veri kazıma kıyaslama metodolojisi
Expedia otel sayfalarından veri çıkarma konusunda 5 farklı web kazıma sağlayıcısını karşılaştırdık; her sağlayıcıya aynı 500 otel detay URL'sinden oluşan liste verildi.
Seçici kurulumu
Bu karşılaştırmada tüm sağlayıcılar HTML döndürdü, bu nedenle her yanıt Expedia'nın otel detay öğelerini hedefleyen yerel CSS seçicileri aracılığıyla işlendi.
Zaman aşımı ve hız sınırlaması
İşlem zaman aşımı 10 dakikaydı. Bir sağlayıcı HTTP 429 hatası döndürürse, 30 saniye bekleyip en fazla 3 kez yeniden denedik; bundan sonraki her şey başarısızlık olarak kaydedildi.
Doğrulama kuralları
Her talep için üç kontrol uyguladık.
Gönderim için, sağlayıcının 200-399 aralığında veya 404 hatası veren bir HTTP kodu döndürmesi gerekiyordu. Yürütme için, eşzamansız işlerin hatasız bir şekilde zaman aşımından önce tamamlanması gerekiyordu; eşzamanlı sağlayıcılar bu adımı otomatik olarak tamamlıyordu. Doğrulama için, yanıtın yukarıdaki CSS seçicileri aracılığıyla otel başlığı, puan veya puan etiketinden en az birini boş olmayan bir değer olarak göstermesi gerekiyordu.
Durum kodu 201-399 aralığında veya 404 olduğunda, sağlayıcının 200 dışındaki bir yanıtı doğru şekilde işlediği (yönlendirme, sayfa bulunamadı vb.) varsayımıyla doğrulama otomatik olarak başarılı sayıldı ve CSS çıkarma işlemi atlandı. Yalnızca HTTP 200 yanıtları CSS eşleştirmesinden geçti.
Tam çalıştırmanın ardından, hiçbirinin yanlış pozitif olmadığından emin olmak için otomatik olarak onaylanan her istek üzerinde takip kontrolü yaptık. Her URL için, otomatik onay sonucunu diğer sağlayıcıların sonuçlarıyla karşılaştırdık: eğer başka bir sağlayıcı aynı URL'den gerçek otel verilerini çekmiş olsaydı, bu sağlayıcı ise içerik olmadan otomatik olarak onaylanmış olsaydı, otomatik onayı başarısızlığa çevirirdik. Uygulamada, hiçbir Expedia URL'si bu değişikliği tetiklemedi, çünkü her otomatik onay gerçekten 200 olmayan bir yanıta karşılık geliyordu ve veri kümesinde 404 URL'si bulunmuyordu.
Bir çalıştırma ancak gönderim, yürütme ve doğrulama işlemlerinin tümü sorunsuz tamamlandığında tam bir başarı olarak kabul edildi.
Ölçülen metrikler
Doğrulama başarı oranı, üç kontrolün tamamından geçen URL sayısını gösterir.
Uçtan uca tamamlama süresi, isteğin gönderilmesinden yanıtın alınmasına kadar geçen gerçek zaman dilimidir ve saniye cinsinden ifade edilir. Hem ortalama hem de medyan değerler raporlanır.
SSS'ler
Expedia, oteller, uçuşlar, araç kiralama ve tatil paketleri genelinde fiyatlandırma, müsaitlik ve yorumları sunar. Bu verilerin kazınması genellikle rakip fiyat takibi, pazar ve trend araştırması, yorum ve duygu analizi için kullanılır.
Evet. Expedia, farklı fiyatlar, para birimleri ve kullanılabilirlik seçenekleriyle ülkeye özel içerik sunmaktadır. Çoğu veri kazıma sağlayıcısı, sayfanın hangi bölgesel sürümünün döndürüleceğini kontrol etmek için ülke veya coğrafi parametre sunar.
Expedia'nın herkese açık sayfalarına kimlik doğrulaması olmadan erişilebilir ve kamuya açık web verilerinin kazınması birçok yargı bölgesinde yasal kabul edilir, ancak kurallar farklılık gösterir. Expedia'nın Hizmet Şartları otomatik erişimi kısıtlar, bu nedenle pratik hususlar önemlidir: hız sınırlarına uyun, herhangi bir oturum açma işlemini atlamayın, kişisel verileri toplamaktan kaçının ve kazınmış verileri ticari olarak kullanmadan önce yargı bölgenizin kurallarını inceleyin.
Bu araştırmayı kaynak gösterin
Yayınlayacağınız yere uygun formatı seçin. Bağlantılı sürümü CMS'inize yapıştırmak, geri bağlantıyı korur.
@misc{ipi2026,
author = {Şipi, Nazlı},
title = {{En İyi Expedia Veri Kazıyıcıları: Bright Data, Oxylabs ve Decodo}},
year = {2026},
month = may,
howpublished = {\url{https://aimultiple.com/expedia-scraper}},
note = {AIMultiple. Retrieved Mayıs 20, 2026}
}
Yorum yapan ilk kişi olun
E-posta adresiniz yayınlanmayacak. Tüm alanlar gereklidir.