Yelp yorumlarının çıkarılmasının performansını değerlendirmek için, 500 işletme sayfası URL'sini 5 farklı web kazıma sağlayıcısına gönderdik ve toplam 2.500 istek oluşturduk. Ardından başarı oranlarını, tamamlanma sürelerini ve meta veri çıktılarını karşılaştırdık.
Yelp yorumlarını kazıma kıyaslaması
Test süreciyle ilgili daha fazla ayrıntı için kıyaslama metodolojisini okuyabilirsiniz.
Decodo ve Oxylabs Yelp için özel bir veri kazıma API'si sunmadığından, bunun yerine web engelleme kaldırma ürünlerini kullandık; bu da her iki sağlayıcı için de bu alan adında %0 başarı oranıyla sonuçlandı.
Sağlayıcıya göre yanıt formatı ve kullanılabilir meta veri alanları
✅✅ Yapılandırılmış JSON: Sağlayıcı, ek ayrıştırmaya gerek kalmadan kullanıma hazır, adlandırılmış alanlara sahip ayrıştırılmış inceleme verilerini döndürür.
✅ HTML: Sağlayıcı, işlenmiş HTML'yi döndürür.
Bright Data, özel Yelp Yorumları veri seti API'sini kullanarak Yelp'te %77 ile en yüksek başarı oranına ulaştı ve bu alanda yapılandırılmış JSON döndüren tek sağlayıcı oldu. Her yanıt, yorum metni, puanlama, tepkiler, yanıtlar, yorumcu bilgileri, işletme bilgileri ve yorum resimlerini kapsayan, yorum başına 17 alan içeriyordu.
Oxylabs, Yelp için Web Unblocker proxy'sini kullandı; bu proxy, yapılandırılmış veri yerine işlenmiş HTML döndürüyor. Engelleyici, Yelp sayfalarından yorum içeriğini çıkaramadı ve bu alan adında %0 başarı oranıyla sonuçlandı. Yelp'in yoğun JavaScript tabanlı işleme ve bot karşıtı korumaları, proxy'nin kullanılabilir HTML döndürmesini engelledi.
Decodo, JavaScript oluşturma için X-SU-Headless başlığıyla web engelleme kaldırma proxy'sini kullandı. Proxy, 500 Yelp URL'sinin tamamında boş veya hata yanıtları döndürdü ve bu da %0 başarı oranıyla sonuçlandı. Oxylabs gibi, Decodo'ün genel amaçlı engelleme kaldırma proxy'si de Yelp'in sayfa yapısını işleyemedi.
SerpAPI, Yelp işletme sayfalarından yorumları doğrudan çeken ve bunları yapılandırılmış JSON olarak sunan bir Yelp Yorumları API'si sağlar. Her yanıt, yorum metnini, yıldız derecelendirmesini, yorumcu profil ayrıntılarını (elit statüsü, arkadaş sayısı ve fotoğraf sayısı dahil) ve işletmenin tamamındaki yorum dili dağılımlarını içerir.
Zyte, tarayıcı HTML'si etkinleştirilmiş Extract API'sini kullanarak sayfaları başsız bir tarayıcı üzerinden işleyip HTML döndürdü. Yelp'te %57'lik bir başarı oranına ve ortalama 20 saniyelik bir tamamlama süresine ulaşarak bu alanda çalışan üç sağlayıcı arasında en hızlısı oldu. İnceleme verileri, CSS seçicileri kullanılarak işlenmiş HTML'den çıkarıldı.
Nimble, JavaScript oluşturma özelliği etkinleştirilmiş Web API'sini kullanarak, CSS seçicileriyle ayrıştırılmış HTML döndürdü. Yelp'te %31'lik bir başarı oranı ve ortalama 32 saniyelik bir tamamlama süresi elde etti. Yelp'in dinamik sayfa yapısı, test edilen URL'lerin çoğunda veri çıkarma işlemini sınırladı; başarısızlıkların çoğu, inceleme içeriğinin tam olarak oluşturulmadığı sayfalardan kaynaklandı.
Yelp'ten veri çekmek neden zor?
Yelp, yorum toplama kıyaslama testimizde en zorlu platformlardan biriydi; beş sağlayıcıdan ikisi %0 başarı oranı kaydederken, yalnızca biri %77'nin üzerinde bir başarı oranına ulaştı.
Yelp, yorum içeriğini JavaScript aracılığıyla dinamik olarak yükler; bu da statik HTML'nin gerçek yorum verileri içermeyen sayfa şablonlarını döndürdüğü anlamına gelir. Tam tarayıcı oluşturma özelliği olmayan genel amaçlı engelleyici proxy'lere güvenen sağlayıcılar, herhangi bir yorumu çıkaramadı.
Yelp ayrıca yorumları "önerilen" ve "önerilmeyen" kategorilerine ayırır ve varsayılan sayfa yüklemesinde yalnızca önerilen yorumlar görünür. Önerilmeyen yorumlara erişmek, çoğu veri kazıma yapılandırmasının ele almadığı ek etkileşim gerektirir.
Ayrıca Yelp, CAPTCHA'lar ve istek parmak izi alma gibi bot karşıtı önlemler uygulamaktadır. Özel Yelp API'leri veya gizli yapılandırmalara sahip başsız tarayıcılar kullanan sağlayıcılar daha yüksek başarı oranlarına ulaşırken, standart proxy tabanlı yaklaşımları kullananlar tamamen başarısız oldu.
Yelp yorumlarından elde ettiğiniz verilerle neler yapabilirsiniz?
- İtibar takibi : Müşterilerinizin işletmenizi zaman içinde nasıl değerlendirdiğini izleyin ve tekrarlayan şikayetleri büyümeden önce tespit edin.
- Rakip analizi : Aynı bölgedeki rakip işletmelerin yorum hacimlerini, puanlarını ve müşteri memnuniyetini karşılaştırın.
- Konum zekası : Hangi şubelerin iyi performans gösterdiğini ve hangilerinin ilgiye ihtiyaç duyduğunu belirlemek için birden fazla konumdaki değerlendirme kalıplarını analiz edin.
- Duygu analizi : Müşteri memnuniyetindeki eğilimleri, ortak övgü noktalarını ve sık karşılaşılan sorun noktalarını tespit etmek için büyük ölçekte inceleme metinlerini işleme tabi tutun.
- Pazar araştırması : Yorumcuların en çok bahsettiği konuları analiz ederek belirli bir kategori veya mahalledeki tüketici tercihlerini anlamak.
Yelp yorumlarını kazıma kıyaslama metodolojisi
500 Yelp işletme sayfası URL'sini 5 farklı web kazıma sağlayıcısı üzerinden çalıştırarak toplam 2.500 istek ürettik. Sağlayıcılar, en az 100 çalışanı olan web kazıma şirketleri arasından seçildi. Her sağlayıcıya aynı URL seti verildi ve üç ölçütü değerlendirdik: başarı oranı, tamamlama süresi ve kullanılabilir meta veri alanları.
Yanıt türleri
Bir sağlayıcı, 17 ayrıştırılmış değerlendirme alanı içeren yapılandırılmış JSON döndürdü. Diğer dördü ise işlenmiş HTML döndürdü; bu HTML'den, beş standart alan için (yorumcu adı, yorum metni, puan, yorum tarihi ve yorum başlığı) CSS seçicileri kullanarak değerlendirme verilerini çıkardık.
Doğrulama
Yanıtlar üç aşamada doğrulandı:
- Gönderim : Sağlayıcının 200-399 arasında veya 404 hatası veren bir HTTP durum kodu döndürmesi gerekiyordu.
- Yürütme : Asenkron işlemeye sahip sağlayıcılar için, işin zaman aşımı veya hata olmadan tamamlanması gerekiyordu.
- Veri kontrolü : Yanıtın çıkarılabilir değerlendirme verileri içermesi gerekiyordu. JSON için, en az bir değerlendirmenin review_text dizesi veya rating tamsayısı içermesi gerekiyordu. HTML için, en az bir CSS seçicisinin içerik döndürmesi gerekiyordu.
Her bir sağlayıcıyı, bozuk URL'ler, bilinen 404 sayfaları ve hiç yorum bulunmayan sayfalarla önceden test ederek bu durumları nasıl raporladıklarını anlamaya çalıştık. Yanıtlar sağlayıcıya göre değişiklik gösterdi; açık hata kodlarından HTTP 404 durumuna ve boş veri paketlerine kadar farklı sonuçlar elde edildi. Bir sağlayıcı eksik veya boş bir sayfayı doğru şekilde bildirdiğinde, sonuç geçerli olarak kabul edildi.
Ardından, tüm veri kümesine sağlayıcılar arası bir kontrol uygulandı: Bir sağlayıcının veri döndürmediği bir URL'de başka bir sağlayıcının başarılı bir şekilde yorumları çıkardığı durumlarda, bu boş sonuç başarısızlık olarak işaretlendi. Bu, yorum içermeyen sayfaları, sağlayıcının mevcut verileri çıkaramadığı durumlardan ayırmamızı sağladı.
Tamamlama süresi
Gerçek zamanı, ilk istekten son yanıta kadar geçen süre olarak ölçtük. Asenkron iş akışları kullanan sağlayıcılar için bu süre, bekleme ve sorgulama sürelerini de içerir.
URL seçimi
500 URL, çeşitli yorum sayılarına ve işletme türlerine sahip Yelp işletme sayfalarından alınmıştır. Test öncesinde yerel ayar parametreleri, mobil URL'ler ve geçersiz formatlar kaldırılmıştır.
Test koşulları
Tüm sağlayıcılar aynı kısıtlamalar altında faaliyet gösterdi:
- İstekler tek tek işlenir, paralel yürütme yoktur.
- İstekler arasında 2 saniyelik gecikme
- HTTP 429 hatası, 30 saniyelik bekleme süresi ve en fazla 3 yeniden deneme ile ele alınır.
- 300 saniyelik gönderim zaman aşımı
- 600 saniyelik yürütme zaman aşımı
- Sağlayıcı başına URL başına tek çalıştırma
SSS'ler
Konut proxy rotasyonu, başsız tarayıcı oluşturma ve yerleşik hız sınırlaması sunan sağlayıcıları kullanın. İstekler arasında gecikmeler eklemek (kıyaslama testimizde 2 saniye) ve HTTP 429 yanıtlarını yeniden denemelerle ele almak, istikrarlı erişimi korumaya yardımcı olur. Yelp'in özel API'leri bu korumaların çoğunu dahili olarak halleder.
Evet, Yelp tüm konumlar ve kategorilerde aynı URL yapısını kullanır. İşletme URL'sini sağlayarak herhangi bir işletme sayfasından yorumları çekebilirsiniz. Farklı şehirler veya işletme türleri arasında sağlayıcı yapılandırmasında herhangi bir değişiklik yapılması gerekmez.
Veri kazıma sağlayıcıları, CAPTCHA'ları otomatik çözümleme, proxy rotasyonu ve tarayıcı parmak izi yönetimi yoluyla ele alırlar. Karşılaştırma testimizde, özel Yelp API'lerini kullanan sağlayıcılar, genel amaçlı engelleyici proxy'lere kıyasla bu önlemleri daha güvenilir bir şekilde atlattılar. Kalıcı CAPTCHA'larla karşılaşırsanız, özel bir Yelp uç noktası veya başsız tarayıcı oluşturma özelliğine sahip bir sağlayıcıya geçmek genellikle sorunu çözer.
Yelp varsayılan olarak işletme sayfasında yalnızca önerilen yorumları gösterir. Önerilmeyen yorumlar ayrı bir bağlantının arkasında gizlenir ve erişmek için ek sayfa etkileşimi gerektirir. Bazı özel Yelp API'leri, önerilmeyen yorumları dahil etmek için bir parametreyi desteklerken, HTML tabanlı sağlayıcılar genellikle varsayılan sayfa yüklemesinde görünen yalnızca önerilen yorumları döndürür.
Yorum yapan ilk kişi olun
E-posta adresiniz yayınlanmayacak. Tüm alanlar gereklidir.