Web kazıma sağlayıcılarının Google inceleme çıkarma işlemini nasıl ele aldığını test etmek için, 5 sağlayıcı üzerinden 500 Google Haritalar işletme URL'si üzerinde 2.500 istek çalıştırdık ve başarı oranını, tamamlanma süresini ve meta veri çıktısını ölçtük.
Google Haritalar, veri kazıma kıyaslamalarını inceliyor.
Test süreciyle ilgili daha fazla ayrıntı için kıyaslama metodolojisini okuyabilirsiniz.
Sağlayıcıya göre yanıt formatı ve kullanılabilir meta veri alanları
Google Haritalar, sağlayıcıları inceliyor ve karşılaştırma sonuçları sunuyor.
Bright Data, özel Google Haritalar İncelemeleri veri seti API'sini kullanarak Google Haritalar'da %39 başarı oranına ulaştı ve inceleme başına 26 alan içeren yapılandırılmış JSON verisi döndürdü; bu alanlar arasında incelemeyi yapan kişinin adı, inceleme metni, puanlama, tarih, işletme sahibinin yanıtları, fotoğraflar ve mekan düzeyindeki meta veriler yer alıyordu. Bu alanda yapılandırılmış veri döndüren tek sağlayıcıydı.
Oxylabs, yerel arama sonuçları için özel bir Google Haritalar kaynağı sunmaktadır, ancak bu kaynak, bireysel işletme sayfalarından yorumları çıkarmak yerine konum tabanlı listeleri almak için tasarlanmıştır. Özel bir yorum çıkarma kaynağı mevcut olmadığından, herhangi bir URL'yi kabul eden genel Google kaynak API'sini (kaynak: Google) kullandık. API, 500 URL'nin tamamında boş sonuçlar döndürdü ve bu da %0 başarı oranına yol açtı.
Decodo , Google Arama ve Google Haritalar yerel sonuçları da dahil olmak üzere çeşitli Google kazıma yapılandırmaları sunmaktadır, ancak Google Haritalar inceleme çıkarma için özel bir uç noktası bulunmamaktadır. Yedek olarak JavaScript işlemeli web engelleyici proxy'yi kullandık, ancak 500 URL'nin tamamında boş veya hata yanıtları döndürdü ve bu da %0 başarı oranıyla sonuçlandı.
SerpAPI, haritalardaki değerlendirmelerden yapılandırılmış JSON verileri döndüren özel bir Haritalar Değerlendirme API'si sunar. Bu veriler arasında değerlendirme metni, puanlar, değerlendirici bilgileri ve yemek, hizmet ve atmosfer için konu bahsi ve alt puanlar gibi toplu meta veriler bulunur.
Zyte, başsız tarayıcı oluşturma yöntemiyle Extract API'sini kullanarak Google Haritalar'da %41 ile en yüksek başarı oranına ulaştı. İnceleme verileri, CSS seçicileri kullanılarak oluşturulan HTML'den çıkarıldı. Bu, alan adındaki en yüksek puan olsa da, incelemelerin tam olarak yüklenmesi için JavaScript yürütülmesi ve genellikle kullanıcı etkileşimi gerektirdiği Google Haritalar'dan veri çekmenin daha geniş zorluğunu yansıtıyor.
Nimble, JavaScript oluşturma özelliği etkinleştirilmiş Web API'sini kullanarak, CSS seçicileriyle ayrıştırılmış HTML döndürdü. Google Haritalar'da %1'lik bir başarı oranı kaydetti. Sayfalar oluşturulmuş olsa da, çoğu durumda yorum içeriği yüklenmedi; bu da Google Haritalar'ın yorumları görüntülemek için standart tarayıcı oluşturma işleminden daha fazlasına ihtiyaç duyduğunu gösteriyor.
Google Maps, veri kazıma konusunda diğer inceleme platformlarıyla nasıl karşılaştırılıyor?
Haritalar , inceleme kazıma kıyaslamamızda en zorlu alan oldu. En yüksek başarı oranı %41 oldu; bu oran, Amazon inceleme kazıma kıyaslamamızda ölçtüğümüz %96'nın çok altında. Hatta iki sağlayıcının %0 puan aldığı Yelp inceleme kazıma kıyaslamamızda bile en yüksek sonuç %77 oldu.
Google Haritalar'da, beş sağlayıcıdan ikisi %0 puan alırken, biri %1 puan aldı ve ilk iki sağlayıcı sırasıyla %39 ve %41'e ulaştı. Karşılaştırma testindeki diğer hiçbir alanda sağlayıcılar arasında bu kadar düşük sonuçlar görülmedi.
Temel fark, yorum içeriğinin nasıl sunulduğudur. Amazon ve Trustpilot'ta yorumlar, ilk sayfa HTML'sinde bulunur veya yüksek güvenilirlikle yapılandırılmış API'ler aracılığıyla erişilebilir durumdadır. Google Haritalar'da ise yorumlar, ilk sayfa oluşturulduktan sonra tamamen JavaScript aracılığıyla yüklenir ve bu da onları çoğu veri kazıma yöntemine erişilemez hale getirir.
Google Maps neden kazınması en zor yorum platformu?
Google Haritalardaki yorumlar ilk sayfa HTML'sine dahil edilmemiştir. Sayfa önce bir kabuk yükler, ardından yorum içeriğini almak ve oluşturmak için birden fazla JavaScript çağrısı yürütür. Çoğu durumda, ilk birkaç yorumdan sonraki yorumların görünmesi için kaydırma etkileşimi veya "Daha fazla yorum" düğmesine tıklama gereklidir.
Bu, standart HTTP isteklerinin hiçbir inceleme verisi içermeyen bir sayfa döndürdüğü anlamına gelir. Tripadvisor ve Yelp gibi platformlarda iyi çalışan başsız tarayıcı oluşturma bile Google Haritalar'da sınırlı sonuçlar verdi. HTML tabanlı sağlayıcılar arasında en yüksek başarı oranı %41 olurken, proxy tabanlı yaklaşımlar kullanan iki sağlayıcı %0 kaydetti.
Google Maps ayrıca, istek parmak izi alma ve dinamik içerik kısıtlaması da dahil olmak üzere agresif bot karşıtı algılama yöntemleri kullanmaktadır. JavaScript'e bağımlı inceleme yüklemesiyle birleştiğinde, bu durum Google Maps'i, içeriğin sunucu tarafından işlendiği veya özel API'ler aracılığıyla sunulduğu diğer inceleme platformlarına kıyasla kazınması çok daha zor hale getirir.
Google Haritalar kıyaslama metodolojisini inceliyor
500 adet Google Maps işletme yorumu URL'si üzerinde 5 farklı web kazıma sağlayıcısını test ettik ve her bir URL'yi tüm sağlayıcılar üzerinden toplam 2.500 istekte bulunduk. Sağlayıcılar, en az 100 çalışanı olan web kazıma şirketleri arasından seçildi. Her sağlayıcıya aynı URL seti verildi ve üç ölçütü değerlendirdik: başarı oranı, tamamlama süresi ve kullanılabilir meta veri alanları.
Yanıt türleri
Bir sağlayıcı (Bright Data), özel Google Haritalar İncelemeleri veri seti API'si aracılığıyla 26 ayrıştırılmış inceleme alanı içeren yapılandırılmış JSON döndürdü. Diğer dördü ise işlenmiş HTML döndürdü ve biz de bu HTML'den beş standart alan için CSS seçicileri kullanarak inceleme verilerini çıkardık: inceleyen_adı, inceleme_metni, puan, inceleme_tarihi ve inceleme_başlığı.
Doğrulama
Yanıtlar üç aşamada doğrulandı:
- Gönderim : Sağlayıcının 200-399 arasında veya 404 hatası veren bir HTTP durum kodu döndürmesi gerekiyordu.
- Yürütme : Asenkron işlemeye sahip sağlayıcılar için, işin zaman aşımı veya hata olmadan tamamlanması gerekiyordu.
- Veri kontrolü : Yanıtın çıkarılabilir değerlendirme verileri içermesi gerekiyordu. JSON için, en az bir değerlendirmenin review_text dizesi veya rating tamsayısı içermesi gerekiyordu. HTML için, en az bir CSS seçicisinin içerik döndürmesi gerekiyordu.
Her bir sağlayıcıyı, bu durumları nasıl raporladıklarını anlamak için bozuk URL'ler, bilinen 404 sayfaları ve hiç yorum bulunmayan sayfalarla önceden test ettik. Bir sağlayıcı eksik veya boş bir sayfayı doğru şekilde bildirdiğinde, sonuç geçerli olarak kabul edildi.
Ardından sağlayıcılar arası bir kontrol uygulandı: Bir sağlayıcının veri döndürmediği bir URL'de başka bir sağlayıcının başarılı bir şekilde yorumları çıkardığı durumlarda, bu boş sonuç başarısızlık olarak işaretlendi. Bu, yorum içermeyen sayfaları, sağlayıcının mevcut verileri çıkaramadığı durumlardan ayırdı.
Tamamlama süresi
Gerçek zamanı, ilk istekten nihai yanıta kadar, eşzamansız sorgulama veya bekleme süreleri de dahil olmak üzere ölçtük.
URL seçimi
500 URL, çeşitli değerlendirme sayıları, işletme türleri ve konumları kapsayan Google Haritalar işletme sayfalarından alınmıştır. Hem maps/search hem de maps/place URL formatları dahil edilmiştir. Testten önce yerel ayar parametreleri ve geçersiz formatlar kaldırılmıştır.
Test koşulları
Tüm sağlayıcılar aynı kısıtlamalar altında faaliyet gösterdi:
- İstekler tek tek işlenir, paralel yürütme yoktur.
- İstekler arasında 2 saniyelik gecikme
- HTTP 429 hatası, 30 saniyelik bekleme süresi ve en fazla 3 yeniden deneme ile ele alınır.
- 300 saniyelik gönderim zaman aşımı
- 600 saniyelik yürütme zaman aşımı
- Sağlayıcı başına URL başına tek çalıştırma
Sağlayıcı yapılandırmaları
Bright Data, özel bir Google Haritalar İncelemeleri veri kümesiyle Veri Kümesi API'sini kullanarak, her inceleme için 26 alan içeren yapılandırılmış JSON döndürdü. API, hazır olana kadar 1 saniyelik aralıklarla /progress/{snapshot_id} uç noktası üzerinden sorgulandı.
Oxylabs özel bir Google kaynak API'si kullandı (kaynak: google), ancak yapılandırma bu etki alanındaki tüm URL'lerde boş sonuçlar döndürdü.
Zyte , browserHtml etkinleştirilmiş Extract API'sini kullanarak sayfaları başsız bir tarayıcı üzerinden işledi ve CSS seçicileriyle ayrıştırılmış HTML döndürdü.
Nimble, JavaScript oluşturma için render: true parametresini kullanarak Web API'sini kullandı ve CSS seçicilerle ayrıştırılmış oluşturulmuş HTML döndürdü.
Decodo, JavaScript oluşturma için X-SU-Headless başlığıyla web engelleme kaldırıcı proxy'sini kullandı.
SSS'ler
Google Haritalar inceleme kazıma işlemi, Google Haritalar işletme listelerinden müşteri yorumlarının, derecelendirmelerinin ve işletme meta verilerinin otomatik olarak çıkarılmasıdır. Yerel SEO izleme, itibar yönetimi, rakip analizi ve konum tabanlı pazar araştırması için kullanılır.
Google Haritalar incelemeleri, ilk sayfa oluşturulduktan sonra JavaScript aracılığıyla dinamik olarak yüklenir. Önce sayfa kabuğu yüklenir, ardından tarayıcı inceleme içeriğini almak için API çağrıları yürütür. Ek incelemelerin görünmesi için kaydırma etkileşimi gereklidir. Bu nedenle standart HTTP istekleri ve temel proxy tabanlı kazıma işlemleri boş sonuçlar döndürür.
Google Haritalar API'lerine sahip sağlayıcılar, örneğin Bright Data'in veri seti API'si gibi, başsız bir tarayıcı çalıştırmanıza gerek kalmadan yorumları çıkarabilirler. API, oluşturma ve etkileşimi dahili olarak yönetir. HTML tabanlı yaklaşımlar için, JavaScript oluşturma özelliğine sahip başsız bir tarayıcı gereklidir, ancak bu bile kıyaslamamızda sınırlı sonuçlar üretti.
Evet, Google Haritalar, yorumları varsayılan olarak orijinal dillerinde görüntüler. Aynı URL'ler ve sağlayıcı yapılandırmaları tüm dillerde geçerlidir. URL'lerin yerel ayar parametreleri içermediğinden emin olun, çünkü bunlar sayfa oluşturmayı ve yorum görünürlüğünü etkileyebilir.
Yorum yapan ilk kişi olun
E-posta adresiniz yayınlanmayacak. Tüm alanlar gereklidir.