Web veri kazıma sağlayıcılarının Amazon yorumlarını nasıl işlediğini karşılaştırmak için, aynı Amazon ürün yorumu URL'leri kümesi üzerinde 5 farklı web kazıma sağlayıcısını test ettik ve tüm sağlayıcılar genelinde toplam 2.500 istek gerçekleştirdik.
Amazon yorumlarını kazıma kıyaslaması
Test sürecimiz hakkında daha fazla bilgi için kıyaslama metodolojimizi okuyun.
Sağlayıcıya göre yanıt formatı ve kullanılabilir meta veri alanları
Amazon yorumlarını kazıma kıyaslama sonuçları
Bright Data, Amazon'da %96'lık başarı oranıyla liderliği ele geçirdi ve her inceleme için 29 JSON alanı içeren en zengin yapılandırılmış çıktıyı sağladı. Bu alanda yapılandırılmış JSON döndüren üç sağlayıcıdan biriydi ve standart inceleme verilerinin yanı sıra inceleme resimleri, varyant detayları ve ürün düzeyinde derecelendirme dökümleri gibi genişletilmiş alanları da içeren tek sağlayıcıydı. Dört üst düzey sağlayıcının da başarılı olduğu 348 URL'de, Bright Data sürekli olarak en eksiksiz yanıtı verdi.
Oxylabs, Amazon'da %92'lik bir başarı oranı elde etti ve kıyaslama testinde istek başına 4 saniye ile en hızlı tamamlama süresini kaydetti. Her inceleme için 10 yapılandırılmış JSON alanı döndürdü. Yüksek başarı oranı ve düşük gecikme süresinin birleşimi, onu bu alanda en verimli seçenek haline getirdi.
Decodo, Amazon'da %11'lik bir başarı oranı kaydetti ve işlediği URL'lerde ortalama tamamlama süresi 10 saniye oldu. Yapılandırılmış JSON çıktısı veren özel bir Amazon ayrıştırıcısı kullanmasına rağmen, API URL'lerin büyük çoğunluğu için boş sonuçlar döndürdü. Başarılı yanıtlar, esas olarak gerçek yorum çıkarımından ziyade doğru 404 tespiti sayesinde elde edildi.
Zyte, Amazon'da ortalama 13 saniyelik tamamlama süresiyle %75'lik bir başarı oranına ulaştı. Yapılandırılmış veri yerine işlenmiş HTML döndürdü ve inceleme alanları CSS seçicileri aracılığıyla çıkarıldı. Başarı oranı en iyi gruba göre daha düşük olsa da, alan adına özgü bir yapılandırma gerektirmeden test URL'lerinin çoğunu kapsadı.
Nimble, Amazon'da %92'lik bir başarı oranı elde ederek Oxylabs ile aynı başarı oranına ulaştı ve ortalama tamamlama süresi 13 saniye oldu. CSS seçicileriyle ayrıştırılmış işlenmiş HTML döndürdü. Sonuç, URL kümesi genelinde tutarlıydı ve önemli bir düşüş gözlenmedi.
Amazon yorumları kıyaslama metodolojisi
500 Amazon ürün URL'si üzerinde 5 farklı web kazıma sağlayıcısını test ettik. Her sağlayıcıya aynı URL seti verildi.
Sağlayıcılar ve entegrasyon türleri
Üç sağlayıcı, ayrıştırılmış inceleme alanları içeren yapılandırılmış JSON döndürdü: Bright Data (29 alan), Oxylabs (10 alan) ve Decodo (Amazon'a özel ayrıştırıcı). Nimble ve Zyte ise işlenmiş HTML döndürdü; biz de bu HTML'yi CSS seçicileri kullanarak ayrıştırıp beş standart inceleme alanını (inceleyenin adı, inceleme metni, puan, inceleme tarihi, inceleme başlığı) çıkardık.
Doğrulama
Her yanıt üç aşamalı bir doğrulama sürecinden geçti:
- Gönderim : Başarılı olması için 200-399 arasında bir HTTP durum kodu veya 404 gerekiyordu.
- Yürütme : Asenkron sağlayıcılar için, veri toplama işleminin zaman aşımı veya hata olmadan tamamlanması gerekiyordu.
- Doğrulama : Yanıt, kullanılabilir değerlendirme verileri içermeliydi. JSON yanıtları için bu, geçerli bir review_text (dize) veya rating (tamsayı) içeren en az bir değerlendirme anlamına geliyordu. HTML yanıtları için, en az bir CSS seçicinin eşleşmesi ve değerlendirme içeriği döndürmesi gerekiyordu.
Tam karşılaştırma testinden önce, her sağlayıcıya kasıtlı olarak bozuk URL'ler, onaylanmış 404 sayfaları ve sıfır yorum içeren canlı sayfalar gönderdik. Bu, her sağlayıcının bu uç durumları nasıl ilettiğini, açık hata kodları, HTTP durumu veya boş yanıt gövdeleri aracılığıyla olsun, haritalamamızı sağladı. 404 olarak tanımlanan veya hiç yorum içermeyen sayfalar, sağlayıcı isteği doğru şekilde işlediği ve uygun bir yanıt döndürdüğü için geçerli olarak sayıldı.
Daha sonra, tüm sonuçlar üzerinde sağlayıcılar arası bir doğrulama adımı uyguladık: Bir sağlayıcı, en az bir başka sağlayıcının inceleme verilerini çıkardığı bir URL'de boş çıktı döndürdüğünde, bu boş sonuç başarısızlık olarak yeniden sınıflandırıldı. Bu, veri çıkarma başarısızlıklarını, döndürülecek incelemesi olmayan sayfalardan ayırdı.
Tamamlama süresi
Tamamlama süresi, ilk API isteğinden nihai yanıtın alınmasına kadar uçtan uca ölçülmüştür. Asenkron sağlayıcılar için bu, sonuçlar hazır olana kadar geçen sorgulama ve bekleme süresini de içerir.
Veri kümesi
500 test URL'si, farklı yorum sayılarına ve ürün kategorilerine sahip Amazon ürün sayfalarından seçildi. Test öncesinde URL'ler, geçersiz formatlar ve yinelenen kayıtlar kaldırılarak temizlendi.
Paylaşılan yapılandırma
Tüm sağlayıcılara aynı URL'ler gönderildi ve aynı koşullar altında test edildiler:
- Sıralı yürütme: her seferinde yalnızca bir istek işlenir, paralel istekler işlenmez.
- İstekler arasındaki gecikme: 2 saniye
- Hız sınırlaması yönetimi: HTTP 429'da 30 saniye bekleme ve en fazla 3 yeniden deneme.
- Gönderim zaman aşımı: 300 saniye
- Yürütme zaman aşımı: 600 saniye
- Her bir URL, sağlayıcı başına bir kez test edildi.
Sağlayıcı yapılandırmaları
Bright Data, özel bir Amazon Yorumları veri kümesiyle Veri Kümesi API'sini kullandı ve her yorum için 29 alan içeren yapılandırılmış JSON döndürdü. API, hazır olana kadar 1 saniyelik aralıklarla /progress/{snapshot_id} uç noktası üzerinden sorgulandı.
Oxylabs, yapılandırılmış JSON çıktısı ile özel bir Amazon kaynak API'si (kaynak: amazon) kullandı ve her inceleme için 10 alan döndürdü.
Decodo, yapılandırılmış JSON çıktısı ile özel bir Amazon ayrıştırıcısı (target: amazon, parse: true) kullandı. Alan adına özgü bir yapılandırma kullanılmasına rağmen, API çoğu URL için boş sonuçlar döndürdü.
Nimbleway, JavaScript oluşturma için render: true seçeneğiyle Web API'yi kullandı. Tüm istekler, CSS seçicileriyle ayrıştırılmış HTML olarak döndürüldü.
Zyte , browserHtml: true parametresiyle Extract API'yi kullanarak, CSS seçicilerle ayrıştırılmış, JavaScript tarafından oluşturulmuş HTML'i başsız bir tarayıcı aracılığıyla döndürdü.
SSS'ler
Amazon yorum kazıma, yorum metni, puanlamalar, yazar bilgileri ve tarihler de dahil olmak üzere Amazon ürün sayfalarından müşteri yorum verilerinin otomatik olarak çıkarılması işlemidir. Genellikle duygu analizi, rakip izleme, ürün araştırması ve büyük ölçekli pazar analizi için kullanılır.
Amazon, otomatik erişimi tespit etmek için hız sınırlama, CAPTCHA ve tarayıcı parmak izi yöntemlerini kullanır. Veri kazıma sağlayıcıları bunu, dönen yerleşik proxy'ler, başsız tarayıcı oluşturma ve istek kısıtlama yoluyla ele alır. Bazı sağlayıcılar, bu korumaları dahili olarak yöneten özel Amazon API'leri sunarken, diğerleri sayfayı oluşturan ve HTML döndüren genel amaçlı engelleme kaldırıcıları kullanır.
Çoğu veri kazıma API'si varsayılan olarak istek başına 10 ila 30 arasında yorum döndürür. Bright Data ve Oxylabs gibi özel Amazon API'lerine sahip sağlayıcılar, limit_multiple_results gibi parametreler aracılığıyla ürün başına yorum sayısını yapılandırmaya olanak tanır. HTML tabanlı sağlayıcılar, sayfada görüntülenen yorumları döndürür; bu genellikle yorumların ilk sayfasıdır (yaklaşık 10).
Bu karşılaştırmada test edilen sağlayıcılar, kimlik doğrulaması gerektirmeden herkese açık ürün sayfalarından yorumları çıkarır. Vine yorumları veya satın alma işlemine özel içerik gibi yalnızca giriş yapmış kullanıcılar tarafından görülebilen yorumlara bu API'ler aracılığıyla erişilemez.
Yorum yapan ilk kişi olun
E-posta adresiniz yayınlanmayacak. Tüm alanlar gereklidir.