Bright Data, Oxylabs ve Apify gibi önde gelen LLM veri çekme sağlayıcılarının ChatGPT, Gemini, Perplexity ve Google gibi yapay zeka modlarıyla nasıl performans gösterdiğini karşılaştırmak için bir kıyaslama testi gerçekleştirdik.
Güvenilir sonuçlar elde etmek için, her sağlayıcı için 1.000 test gerçekleştirdik ve tutarlılık sağlamak amacıyla her bir istemi 10 kez tekrarladık. En iyi performansı gösteren sağlayıcı aşağıda detaylı olarak açıklanmıştır.
LLM veri çekme sağlayıcıları genelinde çoklu model desteği
LLM web kazıma kıyaslama sonuçları
- Bright Data, test edilen her modda sürekli olarak " En Çekici " çeyreğinde yer alarak açık ara pazar lideri olarak ortaya çıktı. En kapsamlı meta verileri (25 alana kadar) sağladı ve Gemini kullanarak yüksek güvenilirlik performansını sürdüren tek sağlayıcı oldu.
- Oxylabs ve Apify özel alanlarda güçlü yönler sergiledi ancak evrensel tutarlılıktan yoksundu. Aynı zamanda, Apify ChatGPT modunda yüksek başarı gösterdi, ancak meta veri derinliği konusunda zorlandı ve her iki sağlayıcı da belirli arama odaklı yapay zeka ortamlarında %90 başarı eşiğinin altında kaldı.
Belirli grafiklerde bulunmayan sağlayıcılar (örneğin, ChatGPT modunda Oxylabs veya Google AI modunda Apify), başarı oranları bu kıyaslama için gerekli olan %90 minimum güvenilirlik eşiğini karşılamadığı için listeden çıkarılmıştır.
En iyi 6 LLM web kazıma sağlayıcısı
Bright Data, test edilen tüm modeller arasında en sağlam performansı göstererek sürekli olarak %100'e yakın bir başarı oranı sergiledi. Meta veri zenginliği açısından rakiplerini önemli ölçüde geride bırakarak ChatGPT modunda 25 alana kadar veri yakalayabildi.
Özellikle, Bright Data, Gemini modeli için %90 başarı eşiğini başarıyla karşılayan tek sağlayıcı oldu ve bu da onu çoklu LLM istemine dayalı veri kazıma için en çok yönlü seçenek haline getirdi.
Bright Data yapay zeka platformları için çeşitli önceden oluşturulmuş şablonlar sunmaktadır.
- ChatGPT veri toplama aracı: ChatGPT arayüzüne istekler gönderir ve yanıtları toplar .
- Perplexity araması (komutla): Yapay zeka destekli bir arama motoru olan Perplexity'dan alıntıları ve kaynak listelerini toplar.
- Google Gemini ve Claude (URL ile toplayın) : Bright Data'in Veri Kazıma Tarayıcısı , güçlü bot karşıtı korumalara sahip bu platformlara erişimi otomatikleştirir.
- Yapay zeka eğitim veri kümeleri: Bright Data, şirketlerin veri kazıma işlemi yapmadan modellerini ince ayar yapmalarını sağlayan, yapay zeka tarafından oluşturulmuş hazır veri kümeleri sunar.
Oxylabs, Google yapay zeka ve Perplexity modlarında güçlü bir güvenilirlik sergileyerek, mevcut çok çeşitli meta veri alanlarında %94'ün üzerinde başarı oranlarına ulaştı. Bununla birlikte, performansı zorunlu %90 başarı eşiğinin altına düştüğü için ChatGPT modu analizinden çıkarıldı. Güçlü yönü, arama odaklı yapay zeka modelleri aracılığıyla yapılandırılmış veri çıkarımında yatmaktadır.
Oxylabs, Perplexity, ChatGPT ve Google Yapay Zeka Modu (SGE) için web kazıyıcıları sunar. ChatGPT Kazıyıcısı, ChatGPT'ye istemler göndermenize, yanıtları ve yapılandırılmış meta verileri otomatik olarak toplamanıza ve her istem için menşe ülkesini seçmenize olanak tanır. ChatGPT için JavaScript oluşturma her zaman etkindir.
ChatGPT Scraper, 4.000 karaktere kadar olan metinleri destekler. Daha uzun metinler için metninizi daha küçük bölümlere ayırın ve ayrı istekler olarak gönderin. Perplexity Scraper, varsayılan olarak tüm istekler için JavaScript işleme kullanır. Toplu istekler, Perplexity veya ChatGPT için desteklenmez.
Decodo , ChatGPT, Perplexity ve Google Yapay Zeka Modu için veri çekme araçları sunar ve özellikle Google'nın yapay zeka tarafından oluşturulan arama yanıtlarını çıkarmaya odaklanır. ChatGPT veri çekme aracı, kullanıcıların arayüzde doğrudan gerçek zamanlı tarama verilerini toplamasına olanak tanıyan bir "Web Araması" seçeneği içerir.
API, geliştiricilere daha fazla esneklik sağlamak amacıyla, tek bir istekte ham HTML, ayrıştırılmış JSON, Markdown, XHR ve PNG ekran görüntüleri de dahil olmak üzere birden fazla yanıt biçimini destekler.
Decodo rekabetçi fiyatlandırma sunuyor; “23K istek” planı aylık 29 dolara, yani yaklaşık olarak 1.000 istek başına 1,25 dolara denk geliyor. Daha büyük sağlayıcılara kıyasla uygun fiyatlı olmasının yanı sıra, hizmet JavaScript oluşturma ve coğrafi konum hedefleme gibi özellikler de içeriyor.
SerpApi, kullanıcıların Google Yapay Zeka Modu sayfasından sonuçları çıkarmasına olanak tanıyan ve bağlamsal takip sorgularını destekleyen bir Google Yapay Zeka Modu API'si sunar. Kullanıcılar, her yanıtta subsequent_request_token'ı kullanarak yeni istekler başlatabilir ve masaüstü, tablet ve mobil cihazlarda yapay zeka içeriğini ve düzenini karşılaştırabilir.
Sağlayıcı, aylık 250 arama dahil olmak üzere, veri kazıma aracını test etmek için ücretsiz bir plan sunuyor.
Apify'in LLM veri çekme aracı, ChatGPT modunda yüksek bir başarı oranı (yaklaşık %99) gösterdi, ancak emsallerine kıyasla daha sınırlı sayıda meta veri alanı (ortalama 4) yakaladı.
Başarı oranlarının %90'ın altına düşmesi nedeniyle, Apify, Google yapay zeka ve Perplexity modlarına ait performans grafiklerinden çıkarıldı; bu da standart ChatGPT tabanlı görevlere daha özel bir odaklanmayı gösteriyor.
Standart bir JSON Şeması veya Pydantic gibi benzer bir format sağlarsınız. Aktör, LLM'nin ham HTML'yi işlemesini ve bunu belirttiğiniz alanlara eşlemesini sağlar. Apify'in LLM kazıyıcısı, Bright Data ve Oxylabs gibi hizmetleri içeren entegre Apify Proxy sistemi sayesinde kendi kendine barındırılan kütüphanelere göre teknik bir avantaj sunar.
LLM maliyetlerini düşürmek için, Apify gereksiz etiketleri (örneğin <script>, <style>, <svg> ve <iframe>) gezinme öğeleri ve gizli meta verilerle birlikte kaldırır.
ScrapingBee'nin ChatGPT API'si, GPT-4'ü gerçek zamanlı web aramasıyla tek bir API çağrısında entegre ederek kullanıcılara yapay zeka tarafından oluşturulan yanıtlar alma olanağı sağlar. Bir istek başarısız olursa, servis otomatik olarak 30 saniyeye kadar yeniden dener. Her başarılı istek 15 kredi tüketir.
API, Markdown veya JSON formatlarında yapılandırılmış veri çıktıları sağlar ve kaynak atıflarını results_markdown veya belirlenmiş HTML etiketleri içine entegre eder. Bu entegrasyon, kullanıcıların web içeriğine ve dil modelleme yeteneklerine aynı anda erişmelerini sağlayarak ayrı veri kazıma ve yapay zeka araçlarına olan ihtiyacı ortadan kaldırır.
Metodoloji
Her sağlayıcı, her biri 10 kez çalıştırılan 100 benzersiz soruyla test edildi ve bu da sağlayıcı başına toplam 1.000 test anlamına geldi. Tüm sorular, yapay zeka ve makine öğrenimi alanında paragraf uzunluğunda yanıtlar gerektiren açık uçlu teknik sorulardı.
Her sağlayıcıya, her istek için on dakikalık bir zaman aşımı süresi atandı. Bir istek hız sınırlamasına (HTTP 429) takılırsa, yeniden denemeden önce on dakika bekledik. İstekler arasında iki saniyelik bir duraklama, hız sınırlamalarını önlemeye ve verimli kıyaslama yapılmasına yardımcı oldu.
Doğrulama başarılı:
Her bir soruda, ilgili yanıtlarda beklenen temel kavramları temsil eden 5 seçici anahtar kelime yer alıyordu. Örneğin, "Geleneksel RAG ve ajan tabanlı RAG sistemleri arasındaki temel farklar nelerdir?" sorusunda şu anahtar kelimeler kullanıldı: RAG, fark, ajan tabanlı, geri alma ve geleneksel.
Bu anahtar kelimeler, veri doğrulamamızın temelini oluşturdu. Doğruluğu değerlendirmek için cevap metninde bunların varlığını kontrol ettik. Hiçbir anahtar kelime görünmüyorsa, yanıt yanlış çıkarılmış olarak işaretlendi. Boş olmayan alıntılar için, en az bir geçerli URL'nin uygun HTTP veya HTTPS biçimlendirmesiyle mevcut olduğunu doğruladık. Yanıtlar, tüm kontrollerden geçerse geçerli, boş içerik veya eksik alıntılar nedeniyle başarısız olursa uyarı ve ayrıştırma hataları gibi teknik sorunlarla karşılaşırsa hata olarak sınıflandırıldı.
Gönderim başarıyla tamamlandı:
Veri kazıma sağlayıcısı tarafından kabul edilen API isteklerinin yüzdesini ölçtük. Bir istek, HTTP 200 veya 201 durum kodu döndürüyorsa ve geçerli bir iş tanımlayıcısı veya anlık yanıt içeriyorsa başarılı kabul edildi. Bu ölçüt, veri kazıma başlamadan önce sağlayıcı altyapısının güvenilirliğini yansıtmaktadır.
İşlem başarıyla tamamlandı:
Veri kazıma işlemini tamamlayıp veri döndüren kabul edilen isteklerin oranını ölçtük.
Bu üç başarı oranını, her aşamadaki başarısızlık noktalarını belirlemek için süreç boyunca takip ettik. Son analiz için, API çağrısından anlamsal olarak ilgili, alıntı doğrulaması yapılmış içeriğe kadar uçtan uca performansı ölçtüğü için doğrulama başarı oranını raporluyoruz. Bir sağlayıcı %100 gönderim ve yürütme başarısı elde edebilirken, Doğrulama Başarısı, kazınan verilerin üretim uygulamalarında kullanılabilir olup olmadığını belirler.
Yürütme süresi:
Tam bir yanıt almak için gereken süre. Bright Data ve Apify gibi eşzamansız sağlayıcılar için bu süre, iş gönderiminden tamamlanmaya kadar olan yoklama süresini içeriyordu. Oxylabs gibi eşzamanlı sağlayıcılar için ise bu süre, isteğin toplam geçen süresiydi.
Yüksek veri kalitesi standardını korumak için, karşılaştırmalı tablolarda yalnızca %90'ın üzerinde başarı oranına sahip sağlayıcılar temsil edildi. Sonuç olarak, performansları bu ölçütün altında kaldığı için Oxylabs (ChatGPT modu) ve Apify (Google AI modu) hariç tutuldu. Ayrıca, bu testte istem tabanlı veri kazıma için Gemini'yi kullanan tek sağlayıcının Bright Data olduğunu da belirtmekte fayda var.
Mevcut meta veriler:
Alıntıları, bağlantıları, yanıt metinlerini, konum bilgilerini, model sürümlerini ve diğerlerini içeren, ham metinle birlikte döndürülen yapılandırılmış veri alanlarının sayısını saydık.
Yorum yapan ilk kişi olun
E-posta adresiniz yayınlanmayacak. Tüm alanlar gereklidir.