Otonom ajanlar, bilgisayar kullanım denetleyicileri, web kazıyıcılar ve geliştirici çerçeveleri olmak üzere dört kategoride 30'dan fazla açık kaynaklı web ajanını test ettik.
WebVoyager test paketini kullanarak aynı kıyaslamaları gerçekleştirdik. Bu paket, 15 gerçek web sitesinde 643 görevi kapsıyor ve hangi araçların çok adımlı web görevlerini gerçekten tamamladığını ve siteler dinamik açılır menüler veya JavaScript ağırlıklı düzenler kullandığında hangilerinin başarısız olduğunu ölçmeyi amaçlıyor.
- Otonom web aracıları ve yardımcı pilotlar:
- Web otomasyonu ve veri kazıma araç setleri:
- Temsilci etkinleştirme araçları:
- Geliştiriciler için web kontrol çerçeveleri ve kütüphaneleri :
Açık Kaynaklı Web Aracıları: GitHub Yıldızları
Karşılaştırma kaynaklarına bakın.
Değerlendirme: Web Voyager Kıyaslama Testi
Web Voyager Performans Testi Sonuçları
Bu kıyaslama testi, Google, GitHub, Wikipedia, Booking.com, Google Flights, Apple, Amazon, Hugging Face ve diğer 12 gerçek dünya web sitesinde 643 görevi kapsar. Görevler arasında form gönderimi, çok sayfalı gezinme, arama işlemleri, açılır menü etkileşimleri ve tarih seçimi yer alır.
En başarılılar:
- Tarayıcı Kullanımı: %89,1
- Skyvern 2.0: %85,85
- Ajan-E: %73,1
- WebVoyager: %57,1
Testlerin karşılaştırılması:
Her takım kıyaslama ölçütünü farklı şekilde değiştirdiğinden, doğrudan puan karşılaştırmaları yapmak zorlaştı.
Browser-Use, 55 eski görevi (artık bulunmayan Apple ürünleri, süresi dolmuş uçuş tarihleri, kaynak web sitelerinden silinmiş tarifler) kaldırdıktan sonra 586 görevi test etti. Testler, değerlendirme için GPT-4o kullanılarak yerel makinelerde gerçekleştirildi. Teknik değişiklikler: OpenAI API'den LangChain'e geçiş yapıldı, sistem uyarıları yeniden yazıldı.
Skyvern, güvenli yerel IP adresleri yerine eşzamansız bulut tarayıcılarını kullanarak Skyvern Cloud'da 635 görev çalıştırdı. Geçersiz yanıtlar içeren 8 görev kaldırıldı. Uçuş/otel görevlerindeki 2023/2024 tarihleri 2025 olarak güncellendi. Bulut testi, yerel testin önlediği bot algılama ve CAPTCHA'ya maruz kalma riskini artırıyor. Her eylem ve kararı gösteren tam test kayıtları eval.skyvern.com adresinde mevcuttur. Yakın zamanda (Ocak sonu) SDK v1+'ı, gömülü (yerel) ve uzaktan (bulut) modları desteğiyle ve web görevlerini manuel yönlendirme olmadan yönlendirmek için standart işletim prosedürü belgelerini alan yeni "SOP Yükleme" özelliğiyle birlikte tanıtan "Lansman Haftası" düzenlendi. 1
Agent-E, 643 görevden oluşan veri setinin tamamını hiçbir değişiklik yapmadan test etti. Sadece DOM ayrıştırması kullanıldı, görsel modeller veya ekran görüntüleri kullanılmadı. Karşılaştırma temel çizgisi: orijinal WebVoyager ajanı, GPT-4o değerlendirmesi değil. Kullanıcı girdisinden sonra DOM yapısının değiştiği dinamik formlara sahip sitelerde performans düştü (seçimlere göre yeni alanlar gösteren açılır menüler). Statik sitelerde güçlü performans: Wolfram (%95,7), Google Arama (%90,7), Google Haritalar (%87,8). Dinamik sitelerde zayıf performans: Booking.com (%27,3), Google Uçuşlar (%35,7).
Kritik sınırlama: Bu kıyaslama testleri, agresif bot koruması olmayan işbirlikçi sitelerde yürütülmektedir. Cloudflare, DataDome veya benzeri savunmalarla karşılaşıldığında gerçek dünyadaki başarı oranları daha düşük olacaktır. Skyvern, üretim koşullarına uyması için bulut altyapısında testler yürütürken, Browser-Use ve Agent-E, beyaz listeye alınmış IP adreslerine sahip yerel makineler kullandı.
Son Önemli Güncellemeler
Güvenlik Krizi: OpenClaw Kötü Amaçlı Yazılım Dağıtımı
Ocak sonu ile Şubat başı arasında ClawHub'a (OpenClaw'ın pazar yeri) 400'den fazla kötü amaçlı "beceri" yüklendi ve bu beceriler kimlik bilgilerini çalan kötü amaçlı yazılımları dağıttı. 2 , Anthropic ve Palo Alto Networks uyarı yayınladı. Güvenlik araştırmacıları artık yalnızca izole ortamlarda ve doğrulanmış kaynaklarda kullanım yapılmasını öneriyor.
OpenClaw Viral Büyüme
OpenClaw (eski adıyla Moltbot/Clawdbot), GitHub'da 147.000 yıldıza ulaşarak en hızlı büyüyen açık kaynaklı yapay zeka projesi oldu. Yerel olarak çalışır, mesajlaşma platformlarıyla entegre olur ve 100'den fazla hizmet için Model Bağlam Protokolü'nü kullanır. 3 Cloudflare, altyapısını desteklemek için Moltworker ara yazılımını yayınladı. 4
Moltbook: Yapay Zeka Ajanı Sosyal Ağı
Ocak ayı sonlarında faaliyete geçen tamamen yapay zekâ tabanlı sosyal ağ, birkaç gün içinde 1,5 milyon kullanıcıya ulaştı. Kullanıcılar otomatik olarak gönderi paylaşıyor ve etkileşimde bulunurken, insanlar da gözlem yapıyor. 5
Model Bağlam Protokolü Standardizasyonu
MCP, 100'den fazla sunucu desteğiyle, ajan-araç entegrasyonu için baskın protokol haline geldi. Yönetim ve denetim, kurumsal dağıtımlar için artık kritik önem taşıyor.
NVIDIA Nemotron 3 Modelleri
NVIDIA, ajan tabanlı yapay zekâ için optimize edilmiş ve 4 kat daha yüksek işlem hacmi sunan Nemotron 3 ailesini (Nano, Super, Ultra) piyasaya sürdü. GitHub'da NeMo Gym ve Ajan Tabanlı Güvenlik Veri Seti ile Hugging Face de dahildir. 6
Otonom Web Ajanları ve Yardımcı Pilotlar
Web sitelerinde gezinmeyi ve çok adımlı görevleri minimum yönlendirmeyle tamamlamayı sağlayan araçlar.
Genel Amaçlı Otonom Ajanlar
OpenClaw (eski adıyla Moltbot/Clawdbot) : Mesajlaşma uygulamaları, takvimler ve e-posta genelinde görevleri otomatikleştirmek için bunu yerel makinenizde çalıştırın. Ona "önümüzdeki Salı için ekiple bir toplantı planla ve takvim davetiyeleri gönder" deyin ve tüm iş akışını o halleder. Bulut API çağrıları olmadan 100'den fazla hizmetle bağlantı kurmak için Model Bağlam Protokolü'nü kullanır.
Kimler kullanıyor: Yerel otomasyon için güvenlik risklerini yönetmeye istekli erken benimseyenler. Masaüstü iş akışları için diyalog tabanlı arayüzler isteyen kullanıcılar.
Sınırlamalar:
- Beceri ekosisteminde büyük güvenlik açıkları (bir haftada 400'den fazla kötü amaçlı paket)
- Hâlâ hızlı bir gelişim sürecinde ve sık sık önemli değişikliklere uğruyor.
- Birden fazla marka değişikliği döngüsü nedeniyle dokümantasyonda tutarsızlıklar bulunmaktadır.
- Kaynak yoğun (önemli miktarda yerel işlem gücü gerektirir)
AgenticSeek: Bulut tabanlı ticari hizmetleri, tarama verilerini harici sunuculara göndermeyen yerel bir alternatifle değiştirin. Makinenize kurun, neye ihtiyacınız olduğunu açıklayın ("bu sayfadaki tüm ürün fiyatlarını çıkarın") ve tıklama ve veri toplama işlemlerini o halleder. Python tabanlıdır, tamamen kendi sunucunuzda çalışır.
Kimler kullanıyor: Tarama verilerini paylaşmak istemeyen, gizliliğe önem veren kullanıcılar. Veri saklama zorunluluğu olan kuruluşlar.
Sınırlamalar:
- Tek makinede eş zamanlı kullanımla sınırlıdır (5-10 tarayıcı örneği).
- Dahili proxy döndürme veya tespit önleme özellikleri bulunmamaktadır.
- Python ortamının kurulumu ve bakımı gereklidir.
- Büyük ölçekli görevler için bulut çözümlerine göre daha yavaş.
Auto-GPT: Dosya işlemleri ve kod yürütmenin yanı sıra web taramasını da yönetir. Tarayıcı arayüzü veya komut satırı üzerinden dağıtılabilir. "Rakip fiyatlandırmasını araştır ve bir elektronik tabloya kaydet" gibi bir görev atadığınızda, hangi web sitelerinin ziyaret edileceğini, hangi verilerin alınacağını ve çıktının nasıl düzenleneceğini belirler.
Kimler kullanıyor: Özel otomasyon iş akışları geliştiren yazılımcılar. Komut satırı araçlarına aşina olan kullanıcılar.
Sınırlamalar:
- Proxy rotasyonu ve çerez yönetimi gibi web'e özgü özelliklerden yoksun.
- Dahili bot algılama önleme özelliği yok (Cloudflare kullanan siteler bunu engelleyecektir).
- Kaynak yoğun (birden fazla tarayıcı örneği başlatır)
- Karmaşık görevler için manuel komut istemi mühendisliği gerektirir.
AgentGPT: Kod yazmadan doğrudan tarayıcınızda aracıları yapılandırın. Hedefleri adımlara ayıran "ResearchGPT" veya "DataGPT" gibi özel aracılar geliştirin. Platform, orkestrasyonu üstlenir. Ne elde etmek istediğinizi siz tanımlarsınız. Barındırılan sürümlerini kullanmak istemiyorsanız, kendi sunucunuzda da barındırabilirsiniz.
Kimler kullanıyor: Basit otomasyona ihtiyaç duyan teknik olmayan kullanıcılar. Ekipler, paylaşılan ajan yapılandırmaları istiyor.
Sınırlamalar:
- Kodlanmış çözümlere kıyasla sınırlı özelleştirme
- Karmaşık çok adımlı görevlerde performans darboğazları
- Barındırılan sürüm verileri kendi sunucularına gönderir (gizlilik için kendi sunucunuzda barındırmanız gereklidir).
- Tarayıcı parmak izi veya CAPTCHA işleme gibi gelişmiş özellikler yok.
SuperAGI: Yaygın iş akışları için şablonlar içeren, özel otonom ajanlar oluşturmaya yönelik bir çerçeve. Kendi mantığınızla genişletebilirsiniz. Daha büyük iş akışlarının bir bileşeni olarak tarayıcı otomasyonunu ele alır. Yerel olarak dağıtabilir veya bulut altyapısına aktarabilirsiniz.
Kimler kullanıyor: Üretim ajan sistemleri geliştiren yazılım ekipleri. Özelleştirilebilir otomasyon çerçevelerine ihtiyaç duyan kuruluşlar.
Sınırlamalar:
- Öğrenme eğrisi dik (ajan mimarisini anlamayı gerektirir)
- Şablon kütüphanesi hala sınırlı (çoğu kullanım durumu için özel geliştirme gerektiriyor)
- Gelişmiş özellikler için dokümantasyon eksiklikleri
- Aktif geliştirme, sürümler arasında kırıcı değişiklikler anlamına gelir.
Nanobrowser: Chrome uzantısı yaklaşımı; kurun, ardından tarayıcı araç çubuğunuzdan kontrol edin. "Bu sayfadaki tüm e-postaları çıkar" veya "bu formu elektronik tablomdaki verilerle doldur" gibi hızlı görevler için idealdir.
Kimler kullanıyor: Ara sıra tarayıcı otomasyonuna ihtiyaç duyan sıradan kullanıcılar. Sunucu veya Python ortamı kurmak istemeyen kullanıcılar.
Sınırlamalar:
- Birkaç sekmeden öteye ölçeklendirme yapılamaz (eş zamanlı işlem yok).
- Arka uç otomasyon işlem hatlarıyla entegrasyon yok.
- Sadece Chrome tarayıcısıyla sınırlıdır.
- Uzantı izinleri güvenlik endişelerini artırıyor.
OpenManus : Ticari tarayıcı otomasyon hizmetlerine açık kaynaklı bir alternatif. Fiyat değişikliklerini izlemek veya ürünlerin tekrar stoklara girmesini beklemek gibi saatler veya günler süren tarayıcı görevlerini yürütür. Python ve Docker ile yerel olarak dağıtın ve arka planda çalışır durumda tutun.
Son güncelleme: DeepWisdom (OpenManus'un ana şirketi) Ocak ortasında temel ajan teknolojisini resmi olarak Atoms olarak yeniden markaladı. Yeni Atoms çerçevesi, geliştirici hobi araçlarından, ödemeler ve kimlik doğrulama için yerleşik modüllere sahip ticari sınıf ajan dağıtımına odaklanıyor. 7
Kimler kullanıyor: Uzun süreli izleme görevleri yürüten kullanıcılar. Geliştiriciler otomatik bildirim sistemleri oluşturuyor.
Sınırlamalar:
- Docker ve Python kurulumu gerektirir.
- Dahili proxy desteği yok (siteler aynı IP adresinden gelen tekrarlanan istekleri algılayacaktır).
- Uzun süren görevlerde bellek sızıntıları (periyodik yeniden başlatma gerektirir)
- "Atoms" olarak yeniden markalaşmak, dokümantasyonda karışıklığa yol açabilir.
Bilgisayar Kullanım Temsilcileri
Bilgisayar iş akışlarının daha geniş bir parçası olarak tarayıcıları kontrol eden masaüstü otomasyonu.
OpenInterpreter: Yazdığınız metne göre Python, JavaScript ve shell komut dosyalarını çalıştıran terminal tabanlı bir ajandır. Ona "bu siteyi kazı ve verileri pandas'ta analiz et" dediğinizde, kazıma kodunu oluşturur, çalıştırır ve ardından analizi gerçekleştirir. Tarayıcı otomasyonu, dosya sistemi erişimi ve veri işleme ile entegre olur.
Kimler kullanıyor: Terminal arayüzlerine aşina olan geliştiriciler. Veri bilimciler, web kazıma işlemlerini analiz iş akışlarıyla birleştiriyor.
Mantıklı olduğu durumlar: Web taramasını ve yerel hesaplamayı kapsayan otomasyona ihtiyacınız var. Yürütülmeden önce oluşturulan kodu incelemek ve değiştirmek istiyorsunuz. İş akışlarınız, veri toplama işleminden sonra veri dönüştürmeyi içeriyor.
Sınırlamalar:
- Sadece terminal arayüzü (grafik kullanıcı arayüzü yok)
- Güvenlik riski (bilgisayarınızda rastgele kod çalıştırır)
- Varsayılan olarak sanal alan (sandboxing) uygulanmaz (herhangi bir dosyaya veya sistem kaynağına erişilebilir).
- Programlama bilmeyenler için öğrenme eğrisi
UI-TARS: Masaüstünüzün ekran görüntülerini alan, bunları görsel modellerle analiz eden ve ardından GUI öğelerini kontrol etmek için komutlar üreten, akademik çevrelerden gelen bir araştırma çerçevesi. Üretim kullanımı için değil, masaüstü otomasyonuna yönelik yeni yaklaşımları test etmek için geliştirilmiştir.
Kimler kullanıyor: Görsel tabanlı otomasyonu araştıran akademik araştırmacılar. Çok modlu kontrol sistemlerini test eden laboratuvarlar.
Ne zaman mantıklıdır: Görsel tabanlı otomasyon üzerine araştırma yapıyorsunuz. Ekran görüntüsü analiz yaklaşımlarıyla denemeler yapmanız gerekiyor. Grafik kullanıcı arayüzü (GUI) otomasyonu hakkında akademik makaleler yazıyorsunuz.
Sınırlamalar:
- Üretime hazır değil (araştırma prototipi)
- Yüksek gecikme süresi (görsel model işleme, her işlem için 2-3 saniye sürüyor)
- Pahalı (GPT-4V, görüntü belirteci başına ücret alıyor)
- Hata kurtarma veya yeniden deneme mantığı yok.
AutoBrowser MCP: Claude'un Model Bağlam Protokolü (MCP) aracılığıyla Chrome tarayıcılarını kontrol etmesini sağlayan ve görsel tabanlı tarayıcı etkileşim yetenekleri sunan bir MCP sunucusudur. Claude tarayıcı ekranınızı görür, neye tıklayacağına karar verir ve işlemi gerçekleştirir. Bir Chrome uzantısı ve yerel bir sunucu olarak çalışır.
Kimler kullanıyor: Tarayıcı kontrolü isteyen Claude kullanıcıları. MCP tabanlı otomasyon sistemleri geliştiren yazılımcılar.
Ne zaman mantıklıdır: Zaten Claude kullanıyorsunuz ve tarayıcı otomasyonu eklemek istiyorsunuz. Programatik API'ler yerine diyalogsal kontrolü tercih ediyorsunuz. Karmaşık düzenler için görsel tabanlı etkileşim gereklidir.
Sınırlamalar:
- Claude API erişimi gerektirir (tüm bölgelerde mevcut değildir).
- Vizyon modelinin maliyetleri hızla artıyor.
- Gecikme süresi, DOM tabanlı yaklaşımlara göre daha yüksektir.
- Sadece Chrome tarayıcısıyla sınırlıdır.
Open Operator: Browser-Use ekibinin OpenAI'nin Operator'üne cevabı. Basitleştirilmiş DOM görünümü aracılığıyla Chrome'a doğrudan erişim sağlayan dil modelleri sunar. Tamamen otonom modda çalıştırın veya her işlemi yürütmeden önce onayladığınız onay modunu etkinleştirin. Python veya tarayıcı uzantısı aracılığıyla yükleyin.
Son güncelleme: Browser-Use, Ocak ayı sonlarında Parallel AI ile stratejik entegrasyonunu duyurarak çoklu iş parçacıklı web aramalarını mümkün kıldı. Bu güncelleme, ajanların dakikada 20'ye kadar tarayıcı adımı gerçekleştirmesini sağlayarak karmaşık araştırma görevlerinde insan performansına eşdeğer veya ondan daha iyi bir performans sergilemesine olanak tanıyor. 8
Kimler kullanıyor: Zaten Browser-Use çerçevesini kullanan ekipler. Kuruluşlar, temsilci eylemleri için onay iş akışları istiyor.
Ne zaman mantıklıdır: İnsan gözetimi altında otonom taramaya ihtiyacınız var. İş akışlarınız hız gerektiriyor (çoklu iş parçacıklı yürütme). Tarayıcı kullanım ekosistemini temel alıyorsunuz.
Sınırlamalar:
- Tarayıcı Kullanım çerçevesinin yüklenmesini gerektirir.
- Onay modu otomasyonu önemli ölçüde yavaşlatıyor.
- Sınırlı tespit önleme özellikleri (bot koruması olan siteler bunu engelleyecektir)
- Sadece Python (JavaScript/TypeScript desteği yok)
Claude Cowork: Yakın zamanda duyurulan araştırma önizlemesi, Claude'un "Bilgisayar Kullanımı" API'sini, birleşik bir masaüstü uygulaması içinde dosya sistemleri ve tarayıcı ortamlarıyla doğrudan etkileşim kuracak şekilde genişletiyor. Açık kaynaklı ajanların ulaşması gereken yeni bir ölçüt belirliyor. 9
Kimler kullanıyor: Araştırma önizleme erişimine sahip erken benimseyenler. Ekipler, yeni nesil bilgisayar kullanım yeteneklerini değerlendiriyor.
Mantıklı olduğu durumlar: Birleşik dosya ve tarayıcı otomasyonu istiyorsunuz. Değişebilecek deneysel özelliklere razısınız. Görsel tabanlı masaüstü kontrolüne ihtiyacınız var.
Sınırlamalar:
- Araştırma önizlemesi (sınırlı sayıda mevcuttur)
- Tescilli (açık kaynak kodlu değil, karşılaştırma amacıyla dahil edilmiştir)
- Fiyatlandırma henüz açıklanmadı.
- Genel yayına geçmeden önce özellik seti önemli ölçüde değişebilir.
Web Gezinme Aracıları
Özellikle çok adımlı web sitesi iş akışlarına odaklanın.
Agent-E : Tıklanabilir öğeleri ve gezinme yollarını bulmak için sayfa HTML'sini okur. Sayfaları temel etkileşimli öğelere indirgemek için "DOM Damıtımı"nı ve başarılı kalıpları hatırlamak için "Beceri Toplama"yı kullanır. Görsel modeller kullanılmadan, yalnızca metin tabanlı olarak WebVoyager kıyaslamasında %73,1 puan almıştır.
Kimler kullanıyor: Doğruluktan ziyade maliyete öncelik veren kuruluşlar. DOM tabanlı otomasyon sistemleri geliştiren yazılımcılar.
Mantıklı olduğu durumlar: Statik web sitelerinde hızlı ve ucuz otomasyona ihtiyacınız var. Hedef siteleriniz JavaScript ağırlıklı dinamik formlar kullanmıyor. Daha düşük maliyetler karşılığında %73'lük bir başarı oranını kabul edebilirsiniz.
Sınırlamalar:
- DOM yapısı beklenmedik şekilde değiştiğinde yerleşik bir hata kurtarma mekanizması bulunmamaktadır.
- Seçimlere bağlı olarak yeni seçenekler gösteren açılır menülerin bulunduğu dinamik formlarla ilgili zorluklar.
- JavaScript ağırlıklı sitelerde performans önemli ölçüde düşüyor.
- Rezervasyon sitelerinde kötü sonuçlar
AutoWebGLM : HTML'i dil modellerine beslemeden önce basitleştirir. Karmaşık sayfalar temel gezinme öğelerine ve form alanlarına indirgenir. Zaman içinde gezinme kararlarını iyileştirmek için takviyeli öğrenme kullanır. Python aracılığıyla kendi sunucunuzda çalışır.
Kimler kullanıyor: Takviyeli öğrenme tabanlı web otomasyonunu araştıran araştırma ekipleri. Model eğitimi için bilgi işlem kaynaklarına sahip kuruluşlar.
Ne zaman mantıklıdır: Belirli web siteleriniz için özel modeller eğitmeye yatırım yapabilirsiniz. İş akışlarınız, takviyeli öğrenme optimizasyonundan faydalanacak kadar tekrarlayıcıdır. Python makine öğrenimi altyapınız mevcuttur.
Sınırlamalar:
- Sınırlı dokümantasyon ve topluluk desteği
- Kurulumdan önce eğitim aşaması gerektirir (tak ve çalıştır özelliği yoktur).
- Etkili politikalar öğrenmek için önemli örneklere ihtiyaç vardır.
- Web sitelerinin düzenlerini yeniden tasarlarken oluşan kesintiler
Görsel Tabanlı Navigasyon Ajanları
Ekran görüntülerini metin analiziyle birleştirerek görsel sayfa düzenini yorumlayın.
Autogen WebSurfer Eklentisi : Web tarama özelliği eklemek için Microsoft'un AutoGen çerçevesine entegre olur. Playwright kurulumu gerektirir. Bu çerçeve, bir temsilci arama yaparken diğeri sonuçları işleyen ve üçüncüsü sizinle etkileşim kuran temsilci ekipleri oluşturmanıza olanak tanır.
Kimler kullanıyor: AutoGen çerçevesini zaten kullanan ekipler. Microsoft ekosistemi kullanıcıları.
Mantıklı olduğu durumlar: AutoGen içinde çoklu ajan sistemleri oluşturuyorsunuz. Orkestrasyonlu ajan işbirliğine ihtiyacınız var. Microsoft'un desteğine ve dokümantasyonuna ihtiyaç duyuyorsunuz.
Gerçek sınırlamalar:
- Sınırlı örnekler ve topluluk projeleri
- AutoGen çerçevesinin tamamının benimsenmesini gerektirir (tek başına kullanılamaz).
- Basit otomasyon görevleri için çerçeve maliyeti buna değmez.
- Çoklu ajan orkestrasyonu için öğrenme eğrisi diktir.
Skyvern : Üç aşamalı sistem: planlayıcı görevleri adımlara ayırır, aktör bunları yürütür, doğrulayıcı başarıyı onaylar. Düğmeleri ve formları görsel olarak tanımlamak için ekran görüntüleri alır. Bu yaklaşım, sayfa yüklendikten sonra DOM'un değiştiği JavaScript ağırlıklı siteler için uygundur. WebVoyager'da %85,85 puan aldı. Kendi sunucunuzda barındırabilir veya yönetilen bulut hizmetlerini kullanabilirsiniz.
WebVoyager : Planlayıcının görevleri adımlara ayırdığı, aktörün bunları yürüttüğü ve doğrulayıcının başarıyı onayladığı üç aşamalı bir sistem. Düğmeleri ve formları görsel olarak tanımlamak için ekran görüntüleri alır. Sayfa yüklendikten sonra DOM'un değiştiği JavaScript ağırlıklı siteleri yönetir. WebVoyager'da %85,85 puan aldı. Kendi sunucunuzda barındırabilir veya yönetilen bir bulut hizmeti kullanabilirsiniz.
Son güncelleme: Skyvern, Ocak ayı sonlarında Python ve TypeScript istemci kütüphaneleriyle birlikte SDK v1+'ı yayınlayarak Lansman Haftası düzenledi. SDK, Chrome Geliştirici Araçları Protokolü üzerinden tarayıcı durumu paylaşımıyla hem gömülü (yerel) hem de uzaktan (bulut) modları desteklemektedir. Hibrit otomasyon iş akışlarını etkinleştirmek için Playwright eylemleriyle birleştirilebilir. 10
Kimler kullanıyor: Modern web uygulamalarında yüksek doğruluk gerektiren kuruluşlar. Daha iyi sonuçlar için vizyon modeli maliyetini ödemeye istekli ekipler.
Ne zaman mantıklıdır: Hedef siteleriniz yoğun JavaScript ve dinamik düzenler kullanıyor. %85'in üzerinde doğruluk oranına ihtiyacınız var. DOM ayrıştırmasına göre 10-20 kat daha yüksek maliyetleri karşılayabilirsiniz. İş akışlarınız bulut altyapısını haklı çıkarıyor.
Sınırlamalar:
- Kendi sunucunuzda barındırılan sürüm, görüntü işleme modelleri için önemli miktarda işlem gücü gerektirir.
- Pahalı (GPT-4V, görüntü belirteci başına ücret alır; her sayfa görüntüleme, DOM ayrıştırmasından 10-20 kat daha pahalıya mal olur)
- DOM yaklaşımlarından daha yavaş (görüntü işleme için sayfa başına 2-3 saniye)
- Bulut tabanlı dağıtım sizi bot tespitine açık hale getirir.
LiteWebAgent : Chrome'u DevTools Protokolü aracılığıyla kontrol eden, hafıza ve planlama özelliklerine sahip bir görsel dil modeli. Sayfa yüklemeleri arasında bağlamı korur ve gezinme kararları alırken önceki sayfalarda gördüklerini hatırlar. Python çerçevesi, kendi sunucunuzda barındırılan dağıtım.
Kimler kullanıyor: Özel görüntü tabanlı ajanlar geliştiren yazılımcılar. Ekiplerin sayfalar arası belleğe ihtiyacı var.
Mantıklı olduğu durumlar: İş akışlarınız birden fazla sayfadaki bilgileri hatırlamayı gerektiriyor. Görsel algılama yeteneklerine ihtiyacınız var ancak Skyvern'den daha fazla kontrol istiyorsunuz. Python makine öğrenimi altyapısını sürdürebiliyorsunuz.
Sınırlamalar:
- Görsel modeller için önemli miktarda hesaplama gücü gerektirir.
- Bellek mimarisi karmaşıklığı ve arıza biçimlerini artırır.
- Bot tespiti özelliği bulunan üretim sitelerinde sınırlı testler yapılmıştır.
- Küçük topluluk (alternatiflere göre daha az örnek ve entegrasyon)
Temsilci etkinleştirme araçları
LLM'lerin veya kullanıcıların, bağımsız görev planlaması yapmadan tarayıcılara komut göndermesine olanak tanıyan çerçeveler.
Doğal Dilden Web Eylemine
LaVague : "Yeşil düğmeye tıklayın" diyorsunuz. LaVague onu buluyor ve tıklıyor. Farklı sayfa düzenlerinde öğe tanımlamasını yönetir. Tam olarak ne istediğinizi bildiğiniz ancak seçiciler yazmak istemediğiniz tekrarlayan görevler için idealdir. Python tabanlıdır, kendi sunucunuzda çalışır.
ZeroStep : Konuşma talimatlarını Playwright test koduna dönüştürür. Eylemi sade İngilizce ile açıklarsınız, o da Playwright komutlarını oluşturur. Zaten Playwright kullanıyorsanız test yazımını hızlandırır. Node.js CLI aracı.
LLM-Tarayıcı Köprüleri
Dil modellerini doğrudan tarayıcı kontrollerine bağlayın.
Browser-Use : Dağınık DOM yapısını alıp LLM'ler için yeniden yapılandırır. Alakasız öğeleri kaldırır, etkileşimli bileşenleri etiketler ve kontrol arayüzleri sağlar. Bu sayede Browser-Use, WebVoyager'da %89,1'lik bir başarı oranına ulaşmıştır. Python kütüphanesi veya API olarak kullanılabilir, kendi sunucunuzda barındırabilir veya bulut hizmetlerini kullanabilirsiniz.
Tarayıcı gerektirmeyen yapı : REST veya WebSocket üzerinden kontrol ettiğiniz uzaktan Chrome örnekleri. Altyapı yönetimi olmadan bulutta yüzlerce tarayıcı çalıştırın. Her tarayıcı başsız (headless) çalışır, bu nedenle GUI yükü yoktur. Kendi sunucunuzda barındırmak için barındırılan API'lerini veya Docker'ı kullanın.
ZeroStep (Playwright Yapay Zeka) : Playwright'ın üzerine kurulu bir yapay zeka katmanı. Seçiciler yerine komut istemleri yazın. Playwright'ın güvenilirliğini, öğeleri tanımlamak için LLM'nin esnekliğiyle birleştirir. Node.js ve Playwright kurulumu gerektirir.
Web Otomasyonu ve Veri Kazıma Araç Kitleri
Göreve özel araçlar, her görevi ayrı ayrı başlatmanızı sağlar.
Tarayıcı Otomasyon Uzantıları
PulsarRPA : Veri çıkarma için Chrome uzantısı. Bir tabloya veya listeye yönlendirin, neyin çıkarılacağını gösterin ve gerisini o halleder. Zamanlama ve sonuçların saklanması için arka uç içerir.
Kimler kullanıyor: Düzenli veri çıkarma ihtiyacı duyan teknik olmayan kullanıcılar. İş analistleri verileri elektronik tablolara aktarıyor.
Mantıklı olduğu durumlar: Aynı sitelerden tekrar tekrar veri çekiyorsunuz. Kod yazmak istemiyorsunuz. Zamanlama ve sonuç depolamaya ihtiyacınız var. Hedef siteleriniz tarayıcı uzantılarını engellemiyor.
Sınırlamalar:
- Sadece Chrome'da çalışır (Firefox veya Safari'de çalışmaz).
- Hedef sitelerin düzenleri değiştiğinde kesintiler meydana gelir.
- Proxy desteği yok (siteler aynı IP adresinden gelen tekrarlanan istekleri algılıyor)
- Sadece tablo verisi çıkarımıyla sınırlıdır.
VimGPT : GPT-4 Vision'ın Vimium klavye kısayolları aracılığıyla tarayıcınızı kontrol ettiği deneysel bir proje. Model ekran görüntülerini algılar ve klavye komutları üretir.
Kimler kullanıyor: Görsel algılama ve klavye kontrolünü araştıran araştırmacılar. Yapay zeka otomasyonuna meraklı Vim kullanıcıları.
Mantıklı olduğu durumlar: Klavye tabanlı otomasyon üzerine araştırma yapıyorsunuz. Görsel modellerin yeteneklerini anlamaya çalışıyorsunuz. Üretim otomasyonu uygulamıyorsunuz.
Sınırlamalar:
- Sadece deneysel amaçlıdır (gerçek işlerde kullanımı pratik değildir).
- Vimium eklentisi ve Python arka ucu gerektirir.
- Yüksek gecikme süresi (görüntü işleme + komut oluşturma)
- Pahalı (GPT-4V ekran görüntüsü başına maliyet getiriyor)
Yapay Zeka Veri Kazıyıcıları ve Tarayıcıları
Crawl4AI : Sayfada neyin önemli olduğuna karar vermek için LLM'leri kullanan bir web tarayıcısı. Her şeyi indirmek yerine, amacınıza göre ilgili içeriği belirler. Python tabanlıdır ve standart web kazıma kütüphaneleriyle entegre olur.
Son dönemdeki büyüme: GitHub'da trendlerde 1 numaraya ulaştı ve 58.000 yıldızı aştı. Markdown çıktısı ve BM25 içerik filtrelemesiyle LLM entegrasyonu için optimize edildi. Yerel öncelikli dağıtım gerektiren RAG işlem hatları için popüler bir tercih. 11
Kimler kullanıyor: RAG sistemleri geliştiren yazılımcılar. API maliyetleri olmadan yerel LLM desteğine ihtiyaç duyan ekipler.
Ne zaman mantıklıdır: Web verilerine ihtiyaç duyan LLM uygulamaları geliştiriyorsunuz. Markdown formatında çıktı istiyorsunuz. Bulut API bağımlılıkları olmadan yerel bir dağıtıma ihtiyacınız var. Kullanım senaryonuz içerik filtreleme ve alaka düzeyi sıralamasını içeriyor.
Sınırlamalar:
- LLM'nin yerel olarak veya API aracılığıyla çalıştırılmasını gerektirir (bağımsız olarak çalıştırılamaz).
- Geleneksel veri kazıyıcılardan daha yavaş (sayfa başına LLM işleme hızı)
- LLM jürisinin yanlış karar vermesi durumunda önemli içerikler gözden kaçabilir.
- Kural tabanlı veri kazıyıcılara göre daha yüksek kaynak kullanımı
FireCrawl : Web sitelerini temiz Markdown veya JSON formatına dönüştürür. Gezinmeyi, JavaScript oluşturmayı ve içerik çıkarmayı yönetir. Çıktı, LLM bağlam pencerelerine beslenmek üzere yapılandırılmıştır. Node.js kütüphanesi veya komut satırı arayüzü (CLI) ile kullanılabilir.
Kimler kullanıyor: LLM uygulama geliştiricileri. Ekipler, web içeriğini işleyen yapay zeka sistemleri geliştiriyor.
Ne zaman mantıklıdır: LLM işleme için temiz metin çıkarımına ihtiyacınız var. Hedef siteleriniz JavaScript ile oluşturma kullanıyor. Yapılandırılmış çıktı (Markdown/JSON) istiyorsunuz. Node.js uygulamaları geliştiriyorsunuz.
Sınırlamalar:
- Sadece Node.js (Python bağlantıları yok)
- Kişisel tercihlere bağlı Markdown dönüştürme (ihtiyaç duyduğunuz biçimlendirmeyi kaybedebilir)
- Çıkarma kurallarının sınırlı özelleştirilmesi
- Dahili hız sınırlama veya algılama önleme özelliği yok.
GPT-crawler : Siteleri tarar ve özel GPT'ler için eğitim verileri üretir. Belgelere veya bilgi tabanına yönlendirildiğinde, içeriği çıkarır ve ince ayar için biçimlendirir. Python CLI aracıdır.
Kimler kullanıyor: Özel GPT modelleri geliştiren ekipler. Kuruluşlar, alanlarına özgü yapay zeka asistanları oluşturuyor.
Ne zaman mantıklıdır: Dil modellerini ince ayar yapıyorsunuz. Web kaynaklarından yapılandırılmış eğitim verilerine ihtiyacınız var. İçeriğiniz dokümantasyon veya bilgi tabanları. Python CLI araçlarını çalıştırabiliyorsunuz.
Sınırlamalar:
- GPT ince ayarına özel çıktı formatı (genel amaçlı değil)
- Artımlı güncelleme yok (güncellemeler için tüm site yeniden taranacak)
- Kimlik doğrulama veya ücretli içerik duvarlarının sınırlı şekilde ele alınması
- Statik içerik yapısını varsayar.
ScrapeGraphAI : Taranan içerikten bilgi grafikleri oluşturur. Kavramlar arasındaki ilişkileri anlamanız gereken dokümantasyon siteleri için idealdir. Yapılandırılmış özetler veya olgu grafikleri üretir. Python ile dağıtılır.
Kimler kullanıyor: Bilgi yönetimi ekipleri. Web içeriğinden kavram haritaları oluşturan araştırmacılar.
Mantıklı olduğu durumlar: Sadece içerik değil, ilişki çıkarımına da ihtiyacınız var. Hedef siteleriniz dokümantasyon veya eğitim içeriği içeriyor. Bilgi tabanları veya kavram haritaları oluşturuyorsunuz. Python altyapınız var.
Sınırlamalar:
- Karmaşık kurulum (graf veritabanı ve doğal dil işleme modelleri gerektirir)
- Basit veri kazıyıcılardan (varlık çıkarma + ilişki eşleme) daha yavaş.
- Kalite, kaynak içeriğin yapısına bağlıdır.
- Sadece metinle sınırlıdır (tabloları veya resimleri iyi işlemez).
AutoScraper: Örneklerle öğrenen veri kazıyıcı. İstediğiniz verileri içeren bir sayfa gösterin, kalıbı çözer ve benzer sayfalara uygular. Basit veri çıkarma görevleri için hafif bir Python kütüphanesi.
Kimler kullanıyor: XPath veya CSS seçicileri yazmadan hızlı veri çıkarma ihtiyacı duyan geliştiriciler. Veri kazıma iş akışlarının prototiplerini geliştiren ekipler.
Mantıklı olduğu durumlar: Hedef sayfalarınız tutarlı kalıpları takip ediyor. Seçicileri manuel olarak yazmak istemiyorsunuz. Hızlı prototiplere ihtiyacınız var. Sitelerinizin düzenleri sık sık değişmiyor.
Sınırlamalar:
- Sayfa düzenleri değiştiğinde kesintiler oluşur.
- Benzer sayfa yapılarıyla sınırlıdır (farklı sitelere genelleme yapılamaz).
- JavaScript görüntüleme desteği yok.
- Basit kalıp eşleştirme (içerik hakkında yapay zeka çıkarımı yok)
LLM Veri Kazıyıcı : Bir sayfayı LLM'ye gönderin ve "Tüm ürün fiyatlarını çıkar" veya "İletişim bilgilerini bul" isteyin. Model niyetinizi yorumlar ve ilgili verileri çeker. Esnek ancak kural tabanlı veri kazıyıcılardan daha pahalıdır. Python tabanlıdır.
Kimler kullanıyor: Kurallar yazmaya gerek kalmadan esnek veri çıkarma ihtiyacı duyan ekipler. Tek seferlik veri çıkarma görevleri geliştiren geliştiriciler.
Ne zaman mantıklıdır: Sayfa yapıları kural tabanlı ayıklama için çok fazla çeşitlilik gösteriyor. Anlamsal anlayışa ihtiyacınız var ("yazarın adını bulun"). Maliyet birincil önceliğiniz değil. Seçici mühendisliği olmadan hızlı geliştirme istiyorsunuz.
Sınırlamalar:
- Pahalı (LLM API'nin sayfa başına maliyeti)
- Kural tabanlı veri çekme araçlarından daha yavaş (API gecikmesi)
- İstemi net değilse yanlış veri çıkarılabilir.
- Sayfalar arasında tutarlı alan çıkarımının garantisi yoktur.
Yapay Zeka Arama Araçları
BingGPT : Bing aramasını GPT yanıtlarıyla birleştiren sohbet arayüzü. Sorular sorun, kaynaklarla birlikte yanıtlar alın. Masaüstü uygulamasıdır, tarayıcı tabanlı değildir.
BraveGPT : Brave Arama sonuçlarına GPT yanıtları ekleyen yapay zeka tabanlı arama motoru uzantısı . Hem geleneksel arama sonuçlarını hem de yapay zeka özetini yan yana görün. Doğrudan arama sayfalarının üzerine yerleştirilir.
Geliştiriciler için Web Kontrol Çerçeveleri
Programatik tarayıcı kontrolü için düşük seviyeli kütüphaneler.
Test Çerçeveleri
Playwright: Microsoft'un tarayıcılar arası otomasyon aracı. Chromium, Firefox ve WebKit'i destekler. Dahili bekleme süreleri, ağ müdahalesi ve mobil emülasyon özelliklerine sahiptir. JavaScript, Python, .NET ve Java dillerinde kullanılabilir. Modern web testleri için sektör standardıdır.
Selenium : Orijinal tarayıcı otomasyon çerçevesi. Tüm büyük tarayıcılarda çalışır. Daha büyük bir ekosisteme sahip ancak daha eski bir mimariye sahip. Python, Java, C#, Ruby ve daha fazlası için dil bağlamaları mevcuttur. WebDriver protokol standardına sahiptir.
taiko : Okunabilir sözdizimine sahip ThoughtWorks çerçevesi. Test okunabilirliğinin önemli olduğu fonksiyonel testler için idealdir. Sadece Node.js ile çalışır.
Otomasyon Kütüphaneleri
Puppeteer : Google'ın Chrome/Chromium'u kontrol etmek için geliştirdiği kütüphane. Ekran görüntüsü alma, PDF oluşturma ve veri kazıma için üst düzey API sunar. Node.js ekosistemi TypeScript ile uyumludur. Başsız Chrome otomasyonu için standart bir tercihtir.
Tarayıcı Kullanımı : Daha önce LLM köprüsü olarak listelenmişti, ancak geliştirici otomasyon kütüphanesi olarak da çalışır. DOM'u yapılandırılmış bir biçime dönüştürür, gezinmeyi ve etkileşimi yönetir. API seçeneğine sahip Python kütüphanesi.
Bu Web Aracılarını Farklı Kılan Nedir?
Browser-Use, WebVoyager testlerinde (55 eski görevi çıkardıktan sonra) %89,1 puan alırken, Agent-E tam veri kümesinde %73,1'e ulaştı. Browser-Use, LangChain entegrasyonu ile otonom görev planlaması kullanıyor. Agent-E ise görsel modeller kullanmadan doğrudan DOM yapısını ayrıştırıyor; bu daha hızlı çalışıyor ancak web siteleri dinamik açılır menüler kullandığında veya kullanıcı tercihlerine göre yeni seçenekler gösterdiğinde zorlanıyor.
Özerklik Seviyeleri
Browser-Use, Skyvern ve Agent-E gibi tamamen otonom ajanlar, üst düzey hedefleri ("en ucuz Paris uçuşunu bul") kabul eder ve kendi gezinme adımlarını planlar. Çerez banner'ları veya captcha'lar gibi beklenmedik unsurlara uyum sağlarlar. Bununla birlikte, her karar bir LLM çağrısı gerektirir, bu da hem maliyeti hem de yanıt süresini artırır.
LaVague ve ZeroStep gibi adım adım yönlendirme araçları, belirli komutları ("arama düğmesine tıklayın", "2. alana metin girin") yürütür. Planlama yükünü ortadan kaldırdıkları için daha hızlı yürütme sağlarlar. Ancak bir sitenin düzeni yeniden tasarlanırsa, talimatları manuel olarak güncellemeniz gerekir.
Playwright ve Selenium gibi manuel kodlama çerçeveleri, her tıklama, form doldurma ve gezinme için açık kod gerektirir. Testler, site bir öğenin kimliğini veya sınıf adını değiştirene kadar her seferinde aynı şekilde çalışır. Ardından seçiciler bozulur ve kodu yeniden yazmanız gerekir.
Sayfaları Nasıl Yorumluyorlar
Görsel tabanlı işlemleme: Skyvern 2.0, WebVoyager ve VimGPT ekran görüntüleri yakalar ve bunları GPT-4V gibi görsel modellere gönderir. Bu modeller, oluşturulan sayfaya bakarak düğmeleri ve formları tanımlar.
Skyvern 2.0 aslında bir planlayıcı-aktör-doğrulayıcı döngüsü kullanıyor. Planlayıcı karmaşık görevleri daha küçük hedeflere ayırıyor, aktör bunları uyguluyor ve doğrulayıcı her hedefin başarılı olup olmadığını onaylıyor. Bu üç aşamalı yaklaşım, Skyvern'ün başarı oranını %45'ten (tek komutlu sürüm) %68,7'ye (planlayıcı ile) ve %85,85'e (eylemlerin gerçekten işe yarayıp yaramadığını kontrol eden doğrulayıcı ile) yükseltmesine yardımcı oldu.
Görsel işleme, sayfa yüklendikten sonra DOM'un yeniden oluşturulduğu JavaScript ağırlıklı sitelerde çalışır. Ancak GPT-4V, görüntü belirteci başına ücretlendirme yapar; bu da her sayfa görüntülemesini HTML okumaya göre 10-20 kat daha pahalı hale getirir. Görsel modeller ayrıca DOM ayrıştırmasına kıyasla sayfa başına 2-3 saniye daha fazla zaman kaybına neden olur.
DOM ayrıştırma: Browser-Use ve Agent-E, sayfa HTML'ini doğrudan okur. Tıklanabilir öğeleri, giriş alanlarını ve gezinme bağlantılarını kodda tararlar.
Agent-E, karmaşık sayfaları temel öğelere indirgemek için "DOM Damıtma" yöntemini ve başarılı etkileşim kalıplarını hatırlamak ve yeniden kullanmak için "Beceri Toplama" yöntemini kullanır. Sadece metin kullanarak Huggingface, Apple ve Amazon gibi sitelerde çok modlu WebVoyager ajanını (görsel algı kullanan) geride bıraktı. Ancak Agent-E'nin planlaması, web siteleri dinamik olarak yeni seçenekler ortaya çıkardığında (örneğin, seçimlerinize göre değişen açılır menüler gibi) senkronizasyonunu kaybediyor.
DOM ayrıştırması daha az maliyetli ve daha hızlı çalışır. Browser-Use'un %89,1'lik doğruluğu kısmen LangChain entegrasyonundan ve güncellenmiş istemlerden kaynaklanmaktadır, sadece görsel çağrıları atlamaktan değil. Ancak siteler gölge DOM, gizlenmiş sınıf adları veya yoğun JavaScript manipülasyonu kullandığında DOM yaklaşımları zorlanır.
Birleşik yaklaşım: LiteWebAgent ve AutoWebGLM, yapı için DOM'u ayrıştırır, ardından kullanıcıların gerçekte ne gördüğünü doğrulamak için görüntü işleme yöntemini kullanır. Yalnızca DOM'dan daha doğru, saf görüntü işleme yönteminden daha ucuzdur, ancak sayfa başına iki sistem çalıştırıyorsunuz.
Uzmanlaşma
Auto-GPT ve AgenticSeek, dosya işlemleri ve kod yürütmenin yanı sıra web taramasını da yönetir. Proxy rotasyonu ve çerez yönetimi gibi web'e özgü özelliklerden yoksun olmaları, bot algılama özelliğine sahip sitelerde etkinliklerini sınırlamaktadır.
Agent-E ve WebVoyager yalnızca web navigasyonu yapar. Agent-E, 643 görevden oluşan WebVoyager veri setinin tamamında %73,1'lik genel bir başarı elde ederek, çok modlu WebVoyager ajanının %57,1'lik başarısını geride bıraktı. Wolfram (%95,7), Google Arama (%90,7) ve Google Haritalar (%87,8) gibi sitelerde güçlü performans gösterdi. Dinamik sitelerde ise zayıf performans sergiledi: Booking.com'da yalnızca %27,3 ve Google Flights'ta %35,7 başarı elde etti; bu sitelerde açılır menüler ve form alanları kullanıcı seçimlerine göre değişiyor.
Crawl4AI ve FireCrawl, verileri ayıklayıp sayfaları Markdown veya JSON formatına dönüştürür. Form doldurmaz veya iş akışlarında tıklama yapmazlar. Bunları, çok adımlı görevleri tamamlamanız gerektiğinde değil, yapılandırılmış formatta içeriğe ihtiyacınız olduğunda kullanın.
Playwright ve Selenium, tarayıcı testlerini otomatikleştirir. Her çalıştırmada aynı sonuçları üretirler; bu da regresyon testleri için çok önemlidir. Ancak bu deterministik yapı, uyum sağlayamadıkları anlamına gelir. Bir site değiştiğinde, test paketiniz bozulur.
Dağıtım Seçenekleri
Yerel yürütme: AgenticSeek, Nanobrowser ve OpenInterpreter makinenizde çalışır. Tarama verileriniz yerel kalır ve API maliyetlerinden kaçınırsınız. Ancak tipik bir iş istasyonu, CPU/RAM limitine ulaşmadan önce 5-10 eş zamanlı tarayıcı örneğini işleyebilir.
Bulut API'leri: Browserless, REST veya WebSocket aracılığıyla uzaktan Chrome örnekleri sağlar. Otomatik proxy rotasyonu ile yüzlerce paralel oturum başlatabilirsiniz. Her istek, yerel tarayıcılara kıyasla 100-300 ms gecikme ekler ve Docker ile kendi sunucunuzda barındırmadığınız sürece trafiğiniz onların sunucuları üzerinden yönlendirilir.
Esnek dağıtım: Skyvern geliştirme aşamasında yerel olarak çalışır, ardından üretim için buluta dağıtılır. Gerçek dünya koşullarını, eşzamansız bulut tarayıcılarını ve gerçekçi IP adreslerini test etmek için kıyaslama testleri aslında Skyvern Cloud'da (yerel makinelerde değil) gerçekleştirildi. Çoğu kıyaslama testi, iyi tarayıcı parmak izlerine sahip güvenli yerel IP adreslerinde çalışır; bu da üretim gerçekliğiyle örtüşmez.
Entegrasyon Kalıpları
AutoGen'in WebSurfer'ı, Microsoft'un çoklu ajan çerçevesinin tamamını benimsemeyi gerektiriyor. Dahili ajan düzenlemesi ve bellek yönetimi elde ediyorsunuz, ancak mevcut sistemlerle kolayca entegre edemiyorsunuz.
Browser-Use ve Playwright bağımsız kütüphaneler olarak çalışır. Bunları herhangi bir Python veya Node.js projesine ekleyebilirsiniz. Ancak kendi ajan koordinasyonunuzu, hata yönetimini ve sonuç depolamasını kendiniz oluşturmanız gerekecektir.
Nanobrowser ve BraveGPT, Chrome uzantısı olarak yüklenir. Sunucu kurulumu gerekmez; tarayıcıya ekleyin ve başlatın. Birkaç eşzamanlı sekmeden daha fazla ölçeklendirme yapılamaz ve arka uç otomasyon işlem hatlarıyla entegre olmazlar.
Üretim Hususları
Skyvern ve Browserless, konut proxy desteği, rastgele fare hareketleri ve tarayıcı parmak izi döndürme özelliklerini içerir. Bu özellikler, korumalı sitelerde IP yasaklarını ve CAPTCHA tetiklemelerini önler.
WebVoyager ve AutoWebGLM, gezinme algoritmalarına odaklanıyor. Agent-E, yalnızca metin tabanlı DOM ayrıştırması kullanarak %73,1'lik bir başarı oranına ulaştı ve WebVoyager'ın %57,1'lik çok modlu yaklaşımını geride bıraktı. Ancak Cloudflare veya DataDome kullanan üretim siteleri, uygun tespit önleme mekanizması olmadan ajanları engelleyecektir.
Önemli kıyaslama bağlamı: Browser-Use ve Agent-E, güvenli IP adresleriyle yerel olarak testler gerçekleştirdi. Skyvern ise özellikle gerçek üretim koşullarını eşleştirmek için testlerini bulut altyapısında gerçekleştirdi; bu koşullarda bot tespiti, tarayıcı parmak izi alma ve CAPTCHA zorluklarıyla karşılaşırsınız. Kıyaslama testlerinin kendileri, agresif bot koruması olmayan işbirlikçi sitelerde çalıştırıldığından, gerçek dünyadaki başarı oranları bu rakamların gösterdiğinden daha düşük olacaktır.
Yorum yapan ilk kişi olun
E-posta adresiniz yayınlanmayacak. Tüm alanlar gereklidir.