Yapay Zeka Ajanları: Operatör Kullanımı mı, Tarayıcı Kullanımı mı, Yoksa Project Mariner mı?
Yapay zekâ ajanları giderek daha çok uçtan uca dijital çalışanlar olarak pazarlanıyor, ancak gerçek dünyadaki performans, göreve, araçlara ve uygulama ortamına bağlı olarak büyük ölçüde değişebiliyor. Bu sistemlerin bugün gerçekten neler sunabileceğini anlamak için, pratik iş senaryolarında uygulamalı performans testleri gerçekleştirdik.
En iyi 5 yapay zeka ajanını test etmek için 40 saatten fazla zaman harcadık ve bize yardımcı olup olamayacaklarını görmek istedik.
İş akışı kıyaslama sonuçları
ChatGPT Agent, bu kıyaslamada en başarılı ajandır ve kıyaslama görevinin %80'ini tamamlamıştır.
ChatGPT Temsilcisi
ChatGPT Agent, analitik yetenekler gerektiren uzun görevleri yerine getirmesine olanak tanıyarak OpenAI Operator ile derinlemesine araştırma arasında bağlantı kurmak üzere tasarlanmıştır. ChatGPT Agent'ın piyasaya sürülmesiyle birlikte OpenAI Operator'ın kullanımı sonlandırılmıştır.
Kullanıcının, temsilcinin yapması zor olan hesaplara giriş yapma veya görevleri gerçekleştirme kontrolünü ele almasına olanak tanır.
Kullanılan tarayıcıyı gerçek zamanlı olarak gösterir ve gerçekleştirdiği eylemleri açıklar.
Aracı, gezinme, dallanma ve grafik güncellemelerini başarıyla gerçekleştirdi ancak talimatlara uygun olarak düğme yapılandırmasını güncellemekte, özellikle mevcut stil ve işlevselliği korurken her veri kategorisi için düğmeler oluşturmakta başarısız oldu.
Google Project Mariner
Google Project Mariner henüz herkese açık değil, ancak bekleme listesinden sonra izin alınarak test edilebilir. Doğrudan tarayıcıda Chrome uzantısı olarak çalışır. İnsan müdahalesi gerektiren bir süreç olarak kullanılabilir. Örneğin, ekranda bir CAPTCHA olduğunda, Mariner kullanıcıdan CAPTCHA'yı çözmesini ister.
Tarayıcı Kullanımı
Browser Use, API anahtarlarınızla kullanabileceğiniz açık kaynaklı bir yapay zeka aracıdır .
Aracının açtığı tarayıcı sekmesinde yaptığı işlemleri izleyebilir, ayrıca işlemlerinin bazı çıktılarını terminalinizde okuyabilirsiniz. 1
Observablehq.com'a giriş yaptı ve şablonu başarıyla kopyaladı. Ancak daha sonra orijinal şablonu sildi. Kopyalanan not defterine doğru adı veremedi. Stil hücresini olduğu gibi bırakmasını istedik, ancak bunu başaramadı ve o hücreye veri kodu yazamadı. Grafik kodunu ve düğme kodunu değiştiremedi.
Tarayıcı kullanımını ChatGPT-4o API anahtarıyla birlikte kullandık.
Tarayıcı kullanımı web arayüzünde de kullanılabilir, ancak bu görevde bunu kullanmadık. 2
İnsan Odaklı Bilgisayar Kullanımı
Anthropic yapay zeka güvenliğine odaklanıyor ve bu çabalarını ajanlarında gözlemledik. Her türlü yolu denedik ancak ajan observablehq hesabımıza giriş yapmadı. Güvenlik nedenleriyle giriş yapmayı reddetti.
Ayrıca, Anthropic tarafından önerilen sanal ortamı kullandığımız için, süreci aracıdan devralıp devam ettirmek mümkün değil.
Dolayısıyla, ajan ilerleyemediği için görevimizden 0 puan aldı.
İş akışı kıyaslaması yapay zeka ajanlarının fiyatlandırması
Anthropic Computer Use, API anahtarları gerektirdiğinden, uzun süren işlemler için diğer seçeneklere göre potansiyel olarak daha pahalı olabilir.
ChatGPT Agent, bir ChatGPT hesabı ile kullanılabilir.
Browser Use, yalnızca API çağrıları maliyeti olan açık kaynaklı bir araçtır.
İş akışı kıyaslaması için metodoloji
Ajanların iş akışımıza yardımcı olup olamayacağını test etmeyi amaçladık. Şirketimizden gerçek hayattan bir örnek üzerinde test yapmak istedik, bu nedenle observablehq.com adresinde oluşturduğumuz etkileşimli grafikleri hazırlayıp hazırlayamayacaklarını test etmeye karar verdik.
Bu görevle, onların araç kullanım becerilerini ve kodlama yeteneklerini görmeyi amaçladık.
Bazı grafik şablonlarımız olmasına rağmen, verileri değiştirmek hem grafikler hem de düğmeler için kod parçacıklarını değiştirmeyi gerektirir.
Onlara şu talimatı verdik:
# Gözlemlenebilir Şablon Güncelleme Talimatları
Observablehq.com adresinde bir grafik şablonum var ve bu şablonu kullanarak, size sağlayacağım yeni verilerle yeni grafikler oluşturmanızı istiyorum. İşte talimatlar:
1. Erişim ve Kurulum
– observablehq.com adresine gidin
– Notebooks bölümünde “vis_template” adlı şablonu bulun ve kopyasını oluşturun, kopyaya “new_graph1” adını verin.
2. Şablon Yapısı
– Stil Hücresi: Değiştirmeyin (yazı tipi ayarlarını içerir)
– Düğme Hücresi: Yeni verilere göre güncellenmelidir.
– Grafik Hücresi: Yeni verilere göre güncellenmelidir.
3. Veri İşleme
– Platformlar ve farklı kategorilerdeki puanlarına ilişkin verileri alacaksınız.
– Verilerdeki platform adları ve kategori adları şablondakilerden farklı olabilir.
– Veri yapısı her zaman şu şekilde olacaktır: her kategori için puanları (0-1) olan platformlar.
4. Gerekli Güncellemeler
– Düğmeler:
* Yeni verilerdeki her kategori için bir düğme oluşturun
* "Genel" seçeneğini ilk düğme olarak tutun.
* Mevcut düğme stilini ve duyarlı tasarımı koruyun
– Grafik:
* Y eksenindeki platform adlarını güncelleyin
* Tüm puan değerlerini ve hesaplamaları güncelleyin
* Mevcut renk şemasını ve animasyonları koruyun
* Mobil uyumluluğu koruyun (< 500 piksel kırılma noktası)
5. Test Gereksinimleri
– Tüm düğmelerin doğru çalıştığını doğrulayın.
– Kategoriler seçildiğinde grafik güncellemelerini kontrol edin.
– Mobil ve masaüstü görünümlerinde duyarlı düzeni test edin.
– Yeni verilerle logonun yerleşiminin doğru kalmasını sağlayın.
Unutmayın: Şablonun yapısı ve stili değişmeden kalmalı; yalnızca verileri ve gerekli kategoriyle ilgili öğeleri güncelleyin.
Kullanılacak yeni veriler şunlardır: veri = [
{ platform: “AcmeOCR”, Taranan_belgeler: 0,95, Dijital_metin: 0,99 },
{ platform: “TextPro”, Taranan_belgeler: 0,92, Dijital_metin: 0,97 },
{ platform: “DocReader”, Taranan_belgeler: 0.88, Dijital_metin: 0.96 },
{ platform: “SmartScan”, Taranan_belgeler: 0,85, Dijital_metin: 0,94 }
]
Nesnelliği korumak adına, başka bir yönlendirme yapmadık. Devam edip etmeyeceğimiz sorulduğunda yalnızca ' Evet ' yanıtını verdik ve observablehq.com adresine giriş yapmak için kimlik bilgilerimizi girdik.
Değerlendirme kriterleri :
- Giriş yapın – veya kullanıcının observablehq.com hesabımıza giriş yapmasını sağlayın. (10 puan)
- Şablonu bulma (10 puan)
- Çatalı çıkarın (10 puan)
- Adını değiştirin (10 puan)
- Stil hücresine dokunmuyor. (5 puan)
- Koddaki verilerin güncellenmesi (15 puan)
- Grafik kodunu güncelleme (20 puan)
- Düğme kodunu güncelleme (20 puan)
Lütfen kendi hesaplarınızda yapay zeka aracılarını kullanırken dikkatli olun. Bu durum güvenlik sorunlarına veya istenmeyen faaliyetlere yol açabilir.
Web arama performans karşılaştırma sonuçları
Yapay zekâ ajanlarının iş dünyasındaki kullanım alanlarını araştırmak için 2 farklı web kazıma görevi kullandık. Tüm ajanlar görevlerin çoğunda başarısız oldu. Anthropic Computer ve Dendrite, Phidata'dan biraz daha iyi performans gösterdi.
Web kazıma hakkında daha fazla bilgi edinmek için "Web Kazımaya Giden Yol Haritası: Kullanım Alanları, Yöntemler ve Araçlar" ve "RPA Web Kazıma" makalelerini okuyabilirsiniz.
Görev 1:
İstek: H100 sunan tüm bulut GPU sağlayıcılarını belirtin. Her sağlayıcının tüm H100 tekliflerine ihtiyacımız var. Bu nedenle, bir GPU sağlayıcısı birden fazla H100 GPU teklifi sunduğunda (örneğin, tek bir H100 içeren bir teklif ve iki H100 içeren başka bir teklif) birden fazla satırda gösterilebilir. Her satır için şu veri noktalarına ihtiyacımız var: Teklifin paylaşıldığı URL, tam sayı olarak GPU sayısı, dolar cinsinden ondalık sayı olarak saatlik fiyat. Çıktı JSON formatında olmalıdır.
Onların yeteneklerini değerlendirdik.
Doğru kaynakların tümünü bulun (Şekil 1)
Doğru bilgileri verin (Şekil 2).
Görev 2:
İstek: Ekim 2024'te fonlama sağlayan özel B2B teknoloji şirketlerini bulun. Her sonucu şu şekilde biçimlendirin: [Company name] [sektör/endüstri]de [amount] fonlama sağladı.
Bu görevde, Antropik Bilgisayar kullanımı (Şekil 3) ve Phidata (Şekil 4) yanıt veremedi.
ChatGPT'nin araması 7 şirket döndürdü, bunlardan 6'sı doğru. Ancak, bir şirketin Ağustos 2024'te fon topladığı belirtilmişti ki bu, Ekim 2024'te fon toplamış şirketler şartımızı karşılamamaktadır. Bu nedenle, bu bilgi yanlıştır.
Dendrite, çok daha fazla şirket olmasına rağmen, doğru bir şekilde 2 şirket önerdi. Bunun nedeni, arama motoru sonuçlarının eksik olmasıydı.
Perplexity 6 şirket sağladı ve isimleri, toplanan miktarlar ve sektörleri doğru olsa da, bunların hiçbiri Ekim 2024'te fon toplama işlemini tamamlamadı. Bu nedenle, bu bilgiler gereksinimlerimizi karşılamamaktadır.
Dolayısıyla bu görevin liderleri ChatGPT arama motoru ve Dendrite'dir.
İnsan Odaklı Bilgisayar Kullanımı
Bilgisayar kullanımı, tek bir görev için çok sayıda API çağrısı yapar. Bilgisayar kullanımıyla bir ajanı çalıştırmak yavaştır.
Başlangıçta Anthropic'in hız sınırlamaları nedeniyle sorunlarla karşılaştık. 1. Kademe'de Anthropic, kullanıcıların dakikada 50 API isteği yapmasına izin veriyor. Bu, görevlerimizi tamamlamak için yeterli değildi, bu nedenle komut istemini birden fazla kez çalıştırmamız gerekti.
Ardından, daha yüksek bir API limiti talep ettik ve bu limiti birkaç saat içinde aldık, bu da performans karşılaştırmasını kolaylaştırdı.
Şaşkınlık
Perplexity'nin arama aracına doğrudan web sitesinden erişilebilir. ChatGPT arama motoru gibi, bu da yapay zekâ destekli bir araç değil, ancak kıyaslama görevimiz web kazıma içerdiği için testlerimize dahil etmeyi tercih ettik.
ChatGPT araması
ChatGPT'nin arama özelliği, profesyonel ve ekip kullanıcıları için doğrudan ChatGPT arayüzünde mevcuttur. Yapay zekâ destekli bir ajan olmamasına rağmen, bu karşılaştırmanın odak noktası web kazıma olduğu için testlerimize dahil ettik.
Dendrit
Dendrite, web sitesinde veri çıkarma ajanları gibi ajan örnekleri sunarak yeni ajanların oluşturulmasını kolaylaştırıyor.
Dendrite'ın ajanları, bu kıyaslamada diğer ajanların çoğundan daha yavaş çalışıyor.
Diğer arama motorlarından farklı olarak, kullanıcıların arama sorgusunu girmesini gerektirir.
Phidata
Phidata, yeni arama aracıları oluşturmayı kolaylaştırmak için web sitesinde web arama aracıları gibi örnekler sunuyor. Biz de birkaç dakika içinde bir arama aracısı geliştirdik.
Phidata'nın temsilcilerinin kıyaslama testimizde hayal ürünü olarak sunduğu sonuçlar, aslında var olmayan sayfalara ve fiyat bilgilerine bağlantılar içeriyordu.
Web arama performansı karşılaştırması yapay zeka aracıları fiyatlandırması
Anthropic bilgisayar kullanımının fiyatı API isteklerine bağlıdır. Örneğin, bu 2 görevi çalıştırmak için yaklaşık 2,5 dolar harcadık ve her görevi birkaç kez çalıştırdık. Bir görev çalıştırma için 0,5 dolar oldukça pahalı. Eğer ajan tabanlı süreç otomasyonu kullanmak istiyorsanız, daha uygun maliyetli seçenekler bulabilirsiniz.
ChatGPT'nin arama işlevi, sırasıyla aylık 20 dolar ve kullanıcı başına aylık 25 dolar (yıllık faturalandırma) fiyatla sunulan Plus ve Team planlarına abone olan kullanıcılara sunulmaktadır.
Dendrite, sınırlı bir ücretsiz plan ve 30$'lık bir Geliştirici planı sunmaktadır. Ücretsiz planın sınırlamalarına ilişkin ayrıntılar, resmi olarak yayınlandıktan sonra güncellenecektir.
Phidata'nın ücretsiz, profesyonel ve kurumsal planları bulunmaktadır. Ücretsiz plan dışında henüz başka plan mevcut değil. Ayrıca, öğrenciler, eğitimciler ve yeni kurulan şirketler için ücretsiz bir profesyonel plan sunacaklarını iddia ediyorlar.
Web arama performans ölçümüne yönelik metodolojimiz
Sürümler : En son sürüm 1 Kasım 2024 itibarıyla mevcuttur.
Dağıtım ortamı:
Dendrite ve Phidata programları dizüstü bilgisayarımızda çalıştırıldı.
Anthropic Computer kullanımı, kullanıcı cihazlarına dağıtım yapılmaması önerildiği için bulut tabanlı bir sanal makineye (VM) dağıtıldı.
ChatGPT arama özelliği ve Perplexity, ilgili web sitelerinde doğrudan kullanılabilir.
İşlem:
Tedarikçilerin web arama yeteneklerini değerlendirmek için öncelikle bulut H100 sağlayıcılarının gerçek verilerini içeren bir liste derledik. Ardından, bu listeyi yapay zeka ajanlarının çıktılarıyla karşılaştırdık.
Bilgilerin doğruluğunu değerlendirmek için, bize sağladıkları tüm bağlantıları kontrol ederek bilgilerin doğru olup olmadığını inceledik.
Daha doğru sonuçlar elde etmek için hızlı mühendislik uygulamalarına başvurmadık.
Puanlama:
Sağladıkları çıktı sayısı değişkenlik gösterdiğinden, puanlama sistemini olabildiğince basit tutmayı hedefledik. 1. görev için, bir ürün güvenilir bir kaynaktan olmayan bir URL döndürürse, 0 puan alır.
Ek olarak, çıktı sayısı 6 ile 28 arasında değiştiğinden, 6 çıktıdan 3'ü doğru olan bir ürün ile 24 çıktıdan 14'ü doğru olan bir ürünün Şekil 2'de aynı puanı aldığını belirtmek önemlidir.
Arama sonuçları kullanılan tarayıcıya ve kullanıcının konumuna bağlı olarak önemli ölçüde değiştiği ve ürünler bu kaynaklardan veri topladığı için, 2. Görev için ürünleri puanlamadık. Bununla birlikte, ChatGPT ve Dendrite doğru sonuçlar sağladığı için bu görevde lider olarak kabul ediliyorlar.
Yasal Uyarı
Ajanlar farklı tarayıcılar ve konumlar kullandığından, bu modeller web kazıma işlemi sırasında farklı kaynaklarla karşılaşabilir. Tüm ajanlara adil olmak adına, tüm potansiyel kaynaklar gerçek veri setimize dahil edilmiştir.
Bu ürünler 1. sürüm veya beta aşamasında olduklarından çeşitli sınırlamalara sahiptirler. Performans testlerine devam edeceğiz ve sonuçlar geliştikçe güncelleyeceğiz.
Bu modeller yeni geliştirildiği için güvenlik açıkları oluşturabilir; bu nedenle sanal makine veya konteyner içinde kullanılmalarını öneririz. Anthropic ayrıca bilgisayar kullanımında bu önlemin alınmasının gerekliliğinden de bahsetmektedir. 3
SSS'ler
Yapay zekâ ajanları, karmaşık iş akışlarını otomatikleştirerek insan müdahalesine olan ihtiyacı azaltır ve verimliliği artırır. İstisnaları ve uç durumları ele alabilmeleri, onları geleneksel otomasyon çözümlerinden daha güvenilir kılar.
Yapay zekâ ajanları, insanlar için zor veya sıkıcı olacak görevleri yerine getirebilirler. Ayrıca doğal dil işleme, veri işleme ve analizinde de kullanılabilirler.
İhtiyaçlarınızı, yeteneklerinizi ve fiyatları göz önünde bulundurarak bir tedarikçi seçin.
API çağrıları kullanılarak harici sistemlerle entegre edilebilirler ve çok çeşitli veri kaynaklarına erişebilirler.
Yapay zekâ ajanınız için görevi tasarlarken, modele hedef odaklı ve kafa karıştırıcı olmayan bir komut verebilmelisiniz.
Yapay zekâ ajanları, şifreleme ve erişim kontrolleri gibi teknikler kullanılarak veri gizliliği ve güvenliği göz önünde bulundurularak tasarlanmalıdır. Mevcut gelişim seviyesinde, hassas verilerinizi yapay zekâ ajanlarıyla paylaşmamanızı öneririz.
Yapay zekâ ajanları, tekrarlayan görevleri otomatikleştirerek verimliliği ve üretkenliği artırabilir ve insan ajanların daha karmaşık görevlere odaklanmasını sağlayabilir.
Kurumsal verileri analiz edebilir ve iş süreçlerini otomatikleştirebilirler. Daha fazla bilgi edinmek için, ajan tabanlı süreç otomasyonuna bakın. Otonom ajanlar oluşturarak süreçleri otomatikleştirebilir ve daha fazla görevi tamamlayabilirsiniz.
İşletmenizde yapay zeka destekli bir temsilci kullanıyorsanız, yapay zeka temsilcilerinin başarısını ölçmek için verimlilik, üretkenlik ve müşteri memnuniyeti gibi ölçütlerden yararlanın.
Yapay zekâ ajanlarının performansını zaman içinde izleyin ve gerektiğinde ayarlamalar yapın.
Veri ve analitik yöntemleri kullanarak yapay zeka ajanlarının karar alma süreçleri ve güvenilirliği hakkında bilgi edinin.
Yorum yapan ilk kişi olun
E-posta adresiniz yayınlanmayacak. Tüm alanlar gereklidir.