Bize Ulaşın
Sonuç bulunamadı.

Bilgisayar Kullanım Aracıları: Kıyaslama ve Mimari

Cem Dilmegani
Cem Dilmegani
güncellendi Nis 27, 2026
Bakınız etik normlar

Bilgisayar kullanım ajanları gerçek masaüstü ve web uygulamalarını çalıştırmayı vaat ediyor, ancak tasarımları, sınırlamaları ve ödünleşmeleri genellikle belirsiz. Önde gelen sistemleri, nasıl çalıştıklarını, nasıl öğrendiklerini ve mimarilerinin nasıl farklılaştığını inceleyerek ele alıyoruz. Ayrıca, 4 görev türünü ve örnek başına 5 çalıştırmayı kapsayan, 100 masaüstü ekran görüntüsü üzerinde odaklanmış bir kullanıcı arayüzü temellendirme kıyaslamasına da değiniyoruz; bu kıyaslama, görsel algılama kalitesini izole ediyor ve güçlü görme-dil modellerinin, karmaşık bilgisayar kullanım ajanları için bile neden önemli olduğunu vurguluyor.

Kullanıcıların doğru bilgisayar kullanım aracısını seçmelerine veya oluşturmalarına yardımcı olmak için özellik tablosuna, mimari notlarına, pratik çıkarımlara ve kıyaslama sonuçlarına bakın:

Kullanıcı arayüzü temellendirme kıyaslama sonuçları

Loading Chart

Karşılaştırma yönteminin ayrıntıları için, karşılaştırma ayrıntılarını okuyun.

  • Qwen3-VL modelleri , düşük hata oranıyla (≈7–9 px) yaklaşık %90 doğruluk oranına ulaşır.
  • UI-TARS gibi kullanıcı arayüzüne özel modeller çok daha kötü performans gösterir ( ~%38 doğruluk ) ve özellikle duruma bağlı ve yoğun arayüzlerde yüksek varyans ve büyük hatalar sergiler.
  • Duruma bağlı ve yoğun kullanıcı arayüzleri, çoğu model için en zorlu durumlardır.

En iyi bilgisayar kullanım ajanları

Tablodaki özellikler için özellikler bölümüne, bilgisayar kullanım aracıları mimarisinin ayrıntıları için ise mimari yaklaşımlar bölümüne bakınız.

OpenAI Bilgisayar Kullanımı Önizlemesi

OpenAI'nin bilgisayar kullanım önizlemesi, Responses API aracılığıyla bilgisayar görevlerini anlamak ve yürütmek için geliştirilmiş özel bir modeldir. İsteğe bağlı görüntü girişiyle birlikte metin girişi ve çıkışına odaklanır, ancak ses veya videoyu desteklemez.

Antropik Claude Bilgisayar Kullanımı

Claude Bilgisayar Kullanımı, Claude'un tıpkı bir insan gibi masaüstü veya pencereli bir bilgisayar ortamıyla etkileşim kurmasını sağlayan beta bir özelliktir. Ekranı görme, fareyi hareket ettirme ve klavyede yazma yoluyla çalışır.

Claude, geliştirici kurulumu olmadan kendi başına çalışamaz. Gerçek bilgisayarınıza otomatik olarak erişmez; sağladığınız sanal ortamla etkileşim kurar.

Açık Yorumlayıcı (İşletim Sistemi Modu)

Open Interpreter, kod çalıştırabilen ve sisteminizle etkileşim kurabilen açık kaynaklı bir terminal aracıdır.

Kendi bilgisayarınızda çalıştığı için dosyalarınızı, programlarınızı ve tarayıcınızı doğrudan kullanabilir. Kullanıcılar onunla sade bir dille iletişim kurar ve o da talimatlarını kod üreterek ve çalıştırarak eylemlere dönüştürür. Herhangi bir kod çalıştırılmadan önce, Open Interpreter çalıştırmayı planladığı şeyi gösterir ve onayınızı ister.

Benzer Ajan S/S3

Simular Agent S3, ekranları gözlemleyerek, eylemleri planlayarak ve fare ile klavyeyi kontrol ederek karmaşık görevleri tamamlayan bir bilgisayar kullanım ajanıdır. Otonom GUI etkileşimi için açık kaynaklı Agent S çerçevesinin bir parçasıdır.

Davranışsal En İyi N (bBoN) yöntemi, Agent S3'ün tek bir çalıştırma yerine birden fazla olası eylem dizisi ("yürütme") oluşturmasını sağlayan temel bir yöntemdir. Her yürütmeyi, olanların basit bir özeti olan bir davranış anlatısına dönüştürür. Ardından ayrı bir değerlendirme adımı en iyi çalıştırmayı seçer.

Cua AI

Cua AI, görüntü işleme modellerini, mantıksal çıkarım modellerini ve sanal işletim sistemi ortamlarını tek bir sisteme bağlayarak, masaüstü ortamlarında bilgisayar kullanımına yönelik yapay zeka ajanlarının oluşturulmasını, çalıştırılmasını ve test edilmesini sağlayan açık kaynaklı bir çerçevedir. Cua, ajanları uzak sanal ortamlar kullanarak bulutta çalıştırabilir. Ayrıca, daha fazla kontrol veya gizlilik istiyorsanız, bunları yerel olarak çalıştırmanıza da olanak tanır.

Cua ayrıca kullanıcı arayüzü ekran görüntüleri ve ajan eylem günlükleri oluşturmanıza da yardımcı olur. Çok adımlı etkileşimleri kaydedebilir, eğitim verileri oluşturabilir ve ajanların ne kadar iyi performans gösterdiğini görmek için kıyaslama testleri yapabilirsiniz.

Claude Ortak Çalışma Alanı

Claude Cowork, Claude'un karmaşık işleri doğrudan bilgisayarınızda yapmasını sağlayan bir yöntemdir. Claude Code ile aynı ajan tasarımını kullanır, ancak yalnızca kısa sohbet yanıtları sağlamak yerine yerel dosyalarınız ve programlarınızla ilgili görevlere odaklanır. Bu özellik araştırma önizleme aşamasındadır ve macOS için Claude Desktop uygulaması içinde çalışır.

Mevcut Sınırlamalar:

  • Yalnızca macOS masaüstü sürümlerinde kullanılabilir.
  • Claude, oturumlar arasında hafızasını koruyamıyor.
  • Ortak çalışma alanı henüz çalışmalarını başkalarıyla paylaşamıyor.

OSWorld kıyaslaması

Bilgisayar kullanımında ajansal yapay zeka için sonuçlar

Uyarı: Aynı model farklı sıralamalarda görünebilir çünkü OSWorld sonuçları tam değerlendirme yapılandırmasına ( ajan çerçevesi , temellendirme veya planlama modeli, En İyi N ayarı, çalıştırma sayısı ve adım sınırı) göre listeler ve bu ayarlardaki küçük değişiklikler bile farklı performans sonuçlarına sahip ayrı girdiler olarak ele alınır.

Metodoloji

Bu kıyaslama testi, 369 gerçek dünya görevini (manuel kurulum gerektiren Google Drive görevleri hariç 361) içerir. Görevler, web ve masaüstü uygulamalarını, işletim sistemi dosya işlemlerini ve çoklu uygulama iş akışlarını kapsar. Her görev, tekrarlanabilir bir başlangıç durumundan başlar ve güvenilir puanlama sağlamak için özel bir yürütme tabanlı değerlendirme komut dosyasıyla eşleştirilir.

Değerlendirme süreci

Ajanlar canlı bir işletim sistemi ortamıyla etkileşim kurar. Başarı, metin çıktılarıyla değil, ajanın gerçekte ne yaptığıyla ölçülür. Ortamlar paralel ve başsız yürütmeyi destekleyerek ölçeklenebilir test olanağı sağlar.

Kıyaslama kapsamı

OSWorld, keyfi uygulamalar, çok modlu girdiler, uygulamalar arası iş akışları ve ara başlangıç durumları genelinde açık uçlu görevleri destekler. Önceki kıyaslamalara kıyasla daha geniş bir kapsam ve daha gerçekçi koşullar sunar.

Temel veriler ve analiz

Bu kıyaslama, LLM ve VLM aileleri genelindeki genel modelleri, özel modelleri ve ajan tabanlı çerçeveleri değerlendirir. Sonuçlar, insan performansı (~%72) ile mevcut ajanlar arasında büyük bir fark olduğunu göstererek, GUI temellendirmesi ve operasyonel bilgi alanındaki zorlukları vurgulamaktadır. OSWorld ayrıca görev türleri, kullanıcı arayüzü karmaşıklığı, girdiler ve işletim sistemleri genelinde ayrıntılı analiz olanağı sağlar.

Bilgisayar kullanım modellerine yönelik iki mimari yaklaşım

Günümüzde çoğu bilgisayar kullanım aracısı iki tasarım modelinden birine uymaktadır:

  • Uçtan Uca (E2E) Temsilciler
  • Oluşturulmuş Ajanlar

Her ikisi de bilgisayar üzerinde görevleri tamamlamayı amaçlar. Algılama, akıl yürütme ve eylemi nasıl böldükleri konusunda farklılık gösterirler.

Uçtan Uca (E2E) aracılar

Uçtan uca ajanlar, tüm döngüyü yönetmek için tek bir görsel-dil modeli kullanır. Model, bir ekran görüntüsü ve bir görev açıklaması alır ve ardından doğrudan bir sonraki eylemi çıktı olarak verir.

Görme, akıl yürütme ve eylem arasında net bir sınır yoktur. Bu süreçler aynı model içinde birlikte öğrenilir.

Uçtan uca ajanlar nasıl çalışır?

Ekran Görüntüsü + Görev → Birleşik Gösterim → Eylem

Model, pikseller ve metinler üzerinde doğrudan akıl yürütür. Düğmelerin veya alanların açık bir listesini oluşturmaz. Bunun yerine, eğitim sırasında görsel desenler ve eylemler arasındaki ilişkileri öğrenir.

Güçlü Yönler

  • Daha basit sistem tasarımı
  • Hata oluşabilecek entegrasyon noktalarının sayısı daha az.
  • Uzun süreli görevlerde genellikle daha istikrarlıdır.

Sınırlamalar

  • Bir eylemin neden seçildiğine dair sınırlı görünürlük.
  • Bir sorun çıktığında hata ayıklamak daha zor olur.
  • Ara aşamalardaki mantıksal çıkarım adımları üzerinde daha az kontrol

Pratik sonuçlar

Algılama ve planlama birbirine sıkıca bağlı olduğundan, küçük görsel hataların tam başarısızlıklara dönüşme olasılığı daha düşüktür. Bir eylem işe yaramadığında, ajan güncellenmiş ekranı yeniden değerlendirebilir ve uyum sağlayabilir.

Dezavantaj: Ara kararları incelemek veya başarısızlıkların kaynağını belirlemek zordur.

Oluşturulmuş ajanlar

Bileşik ajanlar, etkileşim döngüsünü ayrı aşamalara böler. Her aşama farklı bir model veya alt sistem tarafından ele alınır.

Bileşik yapay zeka ajanları nasıl çalışır?

Tipik bir işlem hattı şöyle görünür:

  1. Temel alma: Ekran görüntüsünden grafiksel kullanıcı arayüzü öğelerini tespit etme
  2. Planlama: Sonraki adımda ne yapacağınıza karar verin.
  3. Yürütme: Sistem üzerinde görevleri gerçekleştirin.

Bu tasarım her adımı açıkça ortaya koyuyor.

Güçlü Yönler

  • Sorumlulukların net bir şekilde ayrılması
  • Ara çıktıları incelemek daha kolay.
  • Araştırma ve kontrollü deneyler için daha uygundur.

Sınırlamalar

  • Daha yüksek sistem karmaşıklığı
  • Hatalar bileşenler arasında yayılabilir.
  • Gerçek masaüstü ortamlarında genellikle daha az güvenilirdir.

Pratik sonuçlar

Bileşik ajanlar, algılanan düğmeler veya metin alanları gibi ekranın yapılandırılmış temsillerine dayanır. Bu, şeffaflığı artırır ancak kırılganlığı da beraberinde getirir. Temellendirme doğru değilse, planlama kararlarının başarısız olma olasılığı yüksektir.

Dezavantaj : Uzun süren görevler özellikle zorlayıcıdır. Algılanan ve gerçek ekran durumu arasındaki küçük uyumsuzluklar zamanla birikebilir.

Bilgisayar kullanan ajanların (CUA'lar) temel yapı taşları

Modern bilgisayar kullanım aracıları üç ana bileşen kullanılarak oluşturulmuştur:

1. Görsel-dil modelleri (VLM'ler)

Tekil VLM'ler, çoğu uçtan uca ajanın çekirdeğini oluşturur. Ekran görüntülerini ve talimatları birlikte işler ve doğrudan eylemler üretir.

Ekran Görüntüsü + Görev → Ortak Görsel-Dil Alanı → Eylem

Model, görsel ve metinsel girdileri paylaşılan bir iç alana kodlar. Bu alanda, açık etiketler olmadan görsel desenlerin eylemlerle nasıl ilişkili olduğunu öğrenir.

Ayrı bir temel oluşturma adımı yoktur. Kullanıcı arayüzü anlayışı ve görev planlaması örtük olarak ve eş zamanlı olarak gerçekleşir.

Pratik çıkarımlar: Tekil VLM'ler mimari karmaşıklığı azaltır ve hataların yayılmasını sınırlar. Şeffaflık ve ayrıntılı kontrol yerine sağlamlığı ve sadeliği tercih ederler.

2. Topraklama modelleri

Temel modeller yalnızca algılamaya odaklanır ve oluşturulmuş ajanlarda çok önemli bir rol oynar. Görevleri, ham ekran görüntülerini bilgisayar arayüzünün yapılandırılmış tanımlarına çevirmektir. Hedefler hakkında akıl yürütmezler veya eylemler seçmezler.

Ekran Görüntüsü → Temel Model → Yapılandırılmış Kullanıcı Arayüzü Gösterimi

Çıktılar genellikle şunları içerir:

  • Algılanan kullanıcı arayüzü öğeleri
  • Mekansal konumlar (sınır kutuları)
  • Anlamsal etiketler (düğme, giriş alanı, metin)
  • Çıkarılan metin

Bu temsil, bir planlama modeline aktarılır.

Güçlü Yönler

  • Net ve denetlenebilir algı
  • Arızaları kaydetmek ve analiz etmek daha kolay.
  • Geliştirilmiş şeffaflık

Sınırlamalar

  • Hatalar aşağı doğru yayılır.
  • Görsel değişikliklere ve dinamik düzenlere duyarlı.
  • Birçok aşamada tutarlılığı korumak zor.

Pratik çıkarımlar: Topraklama, genellikle bileşik sistemlerdeki en zayıf halkadır. Eksik veya güncelliğini yitirmiş unsurlar, planlama modellerini yanıltabilir ve tekrarlanan arızalara neden olabilir.

UI Grounding kıyaslaması: Görüntü kalitesi neden önemlidir?

Görsel algının rolünü izole etmek için, modellerin doğal dil talimatından bir kullanıcı arayüzü öğesinin tam piksel konumunu ne kadar iyi tanımladığını değerlendiren odaklanmış bir kullanıcı arayüzü temellendirme kıyaslama ölçütüne başvuruyoruz.

Kıyaslama kurulumu

  • 100 masaüstü ekran görüntüsü
  • 4 görev türü: basit, ilişkisel, duruma bağlı, yoğun kullanıcı arayüzü
  • Tutarlılığı ölçmek için numune başına 5 deneme yapıldı.
  • Sabit çözünürlük: 2560×1440

Daha detaylı veri seti ve metodoloji için HuggingFace'deki AIMultiple UI Grounding sayfasını ziyaret edin.

Götürmek
Doğru kullanıcı arayüzü temellendirmesi önemli bir darboğaz olmaya devam ediyor. Mevcut kanıtlar, özellikle gerçek masaüstlerinde çalışan güvenilir bilgisayar kullanıcı ajanları için, sağlam görsel algı ve örtük kullanıcı arayüzü anlayışının, dar kullanıcı arayüzü uzmanlığından daha önemli olduğunu göstermektedir.

Planlama modelleri

Planlama modelleri sonraki adımları belirler. Yapılandırılmış kullanıcı arayüzü verileri, görev hedefleri ve etkileşim geçmişiyle çalışırlar. Ham görüntüleri işlemezler. Bu modeller, oluşturulan ajan mimarisinde çok önemli bir rol oynar.

Yapılandırılmış Kullanıcı Arayüzü + Görev Hedefi → Planlama Modeli → Sonraki Eylem

Planlama modelleri şunları yapabilir:

  • Görevleri adımlara ayırın
  • İlerleme durumunu takip et
  • Kuralları veya sezgisel yöntemleri uygulayın.
  • Mantıksal akıl yürütmeyi açıkça

Uygulamada karşılaşılan zorluklar

  • Giriş hatalarına karşı yüksek hassasiyet
    Yanlış topraklama, hatalı planlara yol açar.
  • Zaman içinde durum değişikliği
    Kullanıcı arayüzündeki değişiklikler, önceki varsayımları geçersiz kılabilir.
  • Sınırlı arıza kurtarma
    Güçlü geri bildirim olmadan, planlamacılar aynı noktada dönüp durabilir veya tıkanabilirler.
  • Yürütme uyumsuzlukları
    Zamanlama, odaklanma veya koordinasyon hataları planları alt üst edebilir.

Pratik çıkarımlar: Planlama modelleri yapı ve şeffaflık kazandırır, ancak etkinlikleri büyük ölçüde doğru algılamaya ve güvenilir uygulamaya bağlıdır.

Bilgisayar kullanım aracısının temel özelliklerinin açıklaması

Çalışma ortamı

Bu, bilgisayar kullanım aracısının nerede çalıştığını ve işletim sistemini nasıl kontrol ettiğini tanımlar (bulut sanal makinesi, yerel makine veya kapsayıcı tabanlı çalışma ortamı).

Yerel sistem erişimi

Bu, aracının yalnızca uzak bir sanal ortamda değil, kullanıcının gerçek makinesinde dosya okuyup yazabildiğini gösterir. Yerel erişim kişisel iş akışları için kullanışlıdır ancak daha yüksek güvenlik endişeleri doğurur.

Uçtan uca (E2E) ve bileşik ajanlar arasındaki genel avantaj ve dezavantajlar nelerdir?

Uçtan uca ajanlar, kişisel bilgisayarlarda doğrudan kullanım için şu anda daha güvenilirdir. Birleşik tasarımları, koordinasyon sorunlarını ve hata noktalarını azaltır.

Birleştirilmiş ajanlar doğ inherently daha zayıf değildir. Daha fazla esneklik, özelleştirme ve yorumlanabilirlik sunarlar. Bununla birlikte, gerçek ortamlarda iyi performans göstermeleri için daha güçlü bir temele, daha sıkı durum yönetimine ve dikkatli entegrasyona ihtiyaç duyarlar.

Temel ödünleşme yetenek değil, sağlamlık ve kontrol arasında yaşanmaktadır .

Bilgisayar kullanım aracıları nelerdir?

Bilgisayar kullanım ajanları, bir bilgisayarı insana benzer şekilde kullanmak üzere tasarlanmış sistemlerdir. Ekrana bakarlar, ne yapacaklarına karar verirler ve tıklama, yazma ve kaydırma gibi eylemlerle etkileşimde bulunurlar.

İlk bakışta bu basit gibi görünüyor. Ancak pratikte zordur. Masaüstü ortamları dinamiktir. Arayüzler sık sık değişir. Güvenilebilecek sabit API'ler veya istikrarlı yapılar yoktur. Bu ajanlar ekranda gördüklerine göre çalışmalı ve gerçek zamanlı olarak bunun üzerinde akıl yürütmelidir.

Uygulama biçimleri farklı olsa da, çoğu bilgisayar kullanım aracısı aynı temel döngüyü izler:

Gözlemle → Yorumla → Karar Ver → Uygula

Bu döngünün nasıl uygulandığı, bir ajanın gerçek kullanımda ne kadar istikrarlı, esnek ve güvenilir olacağını belirler.

Cem Dilmegani
Cem Dilmegani
Baş Analist
Cem, 2017'den beri AIMultiple'da baş analist olarak görev yapmaktadır. AIMultiple, her ay Fortune 500 şirketlerinin %55'i de dahil olmak üzere yüz binlerce işletmeye (benzer Web'e göre) bilgi sağlamaktadır. Cem'in çalışmaları, Business Insider, Forbes, Washington Post gibi önde gelen küresel yayınlar, Deloitte, HPE gibi küresel firmalar, Dünya Ekonomik Forumu gibi STK'lar ve Avrupa Komisyonu gibi uluslararası kuruluşlar tarafından alıntılanmıştır. AIMultiple'ı referans gösteren daha fazla saygın şirket ve kaynağı görebilirsiniz. Kariyeri boyunca Cem, teknoloji danışmanı, teknoloji alıcısı ve teknoloji girişimcisi olarak görev yapmıştır. On yıldan fazla bir süre McKinsey & Company ve Altman Solon'da işletmelere teknoloji kararları konusunda danışmanlık yapmıştır. Ayrıca dijitalleşme üzerine bir McKinsey raporu yayınlamıştır. Bir telekom şirketinin CEO'suna bağlı olarak teknoloji stratejisi ve tedarikini yönetmiştir. Ayrıca, 2 yıl içinde sıfırdan 7 haneli yıllık yinelenen gelire ve 9 haneli değerlemeye ulaşan derin teknoloji şirketi Hypatos'un ticari büyümesini yönetmiştir. Cem'in Hypatos'taki çalışmaları TechCrunch ve Business Insider gibi önde gelen teknoloji yayınlarında yer aldı. Cem düzenli olarak uluslararası teknoloji konferanslarında konuşmacı olarak yer almaktadır. Boğaziçi Üniversitesi'nden bilgisayar mühendisliği diplomasına ve Columbia Business School'dan MBA derecesine sahiptir.
Tam Profili Görüntüle

Yorum yapan ilk kişi olun

E-posta adresiniz yayınlanmayacak. Tüm alanlar gereklidir.

0/450