Kıyaslama

Bilgisayar Kullanım Ajanları: Benchmark & Mimari

Güncellenme tarihi: 22 Haz 2026

Bilgisayar kullanım ajanları gerçek masaüstlerini ve web uygulamalarını işletmeyi vaat ediyor, ancak tasarımları, sınırları ve ticari takasları genellikle belirsizdir. Çalışma şekillerini, öğrenme biçimlerini ve mimarilerinin nasıl farklılaştığını analiz ederek önde gelen sistemleri inceliyoruz. Ayrıca, 100 masaüstü ekran görüntüsü, 4 görev türü ve örnek başına 5 çalışmayı kapsayan, görsel algı kalitesini izole eden ve bileşimli bilgisayar kullanım ajanları için bile güçlü görme-dil modellerinin neden önemli olduğunu vurgulayan odaklanmış bir UI-grounding benchmark'a atıfta bulunuyoruz.

Kullanıcıların doğru bilgisayar kullanım ajanını seçmesine veya oluşturmasına yardımcı olmak için bir özellik tablosu, mimari notlar, pratik çıkarımlar ve benchmark sonuçlarına bakın:

UI grounding benchmark sonuçları

Loading Chart

Benchmark metodolojisi detayları için benchmark detaylarını okuyun.

Qwen3-VL modelleri, düşük hata (≈7–9 px) ile ~%90 doğruluk seviyesine ulaşır.
UI'ya özel modeller (örneğin UI-TARS) çok daha kötü performans gösterir (~%38 doğruluk) ve özellikle durum-bağımlı ve yoğun arayüzlerde yüksek varyans ve büyük hatalar gösterir.
Durum-bağımlı ve yoğun UI'lar, çoğu model için en zor durumlardır.

En iyi bilgisayar kullanım ajanları

Ajan	Mimari	Çalışma zamanı ortamı	Yerel sistem erişimi
Claude Cowork	Uçtan Uca	Yerel görsel çalışma alanı ortamı	✅
OpenAI Computer use preview	Uçtan Uca	API üzerinden bulut barındırmalı ajan çalışma zamanı	❌
Anthropic Claude Computer Use	Uçtan Uca	Yerel veya bulut sandbox (API istemcisi bir VM'yi kontrol eder)	❌
Open Interpreter (OS Mode)	Bileşimli	Yerel OS seviyesinde çalışma zamanı	✅
Simular Agent S/S3	Bileşimli	Framework yerel veya barındırmalı çalışabilir (açık kaynak S/S3 yerel çalışır)	❌ (ancak açık kaynak framework üzerinden yerel yürütme mümkündür)
Cua AI	Bileşimli	Bulut sandbox + yerel entegrasyon seçenekleri	❌

Tablodaki özellikler için özellikler bölümüne bakın ve bilgisayar kullanım ajanlarının mimarisinin detayları için mimari yaklaşımlar bölümünü inceleyin.

OpenAI Computer Use Preview

OpenAI'ın bilgisayar kullanımı önizlemesi, Responses API aracılığıyla bilgisayar görevlerini anlamak ve yürütmek içinşa edilmiş özel bir modeldir. Metin girdi ve çıktısına odaklanır, isteğe bağlı görsel girdi içerir ancak ses veya video desteklemez.

Anthropic Claude Computer Use

Claude Computer Use, bir kişinin yapacağı gibi Claude'un bir masaüstü veya pencere bilgisayar ortamıyla etkileşime girmesini sağlayan bir beta özelliğidir. Ekranı görme, fareyi hareket ettirme ve klavyeye yazma yoluyla çalışır.

Claude, bir geliştirici kurulumu olmadan kendi başına hareket edemez. Gerçek bilgisayarınıza otomatik olarak erişmez; sağladığınız sandbox ile etkileşime girer.

Open Interpreter (OS Mode)

Open Interpreter, kod çalıştırmaya ve sisteminizle etkileşime girmeye yetenekli açık kaynaklı bir terminal ajanıdır.

Kendi bilgisayarınızda çalışır, böylece dosyalarınızı, programlarınızı ve tarayıcınızı doğrudan kullanabilir. Kullanıcılar onunla düz İngilizce iletişim kurar ve o talimatlarını kod üretip çalıştırarak eylemlere dönüştürür. Herhangi bir kod çalıştırılmadan önce Open Interpreter neyi çalıştırmayı planladığını gösterir ve onayınızı ister.

Simular Agent S/S3

Simular Agent S3, ekranları gözlemleyerek, eylemler planlayarak ve karmaşık görevleri tamamlamak için fareyi ve klavyeyi kontrol ederek çalışan bir bilgisayar kullanım ajanıdır. Otonom GUI etkileşimi için açık Agent S framework'ünün bir parçasıdır.

Behavior Best-of-N (bBoN), Agent S3'ün tek bir çalıştırma yerine birden fazla olası eylem dizisi ("rollout") oluşturmasını sağlayan temel bir yöntemdir. Her rollout'u, ne olduğunu özetleyen basit bir özet olan bir davranış anlatısına dönüştürür. Ardından ayrı bir yargılama adımı en iyi çalıştırma seçer.

Cua AI

Cua AI, görme modellerini, akıl yürütme modellerini ve sandbox'lanmış OS ortamlarını tek bir sistemde birleştirerek masaüstü ortamlarında bilgisayar kullanım AI ajanları oluşturmayı, çalıştırmayı ve test etmeyi mümkün kılan açık kaynaklı bir framework'tür. Cua, uzak sandbox'ları kullanarak ajanları bulutta çalıştırabilir. Daha fazla kontrol veya gizlilik istiyorsanız yerel olarak da çalıştırmanıza olanak tanır.

Cua ayrıca UI ekran görüntüleri ve ajan eylem günlükleri oluşturmanıza yardımcı olur. Çok adımlı etkileşimleri kaydedebilir, eğitim verisi oluşturabilir ve ajanların ne kadar iyi performans gösterdiğini görmek için benchmark'lar çalıştırabilirsiniz.

Claude Cowork

Claude Cowork, Claude'un karmaşık işleri doğrudan bilgisayarınızda yapmasını sağlayan bir yoldur. Aynı ajan tasarımını Claude Code ile kullanır, ancak sadece kısa sohbet yanıtları sağlamak yerine yerel dosyalarınızı ve programlarınızı içeren görevlere odaklanır. Bu özellik araştırma önizlemesindedir ve macOS için Claude Desktop uygulaması içinde çalışır.

Mevcut Sınırlamalar:

Sadece macOS Desktop'ta mevcuttur.
Claude, oturumlar arasında hafıza tutmaz.
Cowork henüz çalışmalarını başkalarıyla paylaşamaz.

OSWorld benchmark

Bilgisayar kullanım ajanistik AI için sonuçlar

Sıra	Model & Tarih	Yaklaşım & Detaylar	Başarı Oranı (Ort±Std)
1	agent s3 w/ Opus 4.5 + GPT-5 bBoN (N=10) Simular	Tip: Ajanistik framework Maksimum Adım: 100 Çalıştırma: 1	%72.6
2	agent s3 w/ GPT-5 bBoN (N=10) Simular	Tip: Ajanistik framework Maksimum Adım: 100 Çalıştırma: 1	%69.9
3	UiPath Screen Agent w/ Opus 4.5 UiPath	Tip: Ajanistik framework Maksimum Adım: 100 Çalıştırma: 1	%67.1
4	agent s3 w/ Opus 4.5 bBoN (N=1) Simular	Tip: Ajanistik framework Maksimum Adım: 100 Çalıştırma: 5	%66.0
5	OS-Symphony w/ GPT-5 Shanghai AI Laboratory	Tip: Ajanistik framework Maksimum Adım: 50 Çalıştırma: 1	%65.8
6	UiPath Screen Agent w/ Opus 4.5 UiPath	Tip: Ajanistik framework Maksimum Adım: 50 Çalıştırma: 1	%64.4
7	GBOX Agent GBOX.AI	Tip: Ajanistik framework Maksimum Adım: 15 Çalıştırma: 1	%64.2
8	GTA1 w/ GPT-5 Salesforce & The Australian National University & The University of Hong Kong	Tip: Ajanistik framework Maksimum Adım: 100 Çalıştırma: 1	%63.4
9	claude-sonnet-4-5-20250929 Anthropic	Tip: Genel model Maksimum Adım: 100 Çalıştırma: 1	%62.9
10	agent s3 w/ GPT-5 bBoN (N=1) Simular	Tip: Ajanistik framework Maksimum Adım: 100 Çalıştırma: 10	%62.6

Yasal Uyarı: Aynı model farklı sıralarda görünebilir çünkü OSWorld sonuçları tam değerlendirme yapılandırmasına göre listeler (ajan framework, grounding veya planlama modeli, Best-of-N ayarı, çalıştırma sayısı ve adım limiti) ve bu ayarlardaki küçük değişiklikler bile farklı performans sonuçlarıyla ayrı girişler olarak kabul edilir.

Metodoloji

Benchmark, 369 gerçek dünya görevini (veya manuel kurulum gerektiren Google Drive görevleri hariç 361 görevi) içerir. Görevler web ve masaüstü uygulamalarını, OS dosya işlemlerini ve çoklu uygulama iş akışlarını kapsar. Her görev, tekrar üretilebilir bir başlangıç durumundan başlar ve güvenilir puanlama sağlayan özel bir yürütme tabanlı değerlendirme komut dosyasıyla eşleştirilir.

Değerlendirme süreci

Ajanlar canlı bir OS ortamıyla etkileşime girer. Başarı, ajanın ürettiği metin çıktılarına değil, aslında ne yaptığına göre ölçülür. Ortamlar paralel ve başsız (headless) yürütüm desteği sunarak ölçeklenebilir test imkanı sağlar.

Benchmark kapsamı

OSWorld, keyfi uygulamalar, çok modlu girdiler, uygulama-ötesi iş akışları ve ara başlangıç durumları boyunca açık uçlu görevleri destekler. Önceki benchmark'lara kıyasla daha geniş kapsama ve daha gerçekçi koşullar sunar.

Tabanlar ve analiz

Benchmark, LLM ve VLM aileleri arasında genel modelleri, özel modelleri ve ajanistik framework'leri değerlendirir. Sonuçlar, insan performansının (~%72) ve mevcut ajanlar arasındaki büyük boşluğu göstererek, GUI grounding ve operasyonel bilgi alanındaki zorlukları vurgular. OSWorld ayrıca görev türleri, UI karmaşıklığı, girdiler ve işletim sistemleri arasında detaylı analiz yapılmasını sağlar.

Bilgisayar kullanım modellerine iki mimari yaklaşım

Bugün, çoğu bilgisayar kullanım ajanı iki tasarım deseninden birine girer:

Uçtan Uca (E2E) Ajanlar
Bileşimli Ajanlar

Her ikisi de bir bilgisayarda görevleri tamamlamayı amaçlar. Algılama, akıl yürütme ve eylemi nasıl böldükleri açısından farklılık gösterirler.

Uçtan Uca (E2E) ajanlar

Uçtan uca ajanlar, tüm döngüyü yönetmek için tek bir görme-dil modeli kullanır. Model bir ekran görüntüsü ve bir görev tanımı alır. Ardından bir sonraki eylemi doğrudan üretir.

Görme, akıl yürütme ve eylem arasında net bir sınır yoktur. Bu süreçler aynı model içinde birlikte öğrenilir.

E2E ajanlar nasıl çalışır

Ekran Görüntüsü + Görev → Birleştirilmiş Temsil → Eylem

Model, pikseller ve metin üzerinde doğrudan akıl yürütür. Düğmelerin veya alanların açık bir listesini oluşturmaz. Bunun yerine, eğitim sırasında görsel desenler ve eylemler arasındaki ilişkileri öğrenir.

Güçlü Yönler

Daha basit sistem tasarımı
Hataların oluşabileceği daha az entegrasyon noktası
Uzun görevlerde genellikle daha kararlı

Sınırlamalar

Bir eylemin neden seçildiğine dair sınırlı görünürlük
Bir şeyler yanlış gittiğinde hata ayıklama daha zor
Ara akıl yürütme adımları üzerinde daha az kontrol

Pratik Çıkarımlar

Algılama ve planlama sıkı bir şekilde bağlı olduğu için, küçük görsel hatalar tam başarısızlıklara yayılma olasılığı daha düşüktür. Bir eylem işe yaramadığında, ajan güncellenmiş ekranı yeniden değerlendirebilir ve uyum sağlayabilir.

Ticari Takas: Ara kararları incelemek veya başarısızlıkların kaynağını izole etmek zordur.

Ekibimiz, iş süreçlerinizden birini yapay zeka ajanlarıyla ücretsiz olarak otomatikleştirsin.

Bir süreci otomatikleştir

Bileşimli ajanlar

Bileşimli ajanlar, etkileşim döngüsünü ayrı aşamalara böler. Her aşama farklı bir model veya alt sistem tarafından yönetilir.

Bileşimli AI ajanları nasıl çalışır

Typical bir pipeline şu şekilde görünür:

Grounding: Ekran görüntüsünden grafik kullanıcı arayüzü öğelerini algılama
Planlama: Bir sonraki ne yapılacağına karar verme
Yürütme: Sistem üzerinde görevleri gerçekleştirme

Bu tasarım her adımı açık hale getirir.

Güçlü Yönler

Sorumlulukların net ayrımı
Ara çıktılarını incelemek daha kolay
Araştırma ve kontrollü deneyler için daha uygun

Sınırlamalar

Daha yüksek sistem karmaşıklığı
Hatalar bileşenler arasında yayılabilir
Gerçek masaüstü ortamlarında genellikle daha az güvenilir

Pratik Çıkarımlar

Bileşimli ajanlar, algılanan düğmeler veya metin alanları gibi ekranın yapılandırılmış temsillerine güvenir. Bu şeffaflığı artırır ancak kırılganlık ekler. Grounding doğru değilse, planlama kararları başarısız olma eğilimindedir.

Ticari Takas: Uzun görevler özellikle zorlayıcıdır. Algılanan ve gerçek ekran durumu arasındaki küçük uyumsuzluklar zamanla birikebilir.

Bilgisayar kullanan ajanların (CUA'lar) temel yapı taşları

Modern bilgisayar kullanım ajanları üç ana bileşen kullanılarak inşa edilir:

1. Görme-dil modelleri (VLM'ler)

Tek VLM'ler, çoğu uçtan uca ajanın çekirdeğini oluşturur. Ekran görüntülerini ve talimatları birlikte işler ve eylemleri doğrudan üretir.

Ekran Görüntüsü + Görev → Birleşik Görme-Dil Alanı → Eylem

Model, görsel ve metinsel girdileri ortak bir iç alana kodlar. Bu alanda, açık etiketler olmadan görsel desenlerin eylemlerle nasıl ilişkili olduğunu öğrenir.

Ayrı bir grounding adımı yoktur. UI anlayışı ve görev planlama örtük ve eş zamanlı olarak gerçekleşir.

Pratik Çıkarımlar: Tek VLM'ler mimari karmaşıklığı azaltır ve hataların yayılmasını sınırlar. Şeffaflık ve ince ayarlı kontrol yerine sağlamlık ve basitliği tercih ederler.

2. Grounding modelleri

Grounding modelleri yalnızca algılamaya odaklanır ve bileşimli ajanlarda kritik bir rol oynar. Görevleri, ham ekran görüntülerini bilgisayar arayüzünün yapılandırılmış açıklamalarına çevirmektir. Hedefler hakkında akıl yürütmezler veya eylemler seçmezler.

grounding modelinin bilgisayar kullanım ajanlarında nasıl kullanıldığı

Ekran Görüntüsü → Grounding Modeli → Yapılandırılmış UI Temsili

Çıktılar genellikle şunları içerir:

Algılanan UI öğeleri
Mekansal konumlar (sınırlayıcı kutular)
Anlamsal etiketler (düğme, giriş alanı, metin)
Çıkarılan metin

Bu temsil bir planlama modeline aktarılır.

Güçlü Yönler

Açık ve incelenebilir algılama
Hataları günlüğe kaydetmek ve analiz etmek daha kolay
İyileştirilmiş şeffaflık

Sınırlamalar

Hatalar aşağı akışta yayılır
Görsel değişikliklere ve dinamik düzenlere karşı hassastır
Birçok adım boyunca tutarlılığı korumak zordur

Pratik Çıkarımlar: Grounding, genellikle bileşimli sistemlerde en zayıf halkadır. Eksik veya güncel olmayan öğeler, planlama modellerini yanlış yönlendirebilir ve tekrarlayan başarısızlıklara neden olabilir.

UI Grounding benchmark: Neden görsel kalitesi önemlidir

Algılama rolünü izole etmek için, modellerin doğal dil talimatından bir UI öğesinin tam piksel konumunu ne kadar iyi tanımladığını değerlendiren odaklanmış bir UI grounding benchmark'a atıfta bulunuyoruz.

Benchmark kurulumu

100 masaüstü ekran görüntüsü
4 görev türü: basit, ilişkisel, durum-bağımlı, yoğun UI
Tutarlılığı ölçmek için örnek başına 5 çalıştırma
Sabit çözünürlük: 2560×1440

Daha detaylı bir veri seti ve metodoloji için HuggingFace'teki AIMultiple UI Grounding'i ziyaret edin.

Çıkarım
Doğru UI grounding hala büyük bir darboğazdır. Mevcut kanıtlar, güvenilir bilgisayar kullanım ajanlarının gerçek masaüstlerini işletmesi için özellikle, dar UI özelleştirmesinden ziyade sağlam görsel algılama ve örtük UI anlayışının daha önemli olduğunu göstermektedir.

Planlama modelleri

Planlama modelleri sonraki adımları belirler. Yapılandırılmış UI verileri, görev hedefleri ve etkileşim geçmişi ile çalışırlar. Ham görüntüleri işlemezler. Bu modeller, bileşimli ajan mimarisinde kritik bir rol oynar.

Yapılandırılmış UI + Görev Hedefi → Planlama Modeli → Sonraki Eylem

Planlama modelleri şunları yapabilir:

Görevleri adımlara ayırma
İlerlemeyi takip etme
Kuralları veya sezgileri uygulama
Akıllı yürütümünü açıkça günlüğe kaydetme

Uygulamada Zorluklar

Girdi hatalarına yüksek hassasiyet
Yanlış grounding hatalı planlara yol açar.
Zaman içinde durum kayması
UI değişiklikleri önceki varsayımları geçersiz kılabilir.
Sınırlı başarısızlık kurtarma
Güçlü geri bildirim olmadan, planlayıcılar döngüye girebilir veya takılabilir.
Yürütme uyumsuzlukları
Zamanlama, odak veya koordinasyon hataları planları bozabilir.

Pratik Çıkarımlar: Planlama modelleri yapı ve şeffaflık ekler, ancak etkinlikleri büyük ölçüde doğru algılama ve güvenilir yürütüme bağlıdır.

Kıyaslamalarımızı ve veri odaklı içgörülerimizi kaçırmayın. Düğme Google'ı açar; AIMultiple'ı seçmeniz, Google arama sonuçlarında AIMultiple'ı daha sık görmek istediğinizi onaylar.

Tercih edilen kaynak olarak ekle

Bilgisayar kullanım ajanı özelliklerinin açıklaması

Çalışma zamanı ortamı

Bilgisayar kullanım ajanının nerede çalıştığını ve işletim sistemini nasıl kontrol ettiğini tanımlar (bulut VM, yerel makine veya konteyner tabanlı çalışma zamanı).

Yerel sistem erişimi

Bu, ajanın sadece uzak bir sandbox'ta değil, kullanıcının gerçek makinesinde dosya okuyup yazıp yazamadığını gösterir. Yerel erişim, kişisel iş akışları için yararlıdır ancak daha yüksek güvenlik endişeleri doğurur.

E2E ve bileşimli ajanlar arasındaki genel ticari takas nedir?

Uçtan uca ajanlar, şu anda kişisel bilgisayarlarda doğrudan kullanım için daha güvenilirdir. Birleştirilmiş tasarımları, koordinasyon sorunlarını ve başarısızlık noktalarını azaltır.

Bileşimli ajanlar doğası gereği daha zayıf değildir. Daha fazla esneklik, özelleştirme ve yorumlanabilirlik sunarlar. Ancak, gerçek ortamlarda iyi performans göstermek için daha güçlü grounding, daha sıkı durum yönetimi ve dikkatli entegrasyon gerektirirler.

Temel ticari takas yetenek değil, sağlamlık ile kontrol arasındadır.

Bilgisayar kullanım ajanları nedir?

Bilgisayar kullanım ajanları, bir insan benzeri şekilde bir bilgisayarı işletmek için tasarlanmış sistemlerdir. Ekranı izler, ne yapacaklarına karar verirler ve tıklama, yazma ve kaydırma gibi eylemler aracılığıyla etkileşime girerler.

Bir bakışta bu basit gibi görünür. Uygulamada zordur. Masaüstü ortamları dinamiktir. Arayüzler sık sık değişir. Güvenilecek sabit API'ler veya yapılar yoktur. Bu ajanlar, ekranda gördükleri şeyden çalışmalı ve bunu gerçek zamanlı olarak akıl yürütmelidir.

Farklı uygulamalara rağmen, çoğu bilgisayar kullanım ajanı aynı temel döngüyü izler:

Gözlemle → Yorumla → Karar Ver → Yürüt

Bu döngünün nasıl uygulandığı, bir ajanın gerçek kullanımda ne kadar kararlı, esnek ve güvenilir olduğunu belirler.

Bu benchmarkı kaynak gösterin

Yayınlayacağınız yere uygun formatı seçin. Bağlantılı sürümü CMS'inize yapıştırmak, geri bağlantıyı korur.

Cem Dilmegani (2026) - "Bilgisayar Kullanım Ajanları: Benchmark & Mimari". AIMultiple.com adresinde çevrimiçi yayımlanmıştır. Erişim tarihi: 22 Haziran 2026, kaynak: https://aimultiple.com/computer-use-agents [Çevrimiçi Kaynak]

Dilmegani, C. (2026, 22 Haziran). Bilgisayar Kullanım Ajanları: Benchmark & Mimari. AIMultiple. https://aimultiple.com/computer-use-agents

@misc{dilmegani2026,
  author = {Dilmegani, Cem},
  title  = {{Bilgisayar Kullanım Ajanları: Benchmark & Mimari}},
  year   = {2026},
  month  = jun,
  howpublished    = {\url{https://aimultiple.com/computer-use-agents}},
  note   = {AIMultiple. Erişim tarihi: 22 Haziran 2026}
}

Cem Dilmegani

Baş Analist

Takip Et

Cem, 2017'den beri AIMultiple'da baş analist olarak görev yapmaktadır. AIMultiple, her ay Fortune 500 şirketlerinin %55'i de dahil olmak üzere yüz binlerce işletmeye (benzer Web'e göre) bilgi sağlamaktadır. Cem'in çalışmaları, Business Insider, Forbes, Washington Post gibi önde gelen küresel yayınlar, Deloitte, HPE gibi küresel firmalar, Dünya Ekonomik Forumu gibi STK'lar ve Avrupa Komisyonu gibi uluslararası kuruluşlar tarafından alıntılanmıştır. AIMultiple'ı referans gösteren daha fazla saygın şirket ve kaynağı görebilirsiniz. Kariyeri boyunca Cem, teknoloji danışmanı, teknoloji alıcısı ve teknoloji girişimcisi olarak görev yapmıştır. On yıldan fazla bir süre McKinsey & Company ve Altman Solon'da işletmelere teknoloji kararları konusunda danışmanlık yapmıştır. Ayrıca dijitalleşme üzerine bir McKinsey raporu yayınlamıştır. Bir telekom şirketinin CEO'suna bağlı olarak teknoloji stratejisi ve tedarikini yönetmiştir. Ayrıca, 2 yıl içinde sıfırdan 7 haneli yıllık yinelenen gelire ve 9 haneli değerlemeye ulaşan derin teknoloji şirketi Hypatos'un ticari büyümesini yönetmiştir. Cem'in Hypatos'taki çalışmaları TechCrunch ve Business Insider gibi önde gelen teknoloji yayınlarında yer aldı. Cem düzenli olarak uluslararası teknoloji konferanslarında konuşmacı olarak yer almaktadır. Boğaziçi Üniversitesi'nden bilgisayar mühendisliği diplomasına ve Columbia Business School'dan MBA derecesine sahiptir.

Tam Profili Görüntüle