Kıyaslama

Yapay Zeka Ajan Platformları Benchmark'ı: Claude Yönetilen Ajanları vs Google Vertex Ajan Motoru

Güncellenme tarihi: 5 May 2026

4 yapay zeka ajan platformunu 3 boyutta benchmark'ladık: görev tamamlama (10 kodlama görevi × 3 çalıştırma), harness'e özgü yetenekler (yönlendirme, yeniden bağlanma, uzun konuşma hatırlama, büyük dosya işleme) ve maliyet.

Yapay zeka ajan platformları benchmark sonuçları

Platform	Model	Geçme oranı	Duvar saati	Maliyet	Token
Claude Yönetilen Ajanları	Claude Sonnet 4.6	30/30 (%100)	1,172s	$2.50	93k
Vertex AI Ajan Motoru	Gemini 2.5 Pro	30/30 (%100)	1,447s	$1.45	159k
OpenAI Yanıtlar + CI	GPT-5.4	27/30 (%90)	522s	$1.54	113k
Kontrol (kendi kendine barındırılan)	Claude Sonnet 4.6	30/30 (%100)	794s	$1.96	464k

Claude Yönetilen Ajanları ve Vertex AI Ajan Motoru, görev setinde her ikisi de %100 geçme oranı elde ederken, Vertex maliyet açısından ($1.45 karşı $2.50) öne çıkıyor. Orta akış yönlendirme, bağlantı kesme/tekrar bağlanma, uzun konuşma sıkıştırma gibi yalnızca yönetilen platformlarda bulunan harness'e özgü özellikler için Claude Yönetilen Ajanları en yetenekli olanıdır, ancak Vertex Ajan Motoru taşınabilir testlerde (sıkıştırma, büyük dosya işleme) onunla eşleşir.

Görev benchmark'ından ana bulgular

Claude MA ve Vertex AE, 30/30 (%100) geçme oranında berabere kaldı. Her ikisi de OpenAI'ı zorlayan ağ görevleri (06, 10) dahil tüm görev türlerini yönetir.
OpenAI'ın başarısızlıkları sandbox politikasından kaynaklanıyor. Görev 06 (REST API) ve 10 (eşzamanlı indirici) her ikisi de dışa dönük HTTP gerektiriyor. Code Interpreter'ın sandbox'ı bunu kısıtlıyor ve her ikisi de sırasıyla 2/3 ve 1/3 oranında başarısız oldu. GPT-5.4'ün kodu yazabildiğini gördük, ancak sandbox onu güvenilir şekilde çalıştırmıyor.
Vertex AE, toplamda $1.45 ile en ucuz olanıdır. Claude MA, $2.50 ile en pahalı olanıdır. Aynı görev setinde ve aynı geçme oranıyla Vertex'e göre %72 daha pahalıdır.
Vertex AE en yavaştır. Yönetilen ADK orkestrasyonu ek yük getirir.

Harness'e özgü yetenekler

İki platform, yalnızca yönetilen bir harness olduğu için var olan özelliklerde karşı karşıya getiriliyor.

Benchmark metodolojisine aşağıdan bakın.

Yapay zeka ajan platformları

Claude Yönetilen Ajanları

Anthropic'in Claude Yönetilen Ajanları, durumlu oturumlar, yerleşik araç çalıştırma, olay tabanlı akış ve uzun süreli otonom iş yükleri için otomatik sıkıştırma birleştiren barındırılan bir ajan çalışma zamanı sağlar. Platform, orta akış kullanıcı olay enjeksiyonu ile uçuşta yönlendirme, bağlantı kesme/tekrar bağlanma için yeniden başlatılabilir SSE akışları ve yerel MCP sunucu entegrasyonu gibi benzer tekliflerde bulunmayan eşsiz ilkelere göre ayrışır. Bunların hepsi, geliştiricilerin sağlayacağı altyapı olmadan tamamen yönetilen bir hizmet olarak sunulur.¹

Fiyatlandırma, standart Claude API token maliyetlerinin üzerine saatlik oturum başına $0.08'dir.

Artıları:

Uçuşta yürütme sırasında ajanları yönlendirmek için yeni kullanıcı mesajlarına izin veren orta akış olay enjeksiyonu ile durumlu oturumlar.

Sabit SSE akışları üzerinden bağlantı kesme ve yeniden bağlanma desteği; oturumlar ağ kesintileri sırasında sunucu tarafında çalışmaya devam eder ve istemciler yeniden bağlanmada olay tüketimine devam edebilir.

Yerleşik ajan araç seti, özel araç kablolamayı ortadan kaldıran tek bir yapılandırma parametresi ile erişilebilir bash, dosya işlemleri (okuma, yazma, düzenleme, glob, grep) ve web araçlarını (web_fetch, web_search) paketler.

Ajanın yerleşik araç setini değiştirmeden özel araç uzantıları için yerel MCP (Model Bağlam Protokolü) sunucu entegrasyonu.

Eksileri:

Şu anda beta aşamasında; tüm istekler managed-agents-2026-04-01 beta başlığı gerektirir ve davranış sürümler arasında iyileştirilebilir.
Claude-sadece, AWS Bedrock AgentCore veya çoklu model sağlayıcılarını destekleyen Northflank gibi platformlara kıyasla model esnekliği yok.

Salesforce Agentforce

Salesforce Agentforce, Atlas Reasoning Engine üzerinden yerel CRM veri erişimi ve satış, hizmet, pazarlama ve ticaret iş akışları için önceden hazırlanmış ajanlarla ayrışır.²

Platform, çapraz sistem orkestrasyonu için MuleSoft Agent Fabric ile entegre olur ve AWS ortaklıkları için Agentforce 360 sunar.

Agentforce, mevcut Salesforce Cloud altyapısına doğrudan gömülü otonom müşteriye yönelik iş akışları gerektiren kuruluşlara hizmet verir.

Artıları:

– Atlas Reasoning Engine üzerinden yerel CRM veri erişimi, bağlam bilinci ajan eylemlerini mümkün kılar.

– Satış, hizmet, pazarlama ve ticaret için önceden hazırlanmış ajanlar, dağıtım süresini azaltır.

– Düzenlenmiş sektörler için Salesforce Government Cloud üzerinde FedRAMP yetkili.

– Temeller ücretsiz katmanı, ilk test için 200.000 Flex Kredi içerir.

Eksileri:

– Bulut tabanlı SaaS, yerinde dağıtım seçeneği yok.

– Sınırlı model agnostisizmi; varsayılan olarak Salesforce-yönetilen modeller ve kısıtlı dış sağlayıcı desteği.

– Tam değeri elde etmek için mevcut Salesforce ekosistem yatırımı gerektirir.

Microsoft Copilot Studio

Artıları:

– Dahili ajan kullanımı için ek ücret olmadan Microsoft 365 Copilot lisanslarıyla birlikte gelir.³

– Müşteri hizmetleri senaryoları için gerçek zamanlı sesli ajanlar ve IVR telefon desteği.

– Kamu sektörü dağıtımları için Azure Government üzerinden FedRAMP yetkili.

– Tek bir oluşturma ortamı içinde OpenAI, Anthropic modelleri ve açık kaynak çerçeveleri destekler.

Eksileri:

– Microsoft ekosistemi dışında sınırlı işlevsellik; tam yetenekler için Azure veya M365 taahhüdü gerektirir.

– Bağımsız kalıcı ücretsiz katman yok; dahil kullanım için mevcut M365 Copilot aboneliği gerektirir.

– Nisan 2026 itibarıyla gerçek zamanlı sesli AI modeli yalnızca Kuzey Amerika'da barındırılıyor.

Copilot Studio, zaten Microsoft 365, Teams ve Azure kullanan kuruluşlar için en uygun maliyetlidir; mevcut kimlik, güvenlik ve uyumluluk yapılandırmalarını miras alan çalışan odaklı otomasyon sunar.

Google Agentspace ve Vertex AI Ajan Oluşturucu

Google'ın çift teklifi, kurumsal bilgi yönetimi için Agentspace ve düşük kodlu geliştirme için Vertex AI Ajan Oluşturucuyu birleştirir; Gemini model entegrasyonu, Google Workspace çapraz ürün bağlamı ve metin, ses ve görüntüler için çok modlu giriş desteği ile ayrışır.⁴

Platform, yeni kullanıcılar için $300 ücretsiz kredi ve Vertex AI Ajan Motoru için kullanıma göre ödeme fiyatlandırması sağlar.

Artıları:

– Yeni kullanıcılar için $300 ücretsiz kredi, ön yatırım olmadan kapsamlı prototipleme sağlar.

– Düzenlenmiş ortamlar için Google Dağıtılmış Bulut üzerinden yerinde dağıtım desteklenir.

– Google Cloud üzerinden FedRAMP yetkili.

– Google ADK (Ajan Geliştirme Kiti), Python, TypeScript, Go ve Java'da kod odaklı geliştirme destekler.

Eksileri:

– Gemini-birincil tasarım, tamamen agnostik platformlara kıyasla model esnekliğini sınırlar.

AWS Bedrock Ajanları ve AgentCore

AWS Bedrock Ajanları ve yeni AgentCore platformu, re:Invent 2025'te başlatılan kurumsal ölçekli ajanlar için sunucusuz altyapı yönetimi sağlar.⁵

Farklılaştırıcılar arasında AgentCore çalışma zamanı için vCPU-saati başına $0.0895 kullanıma göre ödeme fiyatlandırması, sağlanan throughput seçenekleri ve özel bellek sağlayıcısı olarak Mem0 yer alır.

Artıları:

– Hassas iş yükleri için AWS GovCloud üzerinde FedRAMP Yüksek yetkili.

– Kullanıcı ve ajan tarafından eşzamanlı konuşmayı destekleyen çift yönlü akış, sesli ajanları destekler.

– İlk denemeler için yeni AWS müşterileri için ücretsiz katman mevcut.

– Bedrock kataloğu aracılığıyla Anthropic, Amazon, Meta, Mistral ve AI21'den modellere erişim.

Eksileri:

– Önceden hazırlanmış alan özel ajan şablonları yok; SDK kullanarak sıfırdan oluşturmayı gerektirir.

– Yerinde dağıtım seçeneği yok; yalnızca AWS altyapısında çalışır.

– Ajan oluşturma, görsel oluşturuculara kıyasla önemli API/SDK kodlama gerektirir.

AWS Bedrock, AWS ekosistemine derin entegrasyon gerektiren ölçeklenebilir, sunucusuz ajan altyapısı gerektiren kuruluşlara hizmet verir; parçalı kullanım bazlı faturalandırma yoluyla maliyet verimliliği sunar.

IBM watsonx Orchestrate

IBM watsonx Orchestrate, 150'den fazla önceden hazırlanmış alan özel ajanları (İK, satın alma, satış ve finans) ve özel beceriler oluşturmak için Skills Studio ile düzenlenmiş kuruluşları hedefler.⁶

Platform, IBM Cloud Pak for Data ve Software Hub üzerinden hibrit bulut ve yerinde dağıtım esnekliği sunar.

Artıları:

– Veri ikamet gereksinimleri için IBM Cloud Pak for Data üzerinden yerinde kurulum desteklenir.

– IBM ve ortaklarından 150'den fazla önceden hazırlanmış ajan ve araç; SAP, Salesforce ve Workday dahil 80'den fazla kurumsal uygulama entegrasyonu.

– Nisan 2026'da federal dağıtımlar için FedRAMP yetkisi genişletildi.

– Sağlayıcı kilidi olmadan çoklu LLM sağlayıcılarını destekleyen gerçek model agnostisizliği.

Eksileri:

– Kalıcı ücretsiz katman yok; devam eden kullanım için Essentials veya Standard aboneliği gerektirir.

– Ses ve telefon yetenekleri, ADK'da yerel ses yapılandırması ve Deepgram ve ElevenLabs gibi sağlayıcılarla entegrasyonlar aracılığıyla watsonx Orchestrate içinde mevcuttur, ancak gelişmiş telefonculuk ek yapılandırma gerektirebilir.

– Kurumsal özellikler için özel teklifler gerektiren karmaşık fiyatlandırma yapısı.

ServiceNow AI Ajanları

ServiceNow AI Ajanları, bağımsız bir platform olarak çalışmak yerine IT, İK ve müşteri hizmetleri iş akışlarıyla yerel entegrasyon yoluyla Now Platform'a doğrudan gömülür.

Platform, yönetişim için AI Control Tower, ITSM ve HRSD için önceden hazırlanmış ajan iş akışları ve politika geçmişini ajan eylemlerine bağlayan bir Bağlam Motoru içerir.⁷

Artıları:

– Mevcut Now Platform yönetişimi, SLA kuralları ve onay iş akışlarını miras alır.

– AI Sesli Ajanları, CCaaS sağlayıcıları olarak Genesys Cloud, Twilio ve 3CLogic'ı destekler.

– AI Web Ajanları, tarayıcı tabanlı görevleri otomatikleştirmek için insan gösterilerinden öğrenir.

Eksileri:

– Kalıcı ücretsiz katman yok; yeni müşteriler yalnızca 100 ücretsiz Build Agent çağrısı alır.

– Mart 2026 itibarıyla AI Ajanları, AI Ajan Orkestratörü ve AI Ajan Stüdyosu için FedRAMP Yüksek yetkisi, Government Community Cloud (GCC) müşterileri için onaylandı.

– IT veya İK hizmet yönetimi için zaten ServiceNow kullanmayan kuruluşlar için sınırlı değer.

Kore.ai

Kore.ai, bulut ve yerinde dağıtımları destekleyen model-agnostik mimari ile 300'den fazla önceden hazırlanmış ajan, 250'den fazla kurumsal entegrasyon ve kurumsal konuşmalı AI'ya odaklanır.

Platform, bankacılık, sağlık ve perakende dahil altı dikeye hizmet verir.⁸

Artıları:

– Düşük gecikmeli küresel ses etkileşimleri sağlayan yerel ses altyapısı.

– Yerinde ve özel bulut seçenekleri dahil esnek dağıtım.

– Çoklu LLM sağlayıcılarını destekleme.

Eksileri:

– Kalıcı ücretsiz katman yok; ilk test için yalnızca $500 tek seferlik kredi sunar.

LangGraph

Artıları:

– MIT açık kaynak lisansı, kısıtsız ticari kullanım ve değişiklik sağlar.

– Grafik mimarisi üzerinden deterministik iş akışı kontrolü, tekrarlanabilir yürütme yollarını garanti eder.

– LangSmith gözlemlenebilirlik entegrasyonu, üretim izleme ve izleme sağlar.

Eksileri:

– Görsel kod-siz oluşturucu yok; ajan grafiklerini tanımlamak için Python veya JavaScript kodu gerektirir.

– Yerel ses veya telefon entegrasyonu yok; ses kanalları için özel kodlama gerektirir.

– Grafik tabanlı programlama paradigmalarına aşina olmayan ekipler için dik öğrenme eğrisi.

LangGraph, karmaşık koşullu mantık, hata kurtarma ve bireysel yürütme adımlarının denetlenebilirliğini gerektiren üretim düzeyi ajanlar oluşturan mühendislik ekiplerine uygundur.

CrewAI

Artıları:

– Rol tabanlı soyutlama, sezgisel ajan koordinasyonu için insan ekip yapılarını yansıtır.

– Yerinde dağıtımlar için lisans ücreti olmayan ücretsiz açık kaynak çekirdek.

– Teknik olmayan ekip üyeleri için ücretsiz katmanda görsel düzenleyici ve AI copilot mevcuttur.

Eksileri:

– Resmi sağlayıcı tarafından bakılan şablon pazarı yok; topluluk katkılarına güvenir.

– Kod odaklı yaklaşım, ajan oluşturma için Python bilgisi gerektirir.

– Kurumsal plan fiyatlandırması yalnızca talep üzerine mevcuttur; bu, diğer açık kaynak seçeneklere kıyasla küçük ekipler için bütçe belirsizliği yaratabilir.

CrewAI, özellikle belge işleme, araştırma iş akışları ve çok adımlı içerik oluşturma görevleri için rol tabanlı ajan pipeline'larının hızlı prototiplenmesini sağlar.

n8n

n8n, adil-kod lisansı (Sürdürülebilir Kullanım Lisansı) altında çalışır; 400'den fazla yerel uygulama bağlantı noktası, görsel AI düğümleri ve kendi kendine barındırılabilir altyapı sunar.

Artıları:

– Ücretsiz Community Edition, SSO SAML, LDAP, RBAC ve şifreli gizli depoları içerir.

– Görsel iş akışları içinde LangChain ve LlamaIndex için yerel destek.

– Görsel iş akışı düzenleyicisi, kodlama olmadan karmaşık otomasyon sağlar.

Eksileri:

– Ticari barındırma veya SaaS ürünleri için adil-kod lisansı ücretli lisans gerektirir.

– Yerel ses veya telefon düğümü yok; ses için dış API entegrasyonu gerektirir.

– FedRAMP yetkisi onaylanmadı.

n8n, geleneksel iş akışı otomasyonu ile yapay zeka ajanları arasında köprü kurar; veri ikamet için kendi kendine barındırılan dağıtım gerektiren ancak görsel oluşturma yeteneklerini koruyan teknik iş analistleri ve DevOps ekiplerine hizmet verir.

Dify

Dify, açık kaynaklı bir LLMOps platformudur.

Platform, RAG pipeline'ları, prompt mühendisliği araçları ve model-agnostik mimariyi destekler.

Artıları:

– Docker dağıtımı üzerinden tam veri kontrolü ile Community Edition kalıcı olarak ücretsizdir.

– Görsel iş akışı oluşturucu, kodlama olmadan karmaşık ajan oluşturma sağlar.

– Onlarca çıkarım sağlayıcısından yüzlerce özel ve açık kaynaklı LLM'i destekler.

Eksileri:

– Ses desteği, Agora veya Tencent RTC gibi pazar yeri eklentileri gerektirir; yerel PSTN telefonculuğu yok.

– FedRAMP yetkisi yok.

– Aylık $159 Cloud Team planı, küçük ekipler için pahalı olabilir.

Dify, özellikle kendi kendine barındırma yoluyla veri kontrolünü önceliklendiren, güçlü RAG yeteneklerine sahip belge bilinci ajanlar gerektiren ürün ve operasyon ekiplerine uygundur.

Voiceflow

Voiceflow, ses öncelikli ajan tasarımını bir eklenti yerine birinci sınıf vatandaş olarak ele alan tek büyük platform olarak ayrışır; hem ses hem de sohbet ajanları için özel olarak tasarlanmış bir tasarım tuvali ve 500ms'den daha düşük gecikme süresi sunar.

Platform, müşteri hizmetleri bilet otomasyonu ve IVR sistemlerinde uzmanlaşır.

Artıları:

– IVR desteği ve 500ms'den daha düşük gecikme süresi ile yerel ses ve telefon kanalları.

– Bilgi tabanı sorguları için varlık çıkarma yetenekleri.

– Ücretsiz plan, son kullanma tarihi olmadan 2 ajan ve 100 aylık AI token içerir.

– Özellikle konuşmalı AI iş akışları için tasarlanmış görsel tuval.

Eksileri:

– Yerinde dağıtım yalnızca özel kurumsal anlaşmalar yoluyla mevcuttur.

Voiceflow, tek bir tasarım arayüzünden ses, sohbet ve mesajlaşma kanallarında dağıtım gerektiren müşteriye yönelik konuşmalı ajanlar oluşturan CX ve destek ekiplerine hizmet verir.

Relevance AI

Relevance AI, get-your-own-LLM (BYOLLM) esnekliği ve eylem bazlı faturalandırma modeli sunar; teknik olmayan ekiplerin doğal dil açıklamaları yoluyla çoklu ajan ekipleri oluşturmasına olanak tanır.

Artıları:

– Ücretsiz katman, son kullanma tarihi olmadan günde 100 kredi içerir.

– HubSpot, Salesforce, Slack ve Gmail dahil 2.000'den fazla entegrasyon.

– Çoklu LLM sağlayıcılarını destekleyen gerçek model agnostisizliği.

Eksileri:

– Kendi kendine barındırma veya yerinde dağıtım seçenekleri yok; bulut tabanlı SaaS.

– Düzenlenmiş sektörler için FedRAMP yetkisi yok.

– Ses yetenekleri, yerel telefonculuk yerine Vapi veya Twilio ile entegrasyon gerektirir.

Lindy AI

Lindy AI, Pipedream üzerinden çeşitli entegrasyonlar, e-posta triajı ve planlama için önceden hazırlanmış ajan şablonları ve Gaia ses özelliği aracılığıyla telefon görüşmesi ajan yetenekleri sağlar.⁹

Platform, ücretsiz katmanı bulunan kredi tabanlı bir yürütme modeli kullanır.

Artıları:

– Ücretsiz katman, ayda 400 kredi ve 1 milyon karakterlik bilgi tabanı içerir.

– Gerçek model agnostisizliği ve kapsamlı entegrasyon kütüphanesi.

Eksileri:

– Yerinde dağıtım, düzenlenmiş sektörler için özel kurumsal anlaşmalar yoluyla yalnızca mevcuttur.

Mühendislik kaynakları olmadan e-posta, takvim ve CRM iş akışlarının hızlı otomasyonunu gerektiren bireysel iş kullanıcıları, kurucular ve operasyon ekipleri için en iyisi.

Metodoloji

Yönetilen bir yapay zeka ajan platformu, rakiplerine ve kendi ajan harness'inizi oluşturma alternatifi üzerinde aslında ne sağlar? AI araçlama alanında burada kalıcı bir kör nokta var. "Yönetilen ajan" ürünleri, ham dil modelleri için kullanılan aynı görev tamamlama skor kartları kullanılarak rutin olarak karşılaştırılır; bu, modelin doğru kod üretme yeteneği ile harness'in durum, araçlar ve izolasyon ile yönetilen bir çalışma zamanında bu kodu güvenilir şekilde çalıştırma yeteneğini birleştiren iki çok farklı şeyi birleştirir. Bu benchmark'ı bu sinyalleri ayırmak için tasarladık.

Yönetilen bir ajan platformu nedir?

Belirli bir kategoriyi benchmark'lıyoruz: LLM çıkarımı, ajan orkestrasyonu ve sandbox'lanmış kod çalıştırmasını tek bir yönetilen hizmette paketleyen barındırılan çalışma zamanları. Bu, (1) ham LLM çıkarımı API'lerinden, (2) kendiniz barındırdığınız ajan orkestrasyon çerçevelerinden ve (3) kendi modelinizle eşleştirdiğiniz hesaplama sandbox'larından farklıdır. Test altındaki dört platform, bu paketin biraz farklı bir şekli alır:

Claude Yönetilen Ajanları (Anthropic): Tam yönetilen harness. Ajan tanımları, oturumlar, olay tabanlı akış, sıkıştırma ve araç çalıştırma hepsi sunucu taraflıdır. Bu kategorideki iki gerçek rakipten biri.
Vertex AI Ajan Motoru (Google): Tam yönetilen harness. Yönetilen bir çalışma zamanına ADK tanımlı bir ajan dağıtın; dağıtım ajan durumunu ve araç çalıştırmasını barındırır. vertexai.agent_engines SDK üzerinden erişilir.
OpenAI Yanıtlar API ile Code Interpreter: Komşu kategori. Dahili bir Python sandbox aracı ile çıkarım API, ancak kalıcı çoklu tur oturum durumu veya orta akış yönlendirme yok.
Kontrol: Claude Mesajlar API ile yerel bir araç döngüsü: Taban çizgisi olarak dahil edildi. Aynı model Claude MA ile (claude-sonnet-4-6), ancak ajan döngüsünü yerel olarak ~150 satır Python'da uyguluyoruz. Araçlar (bash, write, read, edit), benchmark makinesindeki görev başına tempdir'de çalışır. Bu, yönetilen harness'in "model artı araç döngüsü" ötesine ne kattığını izole eder. Yerel bir ajan döngüsü ile Mesajlar API'yi çalıştırmak, modelin özdeş olduğu ancak harness'in yok olduğu bir karşılaştırma üretir. Claude MA ile kontrol arasındaki herhangi bir fark, tamamen harness'e, model yeteneğine değil atfedilebilir.

Ekibimiz, iş süreçlerinizden birini yapay zeka ajanlarıyla ücretsiz olarak otomatikleştirsin.

Bir süreci otomatikleştir

Görev seti

Üç zorluk seviyesini kapsayan on kodlama görevi. Her görevin, teslimatı belirleyen sabit bir prompt'u ve deterministik geç/başarısız kriterlerini kodlayan bir doğrulama betiği vardır. Her görev, varyansı ölçmek için platform başına üç kez çalıştırılır.

Harness'e özgü stres testleri

Görev seti, uçtan uca doğruluğu ölçer. Yönetilen bir harness olduğu için var olan yetenekleri ölçemez: durumlu oturum kalıcılığı, orta akış yönlendirme, bağlantı yenileme, otomatik bağlam sıkıştırma ve yönetilen dosya sistemi artefakt işleme. Bunlar için iki ek test seti tasarladık.

Set A: Yönlendirme & Kesinti

Harness'e özgü ilkelere sahip üç test.

A1, bir kodlama görevinde bir ajanı başlatır, ardından 10 saniye sonra POST /events aracılığıyla yeni bir kullanıcı olayı enjekte eder ve gereksinimleri değiştirir; konteyner dosya sistemini inceleyerek nihai artefaktın orijinal yerine yeni gereksinimi yansıttığını doğrular.

A2, bir SSE akışı açar, dört olaydan sonra bağlantıyı koparır, yeniden bağlanır ve oturumun hala status_idle durumuna ulaştığını doğrular.

A3, kasıtlı olarak çelişkili bir prompt gönderir ve ajanın açıklama isteyip istemediğini veya sessizce bir yorum seçip seçmediğini ölçer.

Sadece A3 platformlar arasında taşınabilirdir. A1'in orta akış olay enjeksiyonunun OpenAI Yanıtlar (tek istek/yanıt) veya Vertex Ajan Motoru (oturum modeli uçuşta mesaj enjeksiyonunu desteklemiyor) üzerinde doğrudan eşdeğeri yoktur. A2'nin bağlantı kesme/tekrar bağlanma da başka yerde eşdeğeri yoktur. Bunlar, Claude MA'nın olay tabanlı oturum modelinin gerçek yapısal avantajlarıdır, alternatiflerde benchmark edilemez. A1 ve A2'yi yalnızca Claude MA üzerinde çalıştırdık ve A3'ü hem Claude MA hem de Vertex Ajan Motoru üzerinde çalıştırdık.

Set B: Sıkıştırma & Bağlam

Yönetilen bağlam özelliklerini kullanan iki test.

B1, bir oturumun ilk turunda benzersiz bir canary dizesi (UUID'den türetilen bir token) yerleştirir, her biri araç çağrıları ve araç sonuçları üreten 23 ilave turda alakasız küçük kodlama görevleri çalıştırır, ardından ajanın 25. turda dosya araması olmadan bellekten canary'yi hatırlamasını ister. 23 ilave turdan sonra başarılı hatırlama, harness'in kullandığı sıkıştırma politikası aracılığıyla erken bağlamı koruduğuna dair kanıttır.

B2, ajanın gömülü bir işaretçi ile 50.000 satırlık bir metin dosyası oluşturmasını ister, ardından işaretçiyi bulmayı gerektiren bir soruya yanıt vermesini ister. Bu, ajanın tüm dosyayı okumayı denemeden bağlam penceresinden daha büyük artefaktlar hakkında akıl yürütüp yürütemediğini test eder.

Hem B1 hem de B2, aynı promptlar ve protokoller kullanılarak hem Claude MA hem de Vertex Ajan Motoru üzerinde çalıştırıldı.

Google Arama'da daha fazla kıyaslamamızı ve veri odaklı içgörülerimizi görün.

Tercih edilen kaynak olarak ekle

LLM-as-judge davranışsal puanlama için

Set A3 (çelişkiler) için geç/başarısız, deterministik bir kontrol değildir; "ajan açıklama istedi mi"yi konuşma davranışı hakkında nitel bir yargı olarak ele aldık. Üç metodolojik koruma ile bir LLM-as-judge tasarımı kullanıyoruz:

Yargıç modeli, test edilen modelden farklıdır: Claude Opus 4.6, öz-değerlendirme yanlılığını önlemek için yargıçtır.
4 boolean boyutlu yapılandırılmış rubrik: Yargıç, JSON puanlama döndürür: recognized_contradiction, asked_for_clarification, proceeded_with_assumption, documented_assumption ve bir paragraflık bir gerekçe.
3 çalıştırma tutarlılık kontrolü: Her yargı 3 kez çalıştırılır. Boyut başına çoğunluk uzlaşısını ve boyut başına uyum oranını raporlarız. Herhangi bir boyutun uyumu %67'nin altına düşerse, yargıç o boyutta tutarsız olarak işaretlenir ve sonuç düşük güven olarak değerlendirilir.

Bir anahtar kelime sezgisel, bir sağlama kontrolü olarak paralel olarak çalışır. Sezgisel ile yargı arasındaki sapma, manuel inceleme için kaydedilir.

Puanlama

Her platformda her görev çalıştırması için:

Geç/başarısız
Duvar saati: Prompt gönderilmesinden terminal olayını alana kadar geçen saniyeler (Claude MA için status_idle, Vertex AE için görev tamamlama, OpenAI için yanıt tamamlama, kontrol için araç döngüsü çıkışı).
Araç çağrı sayısı: Farklı araç çağrıları. Davranışsal bir parmak izi olarak yararlıdır; araç granülaritesi platformlar arasında önemli ölçüde farklılık gösterdiğinden verimlilik metriği olarak daha az yararlıdır.
Token kullanımı: Claude MA'da model_request_end olaylarından, Vertex AE'de usage_metadata'dan, OpenAI'da response.usage'dan, kontrolün mesaj döngüsünde tur başına birikimden ayrıştırıldı. Giriş, çıktı, önbellek okuma ve önbellek oluşturma olarak ayrıştırıldı.
USD cinsinden maliyet: Yayınlanan fiyatlandırmaya karşı token kullanımından hesaplandı: claude-sonnet-4-6 için milyon başına $3/$15/$0.30/$3.75; gpt-5.4 için $2.50/$15/$0.25; gemini-2.5-pro için $1.25/$10/$0.13. Platforma özgü altyapı ücretleri eklenir: Claude MA'nın duvar saati ile orantılı $0.08/saat oturum ücreti, herhangi bir araç çağrısı gerçekleştiğinde OpenAI'ın $0.03/konteyner ücreti, Vertex AE'nin dağıtım çalışma süresi ile orantılı yaklaşık $0.35/saat barındırma ücreti.

Set A ve B sonuçları ayrıca oturum seviyesi metrikleri (turlar, canary hatırlama, yargıç uzlaşısı ve uyum) yakalar.

Adillik değerlendirmeleri ve bilinen sınırlamalar

Ayarlamadaki birkaç asimetri, sayıların nasıl okunması gerektiğini etkiler; bunları açıkça belirtmek:

Kontrol, bulut turu olmadan benchmark makinesinde araç çalıştırması çalıştırır. Bu, ajan hızından çok ağ atlamasını yansıtmayan haksız bir duvar saati avantajı sağlar. Aynı modelde kontrolün görevleri Claude MA'dan ~%25 daha hızlı tamamladığını gözlemlediğimizde, bu farkın yaklaşık yarısı tur asimetrisidir.

OpenAI Code Interpreter, ağ kısıtlı bir sandbox'ta çalışır. Görev 06 (REST API) ve 10 (eşzamanlı indirici) dışa dönük HTTP gerektirir; CI bunu yalnızca aralıklı olarak izin verir. OpenAI'ın bu görevlerdeki başarısızlıkları, sandbox politika başarısızlıklarıdır, model yeteneği başarısızlıkları değildir. GPT-5.4 doğru eşzamanlı HTTP kodu yazabilir; platform bunu her zaman çalıştıramaz. Okuyucular, "ağ görevlerinde OpenAI başarısız olur" ifadesini model hakkında bir ifade olarak yorumlamamalıdır.

Gemini 3.1-pro-preview, proje seviyesinde ön izleme izin listesinin arkasında kilitlidir. Bu modeli hem doğrudan Vertex API hem de Vertex Ajan Motoru üzerinde benchmark etmeye çalıştık. Doğrudan API çağrıları 404 döndürdü; model ile Agent Engine dağıtımları dağıtım zamanında başarılı oldu, ancak çıkarım çağrıları hata olmadan sıfır olay döndürdü. gemini-2.5-pro'ya geri döndük.

Çok saatlik yeniden düzenleme görevleri, tanımadık kod tabanlarında hata ayıklama veya uzun süreli otonom iş akışları, harness'leri farklı şekilde zorlayacak ve muhtemelen üst düzey seçenekleri daha net ayıracaktır.

Sağlama gecikmesini, soğuk başlangıç davranışını, eşzamanlı oturum performansını veya hız sınırı tavanlarını ölçmedik. Bunlar, yüksek throughput üretim iş yükleri için önemlidir ancak bu tur için kapsam dışındaydı.

Tüm yapay zeka ajan platformlarına ortak özellikler

Bu karşılaştırmadaki her platform, yapay zeka ajan kategorisini tanımlayan temel yetenekler sağlar. Bu ortak özellikler, ajan otomasyonu için minimum uygulanabilir ürünü oluştururken, farklılaştırıcı özellikler platform seçimini belirler.

Çoklu ajan orkestrasyonu: Tüm platformlar çoklu ajan orkestrasyonunu destekler, ancak uygulama değişir (yukarıdaki bireysel platform bölümlerine bakın).

Araç kullanımı ve dış entegrasyonlar: Her platformdaki ajanlar, dış API'leri, veritabanlarını ve iş uygulamalarını çağırabilir. Önceden hazırlanmış bağlantı noktası sayıları yaklaşık 50 (Dify) ile 2.000+ (Relevance AI) arasında değişir; tüm platformlar özel API tanımlarını destekler.

Kalıcı bellek ve bağlam yönetimi: Oturumlar içinde (kısa vadeli bellek) ve oturumlar arasında (uzun vadeli bellek) bilgiyi korumak, platforma bağlı olarak vektör veritabanları, oturum nesneleri veya yapılandırılabilir bağlam pencereleri aracılığıyla standart bir yetenektir.

İzleme ve gözlemlenebilirlik: Her platform, ajan yürütmesini incelemek, token kullanımını ve gecikmeyi izlemek ve hataları belirlemek için loglar, izler veya analitikler sunar.

İnsan denetimi ve onay kontrolleri: Ajan eylemlerinin insan incelemesi, onayı veya geçersiz kılınması için mekanizmalar her platformda mevcuttur. Örnekler arasında n8n'in araç başına onay kapıları, LangGraph kes-int-ve-devam-et ilkelere, Bedrock AgentCore politika kontrolleri, ServiceNow AI Control Tower ve Lindy'nin otomatik yükseltmesi yer alır.

Bilgi tabanı ve bilgiyi zenginleştirilmiş üretim (RAG): Belge dizinleme ve geri çağırma yoluyla ajanları özel bilgiyle temellendirmek, kategori genelinde temel bir yetenektir. Uygulamalar arasında Dify RAG pipeline'ı, Voiceflow Bilgi Tabanı, Bedrock Bilgi Tabanları, Vertex AI RAG Motoru ve Kore.ai Search AI yer alır.

Kod-siz veya düşük kodlu ajan oluşturucu arayüzü: Ajan oluşturma için grafiksel veya doğal dil arayüzleri her platformda mevcuttur. Kurumsal platformlar kod-siz stüdyolar (Agentforce Builder, Copilot Studio, watsonx Orchestrate) sunarken, geliştirici çerçeveleri eşlik eden görsel araçlar (LangGraph Studio, AutoGen Studio, CrewAI Studio) sağlar.

Bu araştırmayı kaynak gösterin

Yayınlayacağınız yere uygun formatı seçin. Bağlantılı sürümü CMS'inize yapıştırmak, geri bağlantıyı korur.

Şevval Alper (2026) - "Yapay Zeka Ajan Platformları Benchmark'ı: Claude Yönetilen Ajanları vs Google Vertex Ajan Motoru". AIMultiple.com adresinde çevrimiçi yayımlanmıştır. Erişim tarihi: 5 Mayıs 2026, kaynak: https://aimultiple.com/ai-agent-platforms [Çevrimiçi Kaynak]

Alper, Ş. (2026, 5 Mayıs). Yapay Zeka Ajan Platformları Benchmark'ı: Claude Yönetilen Ajanları vs Google Vertex Ajan Motoru. AIMultiple. https://aimultiple.com/ai-agent-platforms

@misc{alper2026,
  author = {Alper, Şevval},
  title  = {{Yapay Zeka Ajan Platformları Benchmark'ı: Claude Yönetilen Ajanları vs Google Vertex Ajan Motoru}},
  year   = {2026},
  month  = may,
  howpublished    = {\url{https://aimultiple.com/ai-agent-platforms}},
  note   = {AIMultiple. Erişim tarihi: 5 Mayıs 2026}
}