Bize Ulaşın
Sonuç bulunamadı.

Yapay Zeka Ajan Platformları Karşılaştırması: Claude Yönetilen Ajanlar vs Google Vertex Ajan Motoru

Şevval Alper
Şevval Alper
güncellendi May 5, 2026
Bakınız etik normlar

Dört yapay zeka ajan platformunu 3 boyutta karşılaştırdık: görev tamamlama (10 kodlama görevi × 3 çalıştırma), özel yetenekler (yönlendirme, yeniden bağlantı kurma, uzun konuşmaları hatırlama, büyük dosya işleme) ve maliyet.

Yapay zeka ajan platformlarının performans testinin sonuçları

Platform
Model
Geçme oranı
Duvar zamanı
Maliyet
Token
Claude Yönetilen Acenteler
Claude Sonnet 4.6
30/30 (100%)
1.172 saniye
2,50 dolar
93 bin
Vertex Yapay Zeka Ajan Motoru
Gemini 2.5 Pro
30/30 (100%)
1.447 saniye
1,45 dolar
159 bin
OpenAI Yanıtlar + CI
GPT-5.4
27/30 (90%)
522'ler
1,54 dolar
113 bin
Kontrol (kendi sunucunuzda barındırılan)
Claude Sonnet 4.6
30/30 (100%)
794'ler
1,96 dolar
464k

Claude Managed Agents ve Vertex AI Agent Engine, görev paketinde %100 başarı oranına ulaşırken, Vertex maliyet açısından (1,45 $'a karşı 2,50 $) öne çıkıyor. Orta akış yönlendirme, bağlantıyı kesme/yeniden bağlama, uzun konuşma sıkıştırma gibi yalnızca yönetilen platformlarda bulunan donanıma özgü özellikler için Claude Managed Agents en yeteneklisi olsa da, Vertex Agent Engine taşınabilir testlerde (sıkıştırma, büyük dosya işleme) onunla eşleşiyor.

Görev kıyaslamasından elde edilen temel bulgular

  1. Claude MA ve Vertex AE, 30/30 (100%) başarı oranında berabere kaldı. Her ikisi de OpenAI hatası veren ağ görevleri (06, 10) dahil olmak üzere tüm görev türlerini ele aldı.
  2. OpenAI'un başarısızlıkları, sanal alan politikasından kaynaklanmaktadır. 06 (REST API) ve 10 (eş zamanlı indirici) numaralı görevlerin her ikisi de giden HTTP gerektirir. Kod Yorumlayıcısının sanal alanı bunu kısıtlar ve her ikisi de sırasıyla 2/3 ve 1/3 oranında başarısız oldu. GPT-5.4'ün kodu yazabildiğini gördük, ancak sanal alan bunu güvenilir bir şekilde çalıştırmıyor.
  3. Vertex AE, toplam 1,45 dolar ile en ucuz olanıdır. Claude MA ise 2,50 dolar ile en pahalı olanıdır. Aynı görev paketinde ve aynı geçme oranında Vertex'ten %72 daha pahalıdır.
  4. Vertex AE en yavaş olanıdır. Yönetilen ADK orkestrasyonu ek yük getirir.

Koşum takımına özgü yetenekler

İki platform, yalnızca yönetilen bir bağlantı sistemi sayesinde var olan özellikler açısından doğrudan karşılaştırılıyor.

Aşağıda kıyaslama metodolojisini inceleyebilirsiniz.

yapay zeka ajan platformları

Claude Yönetilen Acenteler

Anthropic'ün Claude Managed Agents'ı, uzun süreli otonom iş yükleri için durum bilgisi içeren oturumları, yerleşik araç yürütmeyi, olay tabanlı akışı ve otomatik sıkıştırmayı birleştiren, barındırılan bir ajan çalışma zamanı sunar. Platform, uçuş halindeki yönlendirme için akış ortasında kullanıcı olay enjeksiyonu, bağlantı kesme/yeniden bağlanma için devam ettirilebilir SSE akışları ve yerel MCP sunucu entegrasyonu gibi karşılaştırılabilir tekliflerde bulunmayan benzersiz temel öğelerle farklılaşır. Bunların tümü, geliştiricilerin sağlaması gereken herhangi bir altyapı olmadan, tamamen yönetilen bir hizmet olarak sunulur. 1

Claude API token maliyetlerinin üzerine oturum saati başına 0,08 ABD doları ek ücret uygulanmaktadır.

Artıları:

  • Orta akış olay enjeksiyonu içeren durum bilgisi içeren oturumlar, yeni kullanıcı mesajlarının devam eden yürütme sırasında aracıları yönlendirmesine olanak tanır.
  • Kalıcı SSE akışları aracılığıyla bağlantı kesme ve yeniden bağlantı kurma desteği; oturumlar ağ kesintilerinde sunucu tarafında çalışmaya devam eder ve istemciler yeniden bağlantı kurulduğunda olay tüketimine devam edebilir.
  • Dahili aracı araç seti, bash, dosya işlemleri (okuma, yazma, düzenleme, glob, grep) ve web araçlarını (web_fetch, web_search) tek bir yapılandırma parametresiyle erişilebilir hale getirerek özel araç bağlantılarını ortadan kaldırır.
  • Aracının yerleşik araç setini değiştirmeden özel araç uzantıları için yerel MCP (Model Bağlam Protokolü) sunucu entegrasyonu.

Dezavantajları:

  • Şu anda beta aşamasında; tüm istekler managed-agents-2026-04-01 beta başlığını gerektirir ve sürümler arasında davranışlar iyileştirilebilir.
  • Sadece Claude'u destekliyor; AWS Bedrock AgentCore veya Northflank gibi birden fazla model sağlayıcısını destekleyen platformlara kıyasla model esnekliği yok.

Salesforce Ajan Gücü

Agentforce, Atlas Reasoning Engine aracılığıyla yerel CRM veri erişimi ve satış, servis, pazarlama ve ticaret iş akışları için önceden oluşturulmuş aracıları ile öne çıkmaktadır. 2

Platform, sistemler arası orkestrasyon için MuleSoft Agent Fabric ile entegre olur ve AWS ortaklıkları için Agentforce 360 sunar.

Agentforce, mevcut Salesforce Bulut altyapılarına doğrudan entegre edilmiş, otonom müşteri odaklı iş akışlarına ihtiyaç duyan kuruluşlara hizmet vermektedir.

Artıları:

– Atlas Reasoning Engine aracılığıyla yerel CRM verilerine erişim, bağlamı dikkate alan temsilci eylemlerini mümkün kılar.

– Satış, servis, pazarlama ve ticaret için önceden oluşturulmuş aracı yazılımlar, devreye alma süresini kısaltır.

– Düzenlemeye tabi sektörler için FedRAMP onayı Salesforce tarihinde verilmiştir.

– Foundations ücretsiz sürümü, ilk test için 1.000 görüşme ve 200.000 Flex Kredisi içermektedir.

Dezavantajları:

– Yalnızca bulut tabanlı SaaS hizmeti olup, şirket içi kurulum seçeneği bulunmamaktadır.

– Sınırlı model bağımsızlığı; varsayılan olarak kısıtlı harici sağlayıcı desteğiyle Salesforce tarafından yönetilen modellere geçer.

– Tam değerini elde etmek için mevcut Salesforce ekosistem yatırımına ihtiyaç duyar.

Microsoft Copilot Stüdyosu

Artıları:

– Microsoft numaralı pakete dahil olan 365 adet Copilot lisansı, ek ücret ödemeden dahili temsilci kullanımı içindir. 3

– Müşteri hizmetleri senaryoları için gerçek zamanlı sesli asistan ve IVR telefon desteği.

– FedRAMP, kamu sektörü uygulamaları için Azure sayılı Hükümet kararıyla yetkilendirilmiştir.

– Tek bir derleme ortamında OpenAI, Anthropic modellerini ve açık kaynaklı çerçeveleri destekler.

Dezavantajları:

– Microsoft ekosistemi dışında sınırlı işlevsellik; tam özellikler için Azure veya M365 taahhüdü gereklidir.

– Bağımsız, kalıcı ücretsiz bir sürüm bulunmamaktadır; dahil edilen kullanım için mevcut bir M365 Copilot aboneliği gereklidir.

– Gerçek zamanlı sesli yapay zeka modeli, Nisan 2026 itibarıyla yalnızca Kuzey Amerika'da barındırılmaktadır.

Copilot Studio, halihazırda Microsoft 365, Teams ve Azure kullanan kuruluşlar için en uygun maliyetli çözümdür ve mevcut kimlik, güvenlik ve uyumluluk yapılandırmalarını devralan çalışan odaklı otomasyon sunar.

Google Ajan Alanı ve Düğüm Yapay Zeka Ajan Oluşturucu

Google'in ikili teklifi, kurumsal bilgi yönetimi için Agentspace ve düşük kodlu geliştirme için Vertex AI Agent Builder'ı bir araya getiriyor ve Gemini model entegrasyonu, Google Workspace ürünler arası bağlamı ve metin, ses ve görüntüler için çok modlu giriş desteği ile farklılaşıyor. 4

Platform, yeni kullanıcılara 300 dolarlık ücretsiz kredi ve Vertex AI Agent Engine için kullandıkça öde fiyatlandırması sunuyor.

Artıları:

– Yeni kullanıcılara sunulan 300$'lık ücretsiz kredi, ön yatırım gerektirmeden kapsamlı prototipleme olanağı sağlıyor.

– Düzenlemeye tabi ortamlar için Google Dağıtılmış Bulut aracılığıyla şirket içi dağıtım desteklenmektedir.

– FedRAMP, Google Cloud aracılığıyla yetkilendirilmiştir.

– Google ADK (Agent Development Kit), Python, TypeScript, Go ve Java dillerinde kod öncelikli geliştirmeyi destekler.

Dezavantajları:

– Gemini-birincil tasarım, tamamen bağımsız platformlara kıyasla model esnekliğini sınırlar.

AWS Bedrock Aracıları ve AgentCore

AWS Bedrock Agents ve re:Invent 2025'te tanıtılan daha yeni AgentCore platformu, kurumsal ölçekli ajanlar için sunucusuz altyapı yönetimi sağlıyor. 5

Farklılaştırıcı özellikler arasında AgentCore çalışma zamanı için vCPU saati başına 0,0895 ABD doları tutarında kullandıkça öde fiyatlandırması, tahsis edilmiş işlem hacmi seçenekleri ve özel bellek sağlayıcısı olarak Mem0 yer almaktadır.

Artıları:

– Hassas iş yükleri için AWS GovCloud üzerinde FedRAMP Yüksek düzeyde yetkilendirilmiştir.

– Çift yönlü akış, kullanıcı ve sesli asistanın eş zamanlı konuşmalarını destekler.

– Yeni AWS müşterileri için ilk denemeler için ücretsiz katman mevcuttur.

– Bedrock kataloğu aracılığıyla Anthropic, Amazon, Meta, Mistral ve AI21 modellerine erişim.

Dezavantajları:

– Önceden oluşturulmuş alana özgü aracı şablonları bulunmamaktadır; SDK kullanılarak sıfırdan oluşturulması gerekmektedir.

– Şirket içi kurulum seçeneği yok; yalnızca AWS altyapısında çalışır.

– Ajan oluşturma, görsel oluşturuculara kıyasla önemli ölçüde API/SDK kodlaması gerektirir.

AWS Bedrock, AWS ekosistemine derin entegrasyon sağlayan, ölçeklenebilir, sunucusuz aracı altyapısına ihtiyaç duyan işletmelere hizmet eder ve ayrıntılı kullanıma dayalı faturalandırma yoluyla maliyet verimliliği sunar.

IBM watsonx Orkestra Et

IBM watsonx Orchestrate, İK, tedarik, satış ve finans için 150'den fazla önceden oluşturulmuş alana özgü aracı ve özel beceriler oluşturmak için Skills Studio ile düzenlemeye tabi işletmeleri hedefliyor. 6

Platform, Veri ve Yazılım Merkezi için Cloud Pak aracılığıyla hibrit bulut ve şirket içi dağıtım esnekliği sunar.

Artıları:

– Veri yerleşimi gereksinimleri için IBM Cloud Pak for Data aracılığıyla şirket içi kurulum desteklenmektedir.

– IBM ve iş ortaklarından 150'den fazla önceden oluşturulmuş aracı ve araç, SAP, Salesforce ve Workday dahil olmak üzere 80'den fazla kurumsal uygulama entegrasyonu.

– FedRAMP yetkilendirmesi Nisan 2026'da federal görevler için genişletildi.

– Tedarikçi bağımlılığı olmadan birden fazla LLM sağlayıcısını destekleyen gerçek model bağımsızlığı.

Dezavantajları:

– Kalıcı ücretsiz sürüm bulunmamaktadır; kullanmaya devam etmek için ücretli Essentials veya Standard aboneliği gereklidir.

– Watsonx Orchestrate içerisinde ses ve telefon özellikleri, ADK'deki yerel ses yapılandırması ve Deepgram ve ElevenLabs gibi sağlayıcılarla entegrasyonlar aracılığıyla kullanılabilir; ancak gelişmiş telefon özellikleri ek yapılandırma gerektirebilir.

– Kurumsal özellikler için özel fiyat teklifleri gerektiren karmaşık fiyatlandırma yapısı.

ServiceNow Yapay Zeka Temsilcileri

ServiceNow Yapay Zeka Temsilcileri, bağımsız bir platform olarak çalışmak yerine, BT, İK ve müşteri hizmetleri iş akışlarıyla yerel entegrasyon sağlayarak Now Platform'un içine doğrudan yerleştirilir ve bu sayede farklılaşır.

Platform, yönetişim için yapay zeka kontrol kulesi, BT hizmet yönetimi (ITSM) ve insan kaynakları hizmet yönetimi (HRSD) için önceden oluşturulmuş ajan tabanlı iş akışları ve politika geçmişini ajan eylemlerine bağlayan bir Bağlam Motoru içerir. 7

Artıları:

– Mevcut Now Platform yönetişimini, SLA kurallarını ve onay iş akışlarını devralır.

– Yapay Zeka Destekli Sesli Asistanlar, CCaaS sağlayıcıları olarak Genesys Cloud, Twilio ve 3CLogic'i desteklemektedir.

– Yapay zekâ web ajanları, tarayıcı tabanlı görevleri otomatikleştirmek için insan gösterimlerinden öğrenir.

Dezavantajları:

– Kalıcı ücretsiz sürüm bulunmamaktadır; yeni müşteriler yalnızca 100 ücretsiz Build Agent görüşmesi hakkına sahiptir.

– AI Agents, AI Agent Orchestrator ve AI Agent Studio için FedRAMP Yüksek yetkilendirmesinin Mart 2026 itibarıyla Government Community Cloud (GCC) müşterileri için onaylandığı duyuruldu.

– ServiceNow'u BT veya İK hizmet yönetimi için zaten kullanmayan kuruluşlar için sınırlı değer taşır.

Kore.ai

Kore.ai, 300'den fazla önceden oluşturulmuş yapay zeka ajanı, 250'den fazla kurumsal entegrasyonu ve bulut ve şirket içi dağıtımları destekleyen modelden bağımsız mimarisiyle kurumsal konuşma yapay zekasına odaklanmaktadır.

Platform, bankacılık, sağlık ve perakende dahil olmak üzere altı sektöre hizmet vermekte olup, Eli Lilly'de (teknoloji destek masası taleplerinin %70'i otomatikleştirilmiş) kanıtlanmış uygulamaları bulunmaktadır. 8

Artıları:

– Düşük gecikmeli küresel ses etkileşimleri sağlayan yerel ses altyapısı.

– Hem şirket içi hem de özel bulut seçeneklerini içeren esnek dağıtım.

– Birden fazla LLM sağlayıcısını desteklemek.

Dezavantajları:

– Kalıcı ücretsiz sürüm bulunmamaktadır; yalnızca ilk deneme için 500$ değerinde tek seferlik kredi sunmaktadır.

DilGrafiği

Artıları:

– MIT açık kaynak lisansı, kısıtlama olmaksızın ticari kullanım ve değişiklik yapılmasına izin verir.

– Grafik mimarisi aracılığıyla deterministik iş akışı kontrolü, tekrarlanabilir yürütme yollarını sağlar.

– LangSmith gözlemlenebilirlik entegrasyonu, üretim izleme ve takip olanağı sağlar.

Dezavantajları:

– Görsel kodsuz oluşturucu bulunmamaktadır; ajan grafiklerini tanımlamak için Python veya JavaScript kodu gereklidir.

– Yerleşik ses veya telefon entegrasyonu bulunmamaktadır; ses kanalları için özel kodlama gerektirir.

– Grafik tabanlı programlama paradigmalarına aşina olmayan ekipler için öğrenme eğrisi oldukça diktir.

LangGraph, karmaşık koşullu mantık, hata kurtarma ve bireysel yürütme adımlarının denetlenebilirliğini gerektiren, üretim kalitesinde ajanlar geliştiren mühendislik ekipleri için uygundur.

CrewAI

Artıları:

– Rol tabanlı soyutlama, sezgisel ajan koordinasyonu için insan ekip yapısını yansıtır.

– Kendi sunucunuzda barındırabileceğiniz, lisans ücreti gerektirmeyen ücretsiz açık kaynaklı çekirdek.

– Teknik bilgiye sahip olmayan ekip üyeleri için ücretsiz katmanda görsel düzenleyici ve yapay zeka yardımcı pilotu mevcuttur.

Dezavantajları:

– Resmi olarak satıcı tarafından yönetilen bir şablon pazarı bulunmamaktadır; topluluk katkılarına dayanmaktadır.

– Kod öncelikli yaklaşım, ajan oluşturmak için Python bilgisi gerektirir.

– Kurumsal plan fiyatlandırması yalnızca talep üzerine sunulmaktadır; bu durum, diğer açık kaynak seçeneklerine kıyasla küçük ekipler için bütçe belirsizliği yaratabilir.

CrewAI, özellikle belge işleme, araştırma iş akışları ve çok adımlı içerik oluşturma görevleri için uygun olan rol tabanlı ajan işlem hatlarının hızlı prototiplemesini sağlar.

n8n

n8n, adil kod lisansı (Sürdürülebilir Kullanım Lisansı) altında faaliyet gösteriyor ve görsel yapay zeka düğümleri ve kendi kendine barındırılabilir altyapı ile 400'den fazla yerel uygulama bağlantısı sunuyor.

Artıları:

– Kendi sunucunuzda barındırılan Topluluk Sürümü, SSO SAML, LDAP, RBAC ve şifrelenmiş gizli veri depolarını ücretsiz olarak içerir.

– Görsel iş akışlarında LangChain ve LlamaIndex için yerel destek.

– Görsel iş akışı düzenleyici, kodlama gerektirmeden karmaşık otomasyonu mümkün kılar.

Dezavantajları:

– Adil kod lisansı, ticari barındırma veya SaaS ürünleri için ücretli lisans gerektirir.

– Dahili ses veya telefon düğümü bulunmamaktadır; ses için harici API entegrasyonu gereklidir.

– FedRAMP onayına dair herhangi bir bilgi yok.

n8n, geleneksel iş akışı otomasyonu ile yapay zeka aracılarını bir araya getirerek, görsel oluşturma yeteneklerini korurken veri yerleşimi için kendi sunucularında barındırılan dağıtıma ihtiyaç duyan teknik iş analistleri ve DevOps ekiplerine hizmet vermektedir.

Dify

Dify, 114.000'den fazla GitHub yıldızına sahip, açık kaynaklı bir LLMOps platformudur ve bu sayede dünya çapındaki en iyi 100 açık kaynak projesi arasında yer almaktadır.

Platform, RAG işlem hatlarını, hızlı mühendislik araçlarını ve modelden bağımsız mimariyi desteklemektedir.

Artıları:

– Kendi sunucunuzda barındırabileceğiniz Topluluk Sürümü, Docker dağıtımı aracılığıyla tam veri kontrolüyle kalıcı olarak ücretsizdir.

– Görsel iş akışı oluşturucu, kodlama gerektirmeden karmaşık ajanlar oluşturmayı mümkün kılar.

– Düzinelerce çıkarım sağlayıcısından yüzlerce tescilli ve açık kaynaklı LLM'yi destekler.

Dezavantajları:

– Ses desteği için Agora veya Tencent RTC gibi pazar yeri eklentileri gereklidir; yerleşik PSTN telefon desteği bulunmamaktadır.

– FedRAMP yetkilendirmesi yok.

– Aylık 159 dolarlık Cloud Team planı küçük ekipler için pahalı olabilir.

Dify, özellikle kendi sunucularında barındırma yoluyla veri kontrolüne öncelik veren ve güçlü RAG yeteneklerine sahip belge tabanlı ajanlara ihtiyaç duyan ürün ve operasyon ekipleri için uygundur.

Ses akışı

Voiceflow, ses odaklı temsilci tasarımını bir eklenti olarak değil, birinci sınıf bir özellik olarak ele alan tek büyük platform olarak öne çıkıyor ve 500 ms'nin altında gecikme süresiyle hem sesli hem de sohbet temsilcileri için özel olarak tasarlanmış bir tasarım tuvali sunuyor.

Platform, müşteri hizmetleri bilet otomasyonu ve IVR sistemleri konusunda uzmanlaşmıştır.

Artıları:

– IVR desteği ve 500 ms'nin altında gecikme süresiyle yerel ses ve telefon kanalları.

– Bilgi tabanı sorguları için varlık çıkarma yetenekleri.

– Ücretsiz plan 2 ajan ve süresiz 100 adet aylık yapay zeka token'ı içerir.

– Özellikle konuşma tabanlı yapay zeka iş akışları için tasarlanmış görsel tuval.

Dezavantajları:

– Şirket içi kurulum yalnızca özel kurumsal anlaşmalar aracılığıyla mümkündür.

Voiceflow, tek bir tasarım arayüzünden ses, sohbet ve mesajlaşma kanallarına dağıtım gerektiren, müşteriyle doğrudan etkileşim kuran konuşma tabanlı yapay zekâ sistemleri geliştiren müşteri deneyimi ve destek ekiplerine hizmet vermektedir.

Alaka Düzeyi Yapay Zekası

Relevance AI, eylem tabanlı faturalandırma modeliyle kendi LLM'nizi getirme (BYOLLM) esnekliği sunarak, teknik olmayan ekiplerin doğal dil açıklamaları aracılığıyla çoklu ajan ekipleri oluşturmasına olanak tanır.

Artıları:

– Ücretsiz sürüm, süresiz olarak günde 100 kredi içerir.

– HubSpot, Slack ve Gmail dahil 2.000'den fazla entegrasyon.

– Gerçek model agnostisizmini destekleyerek birden fazla LLM sağlayıcısını desteklemek.

Dezavantajları:

– Kendi sunucunuzda barındırma veya şirket içi dağıtım seçenekleri yok; yalnızca bulut tabanlı SaaS.

– Düzenlemeye tabi sektörler için FedRAMP yetkilendirmesi bulunmamaktadır.

– Sesli iletişim özellikleri, yerel telefon sistemi yerine Vapi veya Twilio ile entegrasyon gerektirir.

Lindy AI

Lindy AI, Pipedream aracılığıyla 5.000'den fazla entegrasyon, e-posta önceliklendirme ve planlama için önceden oluşturulmuş temsilci şablonları ve Gaia ses özelliği aracılığıyla telefon görüşmesi temsilcisi yetenekleri sunmaktadır. 9

Platform, ücretsiz bir kademesi de bulunan, kredi tabanlı bir işlem modeli kullanmaktadır.

Artıları:

– Ücretsiz sürüm, aylık 400 kredi ve 1 milyon karakterlik bilgi tabanı içerir.

– Gerçek model agnostisizmi ve kapsamlı entegrasyon kütüphanesi.

Dezavantajları:

– Yerinde kurulum, yalnızca düzenlemeye tabi sektörler için özel kurumsal anlaşmalar yoluyla mümkündür.

Mühendislik kaynaklarına ihtiyaç duymadan e-posta, takvim ve CRM iş akışlarının hızlı otomasyonunu gerektiren bireysel işletme kullanıcıları, kurucular ve operasyon ekipleri için en uygun çözümdür.

Metodoloji

Yönetilen bir yapay zeka ajanı platformu, rakiplerine ve kendi ajan altyapınızı oluşturma alternatifine kıyasla aslında ne gibi avantajlar sunuyor? Yapay zeka araçları alanında burada sürekli bir kör nokta var. "Yönetilen ajan" ürünleri, genellikle ham dil modelleri için kullanılan aynı görev tamamlama puan kartları kullanılarak karşılaştırılıyor; bu da iki çok farklı şeyi birbirine karıştırıyor: modelin doğru kod üretme yeteneği ve altyapının bu kodu durum, araçlar ve izolasyon içeren yönetilen bir çalışma ortamında güvenilir bir şekilde çalıştırma yeteneği. Bu karşılaştırma testini, bu sinyalleri ayırmak için tasarladık.

Yönetilen acente platformu nedir?

Belirli bir kategoriyi kıyaslama testine tabi tutuyoruz: LLM çıkarımını, ajan düzenlemesini ve sanal ortamda kod yürütmesini tek bir yönetilen hizmette bir araya getiren barındırılan çalışma ortamları. Bu, (1) ham LLM çıkarım API'lerinden, (2) kendi barındırdığınız ajan düzenleme çerçevelerinden ve (3) kendi modelinizle eşleştirdiğiniz hesaplama sanal ortamlarından farklıdır. Test edilen dört platformun her biri bu paketin biraz farklı bir şeklini alıyor:

  • Claude Managed Agents (Anthropic): Tamamen yönetilen bir araç seti. Ajan tanımları, oturumlar, olay tabanlı akış, sıkıştırma ve araç yürütme işlemlerinin tamamı sunucu tarafında gerçekleşir. Bu kategorideki iki gerçek rakipten biri.
  • Vertex AI Agent Engine (Google): Tamamen yönetilen bir araç. ADK tanımlı bir ajanı yönetilen bir çalışma ortamına dağıtın; dağıtım, ajan durumunu ve araç yürütmesini barındırır. vertexai.agent_engines SDK'sı aracılığıyla erişilir.
  • OpenAI Kod Yorumlayıcılı Yanıtlar API'si : Bitişik kategori. Dahili Python sanal alan aracı içeren çıkarım API'si, ancak kalıcı çok turlu oturum durumu veya akış ortası yönlendirme özelliği yok.
  • Kontrol: Yerel araç döngüsüne sahip Claude Mesajlar API'si : Temel olarak dahil edilmiştir. Claude MA (claude-sonnet-4-6) ile aynı model, ancak ajan döngüsünü yerel olarak yaklaşık 150 satır Python koduyla uyguluyoruz. Araçlar (bash, yazma, okuma, düzenleme) kıyaslama makinesinde görev başına geçici bir dizinde çalışır. Bu, yönetilen donanımın "model artı araç döngüsü"nün ötesinde ne katkıda bulunduğunu izole eder. Yerel bir ajan döngüsüyle Mesajlar API'sini çalıştırmak, modelin aynı olduğu ancak donanımın bulunmadığı bir karşılaştırma üretir. Claude MA ile kontrol arasındaki herhangi bir fark tamamen donanıma atfedilebilir, model yeteneğine değil.

Görev paketi

Üç farklı zorluk seviyesinde on kodlama görevi. Her görevin, teslim edilecek çıktıyı belirten sabit bir komutu vardır; bu çıktı, kesin geçme/kalma kriterlerini kodlayan bir doğrulama betiğidir. Varyansı ölçmek için her görev platform başına üç kez çalıştırılır.

Koşum takımına özgü stres testleri

Görev paketi, uçtan uca doğruluğu ölçer. Yalnızca yönetilen bir altyapı sayesinde var olan yetenekleri ölçemez: durum bilgisi içeren oturum kalıcılığı, akış ortası yönlendirme, bağlantı yeniden başlatma, otomatik bağlam sıkıştırma ve yönetilen dosya sistemi yapıtlarının işlenmesi. Bunlar için iki ek test paketi tasarladık.

A Süiti: Yönlendirme ve Kesinti

Koşum takımına özgü temel unsurları test eden üç deneme.

A1, bir kodlama görevi üzerinde bir aracı başlatır, ardından 10 saniye sonra POST /events aracılığıyla gereksinimleri değiştiren yeni bir kullanıcı olayı ekler ve son yapının orijinal gereksinim yerine yeni gereksinimi yansıttığını doğrulamak için kapsayıcı dosya sistemini inceler.

A2, bir SSE akışı açar, dört olaydan sonra bağlantıyı keser, yeniden bağlanır ve oturumun hala status_idle durumuna ulaştığını doğrular.

A3, kasıtlı olarak çelişkili bir uyarı gönderir ve ajanın açıklama isteyip istemediğini veya sessizce bir yorum seçip seçmediğini ölçer.

Yalnızca A3 platformlar arası taşınabilirdir. A1'in akış ortası olay enjeksiyonunun, OpenAI Yanıtlarında (tek istek/yanıt) veya Vertex Agent Engine'de (oturum modeli, devam eden mesaj enjeksiyonundan yoksundur) doğrudan bir karşılığı yoktur. A2'nin bağlantı kesme/yeniden bağlama özelliği de benzer şekilde başka bir yerde eşdeğerine sahip değildir. Bunlar, Claude MA'nın olay odaklı oturum modelinin gerçek yapısal avantajlarıdır ve alternatiflerde karşılaştırılamaz. A1 ve A2'yi yalnızca Claude MA üzerinde, A3'ü ise hem Claude MA hem de Vertex Agent Engine üzerinde çalıştırdık.

B Süiti: Sıkıştırma ve Bağlam

Yönetilen bağlam özelliklerini test eden iki deneme.

B1, oturumun ilk turunda benzersiz bir kanarya dizesi (UUID'den türetilmiş bir belirteç) yerleştirir, her biri araç çağrıları ve araç sonuçları üreten, birbiriyle ilişkisiz küçük kodlama görevlerinden oluşan 23 ara tur çalıştırır ve ardından ajandan 25. turda dosya aramasına izin verilmeden kanarya dizesini bellekten geri çağırmasını ister. 23 ara turdan sonra başarılı geri çağırma, kullanılan sıkıştırma politikası ne olursa olsun, test düzeneğinin erken bağlamı koruduğunun kanıtıdır.

B2 , ajandan gizli bir işaretleyici içeren 50.000 satırlık bir metin dosyası oluşturmasını ve ardından işaretleyiciyi bulmayı gerektiren bir soruyu yanıtlamasını ister. Bu, ajanın tüm dosyayı okumaya çalışmadan bağlam penceresinden daha büyük yapılar hakkında akıl yürütme yeteneğine sahip olup olmadığını test eder.

Hem B1 hem de B2, aynı komut istemleri ve protokoller kullanılarak hem Claude MA hem de Vertex Agent Engine üzerinde çalıştırıldı.

Davranışsal puanlama için hakem olarak LLM

A3 Süiti (çelişkiler) için, geçme/kalma kesin bir kontrol değildir; "temsilci açıklama istedi mi?" sorusunu konuşma davranışı hakkında niteliksel bir değerlendirme olarak ele aldık. Üç metodolojik koruma ile bir LLM-hakem tasarımı kullanıyoruz:

  1. Hakem modeli, test edilen modelden farklıdır: Öz değerlendirme yanlılığını önlemek için hakem olarak Claude Opus 4.6 kullanılmıştır.
  2. 4 mantıksal boyuta sahip yapılandırılmış değerlendirme ölçeği: Hakem JSON puanlama döndürür: Çelişkiyi tanıma, açıklama isteme, varsayımla ilerleme, varsayımı belgeleme ve tek paragraflık gerekçe.
  3. 3 aşamalı tutarlılık kontrolü: Her değerlendirme 3 kez tekrarlanır. Boyut başına çoğunluk görüşü ve boyut başına anlaşma oranı raporlanır. Herhangi bir boyutun anlaşma oranı %67'nin altına düşerse, değerlendirici o boyutta tutarsız olarak işaretlenir ve sonuç düşük güvenilirlik olarak değerlendirilir.

Bir anahtar kelime sezgisel algoritması, tutarlılık kontrolü olarak paralel olarak çalışır. Sezgisel algoritma ile doğru sonuç arasındaki farklılıklar manuel inceleme için kaydedilir.

Puanlama

Her platformda yürütülen her görev için:

  • Geçti/Kaldı
  • Gerçek zaman : Komut isteminin gönderilmesinden terminal olayının alınmasına kadar geçen saniye sayısı (Claude MA için status_idle, Vertex AE için görev tamamlanması, OpenAI için yanıt tamamlanması, kontrol için araç döngüsünden çıkış).
  • Araç çağrı sayısı : Farklı araç çağrılarının sayısı. Davranışsal bir parmak izi olarak kullanışlıdır; araçların ayrıntı düzeyi platformlar arasında önemli ölçüde farklılık gösterdiğinden, verimlilik ölçütü olarak daha az kullanışlıdır.
  • Token kullanımı : Claude MA'daki model_request_end olaylarından, Vertex AE'deki usage_metadata'dan, OpenAI'daki response.usage'dan ve kontrolün mesaj döngüsündeki tur başına birikimden ayrıştırılmıştır. Giriş, çıkış, önbellek okuma ve önbellek oluşturma olarak ayrılmıştır.
  • ABD Doları cinsinden maliyet : Yayınlanan fiyatlandırmaya göre token kullanımından hesaplanmıştır: claude-sonnet-4-6 milyon başına 3$/15$/0,30$/3,75$; gpt-5.4 2,50$/15$/0,25$; gemini-2.5-pro 1,25$/10$/0,13$. Platforma özgü altyapı ücretleri eklenir: Claude MA'nın oturum saati başına 0,08$ (gerçek zaman dilimine göre orantılı), OpenAI'un herhangi bir araç çağrısı gerçekleştiğinde konteyner başına 0,03$, Vertex AE'nin yaklaşık 0,35$/saat barındırma ücreti (dağıtım çalışma süresine göre orantılı).

A ve B paketlerinin sonuçları ayrıca oturum düzeyindeki ölçütleri (döngü sayısı, hatırlama testi, jüri üyelerinin fikir birliği ve anlaşması) de içermektedir.

Adalet ilkeleri ve bilinen sınırlamalar

Kurulumdaki çeşitli asimetriler, sayıların nasıl okunması gerektiğini etkiliyor; bunları açıkça belirtmekte fayda var:

Kontrol grubu, buluta gidiş-dönüş olmadan kıyaslama makinesinde araç yürütmesini gerçekleştirir. Bu, ajan hızından ziyade ağ atlamasını yansıtan haksız bir gerçek zaman avantajı sağlar. Kontrol grubunun aynı modelde Claude MA'dan yaklaşık %25 daha hızlı görevleri tamamladığını gözlemlediğimizde, bu farkın yaklaşık yarısı gidiş-dönüş asimetrisinden kaynaklanmaktadır.

OpenAI Kod Yorumlayıcısı, ağ kısıtlamalı bir sanal ortamda çalışır. 06 (REST API) ve 10 (eş zamanlı indirici) görevleri, CI'nin yalnızca aralıklı olarak izin verdiği giden HTTP gerektirir. OpenAI'un bu görevlerdeki başarısızlıkları, model yetenek başarısızlıkları değil, sanal ortam politikası başarısızlıklarıdır. GPT-5.4 doğru eş zamanlı HTTP kodu yazabilir; platform her zaman bunu çalıştıramaz. Okuyucular, “OpenAI ağ görevlerinde başarısız oluyor” ifadesini model hakkında bir ifade olarak yorumlamamalıdır.

Gemini 3.1-pro-preview, proje düzeyinde önizleme izin listesinin arkasına gizlenmiştir. Bu modeli hem doğrudan Vertex API'sinde hem de Vertex Agent Engine'de kıyaslamaya çalıştık. Doğrudan API çağrıları 404 hatası döndürdü; modelle Agent Engine dağıtımları dağıtım sırasında başarılı oldu, ancak çıkarım çağrıları hatasız sıfır olay döndürdü. gemini-2.5-pro sürümüne geri döndük.

Saatlerce süren yeniden düzenleme görevleri, alışılmadık kod tabanlarında hata ayıklama veya uzun süreli otonom iş akışları, kullanılan donanımları farklı şekilde zorlayacak ve muhtemelen en üst düzey seçenekleri daha net bir şekilde ayıracaktır.

Sağlama gecikmesini, soğuk başlatma davranışını, eşzamanlı oturum performansını veya hız sınırlama tavanlarını ölçmedik. Bunlar yüksek verimliliğe sahip üretim iş yükleri için önemlidir, ancak bu turda kapsam dışında kaldılar.

Tüm yapay zeka aracı platformlarında ortak olan özellikler

Bu karşılaştırmadaki her platform, yapay zeka ajanı kategorisini tanımlayan temel yetenekler sunmaktadır. Bu ortak özellikler, ajan tabanlı otomasyon için minimum uygulanabilir ürünü oluştururken, farklılaştırıcı özellikler platform seçimini belirler.

Çoklu ajan orkestrasyonu: Tüm platformlar çoklu ajan orkestrasyonunu destekler, ancak uygulama farklılık gösterir (yukarıdaki ilgili platform bölümlerine bakın).

Araç kullanımı ve harici entegrasyonlar: Her platformdaki aracılar harici API'leri, veritabanlarını ve iş uygulamalarını çağırabilir. Önceden oluşturulmuş bağlantı sayısı yaklaşık 50'den (Dify) 9.000'in üzerine (Relevance AI) kadar değişmekte olup, tüm platformlar özel API tanımlarını desteklemektedir.

Kalıcı bellek ve bağlam yönetimi: Oturumlar içinde (kısa süreli bellek) ve oturumlar arasında (uzun süreli bellek) bilgilerin saklanması, platforma bağlı olarak vektör veritabanları, oturum nesneleri veya yapılandırılabilir bağlam pencereleri aracılığıyla elde edilen standart bir yetenektir.

İzleme ve gözlemlenebilirlik: Her platform, aracı yürütmesini incelemek, belirteç kullanımını ve gecikmeyi izlemek ve hataları belirlemek için günlükler, izler veya analizler sunar.

İnsan gözetimi ve onay kontrolleri: Ajan eylemlerinin insan tarafından incelenmesi, onaylanması veya geçersiz kılınması için mekanizmalar her platformda mevcuttur. Örnekler arasında n8n'nin araç başına onay kapıları, LangGraph kesme ve devam ettirme temel öğeleri, Bedrock AgentCore politika kontrolleri, ServiceNow AI Control Tower ve Lindy'nin otomatik yükseltme mekanizması yer almaktadır.

Bilgi tabanı ve erişimle güçlendirilmiş üretim (RAG): Belge indeksleme ve erişim yoluyla ajanları özel bilgiye dayandırmak, bu kategori genelinde temel bir yetenektir. Uygulamalar arasında Dify RAG pipeline, Voiceflow Knowledge Base, Bedrock Knowledge Bases, Vertex AI RAG Engine ve Kore.ai Search AI yer almaktadır.

Kodsuz veya düşük kodlu ajan oluşturucu arayüzü: Ajan oluşturmak için grafiksel veya doğal dil arayüzleri her platformda mevcuttur. Kurumsal platformlar kodsuz stüdyolar (Agentforce Builder, Copilot Studio, watsonx Orchestrate) sunarken, geliştirici çerçeveleri yardımcı görsel araçlar (LangGraph Studio, AutoGen Studio, CrewAI Studio) sağlar.

Şevval Alper
Şevval Alper
Yapay Zeka Araştırmacısı
Şevval, AIMultiple'da yapay zeka kodlama araçları, yapay zeka ajanları ve kuantum teknolojileri konusunda uzmanlaşmış bir sektör analistidir.
Tam Profili Görüntüle

Yorum yapan ilk kişi olun

E-posta adresiniz yayınlanmayacak. Tüm alanlar gereklidir.

0/450