Kıyaslama

A-CODE-CLI Bench: Otonom CLI Benchmark'ı

Berk Kalelioğlu

ile

Cem Dilmegani

Güncellenme tarihi: 29 Haz 2026

Bakınız etik normlar

Bu Benchmarkı Kaynak Göster

Otonom CLI araçları, dosya oluşturabilen ve silebilen, komut çalıştırabilen, planlama yapabilen ve tüm projenin kodlamasını yürütebilen yapay zeka kodlama araçlarıdır. Önde gelen araçları 10 gerçek dünya web geliştirme senaryosu üzerinde benchmark'a tabi tuttuk, ajan başına ~600 atomik doğrulama kontrolü ve arka uç mantığını, ön uç işlevselliğini ve çoklu çalıştırma tutarlılık doğrulamasını kapsayan toplam ~5.000'den fazla otomatik test yürütmesi gerçekleştirdik.

Otonom CLI benchmark sonuçları

Loading Chart

Otonom CLI Araçlarının Performans İçgörüleri

Arka uç doğruluğu sıralamayı belirler; birleşik puan, arka ucu 0,7 ve ön ucu 0,3 ağırlıklandırır.

Dokuz sorunsuz çalışan ajan aynı Sonnet 4.6'yı kullanır, ancak arka uç Opencode'un %77,3'ünden Goose'un %55,4'üne kadar değişir. Bu 22 puanlık fark tamamen orkestrasyondan kaynaklanır.
Güçlü bir arka uç, güçlü bir bitişi garanti etmez: Cline (arka uçta 4., %69,5) ve Forge (5., %67,2) arka uçta üst sıralarda yer alır ancak ön uçta ciddi şekilde geride kalır, Cline'ın %52,5'i alandaki en zayıf sonuçtur, bu nedenle her ikisi de birleşik sıralamada aşağı kayar.
Codex, mükemmel bir %100 ön uca rağmen arka uçta (%52,1) 10. sırada yer alır. Burada ortak modele ulaşmak için bir proxy üzerinden çalışır, bu da yeteneklerini olumsuz etkileyebilir, bu nedenle bu muhtemelen ajanın gerçek arka ucundan ziyade bir taban seviyedir.¹ Yine bir proxy üzerinden çalıştırılan Gemini de aynı şekilde sınırlıdır.
Derleme sıralaması davranışı tahmin etmez: burada lider olan ajan sıkıştırma sonrası hiçbir şeyi tutmazken, orta sıradaki bir ajan her şeyi tutar.

Hız, token kullanımı ve puana karşı maliyet

Çalışma zamanı verimliliğini, her biri birleşik doğruluk puanına karşı çizilen ortalama yürütme süresi (saniye), etkin token kullanımı (girdi + çıktı) ve görev başına maliyet (USD) kullanarak değerlendirdik:

Bir ajanın ne kadar hızlı, ucuz veya token açısından hafif olduğu, puanını tahmin etmez.

Opencode üç kriterin hepsinde aynı anda kazanır: en yüksek birleşik puan (%81,6), yetenekli herhangi bir ajan arasında en düşük maliyet (görev başına $1,03), en az token'lar arasında ve en hızlı çalıştırmalar. Olağan doğruluk-maliyet takasını tersine çevirir.
Maliyet, Forge $0,18 ile Junie $7,58 arasında yaklaşık 40 kat değişir ve sıralamayla bir bağlantısı yoktur. Forge en ucuzdur çünkü en az şeyi yapar: arka ucu ticket oluşturmayı başaramaz. Junie'nin $7,58'i orta sıra bir %74,7 satın alır ve şişirilmiş bir üst sınırdır.
Goose en az için en çok öder: $3,23 ile ikinci en pahalı, ancak alandaki en düşük temiz puan (%62,5). Puanda ilk üç ucuz kalır (Opencode $1,03, Claude Code $1,83, Grok $2,03).
Ne en hızlı ne de en yavaş ajan kazanır: Kiro (439s) ve Gemini (1.158s, proxy ek yükü) her ikisi de orta sırada yer alır. Ekstra harcama, problem çözme derinliği değil, yeniden denemeler ve yeniden doğrulama satın alır.
Token sayıları çoğunlukla önbellekleme ile ilgilidir. Codex, Claude Code, Cline, Opencode, Gemini ve Grok girdilerinin %86–%98'ini önbelleğe alır, bu nedenle Claude Code'un 4,18M brüt token'ı etkin 115k'ye düşer. Junie, Goose, Kiro, Forge ve Aider önbelleğe almaz, bu nedenle yeniden gönderdikleri her token için ödeme yaparlar; Junie'nin 2,36M'i bu yüzden alandaki en yüksektir.
Rakamlarla ilgili üç uyarı: beş önbelleğe almayan ajan için, etkin girdi gönderdikleri her şeydir, bu nedenle bunu bir tavan olarak okuyun; Kiro'nun $1,72'i bir tabandır (kredi faturalandırılır, $2,23'e daha yakın); Cline'ın %64,4'ü, bir ön uç teslim etmeden önce hata sınırına ulaştığı dört görevi içerir, her biri 0 puan almıştır.

Metodolojimizi aşağıda görebilirsiniz.

Otonom CLI araçları nasıl çalışır

Otonom CLI araçları, terminal içinde çalışan otonom ajanlardır. Çoğu kullanıcı bunları kodlama görevleri için kullansa da, kabuk komutları aracılığıyla gerçekleştirilebilecek herhangi bir iş akışını yürütebilirler.

Bu ajanlar tipik olarak üç aşamadan oluşan bir döngü içinde çalışır:

Bağlam topla
Eylem gerçekleştir
Sonuçları doğrula

Doğrulamadan sonra, ajan güncellenmiş bağlamı toplar ve görevi tamamlayana veya bir durdurma koşuluna ulaşana kadar döngüyü tekrarlar.

Döngü iki kaynaktan etkilenir:

İlk görevi sağlayan ve yürütmeyi kesebilen insan kullanıcı
Planlama, akıl yürütme ve eylem seçimi gerçekleştiren model

Ajan framework'ü model etrafında yapı sağlar. Modelin nasıl planlaması gerektiğini, ne zaman komut yürütmesi gerektiğini, sonuçları nasıl doğrulaması gerektiğini ve hangi araçların mevcut olduğunu tanımlar. Bu araçlar kabuk yürütme, dosya sistemi erişimi, tarayıcı kontrolü, bilgisayar kullanımı, MCP entegrasyonları veya yeniden kullanılabilir "beceriler" içerebilir.

Farklı ajan mimarileri, farklı planlama stratejileri, yeniden deneme politikaları ve doğrulama mantığı dayatır. Bazı ajanlar, daha yüksek token kullanımı ve gecikme pahasına hassasiyete ve daha derin akıl yürütmeye öncelik verir. Diğerleri, azaltılmış davranışsal sağlamlıkla hız ve daha düşük maliyete öncelik verir.

Model zekası ve ajan mimarisi karşılaştırması

Otonom CLI araçları arasındaki performans farklılıkları tek bir kaynaktan gelmez. İki katmandan ortaya çıkarlar: temel model ve onu saran orkestrasyon framework'ü.

Bu benchmark, her iki ajanı da aynı temel model üzerinde test eder: Claude Sonnet 4.6. Puandaki herhangi bir fark bu nedenle bir orkestrasyon farkıdır: CLI'nin bağlamı nasıl topladığı, komutları ne zaman yürüttüğü, çıktıyı nasıl doğruladığı ve başarısızlıktan sonra yeniden deneyip denemediği.

Opencode ve Claude Code her ikisi de doğrudan Sonnet 4.6 kullanır. Opencode arka uçta %77,3 alır; Claude Code %74,9 alır. İki ajan, aynı model, arka uç doğruluğunda 2,4 yüzde puanı fark. Kiro ve Opencode her ikisi de Sonnet 4.6 kullanır. Kiro arka uçta %64,2 alır; Opencode %77,3 alır. 13 puanlık fark CLI'nin katkısıdır.

Aşağıdaki iki gözlemsel benchmark bunu daha da ileri götürür. Aynı ortak model testini web araştırması ve bağlam sıkıştırma üzerinde çalıştırırlar, burada farklar 13 puan değil, doğru cevabı bulmakla yanlış bir cevap uydurmak arasındaki farktır.

Web araştırması temellendirmesi

Her ajandan framework dokümantasyonunu denetlemesini istedik: bir özelliği hangi sürümün tanıttığı, mevcut durumunun ne olduğu ve son zamanlarda neyin değiştiği. Her cevap bir resmi kaynak göstermek zorundaydı. Araştırmayı iki kez çalıştırdık, biri Unity üzerinde, diğeri Next.js/React üzerinde. Gerçekler, doğru cevabın yalnızca güncel, yayınlanmış bir sayfada var olacağı şekilde seçildi. Eğitim verilerinden cevap vermek, kendinden emin, yanlış bir cevap üretir. Tek bir şeyi kontrol ettik: ajan, alıntı yaptığı sayfayı gerçekten getirdi mi?

Dört ajanın yerleşik web araması vardır. Bunlardan üçü (Codex, Gemini, Grok) Sonnet olmayan kendi yerel modellerinde çalıştı; diğer sekizi, Claude Code dahil, Sonnet 4.6 üzerinde çalıştı.

Ajan	Model	Web bilgisine nasıl ulaşır	Getirilen sayfalar	Uydurma kaynaklar
Codex	GPT-5.5	yerleşik web araması	~50	0
Claude Code	Sonnet 4.6	yerleşik web araması	~65	0
Gemini	Gemini 2.5 Pro	yerleşik (Google temellendirmesi)	~50	3
Grok	Grok	yerleşik (xAI araması)	1	1
Cline	Sonnet 4.6	sağlayıcı web araması	~23	0
Opencode	Sonnet 4.6	arama eklentisi (OpenRouter üzerinden)	~19	2
Kiro	Sonnet 4.6	getirir, ancak JS ile oluşturulan sayfaları okuyamaz	~85	0
Goose	Sonnet 4.6	arama motoru yok; curl ile doğaçlama yapar	~200	0
Junie	Sonnet 4.6	arama motoru yok; curl ile doğaçlama yapar	~54	0
Aider	Sonnet 4.6	tarama yok	0	0

Dört örüntü ortaya çıktı.

Gerçek canlı arama Codex, Claude Code, Gemini ve Grok güncel sayfaları getirir ve son değişiklikleri yakalar. En zor gerçeklerin bulunduğu geliştirici forumuna ulaşan tek ajan Codex oldu.
Arama yapar, ancak eski sayfalara ulaşır Cline iki düzine gerçek dokümantasyon sayfası getirdi ve yine değiştirilmiş bir sürümü raporladı. Getirmeler gerçekti; sayfalar güncel değildi.
Arama yok, eğitimden cevap verir Aider tarama yapmaz ve bunu söyler. Bu dürüst yanıttır.
Uydurma kaynaklar Forge çalışan hiçbir şey getirmedi, ancak Next.js araştırmasında 31 kaynak gösterdi. Belirtilen sayfalar mevcut değil. Kapanış ifadesi: "her hücre, bu oturum sırasında gerçekten getirilen bir sayfadan kaynaklanmıştır."

Next.js araştırmasında, diğer tüm tarama yapan ajanlar atıflarının neredeyse tamamını gerçekten getirdikleri sayfalara dayandırdı. Forge hiçbirini dayandırmadı. Grafik, her ajanın dayanaklı atıflarını uydurma olanlarla karşılaştırır, böylece dürüst ajanlar tam yeşil çubuklar ve Forge tek bir kırmızı çubuk olarak okunur. Grafik, doğrulanabilir URL başına getirme günlüğü olan sekiz ajanı kapsar. Grok (sunucu taraflı arama), Gemini (kesilmiş çalıştırma) ve Aider (atıf yok) yukarıdaki tabloda görünür ancak burada hariç tutulmuştur.

Cline ve Claude Code bu testte her ikisi de Sonnet 4.6 üzerinde çalıştı. Claude Code doğru cevabı içeren sayfayı buldu ve açtı. Cline bulamadı. Aynı model, farklı sonuç.

Her cevabı olgusal doğruluk açısından puanladık, ancak bu puanlar şu anda inceleme altında olan bir cevap anahtarına bağlıdır. Anahtar kesinleşene kadar doğruluk tablolarını saklı tutuyoruz.

Ekibimiz, iş süreçlerinizden birini yapay zeka ajanlarıyla ücretsiz olarak otomatikleştirsin.

Bir süreci otomatikleştir

Bağlam sıkıştırma

Bir oturum uzadığında, ajan bağlamını sıkıştırır: ayrıntılı geçmişi kısa bir özetle değiştirir ve orijinalleri atar. Özetin önemli olanı tutup tutmadığını test ettik.

Her ajana, içine 13 uydurma gerçek gizlenmiş yaklaşık 112.000 token'lık belgeler verdik: bir nöbetçi PIN'i, bir bulut bölgesi, bir derleme etiketi ve on tane daha. Uydurma, değerlerin eğitim verilerinde hiçbir varlığı olmayan benzersiz dizeler olduğu anlamına gelir. Ajan belgeleri okudu ve sıkıştırdı. Ardından kaynak dosyaları sildik ve 13 gerçeğin hepsini sorduk. Dosyalar silindiğinde, mümkün olan tek kaynak sıkıştırma özetidir.

Ajan	Model	~112k'yi şuna sıkıştırdı	Dosyalar silindikten sonra hatırlanan gerçekler
Claude Code	Sonnet 4.6	~23k	13 / 13
Kiro	Sonnet 4.6	sıfıra yakın	13 / 13
Codex	GPT-5.5	~45k	13 / 13
Gemini	Gemini 2.5 Pro	~37k	13 / 13
Goose	Sonnet 4.6	~11k	0 / 13
Forge	Sonnet 4.6	~20k	0 / 13
Opencode	Sonnet 4.6	~9k	0 / 13

Dört ajan her gerçeği tuttu. Üçü hiçbirini tutmadı. Bellekten 0 alan üç ajan, dosyaları hala yeniden okuyabildikleri sırada 13 / 13 cevap vermişti. Her sorguda yeniden okuyorlardı. Dosyalar gittiğinde, tahmin etmek yerine "bilinmiyor" yazdılar.

Goose, Forge, Opencode ve Kiro'nun hepsi Sonnet 4.6 çalıştırır. Kiro 13'ün hepsini tuttu. Diğer üçü hiçbirini tutmadı. Aynı model, zıt sonuç.

Opencode derleme benchmark'ında birinci sırada yer alır ve sıkıştırmada hiçbir şey tutmaz. Kiro derleme benchmark'ında yedinci sırada yer alır ve sıkıştırmada her şeyi tutar. Güçlü derleme performansı ve güçlü sıkıştırma bağımsız özelliklerdir.

Dört ajan, her biri somut bir nedenle bu testin kapsamı dışında kaldı. Cline sıkıştırma eşiğine sürülemedi. 863.000 token'lık bir belge seti oluşturduk ve her dosyayı okuttuk, ancak cline her araç çıktısını yaklaşık 2.000 karakterle keser, bu nedenle belgeler kısa önizlemelere dönüştü. Bağlamı, bir milyon token'lık penceresinin %21'i olan 214.000 token'da platoya ulaştı ve sıkıştırma hiç tetiklenmedi. Bir sayı tahmin etmek yerine cline'ı bu protokol altında ölçülemez olarak raporluyoruz. Grok'un bir sıkıştırma komutu vardır, ancak belgelerimizi tam olarak yüklemek yerine parçalar halinde okudu, bu nedenle sıkıştırması için hiçbir zaman eksiksiz bir bağlam olmadı. Aider'in özetleyicisi, gerçeklerin bulunduğu oturuma eklenen dosyaların içeriklerini değil, sohbet dönüşlerini sıkıştırır. Junie'nin sıkıştırma özelliği yoktur.

Görev 6'daki ajan davranışları

Ajanları 10 görev üzerinde değerlendirdik. Aşağıda, hepsi aynı model üzerinde çalıştığında farklı CLI mimarilerinin aynı kısıtlamalar altında nasıl davrandığını göstermek için Görev 6'nın ayrıntılı bir dökümü bulunmaktadır.

Görev 6: Yardım masası ticket sistemi (Web)

Görev 6, aşağıdakileri içeren bir full-stack yardım masası ticket sistemi oluşturmayı gerektirdi:

İki kullanıcı rolü (müşteri ve temsilci)
JWT tabanlı kimlik doğrulama
Katı durum iş akışı geçişleri
Veri izolasyonu (kullanıcılar arası erişim için 403 yerine 404)
FastAPI arka ucu
React/Vue/Svelte + Vite ön ucu
Deterministik çalıştırma komutları

Duman testi şunları doğruladı:

Sağlık kontrolü
Çift rol kimlik doğrulaması
Ticket CRUD işlemleri
Atama ve yanıtlar
Durum geçişleri
Rol uygulaması
Veri izolasyonu
Kullanıcı arayüzü giriş ve giriş sonrası davranışı

Bu görev, durum yönetimini, kimlik doğrulama doğruluğunu, REST sözleşme disiplinini ve ön uç-arka uç entegrasyonunu zorlar. Görev detaylarını görmek için GitHub'ı ziyaret edin.

Ajan	Model	Tamamlama süresi	Token'lar	Arka Uç Puanı	Ön Uç Puanı
Codex	Sonnet 4.6 (proxy)	454s	22k girdi / 19k çıktı	%60	%100
Claude Code	Sonnet 4.6	379s	69k girdi / 2k çıktı	%60	%75
Cline	Sonnet 4.6	548s	76k girdi / 40k çıktı	%60	%75
Grok	Sonnet 4.6 (OpenRouter)	433s	50k girdi / 28k çıktı	%60	%100
Goose	Sonnet 4.6	553s	1,064k girdi / 36k çıktı	%60	%100
Junie	Sonnet 4.6	444s	1,520k girdi / 25k çıktı	%60	%100
Opencode	Sonnet 4.6	542s	44k girdi / 29k çıktı	%60	%100
Kiro	Sonnet 4.6	495s	355k girdi / 9k çıktı	%24,4	%100
Aider	Sonnet 4.6	236s	1k girdi / 18k çıktı	%13,3	%75
Forge	Sonnet 4.6	844s	61k girdi / 2k çıktı	%13,3	%75

Tek bir modelde, alan üç gruba ayrıldı.

Arka uçta %60, yedi ajan (codex, claude-code, cline, grok, goose, junie, opencode): üç yeniden çalıştırmanın hepsinde aynı altı başarısız adım. Kimlik doğrulama, ticket CRUD, yanıtlar ve veri izolasyonu geçti; her iki başarısızlık da /tickets/{id}/assign ve /tickets/{id}/status üzerindeydi, burada şartnamenin ayrı rotaları yerine birleşik bir PATCH /tickets/{id} oluşturdular. İş mantığı doğru, REST sözleşmesi yanlış. Gemini 3 Pro üzerindeki önceki yerel çalıştırmada, Opencode ayrı endpoint'leri oluşturdu ve %93,3 aldı; Sonnet 4.6'da diğerleri gibi birleşik tasarımı seçti.
%13,3, üç ajan (aider, forge, gemini-cli): kimlik doğrulama çalıştı, ancak ticket oluşturmanın kendisi başarısız oldu, bu nedenle her bağımlı adım zincirleme olarak başarısız oldu.
%24,4, Kiro: istikrarsızlık, tek bir başarısızlık modu değil. Birinci çalıştırmada dokuz adımı geçti, ikinci çalıştırmada iki ve üçüncü çalıştırmada arka uç hiç başlamadı (sağlık kontrolü başarısız oldu). Diğer on ajan her yeniden çalıştırmada aynı şekilde tekrarladı.
%60 kümesi içindeki kullanıcı arayüzü: claude-code ve cline aynı CORS hatasında girişte başarısız oldu, ön uç arka ucu bir 127.0.0.1 kaynağından localhost:8000 üzerinde çağırdı ve tarayıcı bunu engelledi, bu nedenle her ikisi de %75 aldı; diğer beşi temiz bir şekilde render etti ve %100 ile giriş yaptı.
Çıkarım yakınsamadır: aynı modeldeki yedi farklı CLI aynı REST sözleşmesi hatasını yaptı, bu nedenle burada model baskındır ve orkestrasyon neredeyse hiç önemli değildir, aşağıdaki gözlemsel benchmark'ların tersi.

Codex

Kurulum

Global olarak şununla kurun:

npm install -g @openai/codex

Alternatif olarak, Homebrew ile global kurun (macOS/Linux)

brew install --cask codex

Kimlik Doğrulama

Codex'i kurduktan sonra, ChatGPT Hesabınızla veya OpenAI API Anahtarınızla devam edebilirsiniz. Sağlayıcı seçeneği mevcut değildir.

Görev Raporu

Codex 454 saniyede çalışan bir sistem oluşturdu ve %60 kümesinde yer aldı. İş mantığı doğruydu; alanın geri kalanı gibi atama ve durumda REST sözleşmesini kaçırdı.

Arka Uç Davranışı

Kimlik doğrulama, ticket CRUD, yanıtlar ve veri izolasyonu geçti. Altı başarısızlık, `/tickets/{id}/assign` ve `/tickets/{id}/status`'ü hedefleyen atama ve durum geçişi adımlarıydı. Codex her ikisini de birleşik bir güncelleme endpoint'i üzerinden yönlendirdi, bu nedenle bu çağrılar 404 döndü. Üç yeniden çalıştırmanın hepsinde kararlı.

Kullanıcı Arayüzü Davranışı

Ön uç sekiz doğrulama adımının hepsini geçti. Giriş ve giriş sonrası durumu doğru davrandı. %100 kullanıcı arayüzü.

Junie

Kurulum

Junie, JetBrains Toolbox aracılığıyla veya bağımsız bir CLI olarak kullanılabilir:

curl -fsSL https://junie.jetbrains.com/install | bash

Kimlik Doğrulama

JetBrains hesabınızla devam edin veya junie.jetbrains.com/cli adresinden bir JUNIE_API_KEY oluşturun ya da Anthropic, OpenAI, Google veya diğer desteklenen sağlayıcılardan kendi API anahtarınızı dışa aktarın. Birden fazla sağlayıcı seçeneği mevcuttur.

Görev Raporu

Junie 444 saniyede eksiksiz bir full-stack sistem üretti ve ana kümede arka uçta %60 aldı. Bu görevdeki etkin girdisi, bilinen bir önbellekleme muhasebesi hatasından etkilenen önbelleğe alınmamış bir üst sınır olan 1,52M ile alandaki en yüksektir (sonuç tablosu notuna bakın).

Arka Uç Davranışı

On altı adımdan dokuzu geçti: kimlik doğrulama, ticket CRUD, yanıtlar ve veri izolasyonu. Altı başarısızlık atama ve durum geçişi adımlarıydı. Junie, durum ve atamayı birleşik bir güncelleme endpoint'i üzerinden ele aldı, bu nedenle şartnamenin `/tickets/{id}/assign` ve `/tickets/{id}/status` rotaları 404 döndü. Geçiş mantığının kendisi doğruydu. Üç yeniden çalıştırmanın hepsinde kararlı.

Kullanıcı Arayüzü Davranışı

Ön uç sekiz doğrulama adımının hepsini geçti. %100 kullanıcı arayüzü.

Kiro CLI

Kurulum

macOS/Linux/WSL için:

curl -fsSL https://cli.kiro.dev/install | bash

Alternatif Linux AppImage (taşınabilir seçenek):

İndir: https://desktop-release.q.us-east-1.amazonaws.com/latest/kiro-cli.appimage

Ardından çalıştırın:

chmod +x kiro-cli.appimage && ./kiro-cli.appimage

Kimlik Doğrulama

Kiro-Code planınızla devam edebilirsiniz. Sağlayıcı seçeneği mevcut değildir.

Görev Raporu

Kiro, puanı tek bir tasarım seçiminden ziyade istikrarsızlığı yansıtan tek ajandır. Arka uçtaki %24,4'ü, üç farklı sonuç üreten üç yeniden çalıştırmanın ortalamasıdır. Çalıştığında derlemenin kendisi sağlamdı; sorun, iki kez aynı şekilde çalışmamasıydı.

Arka Uç Davranışı

İlk çalıştırmada, Kiro on altı adımdan dokuzunu geçti, %60 kümesiyle aynı profil, yalnızca atama ve durum rotalarında başarısız oldu. İkinci çalıştırmada iki adımı geçti. Üçüncüde arka uç hiç gelmedi ve sağlık kontrolü bile başarısız oldu. Ortalaması alındığında, bu %24,4'tür. Kiro'yu buradaki kümeden ayıran, endpoint tasarımı değil, istikrarsızlıktır.

Kullanıcı Arayüzü Davranışı

Arka uç çalışırken, ön uç sekiz doğrulama adımının hepsini geçti. %100 kullanıcı arayüzü. Bu, giriş formunun bağlamada bir 422 ile render edilemediği önceki çalıştırmaya göre bir değişikliktir.

Claude Code

Kurulum

macOS/Linux/WSL için, tercih ettiğiniz paket yöneticisine göre, Claude Code'u aşağıdakilerden biriyle kurabilirsiniz:

curl -fsSL https://claude.ai/install.sh | bash
npm install -g @anthropic-ai/claude-code

Kimlik Doğrulama

Claude Code'u kurduktan sonra, Claude Hesabınızla devam edebilirsiniz. Sağlayıcı seçeneği mevcut değildir.

Görev Raporu

Claude Code, ana kümede 379 saniyede arka uçta %60 aldı. Bu, bir JWT doğrulama hatasının kimliği doğrulanmış her rotada 401 döndürdüğü ve 16 adımın 13'ünde başarısız olduğu önceki çalıştırmaya göre belirgin bir iyileşmedir. Bu çalıştırmada arka uç çalıştı; kayıp kullanıcı arayüzündeydi.

Arka Uç Davranışı

Kimlik doğrulama, ticket CRUD, yanıtlar ve veri izolasyonu geçti. Altı başarısızlık, şartnamenin ayrı yolları yerine birleşik bir güncelleme endpoint'i üzerinden yönlendirilen atama ve durum geçişi adımlarıydı. Üç yeniden çalıştırmanın hepsinde kararlı.

Kullanıcı Arayüzü Davranışı

Giriş adımı başarısız oldu. Ön uç, sayfa bir 127.0.0.1 kaynağından sunulurken arka ucu localhost:8000 üzerinde çağırdı ve tarayıcı giriş isteğini CORS politikası altında engelledi. Beş adım geçti, biri başarısız oldu, ikisi engellendi. %75 kullanıcı arayüzü. Cline aynı şekilde başarısız oldu.

Aider

Kurulum

Python 3.8-3.13 zaten kuruluysa, önce aider'ı kurun:

python -m pip install aider-install
aider-install

Kimlik Doğrulama

OpenRouter hesabınıza giriş yapın ve yetkilendirin veya ortamınızda API Anahtarınızı şununla dışa aktarın:

export OPENROUTER_API_KEY="sk-or-v1-..."

Görev Raporu

Aider 236 saniye ile en hızlı ajan ve 1,3k girdi ile 18k çıktı token'ı ile en hafif ajandı. Ayrıca arka uçta %13,3 aldı. Kimlik doğrulama çalıştı, ancak ticket oluşturma başarısız oldu ve mevcut bir ticket gerektiren her adım onunla birlikte başarısız oldu.

Arka Uç Davranışı

İki adım geçti. Derleme ticket oluşturmada kırıldı, bu nedenle müşteri ve temsilci ticket listeleri, yanıtlar, atama, durum geçişleri ve rol kontrollerinin hepsi zincirleme olarak başarısızlığa uğradı. Üç yeniden çalıştırmanın hepsinde kararlı. Bu, ticket'ları doğru şekilde oluşturan ve yalnızca atama ve durum rotalarını kaçıran %60 kümesinden farklı bir başarısızlık sınıfıdır.

Kullanıcı Arayüzü Davranışı

Giriş adımı, claude-code ve cline'da görülen aynı CORS kaynak uyuşmazlığı altında başarısız oldu. Beş adım geçti, biri başarısız oldu, ikisi engellendi. %75 kullanıcı arayüzü.

OpenCode

Kurulum

macOS/Linux/WSL için:

curl -fsSL https://opencode.ai/install | bash

Global olarak şununla kurun:

npm i -g opencode-ai

macOS/Linux için, tercih ettiğiniz paket yöneticisine göre:

bun add -g opencode-ai
brew install anomalyco/tap/opencode
paru -S opencode

Kimlik Doğrulama

Birçok sağlayıcı seçeneği vardır, istediğiniz sağlayıcıyı seçin ve /connect ile kimlik doğrulayın

Görev Raporu

Opencode genel benchmark'ta liderdir, ancak Görev 6'da ana kümede 542 saniyede arka uçta %60 aldı. Bu, makaledeki en net tek model kanıtıdır. Gemini 3 Pro Preview üzerindeki önceki yerel model çalıştırmasında, Opencode şartnamenin ayrı endpoint'lerini oluşturdu ve burada %93,3 aldı. Aynı CLI Sonnet 4.6'da birleşik endpoint'i seçti ve %60'a düştü. Araç değişmedi; model değişti.

Arka Uç Davranışı

Kimlik doğrulama, ticket CRUD, yanıtlar ve veri izolasyonu geçti. Altı başarısızlık, birleşik bir güncelleme endpoint'i üzerinden yönlendirilen atama ve durum geçişi adımlarıydı. Üç yeniden çalıştırmanın hepsinde kararlı.

Kullanıcı Arayüzü Davranışı

Ön uç sekiz doğrulama adımının hepsini geçti. %100 kullanıcı arayüzü.

Grok Build

Kurulum

macOS/Linux için:

curl -fsSL https://x.ai/cli/install.sh | bash

Kimlik Doğrulama

İlk başlatmada xAI hesabınızla oturum açın veya başsız kullanım için bir API anahtarı ayarlayın:

export XAI_API_KEY="xai-..."

Görev Raporu

Grok, derleme benchmark'ında arka uçta %75,4 ile genel olarak ikinci oldu. Görev 6'da ana kümede 433 saniyede arka uçta %60 aldı. Bu çalıştırmada Grok, Sonnet 4.6'ya OpenRouter üzerinden ulaştı.

Arka Uç Davranışı

On altı adımdan dokuzu geçti: kimlik doğrulama, ticket CRUD, yanıtlar ve veri izolasyonu. Altı başarısızlık, /tickets/{id}/assign ve /tickets/{id}/status'ü hedefleyen atama ve durum geçişi adımlarıydı. Grok her ikisini de birleşik bir güncelleme endpoint'i üzerinden yönlendirdi, bu nedenle bu çağrılar ve bunlara bağlı rol kontrolleri 404 döndü. Üç yeniden çalıştırmanın hepsinde kararlı.

Kullanıcı Arayüzü Davranışı

Ön uç sekiz doğrulama adımının hepsini geçti. Giriş ve giriş sonrası durumu doğru davrandı. %100 kullanıcı arayüzü.

Forge

Kurulum

macOS/Linux/WSL için:

curl -fsSL https://forgecode.dev/cli | sh

Kimlik Doğrulama

Sağlayıcı kimlik bilgilerinizi etkileşimli olarak şununla yapılandırın:

forge provider login

Ve sağlayıcınızı seçin.

Görev Raporu

Forge 844 saniyede arka uçta %13,3 aldı. Çıktı token sayısı 1,6k ile alandaki en düşüktür, bu da sığ bir uygulamaya işaret eder. Önceki çalıştırmada olduğu gibi, derleme ticket oluşturmada kırıldı ve zincirleme olarak başarısız oldu.

Arka Uç Davranışı

İki adım geçti. Ticket oluşturma başarısız oldu, bu nedenle ticket listeleri, yanıtlar, atama, durum geçişleri ve rol kontrollerinin hepsi onunla birlikte başarısız oldu. Üç yeniden çalıştırmanın hepsinde kararlı, aider ve gemini-cli ile aynı %13,3 profili.

Kullanıcı Arayüzü Davranışı

Giriş adımı, claude-code, cline ve aider'da görülen aynı CORS kaynak uyuşmazlığı altında başarısız oldu. Beş adım geçti, biri başarısız oldu, ikisi engellendi. %75 kullanıcı arayüzü.

Gemini CLI

Kurulum

Anında çalıştırın:

npx @google/gemini-cli

Veya global olarak kurun:

npm install -g @google/gemini-cli
brew install gemini-cli

Kimlik Doğrulama

Seçenek 1 (Google OAuth): export GOOGLE_CLOUD_PROJECT="YOUR_PROJECT_ID" ardından gemini'yi başlatın.
Seçenek 2 (API anahtarı): export GEMINI_API_KEY="YOUR_API_KEY" ardından gemini'yi başlatın.
Seçenek 3 (Vertex AI): export GOOGLE_API_KEY + GOOGLE_GENAI_USE_VERTEXAI=true.

Görev Raporu

Gemini CLI, alandaki en yavaş iki ajandan biri olarak 926 saniyede arka uçta %13,3 aldı. Kimlik doğrulama çalıştı, ancak ticket oluşturma başarısız oldu ve zincirleme olarak devam etti. Önceki çalıştırmada bir Node 18 ile Vite 7 uyumsuzluğunda tamamen başarısız olan ön ucu, bu kez her adımı geçti.

Arka Uç Davranışı

İki adım geçti. Ticket oluşturma başarısız oldu, bu nedenle tüm bağımlı adımlar başarısız oldu. Üç yeniden çalıştırmanın hepsinde kararlı, aider ve forge ile aynı %13,3 profili.

Kullanıcı Arayüzü Davranışı

Ön uç sekiz doğrulama adımının hepsini geçti. Önceki çalıştırmada %0'dan %100 kullanıcı arayüzüne yükseldi. Kimliği doğrulanmış bir çağrıda konsolda bir 401 göründü, ancak işlenen akışı engellemedi.

Cline

Kurulum

Global olarak şununla kurun:

npm install -g cline

Kimlik Doğrulama

`cline auth` yazarak Cline hesabınızı seçebilir veya istediğiniz sağlayıcıyla devam edebilirsiniz.

Görev Raporu

Cline, ana kümede 648 saniyede arka uçta %60 aldı. Bu, sekiz hata sınırının derlemeyi erken sonlandırdığı ve boş bir ön uç bıraktığı önceki çalıştırmaya göre büyük bir değişikliktir. Burada full stack'i tamamladı.

Arka Uç Davranışı

Kullanıcı Arayüzü Davranışı

Giriş adımı, claude-code'da görülen aynı CORS kaynak uyuşmazlığı altında, bir 127.0.0.1 sayfasının bir localhost arka ucunu çağırmasında başarısız oldu. Beş adım geçti, biri başarısız oldu, ikisi engellendi. %75 kullanıcı arayüzü.

Goose

Kurulum

macOS/Linux/WSL için:

curl -fsSL https://github.com/block/goose/releases/download/stable/download_cli.sh | bash

Görev Raporu

Goose, ana kümede 553 saniyede arka uçta %60 aldı, ancak oraya ulaşmak için 1,06M girdi token'ı tüketti. Bu kez full stack'i tamamladı, ön uç dizininin boş bırakıldığı önceki çalıştırmaya göre bir değişiklik.

Arka Uç Davranışı

Kullanıcı Arayüzü Davranışı

Ön uç sekiz doğrulama adımının hepsini geçti. Önceki çalıştırmada %0'dan %100 kullanıcı arayüzüne yükseldi.

Google Arama'da daha fazla kıyaslamamızı ve veri odaklı içgörülerimizi görün.

Tercih edilen kaynak olarak ekle

Yapay zeka kodlama araçları

Yapay zeka kodlama araçları üç kategoriye ayrılabilir:

Otonom CLI: Terminal tabanlı geliştirme iş akışları için araçlar, prompt'lar ve komut satırı etkileşimleri aracılığıyla kod üretir, düzenler ve yeniden yapılandırır.
- Örnekler: Aider, Junie, Opencode, Claude Code, Codex

Yapay zeka kod editörleri: Otonom IDE'ler olarak da bilinir, bu araçlar VS Code'a benzer bir GUI sağlar (çoğu VS Code üzerine inşa edilmiştir).
- Örnekler: Antigravity, Cursor, Kiro Code, Windsurf

Prompt'tan uygulamaya oluşturucular: Doğal dil prompt'ları ve görsel iş akışları kullanarak uygulama oluşturmak için az kodlu/kodsuz platformlar.
- Örnekler: Bolt, Lovable, v0.dev, Firebase Studio, Dazl

Yapay zeka kod inceleme araçları

Yapay zeka tarafından üretilen kod daha yaygın hale geldikçe, kod inceleme araçları hataları ve güvenlik açıklarını yakalamak için gereklidir. RevEval benchmark'ımızda en iyi araçları 309 PR üzerinde değerlendirdik.

Otonom CLI araçları ne yapabilir?

Codex, Junie, Kiro ve Claude Code gibi araçlar genelinde ortak yetenekler şunları içerir:

Uçtan uca kod çalışması: Doğrudan terminalden dosya oluşturma ve değiştirme, hataları düzeltme, kodu yeniden yapılandırma ve testler veya linter'lar çalıştırma.
Otonom iş akışları: Görev zincirleme, sorun giderme, arama ve yinelemeli hata ayıklama gibi çok adımlı görevleri gerçekleştirme.
Git ve proje yönetimi: Geçmişi inceleme, birleştirmeleri çözme, dalları yönetme ve commit'ler veya pull request'ler oluşturma.
Command yürütme ve otomasyon: Kabuk komutları çalıştırma, analizleri otomatikleştirme ve doğal dili karmaşık CLI işlemlerine dönüştürme.
Derin bağlam işleme: Bağımlılıklar ve proje yapısı farkındalığıyla tam depolar üzerinde çalışma.
Model esnekliği: Birden fazla bulut ve bazı durumlarda yerel model'i destekleme; bazı araçlar kendi API anahtarınızı kullanmanıza veya planlar arasında seçim yapmanıza izin verir.
Korumalı alan veya kontrollü erişim: Salt okunurdan tam otomasyona kadar değişen modlar sunar, genellikle güvenlik için yalıtılmış ortamlarla.

Metodoloji

A-CODE-CLI Benchmark'ı

Ajanları, insan müdahalesi olmadan otonom yeteneği ölçmek için tek seferlik yürütme kurulumu altında değerlendirdik. Ajanlar daha sonra altyapı hazırlığını ve davranışsal doğruluğu ölçmek için arka uç ve ön uç duman testleri kullanılarak değerlendirildi.

Model yapılandırması. 11 ajanın hepsi Claude Sonnet 4.6 (akıl yürütmesiz) üzerinde çalıştı. İki ajan bu modele ulaşmak için bir proxy gerektirdi:

Codex (OpenAI CLI) yerel olarak Anthropic model'lerini işaret edemez. Bir LiteLLM ağ geçidi üzerinden OpenRouter/Anthropic'e yönlendirildi ve prompt önbelleğe almayı geri getiren bir önbellek şimi ile. Proxy, akıl yürütme token'larını sıyırır (yetenek maliyeti) ve gecikme ekler.
Gemini CLI yerel olarak Anthropic model'lerini çağıramaz. Bir SSE şimi ve LiteLLM ağ geçidi üzerinden yönlendirildi. Yardımcı model çağrıları (döngü tespiti, bozuk araç onarımı, bağlam sıkıştırma) proxy üzerinden başarısız olur veya geçersiz içerik döndürür, bu nedenle kendi güvenlik ağları olmadan çalıştı.

Forge, yanıtlardan genişletilmiş düşünme bloklarını sıyırmak için ayrı bir proxy gerektirdi, Forge bunları zorla etkinleştirir ve bunlar geri yankılandığında 400 hatalarına neden olur. Diğer tüm ajanlar Sonnet 4.6'yı doğrudan kendi yerel sağlayıcı yapılandırmaları veya OpenRouter üzerinden kullandı.

Proxy yalnızca codex ve gemini-cli'ı dezavantajlı hale getirebilir, asla şişiremez. Puanları ihtiyatlıdır.

Junie, Sonnet 4.6 birincil ile birlikte geçersiz kılınamaz bir GPT-4.1-mini yardımcıyı eş zamanlı çalıştırır. Derleme sırasında ikinci bir model aktif olan tek ajandır. Puanları çoklu model yıldızı taşır.

Claude Code kullanıcı aboneliği (OAuth) üzerinden çalıştı. Kiro, Kiro tarafından barındırılan krediler üzerinde çalıştı (Bedrock destekli, 1,3x çarpan).

Hiçbir ajanın sıcaklık, yeniden deneme veya akıl yürütme parametreleri ayarlanmadı. Her biri varsayılan yapılandırmasında çalıştı.

Puanlama. Arka uç: işlevsel duman (adaptive_avg_step_pass_rate). Ön uç: Playwright aracılığıyla kullanıcı arayüzü dumanı. Birleşik: 0,7 × arka uç + 0,3 × ön uç (tam kullanıcı arayüzü verisine sahip ajanlar için). Arka uç puanı birincil sıralama eksenidir. Ön uç performansı alan genelinde doygunluğa ulaşır.

Aider t-3 ve t-4. Her iki görev de başlangıçta çöken arka uçlar üretti. İki yeni derleme üzerinde doğrulandı (aynı hatalar: t-3'te class Card üzerinde TypeError, t-4'te User.auctions üzerinde AmbiguousForeignKeysError). Bir backend_never_ready bayrağı ile 0 puanlandı, hariç tutulmadı.

Değerlendirme metodolojisi için ziyaret edin: Yapay zeka kodlama benchmark metodolojisi

CLI sürümleri (Haziran 2026 benchmark çalıştırması)

Sürümler benchmark VPS kutularından okundu. Derleme çalıştırması 5-8 Haziran 2026'da yürütüldü.

Claude Code: 2.1.165
Cline: 3.0.27
Codex: 0.140.0
Aider: 0.86.2
Gemini CLI: 0.26.0
Forge: 2.13.11
Goose: 1.37.0
Grok: 0.2.54
Junie: 26.06.01 (derleme 1831.35)
Kiro CLI: 2.6.1
Opencode: 1.17.7

Web araştırması temellendirme metodolojisi

İki araştırma: bir Unity geçiş denetimi (araştırma 2) ve bir Next.js/React sürüm denetimi (araştırma 3). Her biri ajandan belirtilen framework özellikleri için sürüm, durum ve zaman çizelgesini raporlamasını ve her iddia için bir resmi URL göstermesini istedi.

Notlandırma iki paralel yöntem kullandı. Doğruluk temeli kapısı: bir iddia, yalnızca belirtilen URL ajanın gerçek getirme günlüğünde görünüyorsa VE getirilen sayfa gerçeği içeriyorsa puanlanır, doğrulanmış bir cevap anahtarına göre ölçülür. Davranışsal sınıflandırma: bir LLM yargıcı her ajanın tam transkriptini okudu ve onu dört davranışsal kategoriden birine atadı. Davranışsal sınıflandırma birincil çıktıdır; puanlanan doğruluk tabloları, cevap anahtarı insan çapa incelemesini tamamladıktan sonra yayınlanacaktır.

Yerleşik aramaya sahip ajanlar (Codex, Gemini, Grok), görev yerleşik arama yeteneklerini gerektirdiği için kendi yerel model'lerinde çalıştı. Kalan sekizi Claude Sonnet 4.6 üzerinde çalıştı. N=1.

Bağlam sıkıştırma metodolojisi

Ajanlar, 13 uydurma altyapı gerçeği içeren yaklaşık 112.000 token'lık dolgu belgeleri aldı. Ajan belgeleri okuyup bağlamını sıkıştırdıktan sonra, herhangi bir soru sormadan önce kaynak dosyaları sildik. Puanlama: 13 uydurma değere karşı tam eşleşme, gerçek başına bir regex ile bir notlandırma betiği tarafından otomatikleştirildi. N=3.

Dosyalar mevcutken 13/13 ve dosyalar silinmişken 0/13 alan ajanlar yeniden okuyucu olarak sınıflandırılır. Dosyalar silinmişken 13/13 alan ajanlar gerçek tutucu olarak sınıflandırılır. Dosya silme, yeniden okumayı eler; uydurma gerçekler, eğitim verisi hatırlamasını eler.

Codex (GPT-5.5) ve Gemini (Gemini 2.5 Pro) hariç tüm ajanlar Sonnet 4.6 üzerinde çalıştı. Ajan başına kullanılan model sonuç tablosunda listelenmiştir.

Daha fazlasını okuyun

Otonom geliştirici araçlarının daha geniş ekosistemini keşfedenler için, işte en son benchmark'larımız:

MCP benchmark'ı: Web erişimi için en iyi MCP sunucularının karşılaştırması.
Uzak tarayıcılar: Gelişen tarayıcı altyapısının yapay zeka ajanlarının web ile güvenli bir şekilde etkileşime girmesini nasıl sağladığı.

Bu benchmarkı kaynak gösterin

Yayınlayacağınız yere uygun formatı seçin. Bağlantılı sürümü CMS'inize yapıştırmak, geri bağlantıyı korur.

Berk Kalelioğlu and Cem Dilmegani (2026) - "A-CODE-CLI Bench: Otonom CLI Benchmark'ı". AIMultiple.com adresinde çevrimiçi yayımlanmıştır. Erişim tarihi: 29 Haziran 2026, kaynak: https://aimultiple.com/agentic-cli [Çevrimiçi Kaynak]

Kalelioğlu, B., & Dilmegani, C. (2026, 29 Haziran). A-CODE-CLI Bench: Otonom CLI Benchmark'ı. AIMultiple. https://aimultiple.com/agentic-cli

@misc{kalelioglu2026,
  author = {Kalelioğlu, Berk and Dilmegani, Cem},
  title  = {{A-CODE-CLI Bench: Otonom CLI Benchmark'ı}},
  year   = {2026},
  month  = jun,
  howpublished    = {\url{https://aimultiple.com/agentic-cli}},
  note   = {AIMultiple. Erişim tarihi: 29 Haziran 2026}
}

Tüm verileri indir

110 veri noktasının sonuçları ve zaman damgaları. Bu makalede kullanılan verileri, bir CSV dosyası ve bir README içeren ZIP dosyası olarak indirin.

Son güncelleme: 3 Temmuz 2026

İndir

Referans Linkleri

Integration with Codex CLI | OpenRouter | OpenRouter | Documentation

OpenRouter | Documentation

Berk Kalelioğlu

AI Araştırmacısı

Takip Et

Berk, AIMultiple'da bir AI araştırmacısıdır ve etmen tabanlı AI sistemleri ile dil modellerine odaklanmaktadır.

Tam Profili Görüntüle

Teknik olarak inceleyen

Cem Dilmegani

Baş Analist

Takip Et

Cem, 2017'den beri AIMultiple'da baş analist olarak görev yapmaktadır. AIMultiple, Fortune 500'ün %55'i dahil olmak üzere her ay yüz binlerce işletmeyi (similarWeb verilerine göre) bilgilendirmektedir. Cem'in çalışmaları, Business Insider, Forbes, Washington Post gibi önde gelen küresel yayınlar, Deloitte, HPE gibi küresel firmalar, Dünya Ekonomik Forumu gibi STK'lar ve Avrupa Komisyonu gibi uluslarüstü kuruluşlar tarafından alıntılanmıştır. AIMultiple'a atıfta bulunan daha fazla saygın şirketi ve kaynağı görebilirsiniz. Kariyeri boyunca Cem, teknoloji danışmanı, teknoloji alıcısı ve teknoloji girişimcisi olarak görev yaptı. On yıldan fazla bir süre boyunca McKinsey & Company ve Altman Solon'da işletmelere teknoloji kararları konusunda danışmanlık yaptı. Ayrıca dijitalleşme üzerine bir McKinsey raporu yayınladı. CEO'ya rapor verirken bir telekom şirketinin teknoloji stratejisini ve satın alımını yönetti. Ayrıca, 2 yıl içinde sıfırdan 7 haneli yıllık yinelenen gelire ve 9 haneli değerlemeye ulaşan derin teknoloji şirketi Hypatos'un ticari büyümesini yönetti. Cem'in Hypatos'taki çalışmaları, TechCrunch ve Business Insider gibi önde gelen teknoloji yayınları tarafından ele alındı. Cem düzenli olarak uluslararası teknoloji konferanslarında konuşma yapmaktadır. Boğaziçi Üniversitesi'nden bilgisayar mühendisi olarak mezun olmuş ve Columbia Business School'dan MBA derecesine sahiptir.

Tam Profili Görüntüle