Bize Ulaşın
Sonuç bulunamadı.

Agentic CLI Araçları: Codex ve Claude Code Karşılaştırması

Cem Dilmegani
Cem Dilmegani
güncellendi Mar 18, 2026
Bakınız etik normlar

Agentic CLI araçları, dosya oluşturup silebilen, komut çalıştırabilen, planlama yapabilen ve tüm projenin kodlamasını yürütebilen yapay zeka kodlama araçlarıdır . Önde gelen araçları 10 gerçek dünya web geliştirme senaryosunda karşılaştırdık; her bir ajan için yaklaşık 600 atomik doğrulama kontrolü ve arka uç mantığı, ön uç işlevselliği ve çoklu çalıştırma tutarlılık doğrulaması dahil olmak üzere toplamda 5.000'den fazla otomatik test yürütmesi gerçekleştirdik.

Agentic CLI kıyaslama sonuçları

Loading Chart

Agentic CLI araçlarının performans analizleri

Codex, en yüksek genel puana (%67,7) ve en güçlü arka uç performansına (%58,5) sahip. Arka uç puanı, en iyi ikinci performans gösteren Junie'nin (%54,3) 5 puandan fazla önünde yer alıyor.

Junie, sağlam arka uç doğruluğunu (%54,3) güçlü ön uç performansı (%85,0) ile birleştirerek genel sıralamada ikinci (%63,5) sırada yer alıyor. Arka uç-ön uç farkı (30,7 yüzdelik puan) diğer ajanlara kıyasla orta düzeyde ve 10 görevin tamamını, 9'unda arka uç altyapısı hazır halde tamamladı.

Claude Code en yüksek ön uç puanına (%95,0) sahip olsa da, arka uç puanı (%38,6) genel sonucunu (%55,5) aşağı çekiyor. Bu, grafikteki ana dinamiği gösteriyor: ön uç performansı birçok ajan için nispeten yüksekken, arka uç doğruluğu ve sözleşme disiplini sıralama ayrımının büyük kısmını belirliyor.

En büyük kullanıcı arayüzü-arka uç farkı Claude Code'da görülüyor (%95,0 ön uç vs %38,6 arka uç). Buna karşılık, Codex yüksek bir ön uç puanını (%89,2) en iyi arka uç puanıyla birleştiriyor; bu nedenle 0,7 arka uç / 0,3 ön uç ağırlıklandırması altında genel olarak lider konumda.

Daha düşük sıralamalı ajanlar farklı nedenlerle başarısız oluyor. Goose, hem arka uçta (%3,1) hem de ön uçta (%10,0) sıfıra yakın puan alarak temel yürütme ve eksiksizlik sorunlarına işaret ediyor. Forge ve Cline, orta düzeyde ön uç puanları (%45,8 ve %33,3) gösterirken, düşük arka uç puanları (%20,1 ve %26,7) gösteriyor; bu da sonuçlarında arka uç sözleşme ve yönlendirme sorunlarının baskın olduğunu gösteriyor.

Hız ile puan ve jeton kullanımı ile puan karşılaştırması

Çalışma zamanı verimliliğini ortalama yürütme süresi (saniye), etkili belirteç kullanımı (giriş + çıkış) ve birleşik doğruluk puanı kullanarak değerlendirdik:

Aider, grafiğin en dengeli bölgesinde yer alıyor. %52,7'lik toplam puanla, görevleri 257 saniyede tamamlıyor ve 126 bin token tüketiyor. Orta ila yüksek doğruluk oranını nispeten düşük çalışma süresi ve orta düzeyde token kullanımıyla birleştiren tek ajandır.

Codex en yüksek genel puanı (%67,7) elde ediyor ancak daha yüksek maliyetle. Ortalama çalışma süresi 426 saniye ve token kullanımı 258 bin. Verimlilikteki bu ödünleşme, doğruluktaki artışla orantılı görünüyor.

Junie, %63,5'lik doğruluk oranıyla ikinci sırada yer alıyor ve ortalama 483 saniyelik çalışma süresi ve 370 bin etkili token ile öne çıkıyor. Codex ile karşılaştırıldığında, %43 daha fazla token tüketiyor ve bu da puanında %4,2'lik bir düşüşe neden oluyor. Token-doğruluk oranı Aider veya Codex'ten daha düşük olsa da, hem doğruluk hem de token verimliliği açısından Claude Code'u geride bırakıyor.

Claude Code, en iyi performans gösteren ajanlar arasında en pahalı olanıdır. Doğruluk oranında üçüncü sırada yer almaktadır (%55,5), ancak 745 saniye ve 397 bin token gerektirir. Aider ile karşılaştırıldığında, Claude, puanında %2,8'lik bir artış için 3 katından fazla token tüketmektedir.

Kiro CLI, 168 saniyede tamamlanan ve %58,1'lik birleşik puan elde eden en hızlı ajandır. Ancak Kiro, token kullanımını göstermedi. Bunun yerine, kredi tüketimini (46,1 kredi) ölçtük. Kiro için tam bir verimlilik karşılaştırması henüz tamamlanmadı, ancak kredi kullanımı göz önüne alındığında, en ucuz ajanlardan biridir.

En düşük verimlilik seviyesinde, Goose düşük performans sergiliyor. 300.000 token tüketiyor ve 587 saniye sürerken sadece %5,2 puan alıyor. Bu durumda yüksek token kullanımı doğruluğa dönüşmüyor.

Genel olarak, daha yüksek token tüketimi, daha yüksek doğrulukla tutarlı bir şekilde ilişkili değildir. Mimari yeniden deneme davranışı ve doğrulama stratejisi, ham problem çözme derinliğinden daha çok token kullanımını etkiliyor gibi görünmektedir.

Yöntemimizi aşağıda görebilirsiniz.

Agentic CLI araçları nasıl çalışır?

Agentic CLI araçları, terminal içinde çalışan otonom ajanlardır. Çoğu kullanıcı bunları kodlama görevleri için kullanırken, kabuk komutlarıyla gerçekleştirilebilen herhangi bir iş akışını da yürütebilirler.

Bu ajanlar tipik olarak üç aşamadan oluşan bir döngü içinde çalışırlar:

  1. Bağlamı toplayın
  2. Harekete geçin
  3. Sonuçları doğrulayın

Doğrulama işleminden sonra, aracı güncellenmiş bağlamı toplar ve görevi tamamlayana veya bir durdurma koşuluna ulaşana kadar döngüyü tekrarlar.

Döngü iki kaynaktan etkilenir:

  • İlk görevi veren ve yürütmeyi kesintiye uğratabilen insan kullanıcı.
  • Planlama, akıl yürütme ve eylem seçimi işlemlerini gerçekleştiren model.

Ajan çerçevesi, model etrafında bir yapı sağlar. Modelin nasıl planlama yapması gerektiğini, komutları ne zaman yürütmesi gerektiğini, sonuçları nasıl doğrulaması gerektiğini ve hangi araçların mevcut olduğunu tanımlar. Bu araçlar arasında kabuk yürütme, dosya sistemi erişimi, tarayıcı kontrolü , bilgisayar kullanımı , MCP entegrasyonları veya yeniden kullanılabilir "beceriler" yer alabilir.

Farklı ajan mimarileri, farklı planlama stratejileri, yeniden deneme politikaları ve doğrulama mantığı gerektirir. Bazı ajanlar, daha yüksek belirteç kullanımı ve gecikme pahasına hassasiyeti ve daha derin akıl yürütmeyi önceliklendirir. Diğerleri ise davranışsal sağlamlığı azaltarak hızı ve daha düşük maliyeti önceliklendirir.

Model zekası ve ajan mimarisi karşılaştırması

Ajan tabanlı komut satırı araçları arasındaki performans farklılıkları tek bir kaynaktan kaynaklanmaz. Bunlar iki katmandan ortaya çıkar: temel model ve onu saran düzenleme çerçevesi.

Temel model, sistemin gereksinimleri ne kadar iyi anladığını, çok adımlı görevleri ne kadar iyi planladığını ve doğru kodu ne kadar iyi ürettiğini belirler. Eğer model bir kısıtlamayı yanlış yorumlarsa veya yanlış mantık üretirse, hiçbir düzenleme bu hatayı tamamen telafi edemez.

Ancak, ajan mimarisi bu modelin nasıl kullanılacağını belirler. Çalışma alanından bağlamın nasıl toplanacağına, kabuk komutlarının ne zaman yürütüleceğine, çıktıların nasıl doğrulanacağına ve sistemin başarısızlıktan sonra yeniden denenip denenmeyeceğine karar verir. Bu kararlar çalışma zamanı davranışını, maliyeti ve güvenilirliği şekillendirir.

Eşit derecede yetenekli modellerle çalışan iki ajan farklı davranabilir. Biri kısmi başarısızlıktan sonra agresif bir şekilde yeniden deneme yapabilir, daha fazla belirteç tüketebilir ancak erken hatalardan kurtulabilir. Diğeri ise ilk tutarsızlıktan sonra hızla sonlanabilir. Biri ilerlemeden önce sıkı doğrulama uygulayabilirken, diğeri doğrulanmamış varsayımlarla devam edebilir.

Bu kıyaslama, sistemin tamamını değerlendirir. Ham model zekasını orkestrasyon mantığından ayırmaz. Bir aracı aşırı miktarda token tükettiğinde veya bir arka uç sözleşmesinde başarısız olduğunda, bunun nedeni planlama kalitesi, yeniden deneme politikası, bağlam yönetimi veya doğrulama katılığı olabilir.

Bu ayrımı anlamak çok önemlidir. Yüksek token kullanımı mutlaka daha derin bir akıl yürütmeyi göstermez ve düşük bir puan otomatik olarak altta yatan model yeteneğinin daha zayıf olduğu anlamına gelmez. Otonom ortamlarda, mimari ve model akıl yürütmesi sürekli olarak etkileşim halindedir.

6. görevdeki ajan davranışları

Ajanları 10 farklı görevde değerlendirdik. Aşağıda, farklı ajan mimarilerinin aynı kısıtlamalar altında nasıl davrandığını göstermek için 6. Görevin ayrıntılı bir dökümünü sunuyoruz.

Görev 6: Yardım masası bilet sistemi (Web)

6. görev, aşağıdaki özelliklere sahip tam kapsamlı bir yardım masası bilet sistemi oluşturmayı gerektiriyordu:

  • İki kullanıcı rolü (müşteri ve temsilci)
  • JWT tabanlı kimlik doğrulama
  • Sıkı durum iş akışı geçişleri
  • Veri izolasyonu (kullanıcılar arası erişim için 403 yerine 404 yönlendirmesi)
  • FastAPI arka uç
  • React/Vue/Svelte + Vite ön uç
  • Deterministik çalıştırma komutları

Duman testi doğrulandı:

  • Sağlık kontrolü
  • Çift rol kimlik doğrulaması
  • Bilet CRUD işlemleri
  • Ödev ve yanıtlar
  • Durum geçişleri
  • Rol uygulaması
  • Veri izolasyonu
  • Kullanıcı arayüzü giriş ve giriş sonrası davranışları

Bu görev, durum yönetimi, kimlik doğrulama doğruluğu, REST sözleşme disiplini ve ön uç-arka uç entegrasyonuna odaklanmaktadır. Görev detaylarını görmek için GitHub'ı ziyaret edin.

Kodeks

Kurulum

Şu komutla global olarak yükleyin:

  • npm install -g @openai/codex

Alternatif olarak, Homebrew ile global olarak yükleyin (macOS/Linux).

  • brew install –cask codex

Kimlik doğrulama

Codex kurulumunu tamamladıktan sonra ChatGPT hesabınızla veya OpenAI API anahtarınızla devam edebilirsiniz. Sağlayıcı seçeneği mevcut değil.

Görev Raporu

Codex işlevsel olarak doğru bir sistem kurdu ancak belirtilen REST sözleşmesinden saptı. Doğru iş mantığına rağmen, yöntem seçimi katı uyumluluğu azalttı.

Arka Uç Davranışı

Kimlik doğrulama, bilet CRUD işlemleri, yanıtlar ve durum geçişleri doğru şekilde çalıştı. Rol uygulama ve veri izolasyonu düzgün bir şekilde uygulandı.

Asıl sorun HTTP yöntemi uyumsuzluğuydu. Codex, /tickets/{id}/assign ve /tickets/{id}/status adreslerini PATCH uç noktaları olarak uygulamıştı, oysa temel test PUT gerektiriyordu.

Uyarlanabilir mod, alternatif yöntemler deneyerek bazı işlevleri geri kazandırdı. Katı mod ise bu uç noktalara bağlı tüm adımlarda başarısız oldu.

Kullanıcı Arayüzü Davranışı

Ön uç tüm kullanıcı arayüzü doğrulama adımlarını başarıyla geçti. Giriş akışı ve giriş sonrası durum doğru şekilde çalıştı.

Junie

Kurulum

Junie, JetBrains Toolbox aracılığıyla veya bağımsız bir CLI olarak kullanılabilir:

  • curl -fsSL https://junie.jetbrains.com/install | bash

Kimlik doğrulama

JetBrains hesabınızla devam edin veya junie.jetbrains.com/cli adresinden bir JUNIE_API_KEY oluşturun ya da Anthropic, OpenAI, Google veya diğer desteklenen sağlayıcılardan kendi API anahtarınızı dışa aktarın. Birden fazla sağlayıcı seçeneği mevcuttur.

Görev Raporu

Junie, 327 saniyede eksiksiz bir tam yığın sistem oluşturdu. Kimlik doğrulama, CRUD ve veri izolasyonu doğru şekilde çalıştı. İki uç nokta tasarım tercihi, altı arka uç hatasına neden oldu. Ön uç, tüm işlevsel doğrulama adımlarını geçti ancak görsel stil veya marka kimliği içermeyen yalnızca metin tabanlı bir arayüz oluşturdu.

Arka Uç Davranışı

Junie, 8 dosyadan oluşan bir FastAPI arka ucu ve Tailwind CSS ile React + Vite ön ucu oluşturdu. Başlangıç verileri, farklı durumlardaki 2 kullanıcı ve 3 bilet içeriyordu.

Kimlik doğrulama, bilet CRUD işlemleri, yanıtlar, detay görünümü ve veri izolasyonu doğru şekilde çalıştı. 16 API adımından 9'u başarılı oldu.

Başarısız olan altı adım iki sorundan kaynaklanıyordu. Birincisi, /tickets/{id}/assign beklenen PUT yerine POST olarak uygulandı ve bu da atama adımının başarısız olmasına neden oldu. İkincisi, özel bir /tickets/{id}/status uç noktası mevcut değildi. Durum geçişleri, gövde alanı içeren birleşik bir PUT /tickets/{id} uç noktası aracılığıyla ele alınıyordu. Duman testi doğrudan /tickets/{id}/status'u hedef aldı ve 404 hatası döndürdü.

Geçiş mantığı doğru bir şekilde uygulandı. Geçerli geçiş haritası, açık durumdan devam eden duruma, devam eden durumdan müşteriyi bekleyen duruma veya çözüldü durumuna, çözüldü durumundan yeniden açılan duruma ve yeniden açılan durumdan devam eden duruma geçişi zorunlu kıldı. Çözme (yalnızca temsilci) ve yeniden açma (yalnızca müşteri) için rol kısıtlamaları, birleşik güncelleme işleyicisinde mevcuttu. Atama uç noktası ayrıca açık biletleri otomatik olarak devam eden duruma geçirdi.

Kullanıcı Arayüzü Davranışı

Ön uç, 8 doğrulama adımının tamamını başarıyla geçti. Giriş formu doğru şekilde oluşturuldu, kimlik doğrulaması kalıcı oldu ve giriş sonrası davranışlar beklendiği gibi çalıştı. Çalışma zamanında çökme veya konsol hatası oluşmadı.

Kiro CLI

Kurulum

macOS/Linux/WSL için:

  • curl -fsSL https://cli.kiro.dev/install | bash

Alternatif Linux AppImage (taşınabilir seçenek):

  • İndir: https://desktop-release.q.us-east-1.amazonaws.com/latest/kiro-cli.appimage

Ardından şunu çalıştırın:

  • chmod +x kiro-cli.appimage && ./kiro-cli.appimage

Kimlik doğrulama

Kiro-Code planınıza devam edebilirsiniz. Başka sağlayıcı seçeneği bulunmamaktadır.

Görev Raporu

Kiro en hızlı ve en kompakt uygulamayı üretti. Durum geçişleri, rol zorunluluğu ve veri izolasyonu mantık seviyesinde doğru bir şekilde uygulandı.

Ancak, Aider'da görülen aynı birleşik güncelleme uç noktası tasarım modeli altı sözleşme hatasına neden oldu. Bir ön uç yaşam döngüsü sorunu, kullanıcı arayüzü puanını daha da düşürdü. Sistem yapısal olarak sağlamdır ancak belirtilen API tasarımından sapmaktadır.

Arka Uç Davranışı

Kiro, yaklaşık 97 saniyede kompakt bir tam yığın uygulama oluşturdu. Arka uç, 324 satırlık bir main.py dosyasından, ön uç ise 276 satırlık tek dosyalık bir React uygulamasından oluşuyordu. Toplamda sadece 9 dosya üretildi. Başlangıç verileri, farklı durumlardaki 4 örnek bileti içeriyordu.

Kimlik doğrulama, bilet CRUD işlemleri, yanıtlar, detay görünümü ve veri izolasyonu doğru şekilde çalıştı. 16 API adımından 9'u başarılı oldu.

Başarısız olan altı adım, /tickets/{id}/assign ve /tickets/{id}/status'a karşılık gelmektedir. Kiro, JSON gövde alanları aracılığıyla durum, öncelik ve atamayı güncelleyen birleşik bir PATCH /tickets/{id} uç noktası uygulamıştır. İş mantığı doğrudur, ancak uç nokta yapısı beklenen sözleşmeyle uyuşmamakta ve bu da 404 yanıtına neden olmaktadır.

Kullanıcı Arayüzü Davranışı

Arka uç ön kontrolü başarıyla tamamlandı ve ön uç başarıyla başlatıldı. Vite, çalışma zamanı çökmeleri olmadan başlatıldı.

Ancak, giriş formu görüntülenmedi. Playwright, e-posta giriş alanını beklerken 7 saniye sonra zaman aşımına uğradı. Konsol tanılamaları, ilk sayfa yüklemesi sırasında 422 hatası gösterdi; bu hata muhtemelen geçerli bir token olmadan mount sırasında yürütülen bir /auth/me çağrısından kaynaklanıyordu. Bu durum, giriş bileşeninin görüntülenmesini engelledi ve kalan kullanıcı arayüzü adımlarını bloke etti.

Claude Kodu

Kurulum

macOS/Linux/WSL için, tercih ettiğiniz paket yöneticisini göz önünde bulundurarak, Claude Code'u aşağıdaki yöntemlerden biriyle kurabilirsiniz:

  • curl -fsSL https://claude.ai/install.sh | bash
  • brew install –cask codex

Kimlik doğrulama

Claude Code'u kurduktan sonra Claude Hesabınızla devam edebilirsiniz. Herhangi bir sağlayıcı seçeneği mevcut değil.

Görev Raporu

Claude Code bu görevde en yapılandırılmış kod tabanlarından birini üretti. Ancak, temel bir JWT doğrulama sorunu arka ucu kullanılamaz hale getirdi.

Bu, aracı değerlendirmesinde önemli bir ayrımı ortaya koymaktadır: yapısal bütünlük, kimlik doğrulama doğruluğunu telafi etmez.

Ayrıca, 6. Görevde değerlendirilen aracılar arasında en yüksek token hacmini tüketti.

Arka Uç Davranışı

Giriş uç noktaları 200 yanıtı verdi ve JWT belirteçlerini başarıyla oluşturdu. Ancak, daha sonraki tüm kimlik doğrulama istekleri 401 "Kimlik bilgileri doğrulanamadı" hatasıyla sonuçlandı.

Sorunun temel nedeni, OAuth2PasswordBearer(tokenUrl=”auth/login”) ile /auth rota öneki arasında bir uyumsuzluk gibi görünüyor. Smoke adaptörü giriş uç noktasını doğru bir şekilde keşfetti, ancak verilen token'lar ara yazılım tarafından kabul edilmedi.

Sonuç olarak, 16 arka uç adımından 13'ü başarısız oldu.

Ek olarak, Claude Code, özel /assign ve /status uç noktaları yerine güncellemeler için tek bir PATCH /tickets/{id} uç noktası uyguladı. Ancak, kimlik doğrulama hatası nedeniyle bu tasarım tercihi anlamsız hale geldi.

Kullanıcı Arayüzü Davranışı

Giriş formu doğru şekilde görüntülendi. Form gönderimi 200 yanıtı verdi. Ancak, giriş yaptıktan sonra Playwright bir gezinme hatası tespit etti:
“Yürütme bağlamı yok edildi.”

Tarayıcı kayıtları, kimlik doğrulaması gerektiren API çağrılarında 401 yanıtı olduğunu ve bunun da oturum açma sonrası durumun bozulmasına neden olduğunu gösterdi.

Yardımcı

Kurulum

Eğer Python 3.8-3.13 sürümünü zaten yüklediyseniz, öncelikle aider'ı yükleyin:

  • python -m pip kurulum yardımcısı kurulumu
  • yardımcı-kurulum

Kimlik doğrulama

OpenRouter hesabınıza giriş yapın ve yetkilendirin veya ortamınızda API anahtarınızı şu komutla dışa aktarın:

  • export OPENROUTER_API_KEY=”sk-or-v1-…”

Görev Raporu

Aider en hızlı ve en verimli token üreticisiydi. Ancak API tasarımı spesifikasyondan sapmıştı ve giriş arayüzü düzgün şekilde görüntülenemiyordu.

Arka Uç Davranışı

Kimlik doğrulama, bilet CRUD işlemleri, yanıtlar, detay görünümü ve veri izolasyonu doğru şekilde uygulandı.

Aider, ayrı /assign ve /status uç noktaları yerine, tüm güncellemeler için birleşik bir PUT /tickets/{id} uç noktası kullandı. Ön test, ayrı uç noktalar bekliyordu ve bu da atama ve durum adımları için 404 hatalarına neden oldu.

Kullanıcı Arayüzü Davranışı

Ön uçta içerik görüntülendi ancak giriş formu görünmedi. Playwright, e-posta giriş alanını beklerken zaman aşımına uğradı. Sonraki kullanıcı arayüzü adımları engellendi.

Açık Kod

Kurulum

macOS/Linux/WSL için:

  • curl -fsSL https://opencode.ai/install | bash

Şu komutla global olarak yükleyin:

  • npm i -g opencode-ai

macOS/Linux için, tercih ettiğiniz paket yöneticisini göz önünde bulundurarak:

  • bun add -g opencode-ai
  • brew install anomalyco/tap/opencode
  • paru -S opencode

Kimlik doğrulama

Birçok sağlayıcı seçeneği mevcut, istediğiniz sağlayıcıyı seçin ve /connect ile kimlik doğrulamanızı yapın.

Görev Raporu

OpenCode, tek bir uç durum sapmasıyla, spesifikasyona en uygun uygulamayı üretti. Ayrıca bu görevdeki tüm aracılar arasında en düşük token hacmini tüketti.

Arka Uç Davranışı

Kimlik doğrulama, CRUD işlemleri, yanıtlar, atama, durum geçişleri, rol uygulama ve veri izolasyonu doğru şekilde uygulandı.

Hem /tickets/{id}/assign hem de /tickets/{id}/status uç noktaları beklendiği gibi uygulandı.

Tek başarısız adım, temsilcinin atama işleminden sonra durumu "devam ediyor" olarak ayarlamaya çalışması sırasında meydana geldi. Atama işlemi zaten bileti "devam ediyor" durumuna geçirdiğinden, ikinci geçiş, katı işlem yapmama kuralı nedeniyle 400 hatası döndürdü.

Arka uç davranışı mantıksal olarak doğruydu, ancak duman testi tekrarlanan geçişler için kesin başarı bekliyordu.

Kullanıcı Arayüzü Davranışı

Ön uç, 8 doğrulama adımının tamamını başarıyla geçti. Giriş ekranı doğru şekilde görüntülendi, kimlik doğrulaması kalıcı oldu ve giriş sonrası davranışlar beklendiği gibi çalıştı.

Dövmek

Kurulum

macOS/Linux/WSL için:

  • curl -fsSL https://opencode.ai/install | bash

Kimlik doğrulama

Sağlayıcı kimlik bilgilerinizi etkileşimli olarak şu şekilde yapılandırın:

  • forge sağlayıcı girişi

Ve sağlayıcınızı seçin.

Görev Raporu

Tek bir yönlendirme yapılandırma hatası, zincirleme arka uç arızalarına yol açtı. Nispeten düşük çıktı belirteci sayısı, uygulama derinliğinin sınırlı olduğunu gösteriyor.

Arka Uç Davranışı

Giriş işlemi başarıyla tamamlandı ve token'lar oluşturuldu.

Bilet oluşturma işlemi 200/201 yerine 307 yönlendirme hatası döndürdü. Bilet oluşturma başarısız olduğu için, $created_ticket.id'ye referans veren sonraki adımlar 422 hatasıyla sonuçlandı.

307 yanıtın büyük olasılıkla FastAPI'deki sondaki eğik çizgi yönlendirme davranışından kaynaklandığı düşünülüyor.

/assign ve /status uç noktaları 404 hatası döndürdü.

Kullanıcı Arayüzü Davranışı

Ön uçta içerik sunuldu ancak AuthContext.tsx dosyasındaki çalışma zamanı hataları nedeniyle giriş bileşenleri düzgün şekilde oluşturulamadı. Sonraki kullanıcı arayüzü adımları engellendi.

Gemini CLI

Kurulum

Şu komutla anında çalıştırın:

  • npx @google/gemini-cli

Şu komutla global olarak yükleyin:

  • npm install -g @google/gemini-cli

Homebrew ile global olarak yükleyin (macOS/Linux):

  • brew install gemini-cli

MacPorts ile global olarak yükleyin (macOS):

  • sudo port install gemini-cli

Anaconda ile yükleyin (kısıtlı ortamlar için):

  • conda create -y -n gemini_env -c conda-forge nodejs
  • conda activate gemini_env

Kimlik doğrulama

Seçenek 1: Google ile Giriş Yapın (Google Hesabınızı kullanarak OAuth ile giriş yapın):

İkizler burcuyla başlayın ve şunları yazın:

  • GOOGLE_CLOUD_PROJECT=”PROJE_KİMLİĞİNİZ” ifadesini dışa aktarın.

O halde İkizler burcuna başlayın.

Seçenek 2: Gemini API Anahtarı

İkizler burcuyla başlayın ve şunları yazın:

  • GEMINI_API_KEY=”SİZİN_API_ANAHTARINIZ” ifadesini dışa aktarın.

O halde İkizler burcuna başlayın.

Seçenek 3: Vertex AI

İkizler burcuyla başlayın ve şunları yazın:

  • GOOGLE_API_KEY="SİZİN_API_ANAHTARINIZ" ifadesini dışa aktarın.
  • GOOGLE_GENAI_USE_VERTEXAI=true'yi dışa aktar

Görev Raporu

Gemini CLI güçlü bir arka uç geliştirdi ancak ön uç araç zinciri uyumsuzluğu nedeniyle başarısız oldu. Ayrıca başarılı arka uç uygulamaları arasında en yüksek token hacmini tüketti.

Arka Uç Davranışı

Kimlik doğrulama, CRUD işlemleri, yanıtlar, atama, rol uygulama ve veri izolasyonu doğru şekilde uygulandı.

Ancak, /tickets/{id}/status uç noktası tamamen eksikti ve bu da tüm durum geçiş adımlarının 404 hatası döndürmesine neden oldu.

Kullanıcı Arayüzü Davranışı

Ön uç başlatılamadı. Node.js 20.19+ gerektiren Vite 7.3.1 yüklüydü, oysa test ortamında Node.js 18.18.0 çalışıyordu. Vite'nin ihtiyaç duyduğu crypto.hash API'si kullanılamıyordu.

Sonuç olarak, kullanıcı arayüzü hiç başlatılamadı ve 0/8 puan aldı.

Cline

Kurulum

Şu komutla global olarak yükleyin:

  • npm install -g cline

Kimlik doğrulama

`cline auth` yazarak Cline hesabınızı seçebilir veya istediğiniz sağlayıcıyla devam edebilirsiniz.

Görev Raporu

Cline'ın hata sınırlama mekanizması, derleme işlemini tamamlanmadan sonlandırdı. Arka uç yapısı doğru mimari amacı gösteriyor, ancak rota kaydı sorunları ve eksik uygulama işlevsel doğrulamayı engelledi.

Ön uç arayüzünün olmaması ve arka uç arayüzlerinde meydana gelen zincirleme arızalar, bu sonucu 6. Görevdeki en zayıf sonuçlar arasına yerleştiriyor.

Arka Uç Davranışı

Cline, main.py, models.py, schemas.py, auth.py ve database.py olmak üzere beş dosyadan oluşan bir arka uç yapısı oluşturdu; bunlara ek olarak requirements.txt dosyası da mevcuttu. Yapı, uygun modelleri, JWT kimlik doğrulama iskeletini ve uç nokta şablonlarını içeriyordu.

Ancak, arka uç geliştirme sırasında aracı sekiz hata sınırına ulaştı ve sistemi tamamlamadan önce sonlandı.

Yalnızca giriş uç noktaları doğru şekilde çalıştı. 16 API adımından üçü başarılı oldu.

Bilet oluşturma işlemi, 200 veya 201 yerine 307 yönlendirme hatası döndürdü; bu durum muhtemelen sondaki eğik çizgi rota uyuşmazlıklarından kaynaklanıyordu. Bilet oluşturma başarısız olduğu için, `$created_ticket.id` hiçbir zaman yakalanamadı. Bilet kimliğine referans veren sonraki tüm adımlar, kelime dizesi değerini geçirdi ve bu da 422 hatasına yol açtı.

/tickets/{id}/assign ve /tickets/{id}/status uç noktaları uygulanmadığı için 404 yanıtı alındı.

Bu durum, Forge'da olduğu gibi, erken bir yönlendirme sorununun sonraki adımları geçersiz kıldığı, zincirleme bir hata modeline yol açtı.

Kullanıcı Arayüzü Davranışı

Arka uç başarıyla başlatıldı. Ancak, frontend/ dizini boştu ve package.json dosyası mevcut değildi.

Sadece arka uç ön kontrol adımı başarılı oldu. Geri kalan tüm kullanıcı arayüzü adımları engellendi.

Kaz

Kurulum

macOS/Linux/WSL için:

  • curl -fsSL https://github.com/block/goose/releases/download/stable/download_cli.sh | bash

Model: Gemini 3 Pro Önizleme (OpenRouter aracılığıyla)
Süre: 1.297 saniye
Tokenler: 17 bin giriş / 752 çıkış
API Puanı: %60
Kullanıcı Arayüzü Puanı: %0

Goose sınırlı düzeyde kendi kendini düzeltme yeteneği gösterdi ancak tam yığın gereksinimini tamamlayamadı. Tekrar çalıştırmalar sırasında ortaya çıkan güvenilirlik sorunları, istikrar endişelerini artırıyor.

Arka Uç Davranışı

Kimlik doğrulama, bilet CRUD işlemleri, yanıtlar, detay görünümü ve veri izolasyonu sorunsuz çalıştı.

Ancak, /assign ve /status uç noktaları uygulanmadığı için ilgili tüm adımlarda 404 yanıtı oluştu.

Önceki bir sürümde, Goose bcrypt uyumluluk hatalarıyla karşılaştı, bağımlılık sürümünü sabitleyerek kendini düzeltti ve sonunda arka ucu başlattı.

Daha sonra yapılan yeniden çalıştırma, minimum dosya oluşturma işleminden sonra akış kod çözme hatası nedeniyle çöktü.

Kullanıcı Arayüzü Davranışı

Hiçbir ön uç oluşturulmadı. Ön uç dizini boştu ve package.json dosyası yoktu. Kullanıcı arayüzü testi anında başarısız oldu.

Yapay zeka kodlama araçları

Yapay zeka kodlama araçları üç kategoriye ayrılabilir:

  • Agentic CLI: Terminal tabanlı geliştirme iş akışları için araçlar; komut istemleri ve komut satırı etkileşimleri aracılığıyla kod oluşturma, düzenleme ve yeniden düzenleme imkanı sunar.
    • Örnekler: Aider, Junie, Açık Kod, Claude Kodu, Kodeks
  • Yapay zeka kod editörleri : Ajan tabanlı IDE'ler olarak da bilinen bu araçlar, VS Code'a benzer bir grafik kullanıcı arayüzü (GUI) sunar (çoğu VS Code üzerine inşa edilmiştir).
    • Örnekler: Yerçekimsizleştirme, İmleç, Kiro Kodu, Rüzgar Sörfü
  • Uygulama geliştirici platformlar : Doğal dil komutlarını ve görsel iş akışlarını kullanarak uygulama geliştirmeye yönelik düşük kodlu/kodsuz platformlar.
    • Örnekler: Bolt, Lovable, v0.dev, Firebase Studio, Dazl

Yapay zeka kod inceleme araçları

Yapay zekâ tarafından üretilen kod daha yaygın hale geldikçe, hataları ve güvenlik açıklarını yakalamak için kod inceleme araçları vazgeçilmez hale geliyor. RevEval kıyaslama testimizde 309 çekme isteği üzerinde en iyi araçları değerlendirdik.

Agentic CLI araçları neler yapabilir?

Codex, Junie, Kiro ve Claude Code gibi araçlarda ortak olarak bulunan özellikler şunlardır:

  • Uçtan uca kod çalışması: Dosyaları oluşturun ve değiştirin, hataları düzeltin, kodu yeniden düzenleyin ve testleri veya kod denetleyicilerini doğrudan terminalden çalıştırın.
  • Aracı tabanlı iş akışları: Görev zincirleme, sorun giderme, arama ve yinelemeli hata ayıklama gibi çok adımlı görevleri gerçekleştirir.
  • Git ve proje yönetimi: Geçmişi inceleyin, birleştirmeleri çözün, dalları yönetin ve commit veya pull request oluşturun.
  • Komut yürütme ve otomasyon: Kabuk komutlarını çalıştırın, analizleri otomatikleştirin ve doğal dili karmaşık CLI işlemlerine çevirin.
  • Derin bağlam yönetimi: Bağımlılıkları ve proje yapısını dikkate alarak tam depolar üzerinde işlem yapın.
  • Model esnekliği: Birden fazla bulut ve bazı durumlarda yerel modeli destekler; bazı araçlar kendi API anahtarınızı kullanmanıza veya planlar arasında seçim yapmanıza olanak tanır.
  • Korumalı veya kontrollü erişim: Genellikle güvenlik için izole edilmiş ortamlar içeren, salt okunur moddan tam otomasyona kadar çeşitli modlar sunar.

Metodoloji

Otonom yeteneklerini insan müdahalesi olmadan ölçmek için tek seferlik yürütme kurulumu altında ajanları değerlendirdik. Ardından, altyapı hazırlığını ve davranışsal doğruluğu ölçmek için arka uç ve ön uç temel testlerimizi kullanarak ajanları değerlendirdik.

Puanlar, her bir ajanın çalıştırılabilir sistemleri ne kadar güvenilir bir şekilde ürettiğini ve kaç işlevsel gereksinimin doğrulamadan geçtiğini yansıtır.

Model Yapılandırması

Çoklu dosya düzenlemesi ve uzun görev istemleri için uygun olan yüksek bağlam penceresi nedeniyle Google'ın gemini-3-pro-preview'unu kullanmayı hedefledik. Bununla birlikte, bazı ajan tabanlı CLI'lar belirli sağlayıcılara sıkıca bağlıdır:

  • Claude Code, Anthropic'in resmi API'si aracılığıyla claude-opus-4-5-20251101 kullanılarak değerlendirilmiştir.
  • Codex, OpenAI'nin yerel yapılandırması aracılığıyla gpt-5.2-codex-medium kullanılarak değerlendirildi.

Bu aracılar için, mevcut CLI mimarilerinde alternatif model sağlayıcıları desteklenmemektedir. Her aracı, varsayılan yapılandırması kullanılarak değerlendirilmiştir. Sıcaklık, yeniden deneme politikaları veya mantık parametrelerinde herhangi bir ayarlama yapılmamıştır.

Değerlendirme amacımız şunları ayırmak ve ölçmekti:

  • Derleme yeteneği (ajan çalıştırılabilir kod üretebiliyor mu?)
  • Arka uç davranışının doğruluğu
  • Ön uç davranışının doğruluğu
  • Otonom orkestrasyon güvenilirliği

CLI Sürümleri (Şubat 2026 ortası)

  • Opencode: v1.2.10
  • Cline: v3.41
  • Yardımcı: v0.86.0
  • Gemini CLI: v0.29.0
  • Forge: v1.28.0
  • Kodeks: 0.104.0
  • Kaz: v1.25.0
  • Claude Kodu: v2.1.62
  • Junie: 888.212
  • Kiro CLI: 1.26.0

Değerlendirme metodolojisi için şu adresi ziyaret edin: Yapay zeka kodlama kıyaslama metodolojisi

Devamını oku

Ajan tabanlı geliştirici araçlarının daha geniş ekosistemini keşfetmek isteyenler için işte en son performans testlerimiz:

  • MCP kıyaslaması : Web erişimi için en iyi MCP sunucularının karşılaştırması.
  • Uzaktan erişimli tarayıcılar : Yeni ortaya çıkan tarayıcı altyapısı, yapay zeka ajanlarının web ile güvenli bir şekilde etkileşim kurmasını nasıl sağlıyor?
Cem Dilmegani
Cem Dilmegani
Baş Analist
Cem, 2017'den beri AIMultiple'da baş analist olarak görev yapmaktadır. AIMultiple, her ay Fortune 500 şirketlerinin %55'i de dahil olmak üzere yüz binlerce işletmeye (benzer Web'e göre) bilgi sağlamaktadır. Cem'in çalışmaları, Business Insider, Forbes, Washington Post gibi önde gelen küresel yayınlar, Deloitte, HPE gibi küresel firmalar, Dünya Ekonomik Forumu gibi STK'lar ve Avrupa Komisyonu gibi uluslararası kuruluşlar tarafından alıntılanmıştır. AIMultiple'ı referans gösteren daha fazla saygın şirket ve kaynağı görebilirsiniz. Kariyeri boyunca Cem, teknoloji danışmanı, teknoloji alıcısı ve teknoloji girişimcisi olarak görev yapmıştır. On yıldan fazla bir süre McKinsey & Company ve Altman Solon'da işletmelere teknoloji kararları konusunda danışmanlık yapmıştır. Ayrıca dijitalleşme üzerine bir McKinsey raporu yayınlamıştır. Bir telekom şirketinin CEO'suna bağlı olarak teknoloji stratejisi ve tedarikini yönetmiştir. Ayrıca, 2 yıl içinde sıfırdan 7 haneli yıllık yinelenen gelire ve 9 haneli değerlemeye ulaşan derin teknoloji şirketi Hypatos'un ticari büyümesini yönetmiştir. Cem'in Hypatos'taki çalışmaları TechCrunch ve Business Insider gibi önde gelen teknoloji yayınlarında yer aldı. Cem düzenli olarak uluslararası teknoloji konferanslarında konuşmacı olarak yer almaktadır. Boğaziçi Üniversitesi'nden bilgisayar mühendisliği diplomasına ve Columbia Business School'dan MBA derecesine sahiptir.
Tam Profili Görüntüle
Teknik olarak inceleyen
Berk Kalelioğlu
Berk Kalelioğlu
Yapay Zeka Araştırmacısı

Yorum yapan ilk kişi olun

E-posta adresiniz yayınlanmayacak. Tüm alanlar gereklidir.

0/450