Yapay Zeka Ajanı Ajan Tabanlı Yapay Zeka Çerçeveleri

Analitik İş Akışlarında Ajan Tabanlı Yapay Zeka Çerçevelerinin Kıyaslanması

Cem Dilmegani

ile

Nazlı Şipi

güncellendi May 7, 2026

Bakınız etik normlar

Ajan tabanlı iş akışları oluşturmaya yönelik çerçeveler, kararları ve hataları ele alma biçimleri açısından önemli ölçüde farklılık gösterse de, kusurlu gerçek dünya verileri üzerindeki performansları büyük ölçüde test edilmemiştir.

Gerçek dünya analitik iş akışlarındaki performanslarını değerlendirmek için, eksik kimlikler, boş değerler ve tutarsız tarih biçimleri gibi kontrollü veri tutarsızlıklarına sahip 100 kayıtlık bir e-ticaret veri kümesi kullanarak LangGraph, LangChain, CrewAI ve Swarm'ı 3 gün boyunca karşılaştırmalı olarak test ettik.

Agentic analitik kıyaslama

Her bir çerçeve , karar doğruluğu ve verimliliği , araç entegrasyon performansı ve yürütme performansı (süre ve belirteç kullanımı) açısından değerlendirildi.

Karar doğruluğu ve verimliliği

Loading Chart

Karar doğruluğu, her bir çerçevenin boş değerler, varsayılan atamalar, alan eşlemeleri ve hata kurtarma dahil olmak üzere veriyle ilgili sorunları ne kadar etkili bir şekilde çözdüğünü ölçer.
Karar verimliliği, toplam kararlara göre çözülen kritik sorunların oranını temsil eder. %100'lük bir puan, en iyi tek adımlı çözümü gösterirken, daha düşük değerler, hesaplama yükünü artıran ek denemeleri veya gereksiz karar döngülerini gösterir. Karşılaştırma metodolojisini burada görebilirsiniz .

Sürü

Yüksek Verimlilik, Yüksek Doğruluk (%60, %90)

Swarm, analitik iş akışlarında verimli yürütmeyi korurken yüksek doğruluk elde etti.

Performans ölçütleri, sürekli olarak düşük karar sayıları ve minimum yeniden deneme oranları gösterdi. Bu sonuç, Swarm'ın modüler, göreve özgü mimarisini yansıtıyor; bu mimaride bireysel ajanlar, KPI analizi veya rakip araştırması gibi tanımlanmış analitik işlevleri yönetiyor.

Bu nedenle Swarm, güçlü koordinasyonu verimli görev dağıtımıyla birleştirerek, hem hız hem de hassasiyet gerektiren çoklu ajanlı analitik ortamlar için ideal bir çözüm sunmaktadır.

DilGrafiği

Yüksek Verimlilik, Yüksek Doğruluk (%60, %100)

LangGraph, hem yüksek doğruluk hem de verimli yürütme sağlayarak, analitik iş akışlarını daha az karar verme olayıyla tamamladı.

Tekrarlanan test çalışmalarından elde edilen ölçümler, tutarlı bir şekilde doğrudan yürütme yollarını ve minimum yeniden deneme sayısını gösterdi. Bu model, yürütme bağımlılıklarını önceden tanımlayan ve gereksiz işlemleri azaltan LangGraph'ın grafik tabanlı mimarisini yansıtmaktadır.

LangGraph bu sayede hassas, tutarlı ve verimli bir performans sunarak yapılandırılmış analitik iş akışları için ideal bir çözüm haline gelir.

CrewAI

Düşük Verimlilik, Yüksek Doğruluk (%21, %87)

CrewAI yüksek doğruluk oranına ulaştı ancak her iş akışını tamamlamak için önemli ölçüde daha fazla karar alınmasını gerektirdi.

DecisionTracker ve AccuracyLatencyTracker tarafından kaydedilen veriler, alet arızalarından sonra birden fazla ek karar olayının meydana geldiğini gösterdi.
Bu model, güvenilir nihai çıktılar sağlayan ancak hesaplama yükünü ve çalışma süresini artıran güçlü bir hata toleransını göstermektedir.

Bu nedenle CrewAI, uygulama verimliliğinden ziyade sonuçların eksiksizliğine ve güvenilirliğine öncelik vermektedir.

DilZinciri

Orta Verimlilik, Düşük Doğruluk (%42, %78)

LangChain, diğer çerçevelere kıyasla orta düzeyde verimlilik ancak daha düşük doğruluk sergiledi.

Kaydedilen ölçümler, araç arızalarının ardından tekrarlanan karar yinelemelerini gösterdi; çerçeve, alternatif stratejilere uyum sağlamak yerine aynı işlemleri tekrar denedi. Bu sıralı yürütme modeli, kurtarma etkinliğini sınırladı ve görevin kısmen tamamlanmasına neden oldu.

Bu nedenle LangChain, makul bir işlem hızı sunar ancak zayıf hata toleransına sahiptir ; bu da onu daha basit, düşük riskli analitik iş akışları için daha uygun hale getirir.

Araç entegrasyon performansı

Sürü

(%100 alet koordinasyon başarı oranı)

Swarm, özel ajan mimarisi sayesinde %100 araç başarı oranını korudu. Farklı ajanlar, KPI analizi, rakip karşılaştırması ve para birimi dönüştürme gibi analitik görevleri yöneterek sorunsuz görev aktarımları ve verimli araç kullanımı sağladı.

DilGrafiği

(%100 alet koordinasyon başarı oranı)

LangGraph, %100 araç yürütme başarı oranına ulaştı. Grafik tabanlı orkestrasyonu, araç bağımlılıklarını ve yürütme sırasını etkili bir şekilde eşleştirerek gereksiz veya çakışan çağrıları önledi. Çerçeve, tüm modüller arasında yüksek güvenilirlik ve tutarlı koordinasyon sergiledi.

CrewAI

(%37 alet koordinasyon başarı oranı)

CrewAI, özellikle KPI ve doğrulama modüllerinde düşük bir başarılı araç yürütme oranı gösterdi. Buna rağmen, tüm görevler ek akıl yürütme ve kurtarma döngüleri aracılığıyla tamamlandı; bu da daha yüksek hesaplama yüküyle güçlü bir hata toleransı gösterdiğini işaret ediyor.

DilZinciri

(%51 alet koordinasyon başarı oranı)

LangChain, orta düzeyde araç yürütme başarısı elde etti ancak uyarlanabilir kurtarma özelliğinden yoksundu. Araç çağrıları başarısız olduğunda, aynı işlem dizisini tekrarlayarak gereksiz işlemeye ve eksik çıktılara neden oldu.

Yürütme süresi ve tamamlama belirteci

Sürü

En hızlı ve en verimli

Swarm, tüm iş akışlarını yaklaşık 20 saniyede ve yaklaşık 1000 token kullanarak tamamladı; bu, tüm çerçeveler arasında en düşük değerdir. Tutarlı tamamlama süreleri ve minimum token tüketimi, çalıştırmalar boyunca istikrarlı ve verimli bir yürütmeyi gösterir.

DilGrafiği

Dengeli performans

CrewAI

Kaynak yoğun ama güvenilir

CrewAI, her çalıştırma için yaklaşık 32 saniye ve 4.500 token gerektirdi; bu da kıyaslamada en yüksek kaynak kullanımı anlamına geliyor. Uzatılmış akıl yürütme ve doğrulama döngüleri daha uzun çalışma sürelerine yol açtı, ancak tutarlı görev tamamlaması, artan maliyetle birlikte yüksek güvenilirliği gösteriyor.

DilZinciri

En yavaş ve en verimsiz

LangChain yaklaşık 48 saniyede işlemleri tamamladı ve yaklaşık 2.100 token tüketti. Başarısız araç çalıştırmalarından sonra tekrarlanan denemeler , daha uzun çalışma sürelerine ve verimsiz kaynak kullanımına katkıda bulundu.

Hata yönetimi yaklaşımları

Yerel hata yönetimini değerlendirmek için, her çerçeve, paylaşılan bir ön işleme hattı yerine kendi veri işleme mantığı kullanılarak değerlendirildi. Bu karşılaştırma, veri bütünlüğüne öncelik veren çerçeveler ile işlem eksiksizliğine önem veren çerçeveler arasındaki temel farklılıkları ortaya koydu.

LangGraph ve Swarm, doğrulama ve dışlama yoluyla doğruluk ve veri bütünlüğüne öncelik verirken, CrewAI ve LangChain eksik verileri koruyarak veya eksik değerleri tamamlayarak eksiksizliğe öncelik verdi; bu da analitik hassasiyette daha büyük bir değişkenliğe yol açtı.

İşte ayrıntılı bir döküm:

Sürü

Swarm, genel iş akışı sürekliliğini korurken geçersiz veya eksik kayıtları hariç tutarak hassas atlama mantığı uyguladı. Küçük API uyumluluk sorunları çözüldükten sonra, çerçeve, yürütme akışını etkilemeden doğrulanmış kayıtları tutarlı bir şekilde işledi.

DilGrafiği

LangGraph, eksik veya boş değerlere sahip girdileri dışlayarak katı veri doğrulama uyguladı. Bu muhafazakar yaklaşım, yalnızca bütünlük kontrollerinden geçen kayıtları işleyerek analitik doğruluğu sağladı ve test çalışmaları arasında tutarlı sonuçlar elde edilmesini garanti etti.

CrewAI

CrewAI, eksik veya geçersiz alanlar da dahil olmak üzere tüm kayıtları saklayarak "sıfır veri kaybı" prensibiyle çalıştı. Bu yaklaşım veri kümesinin eksiksizliğini korurken, doğrulanmamış veri noktalarının dahil edilmesi nedeniyle hesaplama doğruluğunu azalttı.

DilZinciri

LangChain, eksik değerleri mevcut alanlardan tahmin etmek için veri tamamlama teknikleri kullandı. Örneğin, Final_Price boş olduğunda, Price ve Discount alanlarından yerine geçecek değerler hesapladı. Uyarlanabilir olmasına rağmen, bu beklenen sonuçlardan sapmalara yol açarak sonuç doğruluğunu etkiledi.

Hangi çerçeve ne zaman kullanılmalı?

CrewAI: Beklenmedik sorunların ortaya çıkma olasılığı yüksek olduğunda ve otonom problem çözme gerektiğinde kullanılır.
LangGraph: Dengeli akıl yürütme ve yapı için. Genel amaçlı kullanım durumları için en uygunudur.
Swarm: Hız ve güvenilirliğin kritik olduğu üretim ortamlarında. En hızlı ve en tutarlı çözüm.
LangChain: Ayrıntılı izlenebilirlik ve şeffaflık gerektiğinde kullanılır. Her adımı kaydeder ancak alternatiflerine göre daha yavaştır.

Geliştirici deneyimi

Çerçeve-LLM entegrasyon performansı: Farklı çerçeveler, belirli LLM sağlayıcılarıyla değişen düzeylerde uyumluluk ve performans sergiler. Örneğin, LangChain, OpenAI'nin ChatGPT modelleriyle eşleştirildiğinde üstün entegrasyon ve doğruluk sergileyerek, optimize edilmiş komut istemi işleme yoluyla daha hassas sonuçlar sunar.

Mimari odaklı davranış tutarlılığı: Çerçeveler farklı LLM'leri değişen verimlilikle kullanabilse de, temel davranışsal özellikleri modeller arasında büyük ölçüde tutarlı kalmıştır. Gözlemlediğimiz karakteristik davranışlar – karar verme kalıpları, kurtarma yönetimi ve alternatif akıl yürütme yetenekleri gibi – kullanılan belirli LLM'den ziyade, öncelikle altta yatan mimari tasarıma bağlıdır.

Bu durum, çerçeve-LLM kombinasyonlarının performans ölçütlerini etkileyebileceğini, ancak CrewAI'nin "ne gerekiyorsa yapma" yaklaşımı veya Swarm'ın uzmanlaşmış ajan koordinasyonu gibi temel davranış kalıplarının kullanılan dil modelinden bağımsız olarak tutarlı kaldığını göstermektedir.

Entegrasyon zorlukları: CrewAI'yi Anthropic'nın Claude modelleriyle bağlamaya çalışırken önemli entegrasyon zorluklarıyla karşılaştık. Çok sayıda yapılandırma denemesine rağmen, sürekli ortam kurulum hataları başarılı dağıtımı engelledi.

Araştırmamız bunun münferit bir sorun olmadığını gösteriyor; topluluktaki çok sayıda geliştirici, CrewAI ve Anthropic hizmetleri arasında benzer entegrasyon zorlukları bildirdi ve bu da potansiyel mimari uyumsuzlukları veya API işleme sınırlamalarını düşündürüyor.

Çerçeve-LLM eşleştirmesi için öneriler: Bu bulgulara dayanarak, belirli kullanım durumunuz için çerçeve seçerken farklı çerçeve-LLM kombinasyonlarını değerlendirmenizi öneririz.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Takip Et

Temsilcilerin analitik görevleri nasıl ele aldıkları

Ajan tabanlı analitik, yapay zekanın rolünü pasif bir araç olmaktan otonom bir uygulamaya dönüştürür. Her adımda açık talimatlar beklemek yerine, analitik ajanlar verilerin mevcut durumunu algılar, hangi eylemleri gerçekleştireceğine karar verir ve ara sonuçlara göre yaklaşımını uyarlar.

Analitik bağlamlarda temel yetenekler:

Otonom veri hazırlama: Aracılar eksik değerleri tespit eder, aykırı değerleri belirler, formatları standartlaştırır ve temizlenmiş sonuçları her dönüşüm için manuel yapılandırma gerektirmeden doğrular.
Dinamik sorgu oluşturma: Doğal dil istekleri, hedef veritabanına göre sözdizimini optimize eden ve ayarlayan aracılar tarafından yürütülebilir sorgulara çevrilir.
Tekrarlayan hipotez testi: İlk analiz sonuçsuz kaldığında, temsilciler yaklaşımlarını yeniden formüle edebilir, alternatif hipotezleri test edebilir veya ek veri kaynakları talep edebilirler.
Gerçek zamanlı anormallik tespiti: Metriklerin sürekli izlenmesi, ajanların beklenmedik kalıpları ortaya çıkarmasına ve sorunlar büyümeden önce paydaşları uyarmasına olanak tanır.

Pratik sınırlamalar:

Determinizmle ilgili endişeler: Olasılıksal model davranışı, aynı sorguların farklı çalıştırmalarda biraz farklı çıktılar üretebileceği anlamına gelir; bu da tekrarlanabilirlik gereksinimlerini zorlaştırır.
Sayısal hassasiyet: LLM tabanlı ajanlar sayısal formatları yanlış yorumlayabilir veya hesaplama hataları oluşturabilir; bu da kritik ölçütler için doğrulama katmanları gerektirir.

Kıyaslama metodolojisi

Amaç : Bu çalışmada, aynı veri kümeleri ve ölçüm sistemlerini kullanarak dört yapay zeka ajanı çerçevesini (LangGraph, LangChain, CrewAI, Swarm) objektif olarak karşılaştırmayı amaçladık. Gerçekçi hata koşulları altında çerçevelerin karar verme doğruluğunu, kaynak verimliliğini ve araç entegrasyon yeteneklerini değerlendirdik.

Veri kümesi açıklaması: Her çerçeve için aynı test koşullarını sağladık. Tüm çerçevelerde aynı JSON veri kümesini, aynı gerçek performans göstergelerini (KPI'lar), aynı sahte API'leri ve zamanlama gecikmelerini kullandık.

Karar verme kapasitelerini gözlemlemek için yeterli olan 100 kayıtlık bir veri seti kullandık. Her testten önce izleme sistemlerini sıfırladık (decision_tracker, perf_tracker reset). Tüm çerçevelerde aynı araç fonksiyonlarını kullandık, ancak adlandırma kurallarını her çerçeveye uyarladık (_swarm_tool, crewai tool).

Veri değişiklikleri : E-ticaret satın alma verileri kullanılmıştır. Veri seti aşağıdaki alanları içermektedir:

Kullanıcı_ID (Müşteri tanımlayıcısı),
Ürün_ID (Ürün tanımlayıcısı),
Kategori (Ürün kategorisi),
Fiyat (Rs.) (Orijinal fiyat),
İndirim (%) (İndirim yüzdesi),
Son Fiyat (Rs.) (İndirim sonrası nihai fiyat),
Ödeme_Yöntemi (Ödeme yöntemi),
Satın Alma Tarihi

E-ticaret verilerini kasıtlı olarak bozduk:

Boş değerler
Boş alanlar – “Ürün_ID”: “”, “Kullanıcı_ID”: “”, “Kategori”: “”
Karışık alan adları – “maliyet”: 1200.0, “gelir”: 150.0
Veri tutarsızlığı – Tarih formatı farklılıkları (“07/01/2024” yerine “gg-aa-yyyy”)
Sıfır/negatif değerler

Görev tanımları : Her bir çerçeveye 5 özdeş görev atandı:

Veri işleme – Temizleme ve dönüştürme için çerçeveye özgü yürütme ile geliştirilmiş veri işleme
KPI hesaplaması – enhanced_kpi_calculator aracını kullanarak aynı KPI hesaplama algoritmalarını uygulayın.
Rakip analizi – CompetitorAPI kullanarak en iyi 3 ürün için rakip analizi gerçekleştirin.
Para birimi dönüştürme – CurrencyAPI kullanarak toplam geliri USD'ye dönüştürün.
Hata yönetimi – Veri tutarsızlıkları için yerel hata yönetimi stratejilerini uygulayın.

Beklenen temel karar noktaları şunlardır:

Null değerlerin işlenmesi kararı – Final_Price'ın null değerlerle nasıl başa çıkılacağı
Boş alanlar için varsayılan karar – Boş alanlar nasıl doldurulur?
Alan eşleme kararı – Alan dönüşümleri
Veri tutarsızlığı kararı – Biçim normalizasyonu
Sıfır değer atlama kararı – Sıfır değerleri dahil et/hariç tut
Alet kullanım kararı : Hangi alet ne zaman kullanılmalı? Başarılı olacak mı? Hata durumunda ne yapılmalı? Alet arızaları ve yedekleme stratejileri nasıl ele alınmalı?

Her bir çerçeve işlem hattını 10 kez çalıştırdık ve tüm ölçümler için medyan değerleri aldık.

Uygulama tutarlılığı: Tüm çerçevelerde aynı ölçüm altyapısını uyguladık:

Zamanlama ölçümü için AccuracyLatencyTracker (start_timer/end_timer),
Karar takibi için kategorizasyon özellikli DecisionTracker.
Özdeş veri temizleme mantığı için EnhancedAnalyticsDataProcessor,
Rakip API'si de dahil olmak üzere sahte API'ler (0,05 s gecikme)
CurrencyAPI (0,1 saniye gecikme)

Çerçeveye özgü yapılandırmaları koruduk: LangGraph, güven puanlaması ve akıllı yönlendirme ile grafik tabanlı orkestrasyon kullandı. LangChain, ConversationBufferMemory ve ayrıntılı günlük kaydı ile sıralı ReAct ajanı kullandı. CrewAI ise otonom problem çözme ile çoklu ajan işbirliğini kullandı.

Tüm çerçeveler (CrewAI, LangGraph, LangChain ve Swarm), tutarlı model performansı ve değerlendirme ölçütleri arasında adil bir karşılaştırma sağlamak için GPT-4.1 kullanılarak test edilmiştir.

Değerlendirme ölçütleri

Karar doğruluğu, bir çerçevenin kritik veri sorunlarını ne kadar güvenilir bir şekilde çözdüğünü ölçer ve şu şekilde hesaplanır:

Doğruluk, her bir çerçevenin kararlarının önceden tanımlanmış iş mantığı kriterleriyle karşılaştırılmasıyla belirlendi.

Her karar, aşağıdaki kriterlere göre ikili bir şekilde (doğru / yanlış) değerlendirildi:

Araç arızası kurtarma : Başarısız işlemlerin alternatif mantık kullanılarak başarıyla çözülüp çözülmediği.
Boş değerlerin işlenmesi : Geçersiz kayıtların doğru şekilde atlanıp atlanmadığı
Boş alan varsayılan değerleri : eksik değerlerin doğru şekilde değiştirilip değiştirilmediği (örneğin, "BİLİNMİYOR")

Karar verimliliği, bir çerçevenin kritik veri sorunlarını ne kadar etkili bir şekilde ele aldığını değerlendirir ve şu şekilde hesaplanır:

Kritik noktalar, gereken minimum karar adımları olarak tanımlandı (örneğin, boş değerlerin işlenmesi, boş alan varsayılan değerleri, alan eşleme). %100'lük bir puan, kritik nokta başına bir karar alındığını gösterirken, ek kararlar verimsizliği veya aşırı işlemeyi işaret eder.

Aletin performansı , doğrudan alet çağrılarının başarıyla tamamlanma oranını temsil eden birincil başarı oranı kullanılarak ölçülmüştür:

Kurtarma yeteneği, bir çerçevenin başarısız araç çağrılarından başarıyla kurtulma kabiliyetini ölçer ve şu şekilde hesaplanır:

Cem Dilmegani

Baş Analist

Takip Et

Cem, 2017'den beri AIMultiple'da baş analist olarak görev yapmaktadır. AIMultiple, her ay Fortune 500 şirketlerinin %55'i de dahil olmak üzere yüz binlerce işletmeye (benzer Web'e göre) bilgi sağlamaktadır. Cem'in çalışmaları, Business Insider, Forbes, Washington Post gibi önde gelen küresel yayınlar, Deloitte, HPE gibi küresel firmalar, Dünya Ekonomik Forumu gibi STK'lar ve Avrupa Komisyonu gibi uluslararası kuruluşlar tarafından alıntılanmıştır. AIMultiple'ı referans gösteren daha fazla saygın şirket ve kaynağı görebilirsiniz. Kariyeri boyunca Cem, teknoloji danışmanı, teknoloji alıcısı ve teknoloji girişimcisi olarak görev yapmıştır. On yıldan fazla bir süre McKinsey & Company ve Altman Solon'da işletmelere teknoloji kararları konusunda danışmanlık yapmıştır. Ayrıca dijitalleşme üzerine bir McKinsey raporu yayınlamıştır. Bir telekom şirketinin CEO'suna bağlı olarak teknoloji stratejisi ve tedarikini yönetmiştir. Ayrıca, 2 yıl içinde sıfırdan 7 haneli yıllık yinelenen gelire ve 9 haneli değerlemeye ulaşan derin teknoloji şirketi Hypatos'un ticari büyümesini yönetmiştir. Cem'in Hypatos'taki çalışmaları TechCrunch ve Business Insider gibi önde gelen teknoloji yayınlarında yer aldı. Cem düzenli olarak uluslararası teknoloji konferanslarında konuşmacı olarak yer almaktadır. Boğaziçi Üniversitesi'nden bilgisayar mühendisliği diplomasına ve Columbia Business School'dan MBA derecesine sahiptir.

Tam Profili Görüntüle

Araştıran

Nazlı Şipi

Yapay Zeka Araştırmacısı

Nazlı, AIMultiple'da veri analisti olarak çalışmaktadır. Daha önce çeşitli sektörlerde veri analizi alanında deneyim kazanmış olup, karmaşık veri kümelerini eyleme dönüştürülebilir içgörülere dönüştürme konusunda çalışmıştır.

Tam Profili Görüntüle