RAG Değerlendirme Araçları: Weights & Biases vs Ragas vs DeepEval

ile

güncellendi Mar 23, 2026

Bir RAG işlem hattı yanlış bağlamı aldığında, LLM güvenle yanlış cevabı üretir. Bağlam alaka düzeyi puanlayıcıları birincil savunma mekanizmasıdır.

Aynı koşullar altında, 1.460 soru ve 14.600'den fazla puanlanmış bağlamda beş aracı karşılaştırdık: aynı değerlendirme modeli (GPT-4o), varsayılan yapılandırmalar ve özel istemler yok. Standart koşullar altında, WandB, TruLens ve Ragas en iyi performans gösterenler olarak ortaya çıktı. Rakip baskısı altında (varlık değiştirilmiş zor olumsuz sorular), WandB en iyi performansı gösterdi.

RAG değerlendirme araçları kıyaslama sonuçları

Loading Chart

İlk üç (WandB, TruLens, Ragas) en yüksek doğruluk oranında istatistiksel olarak eşit durumda (95% güven aralığı %94,0 ile %98,0 arasında örtüşüyor).

Değerlendirme ve ölçütlerimizi ayrıntılı olarak anlamak için, RAG değerlendirme araçlarına ilişkin kıyaslama metodolojimize bakın.

Metriklerin açıklaması

En yüksek doğruluk oranı : Araç, altın standart bağlama en yüksek alaka düzeyini atayabilir mi? Bu, üretimde sık karşılaşılan bir hata türü olan düşmanca erişime karşı güvenliği ölçer.

NDCG@5 (normalleştirilmiş indirimli kümülatif kazanç) : Farklı önem seviyelerinde (4, 3, 2, 1, 0) beş bağlam verildiğinde, araç bunları doğru sırada sıralıyor mu? İkili doğruluktan farklı olarak, NDCG, daha alakalı bağlamlara orantılı olarak daha yüksek puanlar atayan araçları ödüllendirir.

Spearman ρ (sıralama korelasyonu) : Bir aracın puan sıralaması, gerçek önem sıralamasıyla ne kadar iyi korelasyon gösteriyor? Mükemmel bir araç ρ = 1,0 değerini üretir.

MRR (ortalama karşılıklı sıralama) : Altın bağlam için 1/sıralamanın ortalaması. Bir araç altın bağlamı birinci sırada sıralarsa, MRR = 1,0; ikinci sırada, MRR = 0,5; üçüncü sırada, MRR = 0,33 olur. Doğru bağlamı daha az ilgili olanların altına gömen araçları cezalandırır.

Temel bulgular

WandB tanımlamada, TruLens ise sıralamada önde : WandB en yüksek Top-1 doğruluğuna (%94,5) sahip ancak en düşük NDCG@5 (0,910) ve Spearman ρ (0,669) değerlerine sahip. TruLens ise NDCG@5 (0,932), Spearman ρ (0,750) ve MRR (0,594) değerlerinde önde. Aradaki fark, puanlama tasarımından kaynaklanıyor: WandB'nin ikili puanlaması basit ama kaba; TruLens'in 4 noktalı ölçeği daha yüksek çözünürlüğe sahip ancak ters çevirmelere daha yatkın.
TruLens en yüksek ayırt etme oranına sahiptir : Doğru bir bağlamı, neredeyse aynı olan ancak varlıkları değiştirilmiş bir sürümden ayırt ederken, TruLens yönü %35,5 oranında doğru tahmin eder ve yalnızca %8,4 oranında ters çevirme yapar (4,2:1 oranı). Başka hiçbir araç bu orana ulaşamaz.
Hiçbir araç, olgusal olarak yanlış bağlamları olgusal olarak doğru bağlamlardan ayırt edemez : Beş aracın tamamı, kısmi bağlamlardan daha yüksek puan vererek, doğru alaka sırasını tersine çevirir. Doğru varlıkları içeren ancak yanlış cevabı olan bir metin, doğru konuyu içeren ancak cevabı olmayan bir metinden sürekli olarak daha yüksek puan alır. Bu, bağlam alaka düzeyinin olgusal doğruluğu değil, konu uygunluğunu ölçtüğüyle tutarlıdır.
DeepEval, en iyi bağlamları hafife alıyor : DeepEval'in ifade ayrıştırması rekabetçi sıralamalar üretiyor (NDCG@5 = 0,923), ancak diğer araçların 0,82-0,91'lik ortalamasına karşılık, en iyi bağlamları ortalama 0,46 olarak puanlıyor. Bu da onu en iyi bağlamı belirlemek için güvenilir olmaktan çıkarıyor.
UpTrain'in üçlü ölçeği ayrımcılığı sınırlandırıyor : Üç çıktı değeri (0, 0,5, 1,0) beş alaka düzeyini temsil edemez. UpTrain en kötü ayrımcılık oranını (1,4:1) ve en düşük sıralama doğruluğunu (%27,6 mükemmel sıralama) gösteriyor.

Ayrımcılık: altın standart vs. sert negatif standart

Bu araç, varlık değiştirilmiş zor negatiften ziyade altın bağlama ne sıklıkla daha yüksek puan atıyor?

Galibiyet = Altın puanlar kesinlikle daha yüksek. Beraberlik = Eşit puanlar. Mağlubiyet = Sert negatif puanlar daha yüksek.

WandB en az kayıp oranına (%4,8) sahipken aynı zamanda en az kazanma oranına (%15,5) da sahip: ikili puanlama sistemi %80 oranında beraberlik üretiyor. Ayrım yaptığında ise neredeyse her zaman yönü doğru belirliyor. WandB'nin kesin Top-1 doğruluğu (altın standart benzersiz maksimum değerdir) TruLens'in %25,3'üne kıyasla sadece %8,3'tür; argmax Top-1 oranı yüksektir çünkü altın standart bağlam 0 indeksindedir ve beraberlik bozma işleminden faydalanır.

Sıralama kalitesi

İkili Doğruluk = Örnek başına 10 bağlam çiftinin tamamının doğru sıralanma yüzdesi. İlk 2 Doğruluk = En yüksek puan alan bağlam altın standart veya kısmi doğruluktur. 5 Yönlü Doğruluk = 5 seviyenin tamamında mükemmel monoton sıralama.

WandB, ikili puanlama sistemi sayesinde doğal bir iki kademeli ayrım (ilgili ve ilgisiz) oluşturarak kademe içi sıralama hatalarını ortadan kaldırdığı için üç ölçütün tamamında lider konumdadır. Not: İkili doğruluk, eşitlik durumlarını doğru olarak sayar (s[i] >= s[j]), bu da ikili araçlara fayda sağlar. NDCG@5 ve Spearman ρ (yukarıdaki grafikte gösterilmiştir) eşitlik durumlarını cezalandırır ve TruLens'i birinci sıraya yerleştirir.

Alaka düzeyi bazında ortalama puanlar

Hiçbir araç Kısmi > Sert Negatif işlemini doğru şekilde sıralamıyor.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Takip Et

Her bir aracın bağlam uygunluğunu nasıl değerlendirdiği

Beş aracın tamamı temel değerlendirme aracı olarak GPT-4o'yu kullanıyor, ancak farklı değerlendirme stratejileri uyguluyorlar.

WandB Weave: İkili LLM istemi

WandB, LLM'ye "0 ile 1 arasında bir ölçekte" alaka düzeyini derecelendirmesini isteyen tek bir komut gönderir. Ancak, dahili yanıt şeması puanı bir tamsayı olarak tanımladığından, model yalnızca 0 veya 1 döndürebilir.

Tek bir LLM çağrısı, tek bir ikili karar. WandB, "bu doğru bağlam mı?" sorusuna net bir şekilde cevap veriyor (en yüksek Top-1 doğruluğu), ancak alaka düzeyini ifade edemiyor: kısmi bir bağlam ve kesin bir olumsuzluk aynı puanı alıyor.

Çıkış değerleri: 0, 1

TruLens: 4 noktalı Likert ölçeği

TruLens, LLM'yi 0-3 ölçeğinde açık kriterlerle bir "ALAKET DEĞERLENDİRİCİSİ" olarak görevlendirir:

0: Sorguyla ilgisiz
1: Sorgunun bazı kısımlarıyla ilgili
2: Sorgunun büyük bölümüyle ilgili
3: Sorgunun tamamıyla ilgili

Ham puan, 3'e bölünerek 0,0-1,0 aralığına normalize edilir. Bu, TruLens'e dört farklı çıktı seviyesi sağlar; bu da kısmi bağlamları kesin olumsuzluklardan ayırt etmek için yeterli ayrıntı düzeyi sağlarken, istemi de basit tutar.

Çıkış değerleri: 0.0, 0.33, 0.67, 1.0

Ragalar: Çift hakemli ortalama alma

Ragas, her değerlendirmede aynı kriterin farklı bir ifadesini kullanan iki bağımsız jüri sorusu gönderir (0 = alakasız, 1 = kısmen alakalı, 2 = tamamen alakalı). Nihai puan, her iki jürinin puanlarının ortalamasıdır ve 0,0-1,0 aralığına normalize edilmiştir.

İki adet 3 noktalı ölçeğin ortalaması alındığı için Ragas, test edilen diğer tüm araçlardan daha fazla çıktı değeri olan beş olası değer üretir. Çift değerlendirme tasarımı ayrıca anlık hassasiyete karşı yerleşik bir direnç sağlar.

Çıkış değerleri: 0.0, 0.25, 0.5, 0.75, 1.0

UpTrain: Üçlü sınıflandırma (A/B/C)

UpTrain, alaka düzeyini çoktan seçmeli bir sınıflandırma olarak ele alıyor:

A (1.0): Bağlam sorguyu tamamen yanıtlayabilir
B (0.5): Bağlam bazı ilgili cevaplar verebilir ancak tam olarak cevap veremez.
C (0.0): Bağlam, sorguyu yanıtlamak için herhangi bir bilgi içermiyor.

Üçlü tasarım, "kısmen ilgili" olanı "ilgili olmayan"dan ayırabilir ancak "aldatıcı" olanı "dolaylı olarak ilgili" olandan ayıramaz; her ikisi de aynı kategoriye girebilir.

Çıkış değerleri: 0.0, 0.5, 1.0

DeepEval: İfade ayrıştırması (G-Eval)

DeepEval, tek bir alaka düzeyi puanı istemek yerine, bağlamı ayrı ayrı ifadelere ayırır ve ardından LLM'den her bir ifadeyi sorguya "evet" (alakalı) veya "hayır" (alakasız) olarak değerlendirmesini ister. Nihai puan, alakalı ifadelerin toplam ifadelere oranıdır.

Sonuç, sürekli bir puandır (örneğin, 10 ifadeden 7'si ilgiliyse = 0,70). Ancak yaklaşım katıdır: son derece ilgili bir bağlam bile, konu dışı cümleler içeriyorsa cezalandırılır. Altın bağlamlar bazen, ayrıştırmanın "ilgili değil" olarak işaretlediği bağlamsal ayrıntıları içerir ve bu da puanı daha kısa, daha odaklı sert bir olumsuz bağlamın puanının altına çeker. Bu, DeepEval'in %78,1'lik En İyi 1 doğruluğunu açıklar.

Çıkış değerleri: Sürekli (0,0–1,0)

RAG değerlendirme araçları kıyaslama metodolojisi

Rakip veri seti tasarımı

Her sorgunun farklı bir önem düzeyinde beş bağlamı vardır:

Veri kümesi

İki kaynağı birleştiriyoruz:

HaluEval (480 örnek): Müzik, film, spor, tarih, coğrafya ve daha fazlasını kapsayan genel kültür soruları. Claude tarafından kesin olumsuzlamalar, kısmi bağlamlar ve dolaylı olumsuzlamalar oluşturulur.

HotPotQA (530 örnek): Birden fazla belge arasında bilgi sentezi gerektiren çok aşamalı akıl yürütme soruları.

Toplam: 1.010 örnek , her biri 5 bağlam içeriyor = araç başına 5.050 bağlam değerlendirmesi . Tüm örnekler otomatik sızıntı filtrelemesinden geçti (yanıt sızıntısı nedeniyle oluşturma sırasında 489 örnek kaldırıldı).

Çapraz model protokolü

Öz tercih önyargısını (bir LLM değerlendiricisinin kendi ürettiği metni tercih etmesi) ortadan kaldırmak için, düşmanca bağlam oluşturma için Claude Sonnet 4.5'i ve tüm araçlar için hakem olarak GPT-4o'yu kullandık. Her ikisi de OpenRouter aracılığıyla temperature=0 ile çağrıldı.

Düşmanca tuzaklar

Çoklu atlama tuzağı (İlişki karışıklığı)

Sorular genellikle bir ilişki zincirini izlemeyi gerektirir (örneğin, A, B ile ilişkilidir, B de C ile ilişkilidir). Zor olumsuz sorular ise sorunun daha basit bir versiyonunu yanıtlayarak zinciri kırar.

Soru Kimliği 89 : “Retro City Rampage'in parodisi olan oyun serisini kim yayınlıyor?” Hedef Cevap : Rockstar Games

Varlık dikkat dağıtıcı tuzağı

Arama motorları genellikle doğru konumu veya konuyu bulur, ancak yanlış olay veya özellik hakkında meta veri döndürür.

Soru Kimliği 90 : “…Bridge Inn, İngiltere'nin Cumbria bölgesinde düzenlenen, yalan söyleme konusunda yıllık olarak gerçekleştirilen hangi yarışmanın mekanıdır?” Hedef Cevap : Dünyanın En Büyük Yalancısı

Kısmi alaka tuzağı

Konu ve varlıklar doğru, ancak cevap yok.

Soru Kimliği 9 : “'Fiddler on the Roof' müzikalinde Portofino şarkısının sözlerini kim ve bir işbirlikçisi birlikte yazdı?” Hedef Cevap : Richard Ney

TruLens ve DeepEval, bu örneklerde kısmi bağlamları kesin olumsuzluklardan daha yüksek puanlıyor, ancak bu durum tüm veri kümesinde geçerli değil.

Hangi aleti kullanmalısınız?

Çözüm

Puanlama hassasiyeti en büyük ödünleşme noktasıdır. İkili araçlar (WandB) her eşitlik durumunda varsayılan olarak onların lehine karar verdikleri için tanımlamada üstünlük sağlarlar; çok noktalı araçlar (TruLens, Ragas) ise önem derecelerini ifade edebildikleri için sıralamada üstünlük sağlarlar.

Bağlam alaka düzeyi ilk aşama filtresi görevi görür: tüm araçlar, ilgili bağlamları ilgisiz bağlamlardan %91'den fazla oranda ayırır (ikili doğruluk). Ancak bunların hiçbiri olgusal doğruluğu doğrulamaz. Doğru varlıkları ve yanlış cevabı içeren bir metin, test edilen her araçta yüksek puan alır. Olgusal doğruluk için, cevap sadakati ölçütleriyle eşleştirin.

Sınırlamalar

Tek hakem modeli : Tüm değerlendirmelerde hakem olarak GPT-4o kullanılır. Diğer modellerde sonuçlar farklılık gösterebilir.
Sadece bağlamla ilgili olma : Bu kıyaslama, yanıt doğruluğu veya diğer RAG ölçütlerini değil, yalnızca bağlamla ilgili olma puanlamasını değerlendirir.
Varsayılan yapılandırmalar : Araçlar, kutudan çıktığı haliyle değerlendirilmiştir. Özel komut istemi mühendisliği ile performans iyileştirilebilir.
Tek çalıştırma ve eşitlik bozma kuralı : Karşılaştırma testi, sıcaklık=0 ile bir kez çalıştırıldı. En iyi 1 doğruluk oranı, yüksek eşitlik oranlarına sahip araçlara (WandB: %86) fayda sağlayan argmax kullanır (ilk indeks eşitlik durumunda kazanır). İlgili durumlarda argmax'ın yanı sıra kesin En İyi 1'i de rapor ediyoruz.
Sadece düşmanca koşullara ait veri seti : Tüm zorlu olumsuzluklar varlık değiştirme yöntemini kullanır. Sonuçlar düşmanca koşullar altındaki performansı yansıtır; araçlar doğal olarak elde edilen bağlamlarda farklı performans gösterebilir.

Daha fazla okuma

Aşağıdakiler gibi diğer RAG kıyaslamalarını inceleyin:

Cem Dilmegani

Baş Analist

Takip Et

Cem, 2017'den beri AIMultiple'da baş analist olarak görev yapmaktadır. AIMultiple, her ay Fortune 500 şirketlerinin %55'i de dahil olmak üzere yüz binlerce işletmeye (benzer Web'e göre) bilgi sağlamaktadır. Cem'in çalışmaları, Business Insider, Forbes, Washington Post gibi önde gelen küresel yayınlar, Deloitte, HPE gibi küresel firmalar, Dünya Ekonomik Forumu gibi STK'lar ve Avrupa Komisyonu gibi uluslararası kuruluşlar tarafından alıntılanmıştır. AIMultiple'ı referans gösteren daha fazla saygın şirket ve kaynağı görebilirsiniz. Kariyeri boyunca Cem, teknoloji danışmanı, teknoloji alıcısı ve teknoloji girişimcisi olarak görev yapmıştır. On yıldan fazla bir süre McKinsey & Company ve Altman Solon'da işletmelere teknoloji kararları konusunda danışmanlık yapmıştır. Ayrıca dijitalleşme üzerine bir McKinsey raporu yayınlamıştır. Bir telekom şirketinin CEO'suna bağlı olarak teknoloji stratejisi ve tedarikini yönetmiştir. Ayrıca, 2 yıl içinde sıfırdan 7 haneli yıllık yinelenen gelire ve 9 haneli değerlemeye ulaşan derin teknoloji şirketi Hypatos'un ticari büyümesini yönetmiştir. Cem'in Hypatos'taki çalışmaları TechCrunch ve Business Insider gibi önde gelen teknoloji yayınlarında yer aldı. Cem düzenli olarak uluslararası teknoloji konferanslarında konuşmacı olarak yer almaktadır. Boğaziçi Üniversitesi'nden bilgisayar mühendisliği diplomasına ve Columbia Business School'dan MBA derecesine sahiptir.

Tam Profili Görüntüle

Araştıran

Ekrem Sarı

Yapay Zeka Araştırmacısı

Takip Et

Ekrem, AIMultiple'da yapay zeka araştırmacısı olarak çalışmakta olup, akıllı otomasyon, GPU'lar, yapay zeka ajanları ve RAG çerçeveleri üzerine yoğunlaşmaktadır.

Tam Profili Görüntüle