RAG Gözlemlenebilirlik Araçları Kıyaslama Testi

güncellendi Mar 23, 2026

Dört RAG gözlemlenebilirlik platformunu, 7 düğümlü bir LangGraph işlem hattı üzerinde üç pratik boyutta karşılaştırmalı olarak değerlendirdik: gecikme yükü, entegrasyon çabası ve platformlar arası ödünleşmeler.

Gecikme ek yükü ölçümleri

Loading Chart

Ölçütlerin açıklaması:

Ortalama, ölçülen 150 graph.invoke() çağrısı boyunca ortalama gecikme süresidir. LLM-judge değerlendirmeleri, zamanlayıcı durduktan sonra çalışır.

Medyan, gecikme süresinin 50. yüzdelik dilimidir. LLM API yanıtlarının uzun kuyrukları olduğundan, medyan tipik sorgu performansının daha iyi bir göstergesidir.

P95 , sorguların %95'i için en kötü durum gecikme süresini gösteren 95. yüzdelik dilimdir.

Platform ile izlenmeyen temel durum arasındaki ortalama gecikme farkı, platform ile izlenmeyen temel durum arasındaki farktır.

Değerlendirme ve ölçütlerimizi ayrıntılı olarak anlamak için, RAG gözlemlenebilirlik araçlarına yönelik kıyaslama metodolojimize bakın.

Platform tarafından yapılan entegrasyon çalışması

Temel bulgular

LLM API varyansı, izleme yükünü gölgede bırakıyor.

Temel standart sapma 2.645 ms idi. En büyük ek yük 169 ms idi. SDK ek yükünü izole olarak ölçmek için LLM'yi işlem hattından kaldırmanız gerekir. İzleme araçlarının tek çalıştırmalı kıyaslamaları, SDK ek yükünü değil, API varyansını ölçer.

LangSmith en az entegrasyon kodu gerektirir.

Temel sürüme kıyasla 12 satır eklendi (2 ortam değişkeni). Dekoratör tabanlı araçlar (Weave, Laminar, Langfuse) 29-40 satır gerektiriyor. Değiş tokuş şu: LangSmith her şeyi yakalıyor (ihtiyaç duymayabileceğiniz dahili LangChain çağrıları da dahil), dekoratör tabanlı araçlar ise neyin izleneceği konusunda size açık kontrol sağlıyor.

Sadece Langfuse ve Laminar ücretsiz kendi sunucularında barındırma hizmeti sunuyor.

İkisi de açık kaynaklıdır (MIT ve Apache 2.0). LangSmith ve Weave, kendi sunucularında barındırılan kurulumlar için kurumsal sözleşmeler gerektirir.

Weave ve LangSmith değerlendirme koordinasyonuna öncülük ediyor.

Her iki gemi de veri kümesi yinelemesi, tahmin, puanlama ve toplama işlemlerini tek bir çağrıda ele alan tam değerlendirme düzenleyicileri sunar. Langfuse puanlama altyapısı ( create_score() ) sağlar ancak düzenlemeyi geliştiriciye bırakır. Laminar'ın değerlendirme özellikleri daha az gelişmiştir: deney karşılaştırma arayüzü yok, önceden oluşturulmuş puanlayıcılar sınırlı.

Langfuse, yüksek hacimli siparişlerde birim başına en düşük maliyete sahiptir.

50 milyon ve üzeri siparişlerde 100.000 adet için 6 dolar. LangSmith, iz başına ücret alıyor (1000 adet için 2,50-5 dolar). Weave ise alınan verinin MB başına ücretini alıyor (aşırı kullanımda MB başına 0,10 dolar).

Platforma göre değerlendirme yetenekleri

Ağırlıklar ve Eğimler (Dokuma)

Değerlendirme düzenleyicisi: weave.Evaluation.evaluate() veri kümesi yinelemesini, tahmini, puanlamayı ve toplamayı tek bir çağrıda ele alır. ¹
Özel puanlayıcılar: Scorer alt sınıfı veya herhangi bir @weave.op() fonksiyonu
Önceden oluşturulmuş puanlama sistemleri: Bazıları (doğruluk, vb.)
Veri kümesi yönetimi: Sürümleme, publish() ve from_pandas() ile weave.Dataset
Deney karşılaştırması: Değerlendirmeler sekmesi, Karşılaştırma görünümü + Liderlik tabloları
Çevrimiçi değerlendirme: EvaluationLogger , güvenlik önlemleri/izleme sistemleri

LangSmith

Değerlendirme düzenleyici: evaluate() fonksiyonu ²
Özel puanlayıcılar: (Run, Example) -> dict fonksiyonu
Önceden oluşturulmuş puanlayıcılar: Evet (QA doğruluğu, gömme mesafesi, kriter tabanlı LLM değerlendiricisi)
Veri kümesi yönetimi: Tam CRUD API'si, sürümlü veri kümeleri
Deney karşılaştırması: Her veri kümesi için yan yana karşılaştırma
Çevrimiçi değerlendirme: Ek açıklama kuyrukları, üretim izlemelerinde otomatik kurallar

Laminer

Değerlendirme düzenleyici: Temel evaluate() işlevi mevcut ancak daha az yaygın olarak kullanılıyor. ³
Özel puanlayıcılar: @observe() ile işaretlenmiş fonksiyonlar
Önceden oluşturulmuş puanlayıcılar: Minimum
Veri kümesi yönetimi: Kullanıcı arayüzü + sınırlı SDK
Deney karşılaştırması: Manuel
Çevrimiçi değerlendirme: Üretim fonksiyonlarında @observe()

Langfuse

Değerlendirme düzenleyici: Dahili düzenleyici yok. İzleme başına manuel döngü + create_score() ⁴
Özel puanlayıcılar: Herhangi bir kod + create_score(trace_id, name, value)
Önceden oluşturulmuş puanlayıcılar: Kullanıcı arayüzünde model tabanlı değerlendirme yapılandırmaları
Veri kümesi yönetimi: Kullanıcı arayüzü + API veri kümeleri
Deney karşılaştırması: Manuel (oturum filtreleme)
Çevrimiçi değerlendirme: canlı izlemelerde create_score() , insan açıklama kuyrukları

Fiyat karşılaştırması

Ücretsiz kullanım ve veri saklama

Ücretli planlar ve kullanım fiyatlandırması

Fiyatlar Mart 2026 itibarıyla bildirilmiştir ve zaman içinde değişebilir. En güncel fiyatlar için lütfen her bir tedarikçinin web sitesine bakın.

Bulut, kendi sunucunuzda barındırılan ve açık kaynaklı dağıtım

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Takip Et

İzleme ve hata ayıklama görünürlüğü

Weave, @weave.op() ile süslenmiş çağrıların ağaç görünümünü gösterir. Bir düğüme tıklamak girdileri, çıktıları ve zamanlamayı ortaya çıkarır. Değerlendirmeler sekmesi, izleri değerlendirme sonuçlarına bağlar.
LangSmith, dahili zincir adımları da dahil olmak üzere LangChain'in tüm yürütme grafiğini otomatik olarak yakalar. İzleme görünümü, token sayımlarını, gecikme dağılımını ve her LLM çağrısı için maliyet tahminlerini içerir.
Langfuse, izleme kayıtlarını aralıklar halinde görüntüler. Oturum takibi, aynı kullanıcıdan gelen birden fazla sorguyu gruplandırır. Maliyet takibi, izleme görünümüne entegre edilmiştir.
Laminar, dağıtılmış izleme araçlarına benzer bir zaman çizelgesi gösterir. @observe() ile işaretlenmiş fonksiyonlar, giriş/çıkış yakalama özelliğiyle zaman çizelgeleri olarak görünür.

Hangi kullanım senaryosu için hangi araç?

LangChain işlem hattı, sıfır çaba gerektiren izleme: LangSmith. Ortam değişkeni otomatik izleme, +12 satır kod.
Zaten W&B kullanıyorum, değerlendirme düzenlemesine ihtiyacım var: weave.Evaluation + veri seti sürümleme + liderlik tabloları.
Kurumsal sözleşme gerektirmeyen, kendi sunucunuzda barındırma çözümü arıyorsanız: Langfuse. Açık kaynak kodlu (MIT), Docker Compose, AB veri bölgesi.
Açık kaynak kodlu gözlemlenebilirlik istiyorsunuz, değerlendirme düzenleyicisine ihtiyacınız yok: Laminar. Apache 2.0, hafif @observe() dekoratörü.
Yüksek hacimli üretim, maliyet hassasiyeti: Langfuse. 50 milyon ve üzeri hacimde 100.000 adet için 6 dolar.
Hem izleme hem de yerleşik değerlendirme gerekiyor: Weave veya LangSmith. Veri kümesi yönetimiyle birlikte tam değerlendirme düzenleyicileri.

RAG gözlemlenebilirlik araçları için kıyaslama metodolojisi

Donanım : Apple M4, 16 GB RAM, macOS 26.3
RAG işlem hattı : 7 düğümlü (yönlendirici, alıcı, belge sınıflandırıcı, web arama yedekleme, hesaplayıcı, bağlam oluşturucu, üretici) LangGraph StateGraph
LLM : openai/gpt-4.1-nano via OpenRouter (sıcaklık 0.0)
Yönlendirici LLM : google/gemini-2.5-flash üzerinden OpenRouter (yapılandırılmış çıktı)
LLM değerlendirmesi : google/gemini-2.5-pro aracılığıyla OpenRouter
Vektör veritabanı : Qdrant 1.12 (yerel Docker), kosinüs mesafesi, 1.204 SQuAD belgesi
Gömülü Veriler : BAAI/bge-small-en-v1.5 (384 boyutlu, CPU çıkarımı)
Aday belge alma : sorgu başına en iyi 5 belge
Sorgu kümesi : 30 seçilmiş sorgu, 20 olgusal (bilgi tabanı erişimi), 5 çok aşamalı (bilgilerin birleştirilmesini gerektiren), 5 matematiksel (hesaplama düğümüne yönlendirilen).
İşlem Hattı : 3 sorguluk ısınma aşaması atıldı. Her platform için 30 sorgunun tamamı üzerinde 5 tam geçiş yapıldı. Toplam: Platform başına 150 ölçülen yürütme. Zamanlayıcı: time.perf_counter() yalnızca graph.invoke() işlemini kapsar. LLM değerlendirmeleri zamanlayıcı durduktan sonra çalışır. Yinelemeler ve platformlar arasında gc.collect() yapılır. Önce temel durum, ardından her platform sırayla işlenir.
Kontrollü değişken : Tüm platformlar aynı işlem hattı kodunu, LLM örneklerini, alıcı yapılandırmasını ve sorgu kümesini paylaşır. Tek değişken gözlemlenebilirlik katmanıdır.
İstatistiksel testler: %95 güven aralığı (t dağılımı ile), anlamlılık için Mann-Whitney U (parametrik olmayan, iki taraflı), etki büyüklüğü için Cohen's d, aykırı değer tespiti için IQR yöntemi.

Test edilen araçlar

RAG gözlemlenebilirliği nasıl çalışır?

Her araç, izlenen fonksiyon çağrılarını bir “iz” (bir “aralık” ağacı) olarak paketler ve bunları bir arka uca gönderir. Ek yük, her çağrıdaki üç işlemden kaynaklanır: (1) girişte aralık oluşturma, (2) dönüşte yükün serileştirilmesi ve (3) arka plan iletimi. Çoğu araç eşzamansız olarak iletim yapar, ancak aralık oluşturma ve serileştirme satır içi olarak gerçekleşir.

Ortam değişkeni, dekoratör ve SDK enstrümantasyonu karşılaştırması

Ortam değişkeni izleme (LangSmith). LANGCHAIN_TRACING_V2=true ayarı, LangChain ve LangGraph'a entegre edilmiş izleme kancalarını etkinleştirir. Her LLM çağrısı, retriever çağrısı ve grafik düğümü otomatik olarak yakalanır. İşlem hattı kodunda herhangi bir değişiklik gerekmez.

Dekoratör tabanlı enstrümantasyon

(Weave, Laminar, Langfuse). Geliştirici her fonksiyonu bir dekoratörle ( @weave.op() , @observe() ) sarmalar. Dekoratörsüz fonksiyonlar izlenmez.

LangSmith her şeyi (ihtiyaç duymayabileceğiniz dahili LangChain çağrıları da dahil) yakalar ve yalnızca LangChain tabanlı işlem hatlarıyla çalışır. Dekoratör tabanlı araçlar herhangi bir Python koduyla çalışır. Düğüm başına sarmalama kodu Weave, Laminar ve Langfuse'da neredeyse aynıdır.

Sınırlamalar

Tek iş parçacıklı, sıralı sorgu iş yükü. Üretim ortamındaki eşzamanlı istekler, eşzamansız önbellek boşaltma çekişmesi nedeniyle ek yük profilini değiştirebilir.

Harici LLM API'leri (OpenRouter) toplam gecikmeye hakimdir ve göreceli izleme yükünü azaltır. Yerel çıkarım (örneğin, Ollama) yükü orantılı olarak daha büyük hale getirecektir.

Yalnızca bulut tabanlı arka uçlar. Langfuse ve Laminar'ın kendi sunucularında barındırılan dağıtımları, harici bir izleme hizmetine ağ üzerinden veri iletimini atladıkları için farklı ek yükler içerebilir.

Isınma aşaması, soğuk başlatma maliyetlerini ortadan kaldırır. Sunucusuz dağıtımlarda, SDK başlatılmasından kaynaklanan ilk istek yükü daha yüksek olacaktır.

LangSmith, yalnızca 7 işlem hattı düğümünü değil, LangChain'in tüm dahili çağrılarını yakalar. Diğer platformlar yalnızca süslenmiş fonksiyonları izler. Bu da karşılaştırmayı eşdeğer iş yükleri yerine farklı izleme kapsamları karşılaştırması haline getirir.

Fiyat verileri Mart 2026 itibarıyla alınmıştır. Güncel fiyatları her satıcının web sitesinden doğrulayın.

Çözüm

Gecikme süresi, bu araçlar arasında seçim yaparken kullanışlı bir kriter değildir. Dördü de LLM API çağrılarının 1.000-3.000 ms sürdüğü bir işlem hattına 170 ms'den daha az gecikme ekledi ve farklılıkların hiçbiri istatistiksel olarak anlamlı değildi.

LangChain 12 satır kullanıyorsanız ve tam izleme özelliğine sahipseniz, LangSmith en hızlı entegre olanıdır. Weave ve LangSmith, Langfuse ve Laminar'da bulunmayan değerlendirme orkestrasyonu sunar. Kurumsal bir sözleşme olmadan kendi sunucunuzda barındırmanız gerekiyorsa, Langfuse ve Laminar tek seçeneklerinizdir.

Daha fazla okuma

Aşağıdakiler gibi diğer RAG kıyaslamalarını inceleyin:

Referans Linkleri

W&B Weave - Weights & Biases Documentation

LangSmith docs - Docs by LangChain

Laminar - Laminar documentation

Mintlify

Overview - Langfuse

Ekrem Sarı

Yapay Zeka Araştırmacısı