Bize Ulaşın
Sonuç bulunamadı.

RAG Gözlemlenebilirlik Araçları Kıyaslama Testi

Ekrem Sarı
Ekrem Sarı
güncellendi Mar 23, 2026
Bakınız etik normlar

Dört RAG gözlemlenebilirlik platformunu, 7 düğümlü bir LangGraph işlem hattı üzerinde üç pratik boyutta karşılaştırmalı olarak değerlendirdik: gecikme yükü, entegrasyon çabası ve platformlar arası ödünleşmeler.

Gecikme ek yükü ölçümleri

Loading Chart

Ölçütlerin açıklaması:

Ortalama, ölçülen 150 graph.invoke() çağrısı boyunca ortalama gecikme süresidir. LLM-judge değerlendirmeleri, zamanlayıcı durduktan sonra çalışır.

Medyan, gecikme süresinin 50. yüzdelik dilimidir. LLM API yanıtlarının uzun kuyrukları olduğundan, medyan tipik sorgu performansının daha iyi bir göstergesidir.

P95 , sorguların %95'i için en kötü durum gecikme süresini gösteren 95. yüzdelik dilimdir.

Platform ile izlenmeyen temel durum arasındaki ortalama gecikme farkı, platform ile izlenmeyen temel durum arasındaki farktır.

Değerlendirme ve ölçütlerimizi ayrıntılı olarak anlamak için, RAG gözlemlenebilirlik araçlarına yönelik kıyaslama metodolojimize bakın.

Platform tarafından yapılan entegrasyon çalışması

Temel bulgular

LLM API varyansı, izleme yükünü gölgede bırakıyor.

Temel standart sapma 2.645 ms idi. En büyük ek yük 169 ms idi. SDK ek yükünü izole olarak ölçmek için LLM'yi işlem hattından kaldırmanız gerekir. İzleme araçlarının tek çalıştırmalı kıyaslamaları, SDK ek yükünü değil, API varyansını ölçer.

LangSmith en az entegrasyon kodu gerektirir.

Temel sürüme kıyasla 12 satır eklendi (2 ortam değişkeni). Dekoratör tabanlı araçlar (Weave, Laminar, Langfuse) 29-40 satır gerektiriyor. Değiş tokuş şu: LangSmith her şeyi yakalıyor (ihtiyaç duymayabileceğiniz dahili LangChain çağrıları da dahil), dekoratör tabanlı araçlar ise neyin izleneceği konusunda size açık kontrol sağlıyor.

Sadece Langfuse ve Laminar ücretsiz kendi sunucularında barındırma hizmeti sunuyor.

İkisi de açık kaynaklıdır (MIT ve Apache 2.0). LangSmith ve Weave, kendi sunucularında barındırılan kurulumlar için kurumsal sözleşmeler gerektirir.

Weave ve LangSmith değerlendirme koordinasyonuna öncülük ediyor.

Her iki gemi de veri kümesi yinelemesi, tahmin, puanlama ve toplama işlemlerini tek bir çağrıda ele alan tam değerlendirme düzenleyicilerine sahiptir. Langfuse puanlama altyapısı (create_score()) sağlar ancak düzenlemeyi geliştiriciye bırakır. Laminar'ın değerlendirme özellikleri daha az gelişmiştir: deney karşılaştırma arayüzü yok, önceden oluşturulmuş puanlayıcılar sınırlı.

Langfuse, yüksek hacimli alımlarda en düşük birim maliyetine sahiptir.

50 milyon ve üzeri siparişlerde 100.000 adet için 6 dolar. LangSmith, iz başına ücret alıyor (1000 adet için 2,50-5 dolar). Weave ise alınan verinin MB başına ücretini alıyor (aşırı kullanımda MB başına 0,10 dolar).

Platforma göre değerlendirme yetenekleri

Ağırlıklar ve Eğimler (Dokuma)

  • Değerlendirme düzenleyicisi: weave.Evaluation.evaluate(), veri kümesi yinelemesi, tahmin, puanlama ve toplama işlemlerini tek bir çağrıda gerçekleştirir. 1
  • Özel puanlayıcılar: Scorer alt sınıfı veya herhangi bir @weave.op() fonksiyonu
  • Önceden oluşturulmuş puanlama sistemleri: Bazıları (doğruluk, vb.)
  • Veri kümesi yönetimi: weave.Dataset sürümleme ile, publish(), from_pandas()
  • Deney karşılaştırması: Değerlendirmeler sekmesi, Karşılaştırma görünümü + Liderlik tabloları
  • Çevrimiçi değerlendirme: EvaluationLogger, güvenlik bariyerleri/monitörler

LangSmith

  • Değerlendirme düzenleyici: evaluate() fonksiyonu 2
  • Özel puanlayıcılar: (Run, Example) -> dict fonksiyonu
  • Önceden oluşturulmuş puanlayıcılar: Evet (QA doğruluğu, gömme mesafesi, kriter tabanlı LLM değerlendiricisi)
  • Veri kümesi yönetimi: Tam CRUD API'si, sürümlü veri kümeleri
  • Deney karşılaştırması: Her veri kümesi için yan yana karşılaştırma
  • Çevrimiçi değerlendirme: Ek açıklama kuyrukları, üretim izlemelerinde otomatik kurallar

Laminer

  • Değerlendirme düzenleyici: Temel evaluate() mevcut ancak daha az yaygın olarak kullanılıyor. 3
  • Özel puanlayıcılar: @observe() süslü fonksiyonlar
  • Önceden oluşturulmuş puanlayıcılar: Minimum
  • Veri seti yönetimi: Kullanıcı arayüzü + sınırlı SDK
  • Deney karşılaştırması: Manuel
  • Çevrimiçi değerlendirme: @observe() üretim fonksiyonları üzerinde

Langfuse

  • Değerlendirme düzenleyicisi: Dahili düzenleyici yok. Manuel döngü + izleme başına create_score() 4
  • Özel puanlayıcılar: Herhangi bir kod + create_score(trace_id, name, value)
  • Önceden oluşturulmuş puanlayıcılar: Kullanıcı arayüzünde model tabanlı değerlendirme yapılandırmaları
  • Veri kümesi yönetimi: Kullanıcı arayüzü + API veri kümeleri
  • Deney karşılaştırması: Manuel (oturum filtreleme)
  • Çevrimiçi değerlendirme: create_score() canlı izlemelerde, insan açıklama kuyruklarında

Fiyat karşılaştırması

Ücretsiz kullanım ve veri saklama

Fiyatlar Mart 2026 itibarıyla bildirilmiştir ve zaman içinde değişebilir. En güncel fiyatlar için lütfen her bir tedarikçinin web sitesine bakın.

Bulut, kendi sunucunuzda barındırılan ve açık kaynaklı dağıtım

İzleme ve hata ayıklama görünürlüğü

  • Weave, @weave.op() adet süslenmiş çağrının ağaç görünümünü gösterir. Bir düğüme tıklamak girişleri, çıkışları ve zamanlamayı ortaya çıkarır. Değerlendirmeler sekmesi, izleri değerlendirme sonuçlarına bağlar.
  • LangSmith, dahili zincir adımları da dahil olmak üzere LangChain'in tüm yürütme grafiğini otomatik olarak yakalar. İzleme görünümü, token sayımlarını, gecikme dağılımını ve her LLM çağrısı için maliyet tahminlerini içerir.
  • Langfuse, izleme kayıtlarını aralıklar halinde görüntüler. Oturum takibi, aynı kullanıcıdan gelen birden fazla sorguyu gruplandırır. Maliyet takibi, izleme görünümüne entegre edilmiştir.
  • Laminar, dağıtılmış izleme araçlarına benzer bir zaman çizelgesi gösterir. @observe() ile işaretlenmiş fonksiyonlar, giriş/çıkış yakalama özelliğine sahip zaman çizelgeleri olarak görünür.

Hangi kullanım senaryosu için hangi araç?

  • LangChain işlem hattı, sıfır çaba gerektiren izleme: LangSmith. Ortam değişkeni otomatik izleme, +12 satır kod.
  • Zaten W&B kullanıyorum, değerlendirme düzenlemesine ihtiyacım var: Weave. weave.Evaluation + veri seti sürümleme + liderlik tabloları.
  • Kurumsal sözleşme gerektirmeyen, kendi sunucunuzda barındırma çözümü arıyorsanız: Langfuse. Açık kaynak kodlu (MIT), Docker Compose, AB veri bölgesi.
  • OSS gözlemlenebilirliği istiyorum, değerlendirme düzenleyicisine ihtiyacım yok: Laminar. Apache 2.0, hafif @observe() dekoratörü.
  • Yüksek hacimli üretim, maliyet hassasiyeti: Langfuse. 50 milyon ve üzeri hacimde 100.000 adet için 6 dolar.
  • Hem izleme hem de yerleşik değerlendirme gerekiyor: Weave veya LangSmith. Veri kümesi yönetimiyle birlikte tam değerlendirme düzenleyicileri.

RAG gözlemlenebilirlik araçları için kıyaslama metodolojisi

Donanım : Apple M4, 16 GB RAM, macOS 26.3
RAG işlem hattı : 7 düğümlü (yönlendirici, alıcı, belge sınıflandırıcı, web arama yedekleme, hesaplayıcı, bağlam oluşturucu, üretici) LangGraph StateGraph
LLM : openai/gpt-4.1-nano via OpenRouter (sıcaklık 0.0)
Yönlendirici LLM : google/gemini-2.5-flash üzerinden OpenRouter (yapılandırılmış çıktı)
LLM değerlendirmesi : google/gemini-2.5-pro aracılığıyla OpenRouter
Vektör veritabanı : Qdrant 1.12 (yerel Docker), kosinüs mesafesi, 1.204 SQuAD belgesi
Gömülü Veriler : BAAI/bge-small-en-v1.5 (384 boyutlu, CPU çıkarımı)
Aday belge alma : sorgu başına en iyi 5 belge
Sorgu kümesi : 30 seçilmiş sorgu, 20 olgusal (bilgi tabanı erişimi), 5 çok aşamalı (bilgilerin birleştirilmesini gerektiren), 5 matematiksel (hesaplama düğümüne yönlendirilen).
İşlem Hattı : 3 sorguluk ısınma aşaması atlandı. Her platform için 30 sorgunun tamamı üzerinde 5 tam geçiş yapıldı. Toplam: Platform başına 150 ölçülen yürütme. Zamanlayıcı: time.perf_counter() yalnızca graph.invoke()'yı kapsar. LLM değerlendirmeleri zamanlayıcı durduktan sonra çalıştırılır. Yinelemeler ve platformlar arasında gc.collect() kullanılır. Önce temel durum, ardından her platform sırayla.
Kontrollü değişken : Tüm platformlar aynı işlem hattı kodunu, LLM örneklerini, alıcı yapılandırmasını ve sorgu kümesini paylaşır. Tek değişken gözlemlenebilirlik katmanıdır.
İstatistiksel testler: %95 güven aralığı (t dağılımı ile), anlamlılık için Mann-Whitney U (parametrik olmayan, iki taraflı), etki büyüklüğü için Cohen's d, aykırı değer tespiti için IQR yöntemi.

Test edilen araçlar

RAG gözlemlenebilirliği nasıl çalışır?

Her araç, izlenen fonksiyon çağrılarını bir “iz” (bir “aralık” ağacı) olarak paketler ve bunları bir arka uca gönderir. Ek yük, her çağrıdaki üç işlemden kaynaklanır: (1) girişte aralık oluşturma, (2) dönüşte yükün serileştirilmesi ve (3) arka plan iletimi. Çoğu araç eşzamansız olarak iletim yapar, ancak aralık oluşturma ve serileştirme satır içi olarak gerçekleşir.

Ortam değişkeni, dekoratör ve SDK enstrümantasyonu karşılaştırması

Ortam değişkeni izleme (LangSmith). LANGCHAIN_TRACING_V2=true ayarı, LangChain ve LangGraph'a entegre edilmiş izleme kancalarını etkinleştirir. Her LLM çağrısı, alıcı çağrısı ve grafik düğümü otomatik olarak yakalanır. İşlem hattı kodunda herhangi bir değişiklik gerekmez.

Dekoratör tabanlı izleme (Weave, Laminar, Langfuse). Geliştirici her fonksiyonu bir dekoratörle (@weave.op(), @observe()) sarmalar. Dekoratörsüz fonksiyonlar izlenmez.

LangSmith her şeyi (ihtiyaç duymayabileceğiniz dahili LangChain çağrıları da dahil) yakalar ve yalnızca LangChain tabanlı işlem hatlarıyla çalışır. Dekoratör tabanlı araçlar herhangi bir Python koduyla çalışır. Düğüm başına sarmalama kodu Weave, Laminar ve Langfuse'da neredeyse aynıdır.

Sınırlamalar

Tek iş parçacıklı, sıralı sorgu iş yükü. Üretim ortamındaki eşzamanlı istekler, eşzamansız önbellek boşaltma çekişmesi nedeniyle ek yük profilini değiştirebilir.

Harici LLM API'leri (OpenRouter) toplam gecikmeye hakimdir ve göreceli izleme yükünü azaltır. Yerel çıkarım (örneğin, Ollama) yükü orantılı olarak daha büyük hale getirecektir.

Yalnızca bulut tabanlı arka uçlar. Langfuse ve Laminar'ın kendi sunucularında barındırılan dağıtımları, harici bir izleme hizmetine ağ üzerinden veri iletimini atladıkları için farklı ek yükler içerebilir.

Isınma aşaması, soğuk başlatma maliyetlerini ortadan kaldırır. Sunucusuz dağıtımlarda, SDK başlatılmasından kaynaklanan ilk istek yükü daha yüksek olacaktır.

LangSmith, yalnızca 7 işlem hattı düğümünü değil, LangChain'in tüm dahili çağrılarını yakalar. Diğer platformlar yalnızca süslenmiş fonksiyonları izler. Bu da karşılaştırmayı eşdeğer iş yükleri yerine farklı izleme kapsamları karşılaştırması haline getirir.

Fiyat verileri Mart 2026 itibarıyla alınmıştır. Güncel fiyatları her satıcının web sitesinden doğrulayın.

Çözüm

Gecikme süresi, bu araçlar arasında seçim yaparken kullanışlı bir kriter değildir. Dördü de LLM API çağrılarının 1.000-3.000 ms sürdüğü bir işlem hattına 170 ms'den daha az gecikme ekledi ve farklılıkların hiçbiri istatistiksel olarak anlamlı değildi.

LangChain 12 satır kullanıyorsanız ve tam izleme özelliğine sahipseniz, LangSmith en hızlı entegre olanıdır. Weave ve LangSmith, Langfuse ve Laminar'da bulunmayan değerlendirme orkestrasyonu sunar. Kurumsal bir sözleşme olmadan kendi sunucunuzda barındırmanız gerekiyorsa, Langfuse ve Laminar tek seçeneklerinizdir.

Daha fazla okuma

Aşağıdakiler gibi diğer RAG kıyaslamalarını inceleyin:

Ekrem Sarı
Ekrem Sarı
Yapay Zeka Araştırmacısı
Ekrem, AIMultiple'da yapay zeka araştırmacısı olarak çalışmakta olup, akıllı otomasyon, GPU'lar, yapay zeka ajanları ve RAG çerçeveleri üzerine yoğunlaşmaktadır.
Tam Profili Görüntüle

Yorum yapan ilk kişi olun

E-posta adresiniz yayınlanmayacak. Tüm alanlar gereklidir.

0/450