RAG Ölçümleri: Gömme Modelleri, Vektör Veritabanları, Ajan RAG
RAG, harici veri kaynaklarıyla LLM güvenilirliğini artırır. RAG işlem hattının tamamını, önde gelen gömme modellerini, en iyi vektör veritabanlarını ve en yeni ajan tabanlı çerçeveleri, gerçek dünya performanslarına göre değerlendirerek kıyasladık.
RAG Ölçümleri: Gömme Modelleri, Vektör Veritabanları, Ajan RAG Keşfedin
Gömme Modelleri: OpenAI vs Gemini vs Cohere
Herhangi bir Geri Alma Destekli Üretim (RAG) sisteminin etkinliği, geri alma algoritmasının hassasiyetine bağlıdır. Yaklaşık 500.000 Amazon yorumu kullanarak, OpenAI, Gemini, Cohere, Snowflake, AWS, Mistral ve Voyage AI dahil olmak üzere 11 önde gelen metin gömme modelini karşılaştırdık. Her modelin doğru cevabı ilk önce alma ve sıralama yeteneğini değerlendirdik.
RAG için Açık Kaynak Gömme Modelleri Kıyaslama Testi
Hukuk sözleşmeleri, müşteri destek teknik notları ve tıbbi özetleri kapsayan 500'den fazla manuel olarak derlenmiş arama sorgusu üzerinde, tek bir H100 üzerinde kendi kendine barındırılan 14 açık kaynaklı gömme modelini karşılaştırdık. NVIDIA Llama-Embed-Nemotron-8B doğrulukta lider konumda. Maliyet açısından, Google'in EmbeddingGemma-300m'si, küçük bir doğruluk kaybı pahasına Nemotron'dan yaklaşık 4 kat daha ucuz çalışıyor.
Hibrit RAG: RAG Doğruluğunu Artırma
Yoğun vektör arama, anlamsal niyeti yakalamada mükemmeldir, ancak genellikle yüksek anahtar kelime doğruluğu gerektiren sorgularla başa çıkmakta zorlanır. Bu açığı ölçmek için, standart yalnızca yoğun vektör kullanan bir arama algoritmasını, SPLADE seyrek vektörlerini de içeren hibrit bir RAG sistemiyle karşılaştırdık.
Reranker Karşılaştırması: En İyi 8 Modelin Karşılaştırılması
Yoğun arama sonuçlarını iyileştirmek için yeniden sıralama aşamasının ne kadar etkili olduğunu ölçmek amacıyla yaklaşık 145.000 İngilizce Amazon yorumu üzerinde 8 yeniden sıralama modelini karşılaştırdık. Çok dilli e5 tabanlı ilk 100 adayı aldık, her modelle yeniden sıraladık ve ilk 10 sonucu, her biri kaynak yorumundan somut ayrıntılara atıfta bulunan 300 sorguya karşı değerlendirdik. En iyi yeniden sıralama modeli, Hit@1 oranını %62,67'den yükseltti.
Çok Modlu Gömme Modelleri: Apple vs Meta vs OpenAI
Çok modlu gömme modelleri nesneleri tanımlamada mükemmeldir ancak ilişkilerde zorlanırlar. Mevcut modeller "haritada telefon" ile "telefonda harita"yı ayırt etmekte zorlanmaktadır. Bu özel sınırlamayı ölçmek için MS-COCO ve Winoground'da 7 önde gelen modeli karşılaştırdık. Adil bir karşılaştırma sağlamak için, her modeli aynı koşullar altında, A40 donanımı ve bfloat16 hassasiyeti kullanarak değerlendirdik.
RAG için En İyi 10 Çok Dilli Gömme Modeli
6 dilde (Almanca, İngilizce, İspanyolca, Fransızca, Japonca, Çince) yaklaşık 606 bin Amazon yorumu üzerinde 10 çok dilli gömme modelini karşılaştırmalı olarak test ettik. Her biri kaynak yorumundan somut ayrıntılara atıfta bulunan 1.800 sorgu (dil başına 300) oluşturduk. Arama için eğitilmiş modeller (sorgu ve belge ayrımı), genel metin benzerliği için eğitilmiş daha büyük modellerden daha iyi performans gösterdi: e5_base (110 milyon parametre) modellerinden daha iyi performans gösterdi.
Grafik RAG ve Vektör RAG Karşılaştırması
Vektör RAG, anlamsal benzerliğe göre belgeleri alır. Grafik RAG ise bunun üzerine bir bilgi grafiği ekler, belgelerinizden varlıkları ve ilişkileri çıkarır, bunları bir grafik veritabanında saklar ve sorgu zamanında vektör aramasıyla birlikte grafik geçişini kullanır. Bu ek katmanın, 3.
RAG Gözlemlenebilirlik Araçları Kıyaslama Testi
Dört RAG gözlemlenebilirlik platformunu, 7 düğümlü bir LangGraph işlem hattında üç pratik boyutta karşılaştırmalı olarak değerlendirdik: gecikme yükü, entegrasyon çabası ve platformlar arası ödünleşmeler. Gecikme yükü metrikleri Metriklerin açıklaması: Ortalama, ölçülen 150 graph.invoke() çağrısı boyunca ortalama gecikmedir. LLM-judge değerlendirmeleri zamanlayıcı durduktan sonra çalışır. Medyan, 50. yüzdelik dilimdeki gecikmedir.
RAG Değerlendirme Araçları: Weights & Biases vs Ragas vs DeepEval
Bir RAG işlem hattı yanlış bağlamı aldığında, LLM güvenle yanlış cevabı üretir. Bağlam alaka düzeyi puanlayıcıları birincil savunma mekanizmasıdır. Aynı koşullar altında 1.460 soru ve 14.600'den fazla puanlanmış bağlam üzerinden beş aracı karşılaştırdık: aynı yargıç modeli (GPT-4o), varsayılan yapılandırmalar ve özel istemler yok.
En İyi RAG Araçları, Çerçeveleri ve Kütüphaneleri
RAG (Retrieval-Augmented Generation), harici veri kaynakları ekleyerek LLM yanıtlarını iyileştirir. RAG sistemleri için hangi kombinasyonların en iyi sonucu verdiğini belirlemek amacıyla farklı gömme modellerini karşılaştırdık ve çeşitli öbek boyutlarını ayrı ayrı test ettik. En iyi RAG çerçevelerini ve araçlarını keşfedin, RAG'ın ne olduğunu, nasıl çalıştığını, faydalarını ve günümüzün LLM ortamındaki rolünü öğrenin.