Yoğun arama performansını artırmak için yaklaşık 145.000 İngilizce Amazon yorumu üzerinde 8 farklı yeniden sıralama modelini karşılaştırdık. Çok dilli e5 tabanlı en iyi 100 adayı aldık, her modelle yeniden sıraladık ve en iyi 10 sonucu, her biri kaynak yorumundan somut ayrıntılara atıfta bulunan 300 sorguya karşı değerlendirdik. En iyi yeniden sıralama modeli, Hit@1 oranını %62,67'den %83,00'e (+20,33 puan) yükseltti.
Reranker kıyaslama sonuçları
Ölçütlerin açıklaması :
ΔHit@1 / ΔHit@10, temel duruma (yeniden sıralama yapılmamış) göre yüzde puan (pp) cinsinden iyileşmeyi gösterir. Örneğin, +20,33pp, yeniden sıralama işleminin Hit@1'i temel durumun %62,67'sine kıyasla %20,33 oranında iyileştirdiği anlamına gelir.
Hit@K, doğru product_id'ye sahip herhangi bir yorumun ilk K sonuç arasında görünüp görünmediğini ölçer. Gerçek değer, sorguyu oluşturan yorumun product_id'sidir. Aynı ürünün farklı bir yorumu ilk K'ya girerse, bu bir isabet olarak sayılır. Hit@1 en katı testtir: En üstteki sonuç doğru ürüne mi ait? Hit@10 daha esnektir: Doğru ürün ilk 10 sonuçtan birinde mi?
MRR@10 (Ortalama Karşılıklı Sıralama), tüm sorgulardaki ilk doğru sonucun sıralamasının 1/ortalamasını alır. İlk eşleşen product_id 1. sırada ise puan 1,0'dır. 2. sırada ise 0,5'tir. 10. sırada ise 0,1'dir. Bu, doğru ürünü mümkün olduğunca yüksek bir yere yerleştiren modelleri ödüllendirir.
nDCG@10 (Normalleştirilmiş İndirimli Kümülatif Kazanç), yalnızca ilk yorumu değil, ilk 10'daki tüm eşleşen yorumların konumlarını değerlendirir. Aynı ürünün aday kümesinde birden fazla yorumu varsa ve bunlardan birkaçı ilk 10'da yer alıyorsa, nDCG her birine konumuna göre puan verir. Uygulamada, çoğu ürünün ilk 100 aday arasında yalnızca 1-2 yorumu bulunur, bu nedenle nDCG ve MRR yakından takip edilir.
Recall@10, tüm aday kümesindeki (ilk 100) eşleşen yorumlar arasından ilk 10'daki eşleşen yorumların (aynı product_id) oranını ölçer. Bir ürünün ilk 100'de 3 yorumu varsa ve yeniden sıralayıcı bunlardan 2'sini ilk 10'a yerleştirirse, bu sorgu için Recall@10 2/3 olur. Çoğu ürünün aday kümesinde az sayıda yinelenen yorumu olduğundan, bu kıyaslamada Recall@10 ve Hit@10 neredeyse aynıdır.
Gecikme sürelerinin ayrıntılı dökümü
Yeniden sıralama gecikmesi, her bir çapraz kodlayıcının sorguya karşı 100 aday belgeyi puanlaması için geçen süreyi ölçer. Vektör arama süresi (~20 ms) tüm çalıştırmalarda sabit kaldığı ve yeniden sıralayıcıdan bağımsız olduğu için hariç tutulmuştur.
Gecikme ölçümleri açıklandı :
Yeniden sıralama, çapraz kodlayıcının sorguya karşı 100 aday belgenin tamamını puanlaması için geçen süredir. Modellerin farklılaştığı nokta burasıdır: tek bir ileri geçiş hızlıdır, oysa otoregresif kod çözme yavaştır.
P95, toplam gecikmenin 95. yüzdelik dilimidir. Bazı sorguların daha uzun inceleme metinleri vardır, bu da belirteçleme ve puanlama süresini artırır. P95, sorguların %95'i için bekleyebileceğiniz en kötü durumu gösterir.
Temel bulgular
149M modeli, 1.2B modeliyle eşleşiyor.
gte-reranker-modernbert-base 149 milyon parametreye, nemotron-rerank-1b ise 1,2 milyar parametreye sahip. Her ikisi de İngilizce'de %83,00 Hit@1 oranına ulaştı. ModernBERT mimarisi 8 kat daha küçük ve aynı üst düzey doğruluk oranını sunuyor.
Bu, model boyutunun önemsiz olduğu anlamına gelmez. Nemotron, MRR@10'da (0,8514'e karşı 0,8483) ve Hit@10'da (%88,33'e karşı %88,00) biraz daha önde, yani ilgili belgeleri ilk 10'da biraz daha iyi sıralıyor. Ancak ilk sonucun doğru olmasının önemli olduğu çoğu uygulama için 149M modeli yeterlidir.
En büyük model en iyi model değildir.
qwen3_reranker_4b, 4 milyar parametreye sahip ve sorgu başına bir saniyeden fazla sürüyor. %77,67'lik isabet oranıyla nemotron (1,2 milyar), gte_modernbert (149 milyon) ve jina'nın (560 milyon) ardından dördüncü sırada yer alıyor. Nemotron'a göre 4,5 kat daha fazla gecikme süresi ödeyerek %5,3 daha düşük doğruluk elde ediyorsunuz.
qwen3'ün mimarisi, evet/hayır logit yaklaşımıyla nedensel dil modellemesi kullanır. Model, sorgu-belge çiftini okur ve "evet, bu alakalı" olasılığını çıktı olarak verir. Bu kavramsal olarak temizdir, ancak otoregresif kod çözme yükü nedeniyle çıkarım maliyetlidir. SequenceClassification modelleri (gte_modernbert, bge) ve nemotron'un istem şablonu yaklaşımı, çifti tek bir ileri geçişte işler ve bu da temelde daha hızlıdır.
Jina, hız ve doğruluk arasında en iyi dengeyi sunar.
jina_reranker_v3, 188 ms'de %81,33'lük bir Hit@1 oranına ulaşıyor. nemotron ise 243 ms'de %83,00'lük bir oran elde ediyor. Sorgu başına toplam 200 ms'nin altında gecikmeye ihtiyacınız varsa, en üst seviyedeki modeller arasında bunu sağlayan tek model Jina'dır. Saniyede binlerce istek işleyen bir üretim sisteminde, 1,67 puanlık fark, ekstra 55 ms'lik gecikmeyi haklı çıkarmayabilir.
Sıralamayı yeniden düzenleyen bir kişi sonuçları daha da kötüleştiriyor.
mxbai_rerank_xsmall (70 milyon parametre) %64,67 isabet oranıyla sonuçlandı. Yeniden sıralayıcı kullanılmadan elde edilen temel sonuç ise %62,67 isabet oranıyla sonuçlandı. İyileşme sadece 2 puan olup, 300 sorgu için gürültü seviyesi dahilindedir. 70 milyon parametreyle model, daha uzun veya daha incelikli metinlerde sorgu-belge ilişkisini güvenilir bir şekilde değerlendirme kapasitesinden yoksundur.
Yeniden sıralama aracı otomatik olarak faydalı olmayabilir. Uygulamaya geçirmeden önce gerçek verileriniz üzerinde test edin.
Retriever tavanı belirliyor.
En iyi yeniden sıralayıcıların tümü, %87-88'lik isabet oranıyla (Hit@10) birleşiyor. Bu tavan, arama motorundan kaynaklanıyor. Eğer çok dilli e5-base doğru belgeyi ilk 100 aday arasına yerleştiremezse, hiçbir yeniden sıralayıcı onu kurtaramaz. Her yeniden sıralayıcının başarısız olduğu sorguların kalan %12'si, yoğun arama motorunun ilgili belgeyi tamamen gözden kaçırdığı durumları temsil eder.
Bu tavanın ötesine geçmek için daha iyi bir arama motoruna, daha büyük bir aday havuzuna veya her ikisine birden ihtiyaç vardır. İlk 250 adayı test ettik ve ilk 100'e göre neredeyse hiç iyileşme bulamadık; bu da e5_base'in kullanışlı adaylarını 250. sıradan çok önce tükettiği anlamına geliyor.
Yeniden sıralama araçları nasıl çalışır?
Yoğun bir arama algoritması (çift kodlayıcı), sorguları ve belgeleri bağımsız olarak vektörlere kodlar. Arama, bu vektörler üzerinde en yakın komşu araması şeklinde gerçekleşir. Bu hızlıdır çünkü arama sırasında yalnızca sorguyu kodlarsınız, ancak model sorguyu ve belgeyi asla birlikte görmez, bu nedenle incelikli alaka sinyallerini kaçırabilir.
Yeniden sıralayıcı (çapraz kodlayıcı), sorgu-belge çiftini tek bir girdi olarak alır. Model, her iki metni de birlikte ele alarak, bağımsız kodlamanın gözden kaçırdığı ilişkileri yakalar. Dezavantajı ise modeli her aday için yalnızca bir kez çalıştırmanız gerektiğidir, bu nedenle yalnızca küçük bir havuzu puanlayabilirsiniz.
Bu kıyaslamadaki mimariler
Dört farklı çapraz kodlayıcı mimarisini test ettik:
Sıra Sınıflandırma modelleri (bge_base, bge_v2_m3, mxbai_xsmall, gte_modernbert) girdi olarak bir [sorgu, belge] çifti alır ve tek bir logit puanı çıktısı verir. Bu, en basit ve en yaygın yaklaşımdır.
Nemotron, “soru:{q} pasaj:{p}” şeklinde bir komut şablonu formatı kullanır. Giriş, yapılandırılmış bir çift yerine düz metin gibi görünür, ancak model yine de SequenceClassification aracılığıyla tek bir alaka düzeyi puanı üretir. LLAMA tabanlı LLM ön eğitimi, ona güçlü bir dil anlama yeteneği kazandırır.
Qwen3 yeniden sıralayıcılar nedensel dil modellemesi kullanır. Model çifti okur ve evet/hayır yargısı üretir. Puan log P(evet) / (P(evet) + P(hayır))'dır. Bu, tam otoregresif mekanizmayı gerektirir ve bu da daha yüksek gecikmeyi açıklar.
Jina v3, tokenizasyon ve puanlamayı dahili olarak ele alan özel bir API (model.rerank()) kullanır. Temel mimari çapraz dikkat mekanizmasını kullanır, ancak arayüz ayrıntıları soyutlar.
Reranker kıyaslama metodolojisi
- GPU: NVIDIA H100 PCIe 80GB via Runpod
- Vektör veritabanı: Qdrant 1.12.0 (yerel ikili), kosinüs mesafesi
- Alıcı: çok dilli-e5-base (768-boyutlu). Sorgu öneki:
"query: ", belge öneki:"passage: " - Yazılım: transformers 5.2.0, PyTorch 2.8.0, CUDA 12.8.1
- Veri kümesi: Amazon Reviews Multi'nin (Kaggle) İngilizce alt kümesi. 1 ~145 bin yorum, en az 100 karakterlik filtreleme sonrasında. Her yorumda bir ürün kimliği (product_id), yorum metni ve yıldız derecelendirmesi bulunmaktadır.
- Sorgu oluşturma: Claude Sonnet 4.6, OpenRouter aracılığıyla. 300 İngilizce sorgu (5 tür: olgusal, görüş, kullanım, problem çözme, özellik karşılaştırması). Her sorgu, kaynak incelemesinden belirli ayrıntılara atıfta bulunmalıdır; genel sorular (özgüllük puanı < 4/5) filtrelenir.
- Belge formatı:
"Review Title: {title}\nReview: {body}" - İşlem Hattı: Çok dilli e5 tabanlı en iyi 100 adayı alın, çapraz kodlayıcı ile yeniden sıralayın, en iyi 10'u döndürün. Temel işlem hattı yeniden sıralamayı atlar ve doğrudan alıcının en iyi 10'unu döndürür.
- Gerçek sonuç: Yalnızca product_id ile tam eşleşme. Kosinüs benzerliği için yedek çözüm yok. Anlamsal olarak benzer ürünler için kısmi puanlama yapılmaz.
- Kontrollü değişken: Deneyler arasında yalnızca yeniden sıralama modeli değişir. Alıcı, aday sayısı, sorgu kümesi ve değerlendirme kriterleri tüm çalıştırmalarda aynıdır.
- İnce ayar yapılmadı: Tüm modeller, varsayılan HuggingFace ağırlıklarıyla sıfır atış yöntemiyle değerlendirildi.
- Gecikme: Yeniden sıralama (100 adayın çapraz kodlayıcı puanlaması). GPU'da sorgu başına ölçülmüştür.
Test edilen modeller
Sınırlamalar
Bu kıyaslama, tek bir arama motoru (multilingual-e5-base) kullanmaktadır. Farklı bir arama motoru farklı aday kümeleri üretebilir ve yeniden sıralayıcı sıralamalarını değiştirebilir. Sonuçlar, her bir yeniden sıralayıcının bu özel arama motoruyla ne kadar iyi çalıştığını yansıtır, yeniden sıralayıcının tek başına kalitesini değil.
Amazon'daki İngilizce ürün yorumları üzerinde test yaptık. Diğer alanlarda (bilimsel makaleler, yasal belgeler, kodlar) veya diğer dillerde performans farklılık gösterecektir.
Aday sayısı 100 olarak sabitlenmiştir. Bazı sıralama algoritmaları 20 veya 200 adayla farklı sıralama yapabilir. 250 adayı test ettik ve ihmal edilebilir bir iyileşme bulduk; bu da e5_base için 100 adayın yeterli olduğunu, ancak diğer arama algoritmalarının farklı davranabileceğini gösteriyor.
300 sorgu, orta düzeyde bir örneklem boyutudur. İlk üç model (nemotron, gte_modernbert, jina) arasında %2'den az bir fark bulunmaktadır. Daha büyük bir sorgu kümesiyle bu sıralamalar değişebilir. En üst ve en alt kademe arasındaki fark (%20'den fazla) oldukça büyüktür.
Çözüm
Yeniden sıralama algoritmaları işe yarıyor. Bu kıyaslamada en iyi model, Hit@1 oranını %62,67'den %83,00'e (+20,33pp) yükseltiyor; bu da daha önce yanlış belgeyi ilk döndüren her 100 sorgudan 20'sinin artık doğru belgeyi döndürdüğü anlamına geliyor. Bu, 250 ms'den daha az gecikme ekleyen bir bileşen için önemli bir kazançtır.
En faydalı bulgu, model boyutunun yeniden sıralayıcı kalitesini belirlemediğidir. 149 milyon parametreli gte-reranker-modernbert-base, Hit@1'de 1,2 milyar parametreli nemotron-rerank-1b ile eşleşiyor. 4 milyar parametreli Qwen3 modeli dördüncü sırada yer alıyor. Üretim sistemi için bir yeniden sıralayıcı seçiyorsanız, daha küçük modellerle başlayın. Daha büyük olanlara asla ihtiyacınız olmayabilir.
Gecikmeye duyarlı uygulamalar için, 200 ms'nin altında en güçlü seçenek jina-reranker-v3'tür. Gecikme kısıtlaması olmadan maksimum doğruluk için nemotron-rerank-1b ve gte-reranker-modernbert-base en üst sırayı paylaşıyor. GPU bütçesi olan ekipler için gte-modernbert açık ara kazanan: 1.2B modeliyle aynı doğruluğu çok daha az bellek kullanımıyla sağlıyor.
Tüm deneylerde ortak bir örüntü vardı: arama motoru tavanı belirliyor. Hiçbir sıralama motoru Hit@10'u %88'in üzerine çıkarmadı, çünkü doğru belgelerin kalan %12'si ilk 100 aday arasında hiç yer almadı. Daha iyi bir arama motoruna yatırım yapmak, en iyi üç sıralama motoru arasında geçiş yapmaktan daha büyük kazanımlar sağlayacaktır.
Daha fazla okuma
Aşağıdakiler gibi diğer RAG kıyaslamalarını inceleyin:
- Gömme Modelleri: OpenAI vs Gemini vs Cohere
- RAG için En İyi 16 Açık Kaynaklı Gömme Modeli
- RAG için En İyi Vektör Veritabanı: Qdrant vs Weaviate vs Pinecone
- Agentic RAG kıyaslama testi: Çoklu veritabanı yönlendirme ve sorgu oluşturma
- Çok Modlu Gömme Modelleri: Apple vs Meta vs OpenAI
- Hibrit RAG: RAG Doğruluğunu Artırma
- RAG için En İyi 10 Çok Dilli Gömme Modeli
Yorum yapan ilk kişi olun
E-posta adresiniz yayınlanmayacak. Tüm alanlar gereklidir.