Hukuk sözleşmeleri, müşteri destek teknik notları ve tıbbi özetleri kapsayan 500'den fazla manuel olarak derlenmiş arama sorgusu üzerinde, tek bir H100 üzerinde kendi kendine barındırılan 14 açık kaynaklı gömme modelini karşılaştırmalı olarak test ettik. NVIDIA Llama-Embed-Nemotron-8B doğruluk açısından lider konumda. Maliyet açısından ise, Google'ın EmbeddingGemma-300m modeli, küçük bir doğruluk kaybı pahasına Nemotron'dan yaklaşık 4 kat daha ucuz.
Açık kaynaklı gömme modelleri kıyaslama sonuçları
Metriklerin açıklaması
nDCG@3: Kesme noktası 3'te normalize edilmiş iskonto edilmiş kümülatif kazanç. Sorgu başına bir ilgili belge ile, altın belge ilk 3'te yer aldığında 1 / log2(sıralama + 1), aksi takdirde 0'dır. Sıralama 1,000, sıralama 2 0,631 ve sıralama 3 0,500 puan alır. nDCG@3'ü birincil ölçüt olarak kullanıyoruz çünkü üretim RAG işlem hatları LLM'ye ilk 3 ila 5 parçayı besliyor ve öncelik önyargısı sıralama 1'in orantısız derecede önemli olmasına neden oluyor.
nDCG@10: Aynı formül, ancak kesme noktası 10.
Recall@10: Altın standart belgenin ilk 10'da göründüğü sorguların oranı.
MRR@10: 10. kesme noktasındaki ortalama karşılıklı sıralama. 1. sıradaki altın madalya 1.000 puan, 2. sıradaki altın madalya 0.500 puan ve 10. sıradaki altın madalya 0.100 puan kazandırır. nDCG@3 ile benzer bir amaca hizmet eder ancak daha dik bir sıralama cezası vardır.
En iyi sonuç: Altın standartla ilgili belgenin tek başına en üst sonuç olduğu sorguların oranı. En katı ölçüt ve LLM içermeyen bir arama iş akışına en yakın olanıdır.
nDCG@3 sonuçları alan bazında
AVG sıralaması, alan tersine çevirmelerini gizliyor. Harrier, CUAD'da birinci olurken TechQA'da yedinci sırada yer alıyor. SFR-2, TechQA'da ikinci olurken CUAD'da sadece dördüncü sırada. KaLM-12B, MedRAG'da beşinci ve TechQA'da dokuzuncu sırada. Alan başına nDCG@3:
BM25, MedRAG'da rekabetçi (0.7862, PubMedBERT ve çok dilli Granite'i geride bırakıyor) ve CUAD'da zayıf (0.5844, 14 yoğun modelden 11'i ondan daha üst sırada). Yasal sözleşmeler, sözcük eşleşmesini ödüllendiren yoğun varlık dili içerir. Tıbbi özetlerde, en iyi yoğun modeller (Nemotron 0.9629, SFR-2 0.9620, jina-v5 0.9523), BM25'i 0.17 ila 0.18 nDCG@3 mutlak puanla geride bırakıyor.
(Model, etki alanı) hücresi başına %95 güven aralıkları için Bootstrap hesaplamaları, en üstte dört yönlü MedRAG eşitliği ve nokta tahmini sıralamasının düzleştirdiği Harrier-Nemotron CUAD örtüşmesi de dahil olmak üzere, kıyaslama metodolojisi bölümünde raporlanmıştır.
Milyon token başına maliyet
Kendi sunucunuzda barındırmanın maliyeti GPU'ya göre amortize edilmiştir: saatlik ücret, saatte işlenen token sayısına bölünür. Kullandığımız pod, saatte 2,99$ fiyatla RunPod topluluk bulutu H100 80GB SXM5 idi. 551 sorgu, 3 veri kümesi geçişi (~46,2 milyon token toplam) boyunca model başına gerçek çalışma süresi, 1 milyon token başına aşağıdaki $ tahminlerini vermektedir:
Formül:
GPU $/saat = 2,99 $ (kullandığımız RunPod topluluğunun H100 80GB SXM5 fiyatı). duvar_saniyesi = her modelin 551 sorgu, 3 metin kümesi geçişi boyunca toplam gerçek zaman. toplam_token ≈ 46,22M (3 metin kümesi + 551 sorgunun toplamı, karakter sayısı ÷ 4 sezgisel yöntemi).
Örnek işlem, Nemotron-8B: ($2,99 / 3600) × (1247,8 × 1.000.000 / 46.220.000) = 1 milyon token başına $0,0224 .
Beş model, maliyet kademelerinde lider konumdadır (başka hiçbir sıra hem daha düşük maliyetli hem de daha yüksek puanlı değildir): Maliyet skalasının en altında Granite-278m-multilingual, ardından Granite-small-r2, EmbeddingGemma-300m, jina-v5-text-small ve kalite skalasının en üstünde Nemotron-8B yer almaktadır. Uç noktalar, maliyette 13 kat (0,0017$/M ile 0,0224$/M arasında) ve 0,23 nDCG@3 mutlak değerinde (0,6952 ile 0,9249 arasında) bir aralığı kapsamaktadır.
Alan uzmanları ve genel uzmanlar
PubMedBERT, PubMed başlık-özet çiftleri üzerinde ince ayar yapılmış bir araç olup, PubMed'de tıbbi RAG araması için açık ara en iyi "araç"tır. MedRAG'da nDCG@3 = 0,7084 puan almaktadır ki bu, aynı veri kümesinde BM25 sözcüksel temel çizgisinin (0,7862) altındadır. Modern açık kaynaklı genel amaçlı araçlar, eğitim verisi alanında mutlak puan olarak 0,22 ila 0,25 puan daha yüksek performans göstermektedir:
Uzmanlaşmış algoritmanın düşük performans göstermesinin nedeni yaş ve kullanılan yöntemdir. PubMedBERT, simetrik ortalama havuzlama ve talimat ön eki içermeyen, 2022 yapımı 110 milyon parametreli bir BERT algoritmasıdır. 2024-2026 yılları arasında geliştirilen genel amaçlı algoritmalar ise daha büyük omurgalar, asimetrik sorgu ve belge ön ekleri ve talimat odaklı arama hedefleri üzerine kurulmuştur. Mimari fark, alan uyumundan daha önemlidir: 4 yıllık ince ayarlı bir algoritma, kendi eğitim veri kümesinde bile, güncel nesil talimat odaklı bir arama algoritmasıyla boy ölçüşemez.
Alıcı kuralı, bir alan uzmanını, kullanıma sunmadan önce temsili sorgular üzerinde modern bir genel uzmanla karşılaştırmaktır. "Uzman kendi alanında kazanır" varsayımı, 2026'da açık kaynaklı gömme modelleri için artık güvenli değildir.
Açık kaynaklı gömme kıyaslama testinden elde edilen bulgular
Nemotron-8B'nin TechQA liderliği, istatistiksel olarak ikinci sıradakinden ayrışmış durumda.
Nemotron-8B AVG nDCG@3 = 0,9249. Alan bazında CUAD'da 0,8602, TechQA'da 0,9515 ve MedRAG'da 0,9629 değerlerine ulaşıyor. TechQA sonucu (0,9515 0,923, 0,977), ikinci sıradaki SFR-Embedding-2_R (0,9109 0,869, 0,949) ile örtüşmüyor. Bootstrap CI'ları temiz bir şekilde ayrışıyor. Sorgu tarafında Instruct: …\nQuery: … öneki ve simetrik belge tarafı öneki ile alma için talimat odaklı olarak ayarlanmış 8B Llama-3.1 tabanı, uzun belge destek iş yüklerinde bir sonraki satıra göre 0,04'lük mutlak bir nDCG@3 üstünlüğü sağlıyor.
Nemotron'un açık ara önde olduğu iki alan (TechQA, MedRAG), talimat önek asimetrisinin en önemli olduğu uzun doküman veri kümeleridir. CUAD, önde olmadığı tek alandır: Microsoft'in Harrier-oss-v1-0.6b (0.8720) modeli, 13 kat daha küçük olmasına rağmen, yasal sözleşmelerde Nemotron'dan (0.8602) daha üst sırada yer almaktadır; ancak güven aralıkları örtüşmekte ve bu örneklem büyüklüğünde istatistiksel olarak belirgin bir fark bulunmamaktadır.
0.6B Microsoft Harrier modeli, 7B parametre altında tüm açık modellerden daha üstün performans gösteriyor.
Microsoft Harrier-oss-v1-0.6b (Qwen3-0.6B tabanı ve MIT lisansı ile 2026-04 tarihinde yayınlandı) AVG nDCG@3 = 0.8911 ile genel sıralamada dördüncü oldu. 12B Tencent KaLM-Gemma3'ü (0.8057, Tencent topluluk lisansı), CUAD üzerindeki 7B Salesforce SFR-Embedding-2_R'yi (0.8421, Harrier 0.8720'ye karşı) ve Google'ın EmbeddingGemma-300m'sini (0.8706) geride bıraktı. Aynı mimariye sahip bir karşılaştırmada, Harrier-0.6b (0.8911), aynı Qwen3-0.6B tabanına inşa edilmiş olan Qwen3-Embedding-0.6B'nin (0.8168) 0.074 nDCG@3 üzerinde yer almaktadır. Aradaki farkı parametre sayısı değil, eğitim veri kümesi ve talimat yöntemi belirlemiştir.
Alıcılar için Harrier, kısıtlama olmaksızın ticari kullanıma uygun bir lisansla birlikte gelen en yüksek sıralamalı açık kaynaklı yazılım serisidir. SFR-2 (CC-BY-NC), Nemotron (NSCL-v1) ve jina-v5 (CC-BY-NC) AVG sıralamasında ondan daha üstte yer alıyor, ancak üçü de yalnızca araştırma amaçlı veya ticari olmayan yazılımlardır.
Tıp uzmanı bir implantasyon teknisyeni BM25'e yenildi.
NeuML'nin PubMedBERT-base-embeddings yöntemi, PubMed başlık-özet çiftleri üzerinde ince ayarlandı. PubMed'de tıbbi bir RAG kıyaslaması için açık ara en uygun araçtır. MedRAG'da nDCG@3 = 0.7084 puan alarak, aynı korpusta BM25 sözcüksel temel çizgisinin (0.7862) 0.078 puan altında kalmaktadır. MedRAG'daki en iyi açık kaynaklı genel amaçlı araçlar her ikisinin de çok üzerinde yer almaktadır: Nemotron-8B 0.9629, SFR-Embedding-2_R 0.9620, Harrier-oss 0.9605, jina-v5 0.9523, KaLM-Gemma3-12B 0.9453.
Bu, bir alıcının alan uzmanı seçme şeklini değiştirmesi gereken bir tersine çevirmedir. PubMedBERT, simetrik ortalama havuzlama ve talimat ön eki içermeyen, 2022 tarihli 110 milyon parametreli bir BERT'tir. 2024-2026 genelci alanı, daha büyük omurgalar, asimetrik sorgu ve belge ön ekleri ve talimat odaklı arama hedefleri üzerine kurulmuştur. Tıbbi kelime dağarcığını zaten içeren MedRAG sorgularında, BM25'in sözcüksel eşleşmesi doğal olarak güçlüdür ve PubMedBERT'in uzmanlaşması bunun üzerine hiçbir şey eklemez.
Pratik sonuç şu ki, yalnızca ismine bakarak uzman bir gömme yazılımı seçmeyin. Karar vermeden önce kendi sorgularınızda performansını test edin.
Snowflake Arctic, etki alanları arasında 0,32 nDCG@3 salınımı yapıyor.
Snowflake'nın snowflake-arctic-embed-l-v2.0 (568M, Apache-2.0, bge-m3-retromae türevi, çok dilli) modeli, CUAD yasal sözleşmelerinde nDCG@3 = 0,5846 ve MedRAG tıbbi özetlerinde 0,9053 puan almıştır. Aynı model, aynı yöntem, aynı sorgu formatı, iki alan arasında 0,32 puanlık bir farkla. Listedeki diğer modeller daha az fark göstermektedir: SFR-2 0,8421 ile 0,9620 arasında (0,12 fark), Nemotron 0,8602 ile 0,9629 arasında (0,10 fark), Harrier ise 0,8408 ile 0,9605 arasında (0,12 fark) bir aralıkta yer almaktadır.
Mekanizma, eğitim verisi bileşimidir. Arctic, BEIR, MIRACL ve CLEF veritabanları üzerinde ayarlanmıştır; yasal sözleşmeler temsil edilmemektedir. Dikey arama iş yükü için, alan eğitim verileri parametre sayısından veya bağlam uzunluğundan daha önemlidir.
Açık kaynaklı gömme çıkarımının nasıl çalıştığı
Bu karşılaştırmada açık kaynaklı gömme modelleri iki arka uçta çalıştırılıyor: sentence-transformers (12 model) ve vLLM (4 model). Ayrım kaliteyle ilgili değil; sentence-transformers'ın varsayılan Python çıkarım döngüsünün yönetilemeyecek kadar yavaş olduğu 8B ve üzeri modellerde çalışma zamanı verimliliğiyle ilgili.
Model başına tarif, arka uç seçiminden daha önemlidir. Modern arama modelleri asimetrik ön ekler kullanır: sorgu tarafı, Instruct tarzı bir istemle ( Instruct: Given a question, retrieve passages...\nQuery: <text> ) sarmalanırken, belge tarafı düzdür. Havuzlama türü değişir: BERT tabanlı modeller CLS havuzlaması kullanır; LLM tabanlı modeller (Llama, Mistral, Qwen3, Gemma3 tabanı) son belirteç havuzlaması kullanır; çok dilli modeller genellikle ortalama havuzlaması kullanır. Her model için HuggingFace kartı, hangi ön ek ve havuzlama kombinasyonunun doğru olduğunun kaynağıdır.
Arka uç katmanı:
- vLLM: Nemotron-8B, KaLM-Gemma3-12B, jina-v5-text-small
- sentence-transformers: Qwen3-0.6B, EmbeddingGemma-300m, Granite trio, SFR-2, Conan-v1, PubMedBERT, GIST, Snowflake Arctic, Microsoft Harrier
Asimetrik önek kalıpları gözlemlendi:
- Talimat + Sorgu/Belge: SFR-2, KaLM-Gemma3, Nemotron-8B, Qwen3-Gömme
- Dahili encode_query / encode_document: EmbeddingGemma, KaLM-Gemma3, Nemotron-8B
- görev / istem_adı (cümle-dönüştürücüler parametresi): jina-v5, Snowflake Arctic, Harrier
- Önek yok (simetrik): Granit üçlüsü, Conan, PubMedBERT, GIST
Temel mimariye göre havuzlama türü:
- CLS havuzlama: Granit r2 üçlüsü, Snowflake Arctic
- Son belirteç havuzlama: Nemotron, KaLM-Gemma3, SFR-2, jina-v5, Qwen3-Embedding, Harrier
- Ortalama havuzlama: EmbeddingGemma, Granite-multilingual, Conan, PubMedBERT, GIST
Yanlış tarif kullanmak, çökmeye neden olmadan, veri alma kalitesini sessizce düşürür. Açık kaynaklı gömme algoritmalarının herhangi bir kıyaslamasında, bir temel kabul edilebilir değer (herhangi bir model için tüm alanlarda 0,5'in altında Recall@10 değeri, bir sonuç değil, yanlış yapılandırmanın kırmızı bayrağıdır) bulunmalıdır.
Açık kaynaklı gömme modelleri kıyaslama metodolojisi
Üç arama alanı değerlendirildi: CUAD yasal sözleşmeleri (246 sorgu, 509 sözleşme), TechQA müşteri destek teknik notları (151 sorgu, 28000 teknik not), MedRAG-PubMed sağlık özetleri (154 sorgu, 50000 özet). Toplam 551 sorgu.
Veri seti oluşturma metodolojisi, önceki İngilizce gömme modelleri kıyaslama çalışmamızla aynıdır: Protokol-A 3-LLM konsensüs sorgusu oluşturma (dönen yazıcı havuzu, sabit puanlayıcı, deneme başına iki yazıcı olmayan doğrulayıcı), SHA-256 karma algoritmasıyla korpus sabitleme, BM25 sözcüksel kısayollarını önlemek için alan başına varlık yasaklı belirteç beyaz listeleri, doğrulayıcı çifti başına bildirilen Cohen'in κ değerlendiriciler arası uyumu, her sorgu JSON'unda zaten mevcut olan bm25_rank_at_target alanından sentezlenen BM25 temel sıralamaları (Pyserini eşdeğeri). Birincil ölçüt nDCG@3 (RAG gerçekçi, üretim RAG sistemlerinin tükettiği); ikincil ölçütler nDCG@10, Recall@10, Recall@100, MRR@10, Top-1 isabet.
Açık kaynak kodlu yazılımlara özgü özellikler:
- GPU: 1 x NVIDIA H100 80GB SXM5 (RunPod topluluk bulutu üzerinden)
- Pod şablonu:
runpod/pytorch:1.0.2-cu1281-torch280-ubuntu2404
- Kullanılan teknolojiler: PyTorch 2.10.0+cu128, vLLM 0.19.1, transformers 5.6.2, sentence-transformers 5.4.1
- Modele özel gönderim: HF model kartı birincil yolu. 12 model için ST, Nemotron-8B, KaLM-Gemma3-12B, jina-v5-text-small için vLLM.
- Model bazlı öbekleme: Her bir belirteç için
max_seq_length x 4karakterde karakter düzeyinde kırpma yapılır, ardından modelin belirteçleyicisi gerçek maksimum dizi uzunluğuna kadar kırpma işlemi gerçekleştirir.
- Asimetrik erişim: Bunu destekleyen her model, HF-card belgesinde belirtilen sorgu ve belge önekini alır. Bazı modeller için varsayılan olarak önek bulunmamaktadır.
- L2 normalizasyonu: Havuzlamadan sonra tekdüze olarak uygulanır. Bazı modeller bunu dahili olarak yapar. Tüm verilerde eşitliği sağlamak için yeniden normalizasyon yapıyoruz.
- Gömme önbellek anahtarı: önek + görev + istem adı + maksimum sıra + arka uç içerir, bu nedenle çalışma sırasında önek değişikliği eski gömmelerin sessizce yüklenmesini engeller.
- İstatistiksel protokol: Her (model, alan, ölçüt) hücresi için 10.000 bootstrap yeniden örneklemesi, yüzdelik dilim %95 güven aralığı, başlangıç değeri = 2026.
Test edilen modeller
Ortalama nDCG@3 sıralamasına göre sıralanmıştır. Arka uç sütunu: ST = sentence-transformers, vLLM = vLLM 0.19.
Bootstrap %95 güven aralığı sonuçları
Yukarıdaki tam liderlik tablosu, her (model, alan) hücresi için tek çalıştırmaya aittir. Oturumlar arası model başlatma varyansı ölçülmemiştir. Çalıştırma içi sorgu düzeyindeki varyansı yakalamak için, her (model, alan) hücresi için sorgu başına sıralama vektörünü 10.000 kez yerine koyarak yeniden örnekliyoruz (yüzdelik yöntem, tohum=2026, örneklem büyüklükleri CUAD n=246, TechQA n=151, MedRAG n=154). nDCG@3 üzerinde alan başına bootstrap %95 güven aralığı:
Güven aralıkları, verilerin hangi ters çevirmeleri desteklediğini değiştirir. CUAD'da Harrier (0.8720, [0.836, 0.906]) ve Nemotron (0.8602, [0.821, 0.897]) örtüşüyor, bu nedenle Harrier'ın CUAD'daki liderliği bu örneklem büyüklüğünde net bir şekilde ayrışmıyor. TechQA'da Nemotron (0.9515, [0.923, 0.977]) ve SFR-2 (0.9109, [0.869, 0.949]) örtüşmüyor, bu nedenle Nemotron'un TechQA'daki liderliği istatistiksel olarak ayrışıyor. MedRAG'da ilk dört (Nemotron 0.9629, SFR-2 0.9620, Harrier 0.9605, jina-v5 0.9523) birbirlerinin güven aralıkları içinde yer alıyor ve dörtlü istatistiksel bir beraberlik oluşturuyor. MedRAG'daki PubMedBERT-below-BM25 inversiyonu (0.7084 [0.641, 0.772] vs BM25 0.7862) örtüşme sınırında. Merkezi eğilim açıkça uzmanı BM25'in altına yerleştiriyor, ancak örtüşen değil de ayrı olarak çözümlenmesi için 3 çalıştırmalık çapraz oturum geçişi gerekiyor.
Sınırlamalar
(Model, etki alanı) hücresi başına tek çalıştırma. Yukarıdaki bootstrap güven aralığı tablosu, çalıştırma içi sorgu düzeyindeki varyansı (10.000 yeniden örnekleme, yüzdelik yöntem, tohum=2026) yakalar, ancak oturumlar arası model başlatma varyansı ölçülmez. 2.1 sürümü için 3 çalıştırmalı, gece yarısı geçişi planlanmaktadır. Güven aralığı tablosunun ortaya çıkardığı daha yakın ilişkiler (örneğin, en üstteki dört yönlü MedRAG ilişkisi, Harrier-Nemotron CUAD örtüşmesi, PubMedBERT-vs-BM25 marjinal ters çevirme) çoklu çalıştırmadan en çok fayda sağlayacaktır.
Model başına bağlam uzunluğu karışıklığı. 512 belirteçlik bağlam pencerelerine sahip modeller (Granite-278m-multilingual, PubMedBERT, Conan, GIST) her belgenin yalnızca ilk ~2K karakterini görür. 8K veya 32K bağlamlı modeller (Nemotron, KaLM-12B, jina-v5, Harrier, Granite r2 english) belgenin tamamını görür. Bu durum, TechQA'da (uzun teknik notlar) ve MedRAG'da (uzun özetler) uzun bağlamlı modelleri destekler.
MedRAG eğitim verisi kirlenme riski. Değerlendirilen modellerin birçoğu PubMed kaynaklı veriler üzerinde eğitilmiştir (tanım gereği PubMedBERT, muhtemelen Granite-278m-multilingual, muhtemelen Qwen3 tabanı). Bazı MedRAG nDCG@3 artışları, arama kalitesinden ziyade eğitim verisi örtüşmesini yansıtıyor olabilir.
Conan-v1 Çince dilinde eğitilmiştir. Sadece İngilizce olan alanlarda kullanılması, İngilizce arama kalitesiyle ilgili adil bir karşılaştırmadan ziyade, dil uyumsuzluğu konusunda öğretici bir veri noktasıdır. İngilizce dilinde eğitilmiş rakiplerine kıyasla düşük performans bekliyorduk ve veriler de bunu gösteriyor.
Çözüm
NVIDIA Llama-Embed-Nemotron-8B, istatistiksel olarak ayrılmış TechQA ve MedRAG kazanımlarıyla AVG nDCG@3 = 0,9249 ile lider konumda. Sınırsız lisans (MIT) altında en yüksek sıralamaya sahip açık kaynaklı seçenek, AVG 0,8911 ile Microsoft Harrier-oss-v1-0.6b'dir. Google EmbeddingGemma-300m, küçük bir doğruluk kaybı karşılığında yaklaşık 4 kat daha düşük maliyetle çalışıyor.
Daha fazla okuma
Aşağıdakiler gibi diğer RAG kıyaslamalarını inceleyin:
- RAG için En İyi 10 Çok Dilli Gömme Modeli
- Gömme Modelleri: OpenAI vs Gemini vs Voyage
- RAG için En İyi Vektör Veritabanı: Qdrant vs Weaviate vs Pinecone
- Reranker Karşılaştırması: En İyi 8 Modelin Karşılaştırılması
- Çok Modlu Gömme Modelleri: Apple vs Meta vs OpenAI
- Hibrit RAG: RAG Doğruluğunu Artırma
- Grafik RAG ile Vektör RAG karşılaştırması
Yorum yapan ilk kişi olun
E-posta adresiniz yayınlanmayacak. Tüm alanlar gereklidir.