6 dilde (Almanca, İngilizce, İspanyolca, Fransızca, Japonca, Çince) yaklaşık 606 bin Amazon yorumu üzerinde 10 çok dilli gömme modelini karşılaştırmalı olarak test ettik. Her biri kaynak yorumundan somut ayrıntılara atıfta bulunan 1.800 sorgu (dil başına 300) oluşturduk.
Arama (sorgu ve belge ayrımı) için eğitilmiş modeller, genel metin benzerliği için eğitilmiş daha büyük modellerden daha iyi performans gösteriyor: e5_base (110 milyon parametre), 5 ila 70 kat daha fazla parametreye sahip modellerden daha iyi performans gösterirken, yaygın olarak alıntı yapılan çok dilli bir model olan LaBSE (471 milyon parametre) sondan ikinci sırada yer alıyor.
Çok dilli bilgi alma doğruluğu
Top-1, doğru yorumun ilk sonuç olarak mı göründüğünü ölçer; Top-10 ise ilk on sonuç arasında herhangi bir yerde mi göründüğünü ölçer.
En yüksek doğruluk oranı
En yüksek 3 doğruluk
En yüksek 5 doğruluk
En yüksek 10 doğruluk
Metriklerin açıklaması
- En iyi K doğruluk oranı: Doğru belgenin (product_id ile tam eşleşme) ilk K sonuç arasında görünüp görünmediği. "Model, yaklaşık 130.000 Almanca yorum arasında Almanca bir soru sorulduğunda doğru Almanca yorumu bulabilir mi?"
- Top-1/3/5/10: K değerleri test edildi. Top-1 en katı olanıdır (doğru belge ilk sonuç olmalıdır), Top-10 ise en esnek olanıdır.
Değerlendirme yöntemimizi ve ölçütlerimizi ayrıntılı olarak anlamak için, çok dilli gömme modelleri için değerlendirme kurulumumuza ve kıyaslama metodolojimize bakın.
Veri kümesi : ~606 bin inceleme (min_review_length≥100 karakter; ZH: ~17,7 bin, DE/EN/ES/FR/JA: her biri ~120–145 bin), kosinüs benzerliği yedeklemesi yok, yalnızca product_id tam eşleşmesi. NVIDIA H100 PCIe 80GB üzerinde değerlendirildi.
Gecikme ve verim
Gecikme süresi, bir modelin üretim için uygun olup olmadığını belirler. 15 ms'nin altında gecikme süresine sahip modeller gerçek zamanlı aramayı destekleyebilir; 25 ms'nin üzerinde ise toplu işleme veya önbellekleme gereklidir.
Temel bulgular
1. e5_base tüm dillerde lider konumda.
e5_base, 6 dilde %16,5'lik bir Top-1 ortalamasıyla bir sonraki modelden (e5_small) 3,8 puan daha iyi performans gösteriyor. Asimetrik sorgu/paragraf önek eğitimi, aynı dildeki anlamsal olarak benzer yorumlar arasında iyi ayrım yapabilen hassas gömülü vektörler üretiyor.
2. LLM tabanlı modeller boyutlarına rağmen rekabetçidir.
qwen3_emb_06b (600 milyon parametre) ve llama_embed_nemotron_8b (8 milyar parametre) modellerinin her ikisi de %10'un üzerinde tek dilli doğruluk oranına ulaşıyor. Çok dilli ön eğitimleri, arama ince ayarının tamamen silemeyeceği temsiller oluşturuyor ve parametre sayılarının çok daha azına sahip modellerle rekabet edebiliyor. Nemotron, ilk 10'da %25,8'lik bir doğruluk oranına ulaşarak genel olarak üçüncü en iyi sonucu elde ediyor.
3. nomic_embed_v1_5, Çin-Japon-Kore dillerinde başarısız oluyor.
Nomic, Çince'de %0, Japonca'da ise yalnızca %4 doğruluk oranına ulaşarak, tüm dillerde tamamen başarısız olan tek modeldir. İngilizce merkezli eğitimi ve arama sorgusu/arama belgesi önek asimetrisi, İngilizce (%17 En İyi 1) ve Almanca (%9) dillerinde iyi performans göstermesine rağmen, Avrupa dışı dillerde ciddi kapsama boşlukları yaratmaktadır.
4. LaBSE, sahip olduğu itibara rağmen veri alma konusunda başarısız oluyor.
LaBSE, özellikle çok dilli anlamsal benzerlik için tasarlanmıştır ve literatürde yaygın olarak alıntılanmaktadır. Bu kıyaslamada sondan ikinci sırada yer almaktadır (%4,8 Top-1). Çeviri çiftleri ve doğal dil çıkarımı üzerindeki eğitimi, arama için gerekli olan ayırt edici hassasiyeti oluşturamamıştır: aynı dildeki yüzlerce anlamsal olarak benzer ürün arasından tam olarak kaynak incelemeyi ayırt edememiştir.
5. İlk 10'da yer alan ölçeklendirme tüm modellere, özellikle de daha güçlü olanlara fayda sağlar.
Birinci sıradan on sıraya geçmek, genel olarak hatırlama oranını ikiye katlıyor. Nemotron, birinci sırada 3. sırada yer almasına rağmen (%12,0), en iyi ilk 10 tek dilli ortalamayı (%25,8) gösteriyor; bu da 4096 boyutlu uzayının daha büyük K değerlerinde iyi bir en yakın komşu yapısına sahip olduğunu gösteriyor.
6. İspanyolca ve Fransızca sürekli olarak düşük performans gösteriyor.
Tüm modellerde, ES ve FR, DE, EN, JA ve ZH'den sürekli olarak daha düşük sıralarda yer almaktadır. Bu durum, açıkça çok dilli eğitim içeren modellerde bile geçerlidir ve bu da ön eğitim veri kümelerinde daha düşük temsil oranına veya ürün değerlendirmeleri için alan uyumsuzluğuna işaret etmektedir.
Çok dilli gömme işlemleri nasıl çalışır?
Bir gömme modeli, metni, belirli kelimelerden ziyade metnin anlamını yakalayan yüksek boyutlu bir vektöre (örneğin, 384 veya 768 rakam) dönüştürür. Anlam bakımından benzer iki metnin, dilden bağımsız olarak, bu uzayda vektörleri birbirine yakın olmalıdır.
Çok dilli bir gömme modeli, aynı vektör uzayında birden fazla dili ele alır. Arama için kullanıldığında, modelin aynı dildeki ve genellikle benzer ürün ve konuları tartışan on binlerce inceleme arasından doğru belgeyi bulması gerekir. Buradaki zorluk, ayırt edici hassasiyettir: aynı kategorideki yüzlerce anlamsal olarak benzer inceleme arasından tam olarak doğru kaynak incelemeyi ayırt etmek.
Çok dilli değerlendirme kurulumu
Qdrant'ta yaklaşık 606 bin ürün yorumu indekslenmiştir (yalnızca 100 karakterden uzun yorumlar; ZH: ~17.7 bin, diğer diller: her biri ~120-145 bin). Aynı uzunluk eşiğini karşılayan yorumlardan LLM tarafından yerel olarak 1.800 sorgu (dil başına 300) oluşturulur. Her sorgu, kaynak yorumundan somut ayrıntılara (ölçümler, miktarlar, marka adları, zaman çizelgeleri) atıfta bulunmalıdır; genel sorular, özgüllük puanı aracılığıyla filtrelenir. X dilindeki bir sorgu verildiğinde, görev aynı dildeki yorumlar arasında kaynak yorumu bulmaktır. Qdrant sonuçları dile göre filtreler. Doğruluk, kosinüs benzerliği yedeklemesi olmadan Top-1/3/5/10'da product_id tam eşleşmesi ile ölçülür.
Karşılaştırma testinden örnek sorgular:
Almanca (elektronik, GÖRÜŞ):
Fransızca (eczane, KULLANIM):
İspanyolca (endüstriyel_malzemeler, GERÇEK):
Model, her sorguyu product_id'ye göre tam olarak kaynak incelemesiyle eşleştirmelidir. Bir anten kablosundan kaynaklanan WiFi sinyal kaybıyla ilgili bir sorgu, bağlantı sorunlarını tartışan binlerce elektronik ürün incelemesiyle anlamsal olarak eşleşebilir; ancak bunlardan yalnızca biri, bu özel kabloyu taktıktan sonra sinyalin %60'tan %20'ye düştüğünü açıklamaktadır.
Teknik analiz ve öneriler
Simetrik ve asimetrik modeller
Eğitim hedefi, hatırlama performansını büyük ölçüde belirler:
Asimetrik modellerin en iyi performansı göstermesinin nedeni: Sorgu/paragraf öneki, modeli sorguları ve belgeleri uzayın sistematik olarak farklı bölgelerine yerleştirmek üzere eğitir ve böylece aramaya özgü bir geometri oluşturur. Bu, anlamsal olarak benzer ancak farklı belgeleri ayıran daha ayırt edici gömülü temsiller üretir. e5_base bunu 110 milyon parametrede başarır çünkü arama doğruluğunu model kapasitesi değil, eğitim hedefi belirler.
LLM tabanlı modellerin rekabetçi olmasının nedenleri: Çok dilli ön eğitim, model ağırlıklarında zengin bir anlamsal yapı oluşturur. Arama ince ayarı, bu derin dil anlayışının üzerine göreve özgü hizalama ekleyerek rekabetçi bir performans sağlar. Dezavantajı ise gecikme süresidir: Nemotron'un 4096 boyutlu vektörleri sorgu başına 25 ms'ye mal olurken, e5_base için bu süre 11 ms'dir.
LaBSE'nin ününe rağmen başarısız olmasının nedeni: LaBSE, diller arası cümle düzeyindeki anlamı birbirine yaklaştırmak için çeviri çiftleri üzerinde eğitilmiştir; bu bir benzerlik görevidir. Arama ise temelde farklıdır: aynı dildeki yüzlerce anlamsal olarak benzer ürün arasından tam olarak aynı kaynak incelemesini ayırt etmeyi gerektirir. Benzerlik eğitimi, kaba taneli anlamsal yakınlığı optimize eder; arama ise neredeyse aynı olan kopyalar arasında ince taneli ayrım gerektirir.
Hangi modeli kullanmalısınız?
En iyi doğruluk: e5_base (%16,5 Top-1, 11 ms gecikme). Dil filtresiyle birlikte kullanın.
En iyi gecikme/doğruluk dengesi: e5_small (%12,7 Top-1, 9,7 ms), daha iyi doğrulukla minilm kadar hızlı.
En iyi ilk 10 geri çağırma oranı: 25 ms gecikme süresini ve 4096 boyutlu vektörler için GPU belleğini karşılayabiliyorsanız nemotron (%25,8 İlk 10).
Gecikmeye duyarlı üretim sistemleri için: ~10ms'de e5_small veya minilm. e5_small açık ara tercih ediliyor (%12,7'ye karşı %3,8).
Sorgu ve belge dillerinin eşleştiğini bildiğiniz durumlarda her zaman dil filtresi kullanın. Tüm modeller, dil filtreli arama ile önemli doğruluk artışları göstermektedir.
Çok dilli gömme modelleri metodolojisi
- GPU: NVIDIA H100 PCIe 80GB via Runpod
- Vektör veritabanı: Qdrant 1.12.0 (yerel ikili dosya)
- Gömme kütüphanesi: sentence-transformers 5.2.2
- Sorgu oluşturma: Claude Sonnet 4.6, OpenRouter aracılığıyla. Her soru, kaynak incelemesinden belirli ayrıntılara atıfta bulunmalıdır; genel sorular (özgüllük puanı < 4/5) filtrelenir.
- Veri kümesi: Amazon Yorumları (Kaggle) 1 , train.csv. ~606 bin inceleme indekslendi (en az 100 karakter; ZH: ~17,7 bin, diğerleri: her biri ~120-145 bin). 6 dil: DE, EN, ES, FR, JA, ZH.
- Sorgular: Toplam 1.800 (dil başına 300, 5 soru türü, her dilde yerel olarak oluşturulmuş).
- Belge formatı:
"Review Title: {title}\nReview: {body}" - Gerçek sonuç: yalnızca product_id ile tam eşleşme. Kosinüs benzerliği yedekleme yöntemi yok.
- Arama: Kosinüs mesafesi ile Qdrant vektör araması. En iyi K = 10. Tek dilli değerlendirme için dil filtresi uygulandı.
- Gömme: L2 normalizasyonu. Uygulanabilir yerlerde asimetrik önekler:
"query: "/"passage: "(e5),"search_query: "/"search_document: "(nomic). - İnce ayar yapılmadı: Tüm modeller varsayılan ağırlıklarla sıfır atış yöntemiyle değerlendirildi.
- Gecikme süresi: Yalnızca gömme çıkarımı (tek sorgu). Vektör arama süresini içermez.
Değerlendirilen Modeller
Puanlar neden BEIR/MTEB'den daha düşük?
Bu kıyaslamada elde edilen mutlak doğruluk rakamları, BEIR veya MTEB'de bildirilen puanlarla doğrudan karşılaştırılmamalıdır. İki kıyaslama, yapısal olarak çeşitli yönlerden farklılık gösterir:
Tam eşleşme ölçütü, en büyük yapısal farkı oluşturmaktadır. Her sorgu, kaynak incelemesinden somut ayrıntılara atıfta bulunur (örneğin, "3D yazıcının SD karttan kedi dosyasını yazdırması kaç saat sürdü?"), bu nedenle her sorgunun açık ve benzersiz bir hedefi vardır, ancak ölçüt, farklı bir üründen gelen anlamsal olarak alakalı bir inceleme için yine de sıfır puan verir. nDCG gibi kısmi puanlama ölçütleri, aynı arama sonuçlarında daha yüksek sayılar verecektir. Bu kıyaslamada önemli olan , modeller arasındaki mutlak sayılar değil, göreceli sıralamadır .
Sınırlamalar
- Soru tipleri gerçek kullanıcı sorgularını yansıtmayabilir. LLM tarafından oluşturulan sorular genellikle iyi biçimlendirilmiş ve spesifiktir. Gerçek kullanıcılar ise genellikle parçalı veya belirsiz sorgular yazarlar.
- Sadece yoğun arama yöntemleri test edilmiştir. Seyrek yöntemler (BM25), hibrit arama ve yeniden sıralama süreçleri değerlendirilmemiştir. Bunlar modeller arasındaki sıralamayı önemli ölçüde değiştirebilir.
- Dil başına 300 sorgu, orta düzeyde bir örneklem anlamına gelir. Dil bazındaki sonuçların güven aralıkları oldukça dardır, ancak tablonun ortasına yakın sıralamalar yine de ihtiyatlı bir şekilde yorumlanmalıdır.
- Veri alma işleminin ötesinde gömme kalitesine dair herhangi bir değerlendirme yapılmamıştır. Kümeleme kalitesi, anlamsal benzerlik doğruluğu ve diğer sonraki aşama görevleri ölçülmemiştir.
Çözüm
Arama için eğitilmiş modeller (ayrı sorgu ve belge gömme vektörleriyle), boyutlarından bağımsız olarak, genel metin benzerliği için eğitilmiş modellere göre sürekli olarak daha iyi performans göstermektedir. e5_base (110 milyon parametre), 5 ila 70 kat daha büyük modellerden daha iyi performans sergilemektedir. Çok dilli görevler için yaygın olarak kullanılan LaBSE (471 milyon parametre), benzerlik eğitiminin, arama için gerekli olan ince taneli ayrımı oluşturmaması nedeniyle sondan ikinci sırada yer almaktadır.
LLM tabanlı modeller (600 milyon parametreli qwen3, 8 milyar parametreli nemotron) derin çok dilli ön eğitim sayesinde rekabetçi doğruluk oranlarına ulaşmaktadır, ancak bunun bedelini gecikme süresiyle öderler: nemotron sorgu başına 25 ms sürerken, e5_base 11 ms sürer ve Top-10 geri çağırma oranı yalnızca biraz daha iyidir. Çoğu üretim sistemi için, daha küçük arama tabanlı eğitim modelleri daha iyi bir denge sunar.
Çok dilli RAG sistemleri geliştiren uygulayıcılar için, dil filtresine sahip e5_base açık ara en iyi seçenektir (%16,5 Top-1, 11 ms gecikme ve ikinci sıradakine göre 3,8 puanlık fark).
Daha fazla okuma
Aşağıdakiler gibi diğer RAG kıyaslamalarını inceleyin:
- Gömme Modelleri: OpenAI vs Gemini vs Cohere
- RAG için En İyi 16 Açık Kaynaklı Gömme Modeli
- RAG için En İyi Vektör Veritabanı: Qdrant vs Weaviate vs Pinecone
- Agentic RAG kıyaslama testi: Çoklu veritabanı yönlendirme ve sorgu oluşturma
- Çok Modlu Gömme Modelleri: Apple vs Meta vs OpenAI
- Hibrit RAG: RAG Doğruluğunu Artırma
Yorum yapan ilk kişi olun
E-posta adresiniz yayınlanmayacak. Tüm alanlar gereklidir.