Bize Ulaşın
Sonuç bulunamadı.

Gömme Modelleri: OpenAI vs Gemini vs Cohere

Ekrem Sarı
Ekrem Sarı
güncellendi Nis 25, 2026
Bakınız etik normlar

Herhangi bir Geri Alma Destekli Üretim (RAG) sisteminin etkinliği, geri alma işleminin doğruluğuna bağlıdır.

Yaklaşık 500.000 Amazon yorumu kullanarak, OpenAI, Gemini, Cohere, Snowflake, AWS, Mistral ve Voyage AI dahil olmak üzere 11 önde gelen metin gömme modelini karşılaştırmalı olarak değerlendirdik. Her modelin doğru cevabı ilk sırada bulma ve sıralama yeteneğini değerlendirdik.

Gömülü modellerin karşılaştırılması: Doğruluk ve fiyat

Loading Chart

Bir gömme modelinin başarısının en kritik ölçütü, tek doğru belgeyi bulma ve ilk sıraya koymadaki doğruluğudur. Bunu 'doğruluk puanımız' ile ölçtük ve her modelin fiyatlandırmasına karşı grafiğe döktük. Değerlendirme yaklaşımımızı ayrıntılı olarak anlamak için, gömme modellerinin kıyaslama metodolojimize bakın.

Dağılım grafiği, daha yüksek fiyatlı modellerin mutlaka daha iyi doğruluk sağlamadığını göstermektedir. En iyi performans gösteren modeller, doğruluk ve maliyet arasında en iyi dengeyi sunmaktadır.

  • Genel olarak en iyi doğruluk: mistral-embed en yüksek doğruluğa (%77,8) ulaşarak, orta düzeyde bir maliyetle bile olsa, veri alma doğruluğunu önceliklendiren senaryolar için ideal hale geldi.
  • Orta seviye performans: Voyage-4, rekabetçi bir fiyata (%68,6) doğruluk sunarak performans ve fiyat arasında güçlü bir denge sağlıyor (0,06$).
  • Orta maliyetli seçenekler : Snowflake (Cortex AI Fonksiyonları) snowflake-arctic-embed-l-v2.0 (%66,6) orta maliyetle iyi doğruluk performansı sunuyor.
  • Daha yüksek fiyatlı alternatif: Google'in (Vertex AI API) gemini-embedding-001'i daha yüksek bir doğruluk oranına (%71,5) ulaştı, ancak en yüksek fiyat noktasına sahip olması, maliyet hassasiyeti olan projelerde cazibesini sınırlıyor.
  • Düşük performans gösteren pahalı modeller: OpenAI'nin text-embedding-3-large ve Cohere embed-v4.0 modelleri gibi sektör lideri markalar, karşılaştırılabilir veya daha düşük fiyatlı alternatiflere kıyasla daha düşük doğruluk puanı aldı.

Puanı nasıl hesapladığımızı anlamak için doğruluk metodolojimize bakın.

Bir model, bir sorgunun genel anlamını ve alaka düzeyini anlamalıdır. "Alaka Düzeyi Puanı" (ortalama sorgu benzerliği), en çok aranan 5 belgenin kullanıcının sorgusuyla anlamsal olarak ne kadar uyumlu olduğunu ölçer.

Puanı nasıl hesapladığımızı anlamak için, uygunluk metodolojimize bakın.

  • Tutarlı liderler: Doğrulukta en iyi performans gösterenler, örneğin mistral-embed ve Google (Vertex AI API), alaka düzeyinde de lider konumdadır ve bu da sağlam ve kapsamlı bir anlamsal anlayışa işaret etmektedir.
  • “Alaka düzeyi tuzağı”: İlginç bir bulgu, bazı modellerin anlamsal olarak ilgili belgeleri bulmada başarılı olmaları, ancak mutlaka doğru olanları bulmada başarılı olmamalarıdır. Örneğin, OpenAI'nin text-embedding-3-small'sı saygın bir alaka düzeyi puanı (%48,6) elde etti, ancak en düşük doğruluk puanlarından birine (%39,2) sahipti. Bu, genel bilgi alanını tanımladığını ancak belirli cevapları belirlemede zorlandığını gösterir.

Yüksek bir alaka düzeyi puanı, üst düzey bir arama motoru için gerekli ancak yeterli bir koşul değildir. En iyi modeller hem konuyu genel olarak anlamada hem de doğru cevabı yüksek hassasiyetle belirlemede üstün başarı gösterirler.

Gömülü modeller fiyatlandırma hesaplayıcısı

Bulgularımızı kendi projeniz için pratik bir bütçeye dönüştürmenize yardımcı olmak amacıyla, veri setinizdeki token sayısına göre gömme maliyetlerini tahmin etmek için aşağıdaki etkileşimli hesap makinesini kullanın.

Not : Snowflake fiyatlandırması sürüme ve bölgeye göre değişiklik gösterir. Karşılaştırma testimiz Snowflake Standart Sürümü (milyon token başına 0,10 $) kullanılarak yapılmıştır. Diğer sürümlerin fiyatlandırması: Kurumsal (0,15 $), İşletme Kritik (0,20 $).

Gömme modelinin temel özelliklerini anlamak

Bir gömme modelinin yeteneklerini ve kaynak gereksinimlerini tanımlayan temel teknik özelliklerini anlamak çok önemlidir.

  • Gömme boyutları: Model tarafından üretilen vektör boyutu. Tablomuzda listelenen boyutlar, sağlayıcı tarafından genel kullanım için önerilen varsayılan veya optimum boyutu temsil eder. Daha yüksek boyutlar (örneğin, OpenAI'nin text-embedding-3-large'in 3072'si) daha fazla anlamsal nüans yakalar ancak önemli ölçüde daha fazla depolama ve hesaplama kaynağı gerektirir. Daha düşük boyutlar (örneğin, Google text-embedding-005'in 768'i) daha verimlidir. Sonuçlarımız, daha büyük boyutların otomatik olarak arama doğruluğunu iyileştirmediğini göstermektedir.
  • Maksimum belirteç sayısı: Tek geçişte işlenebilen maksimum metin dizisi uzunluğu. Daha büyük bir bağlam penceresi, uzun belgeleri parçalara ayırmadan yerleştirmek için avantajlıdır. Belge düzeyindeki yaklaşımımız tüm modellerin sınırları dahilinde olsa da, bu özellik büyük metin parçalarıyla ince taneli parçalara ayırma stratejileri uygularken kritik hale gelir.

Gömme modeli performans farklılıklarının ardındaki olası nedenler

1. Temel mimari yaklaşım

Temel tasarım tercihleri, ister LLM tabanlı bir kod çözücü ister BERT gibi geleneksel bir kodlayıcı olsun, modelin doğal akıl yürütme ve anlamsal yeteneklerini etkiler.

  • Mistral'in (mistral-embed) standart bir BERT kodlayıcısından ziyade kendi LLM mimarilerinden türetildiği doğrulandı.
    • Derin anlamsal kavrayış: Anahtar kelimeleri eşleştiren eski modellerin aksine, LLM mimarisi doğal olarak "talimatları takip etmeyi" anlar. Bu, sorgunun karmaşık mantığını (kısıtlamaları) ayrıştırmasına ve Amazon yorumlarının gayri resmi/gürültülü sözdizimini ele almasına olanak tanır.
  • Snowflake (Arctic-embed) , büyük veri çiftleri üzerinde ince ayar yapılmış, standart açık kaynaklı kodlayıcı temellerine dayanmaktadır.
    • Sağlam temel: Arama için optimize edilmiş geleneksel bir mimari. Bir LLM'nin derinlemesine mantığına sahip olmasa da, standart aramalar için tutarlı ve öngörülebilir performans sunar.

2. Eğitim verileri ve ince ayar stratejisi

Eğitim sırasında kullanılan özel yöntemler (örneğin, Zorlu Negatif Madencilik veya Karşılaştırmalı Öğrenme), modelin incelikleri ele alma ve benzer kavramlar arasında ayrım yapma yeteneğini doğrudan etkiler.

  • Voyage AI (voyage-4/3.5/3) , RAG konusunda uzmanlaşmış Stanford araştırmacıları tarafından geliştirilmiştir; eğitim verileri açıkça "zorlu" olumsuzlukları (A'ya karşı A değil) içermektedir.
    • Kısıtlama farkındalığı: Model, "benzer ancak yanlış" öğeleri (örneğin Doğal ve Alüminyumsuz gibi) vektör uzayında birbirinden uzaklaştırmak ve "Alaka Tuzağı"nı önlemek için matematiksel olarak ince ayarlanmıştır.
  • Cohere (embed-v4.0) , farklı çiftler arasındaki mesafeyi maksimize etmede uzmanlaşmıştır; genellikle bir Yeniden Sıralayıcı ile birlikte çalışacak şekilde tasarlanmıştır.
    • Kayma/odaklanma: Karşılaştırmalı modeller genellikle gürültüyü gidermek için ikinci bir "Yeniden Sıralama" adımına ihtiyaç duyar. Tek başına (tek geçişli), yeni LLM tabanlı gömme yöntemlerine kıyasla "gürültülü" inceleme sözdizimini resmi sorgu sözdizimine eşleştirmekte zorlanır.

3. Vektör gösterim stratejisi

OpenAI'nin esnek vektör temsilleri oluşturma yaklaşımı, vektör uzunluğu esnekliği ile anlamsal ayrıntı korunumu arasında bir denge kurmayı gerektiriyor.

  • OpenAI (text-embedding-3) , Matryoshka gösterim öğrenimi olarak da bilinir, vektör kırpılmasına izin verir ve genel bilgileri öne yükler.
    • Sıkıştırma ödünleşmesi: Matruşka öğrenmesi, vektörün esnek olmasını sağlamak için modeli "nüansları" sıkıştırmaya zorlar. Genel konuyu (alaka düzeyini) etkili bir şekilde yakalar, ancak katı kısıtlamalar için gerekli olan özel ayrıntıları (doğruluk) kaybeder ve bu da düşük performanslı bir sınıflandırmaya yol açar.

Gömme modellerinin kıyaslama metodolojisi

Kıyaslama testimiz, RAG için gömme modeli performansının adil, şeffaf ve tekrarlanabilir bir değerlendirmesini sağlar.

Test kurulumu ve veri kümesi

  • Bilgi veri kümesi: Bilgi tabanı olarak Amazon yorum veri kümesinden alınan 494.094 gerçek dünya kullanıcı yorumundan oluşan bir veri kümesi kullandık. 1
  • Vektör veritabanı : Tüm vektör koleksiyonlarını barındırmak için Qdrant'ı kullandık ve bu koleksiyonlar özellikle kosinüs benzerliği araması için yapılandırıldı.
  • Test soruları: Harici bir Amazon Soru-Cevap veri setinden elle derlediğimiz 100 zorlu, gerçek dünya sorusundan oluşan bir set oluşturduk. 2 Bu sorular, gelişmiş mantıksal düşünmeyi test etmek amacıyla seçilmiştir ve her birinin, temel gerçeklik olarak hizmet edecek şekilde kullanıcı tarafından oylanan bir "en iyi cevabı" bulunmaktadır. Bu sorguların doğasını göstermek için, test seti aşağıdaki gibi karmaşık, çok kısıtlamalı soruları içermiştir:
    • “Alüminyum ve parabene güvenli bir alternatif içeren, A&H markasına ait doğal bir ter önleyici var mı?”
    • Bu tür sorgular özellikle zordur çünkü modelin aynı anda birden fazla kısıtlamayı (Marka: A&H; Özellik: doğal; Olumsuz Kısıtlama : Alüminyum/Paraben içermez) ve "alternatif" bulma soyut kavramını anlamasını gerektirir.

Temel değerlendirme prensipleri

  • İzole koleksiyonlar ve yerel boyutlar: Her model için, tüm veri kümesini özel, izole bir koleksiyona yerleştirdik. MTEB gibi standart kıyaslamalarla uyumlu olarak, her modeli yerel, en uygun yerleştirme boyutlarını kullanarak değerlendirdik. 3
  • Veri alma hassasiyeti: Bu karşılaştırmayı belge düzeyinde gerçekleştirdik. Her kullanıcı yorumunu tek bir belge olarak ele aldık ve tek bir vektöre dönüştürdük. Ayrıntılı öbekleme uygulanmadı.
  • Sıfır atışlı değerlendirme: Test, "sıfır atışlı" bir çerçevede gerçekleştirildi. Bu, modellerin orijinal eğitimleri sırasında görmedikleri özel bir veri kümesi üzerinde değerlendirildiği anlamına gelir. Belirli veri kümemiz veya sorgularımız üzerinde herhangi bir model için ince ayar yapmadık veya eğitim uygulamadık .

Değerlendirme ölçütleri: İki aşamalı bir yaklaşım

Geniş anlamsal alaka düzeyi ile kesin arama doğruluğu arasında ayrım yapmak için iki aşamalı bir değerlendirme kullandık. Her iki ölçütün de temelinde, gömme uzayındaki iki vektör arasındaki benzerliği ölçmek için standart bir yöntem olan kosinüs benzerliği yer almaktadır.

Ölçüt 1: Alaka düzeyi (“Ortalama sorgu benzerliği” puanı)

Bu ölçüt şu soruyu yanıtlar: "Model, sorgunun genel konusunu anlıyor mu?" Kullanıcının sorgusuna ilişkin olarak, en çok aranan 5 belgenin geniş anlamsal alaka düzeyini ölçer.

Hesaplama: Her sorgu için aşağıdaki adımlar izlendi:

  1. Sorgu metni, test edilen model kullanılarak bir vektöre dönüştürüldü.
  2. En çok okunan 5 belgeyi bulmak için bir arama yapıldı.
  3. Bu iki sonuç vektörü arasındaki kosinüs benzerliğini hesapladık.
  4. Sorgunun nihai puanı, bu beş benzerlik değerinin ortalamasıdır.

Ölçüt 2: Doğruluk ("Gerçek değer benzerliği" puanı)

Bu, birincil ve en kritik ölçütümüzdür. Şu soruyu yanıtlar: "Model, en iyi tek cevabı bulup kullanıcıya ilk olarak sunabilir mi?"

Hesaplama: Her sorgu için hassas bir karşılaştırma yaptık:

  1. Arama motoru tarafından döndürülen en yüksek puanlı belge belirlendi.
  2. Önceden tanımlanmış "gerçek değer" yanıt metni de belirlendi.
  3. Daha da önemlisi, hem 1. sıradaki belge metni hem de gerçek yanıt metni, değerlendirilen aynı model kullanılarak vektörlere dönüştürüldü.
  4. Daha sonra bu iki sonuç vektörü arasında kosinüs benzerliği hesaplandı. 2 ile 5 arasında sıralanan belgelerin benzerliği açıkça göz ardı edildi.

Bu ölçütte yüksek bir puan, bir modelin doğruluğunu ve anlamsal olarak benzer belgeler havuzundan en yararlı bilgiyi ayırt etme yeteneğini doğrudan ölçer.

Ölçüm çerçevesi: Kosinüs benzerliği

Değerlendirmemizde, iki vektör arasındaki benzerliği ölçmek için sağlam bir ölçüt olan kosinüs benzerliğini kullanıyoruz.

Bu ölçüt, vektörler arasındaki fiziksel mesafeyi ölçmek yerine, aralarındaki açının kosinüsünü hesaplar. Özünde, vektörlerin aynı yöne işaret edip etmediğini ölçer ve büyüklüğü değil, yalnızca yönü ölçer. Elde edilen puan 1 ile -1 arasında değişir:

  • 1: Vektörler yönelim bakımından özdeştir (maksimum anlamsal benzerlik).
  • 0: Vektörler ortogonaldir, bu da aralarında anlamsal bir ilişki olmadığını gösterir.
  • -1: Vektörler zıt yönlere işaret eder (zıt anlamda).

Gömme kıyaslama testimiz için bu, alınan bir belgenin bir kullanıcının sorgusuna veya gerçek bir cevaba ne kadar anlamsal olarak benzer olduğunu güvenilir bir şekilde ölçmemizi sağlar. İki temel ölçütümüzü oluşturmak için bu temel hesaplamayı kullandık.

Gömülü modellerin kıyaslama testindeki sınırlamalar

Bu kıyaslama ölçütü objektif olacak şekilde tasarlanmış olsa da, kapsamının ve sınırlamalarının dikkate alınması önemlidir. Sonuçları yorumlarken şu faktörler göz önünde bulundurulmalıdır:

  • Alan özgüllüğü: Sonuçlar, kullanılan Amazon yorum veri setine oldukça özgüdür. Bu modellerin performans hiyerarşisi, yasal metinler, akademik makaleler veya yazılım kodu gibi farklı dilsel özelliklere sahip diğer alanlara uygulandığında değişebilir. Gayri resmi, görüşe dayalı yorum metinlerini anlamada üstün olan bir model, derin teknik veya resmi dil anlayışı gerektiren bir veri kümesi için en uygun seçim olmayabilir.
  • Belge düzeyinde ayrıntı düzeyi: Metodolojimiz, her tam incelemeyi tek bir vektör olarak ele alarak modelleri "belge düzeyinde" bir ayrıntı düzeyinde değerlendirdi. Bu yaklaşım, bir modelin bir belgenin genel bağlamını anlama yeteneğini test eder. Bununla birlikte, belgeleri daha küçük parçalara (örneğin, paragraflar veya cümleler) bölmeyi gerektiren "ince taneli" arama görevlerindeki performansı ölçmez. Bir modelin performansı, farklı bir parçalama stratejisiyle farklılık gösterebilir.

Daha fazla okuma

Aşağıdakiler gibi diğer RAG kıyaslamalarını inceleyin:

Çözüm

Değerlendirmemize göre, mistral-embed en yüksek doğruluğa (%77,8) ulaşarak, orta düzeyde bir maliyetle bile olsa, arama hassasiyetinin çok önemli olduğu senaryolar için en iyi seçenek haline gelmiştir.

Maliyet bilincine sahip uygulamalar için, voyage-3.5-lite, mükemmel doğruluk-maliyet dengesi ve sağlam performansı (%66,1) en düşük fiyat noktalarından birinde sunarak üretim RAG sistemleri için en uygun seçenek olarak öne çıkıyor.

Google'in (Vertex AI API) gemini-embedding-001'i, yüksek doğruluk gerektiren ve yüksek fiyatlandırmanın kabul edilebilir olduğu uygulamalar için uygun, %71,5 doğruluk oranına sahip başka bir seçenek sunmaktadır.

Snowflake ekosistemi içindeki kuruluşlar için Snowflake (Cortex AI Functions) snowflake-arctic-embed-l-v2.0, orta düzeyde bir maliyetle rekabetçi doğruluk (%66,6) sunmaktadır.

Gömme modeli seçimiyle ilgili temel bulgular:

  • Daha büyük boyutlar daha iyi performansı garanti etmez.
  • Yüksek fiyatlandırma, üstün doğrulukla doğrudan ilişkili değildir.
  • Alan özelinde kıyaslama, gömme modeli seçimi için şarttır.

SSS'ler

Gömme modelleri, metni makinelerin anlayabileceği bir biçime çevirmenin bir yolunu sunar. Yapılandırılmamış metni alırlar ve gömme vektörleri oluşturmak için bir sinir ağı kullanırlar. Çıktı, orijinal metnin anlamının sayısal bir temsili olarak hizmet eden bir sayı vektörüdür. Bu vektör, metni, benzer anlamlara sahip metinlerin birbirine yakın konumlandırıldığı, gömme uzayı adı verilen yüksek boyutlu bir matematiksel kavram içinde bir nokta olarak yerleştirir.

Bu, doğal dil işlemede (NLP) önemli bir ayrımdır. Geleneksel kelime gömme yöntemleri, bir kelime için tek bir vektör oluşturur ve bağlamı yakalayamaz. Bu testte kullanılan modellerin kullandığı modern cümle gömme yöntemleri daha gelişmiştir. Bir kelimenin anlamının çevredeki metne göre değiştiğini anlayarak, tüm cümleler için bağlamlandırılmış vektörler oluştururlar. Bu, çok daha incelikli anlamsal ilişkileri yakalamalarına olanak tanır.

Önceden eğitilmiş modeller, çok miktarda genel metin verisi üzerinde eğitilmiş bir tür makine öğrenimi modelidir. Karşılaştırma testimizdeki tüm yüksek kaliteli gömme modelleri önceden eğitilmiştir. Bu ilk eğitim, onlara dil ve anlamsal ilişkiler hakkında temel bir anlayış kazandırır. Testimiz daha sonra, bu önceden eğitilmiş bilginin, ek, özel eğitim verilerine ihtiyaç duymadan, belirli alanımızın karmaşık verilerini ne kadar etkili bir şekilde işlediğini ölçer.

Karşılaştırma çalışmamız doğal dil işlemeye odaklanmış olsa da, aynı prensipler diğer veri türleri için de geçerlidir. Özel makine öğrenimi modelleri, farklı karmaşık veri biçimlerini işlemek üzere tasarlanmıştır. Örneğin, görüntü gömme modelleri, görsel özellikleri yakalamak için evrimsel sinir ağları kullanılarak oluşturulurken, grafik gömme modelleri ağ verilerindeki düğümlerin ve bağlantılarının sayısal temsillerini oluşturmak için kullanılır. Bu esneklik, gömme teknolojisini çok çeşitli yapay zeka sistemleri için bu kadar güçlü kılan şeydir.

Gömülü vektörlerin kalitesi, kıyaslama testinin doğruluğunu önemli ölçüde etkiler. Yüksek kaliteli gömülü vektörler oluşturmaya katkıda bulunan çeşitli faktörler vardır: Model Mimarisi: Transformer gibi güçlü bir makine öğrenimi modeli kullanmak çok önemlidir.
Veri Kalitesi: Modelin performansı büyük ölçüde orijinal eğitim verilerinin kalitesine ve işlediği girdi verilerinin temizliğine bağlıdır.
Metodoloji: Karmaşık veriler üzerinde "sıfır atış" çerçevesini kullanmamız, modelin sağlam ve genellenebilir gömülü temsiller oluşturma yeteneğini gerçekten test etmemizi sağlar.

Gömme alanı, bir model tarafından üretilen tüm sayısal temsillerin (vektörlerin) bulunduğu kavramsal, çok boyutlu alandır. Bu alanda, vektörler arasındaki mesafe ve yön, anlamsal ilişkilerine karşılık gelir. Bir arama gerçekleştirdiğinizde, sorgu bir vektöre dönüştürülür ve aynı gömme alanına yerleştirilir. Arama algoritmasının görevi, anlamsal olarak en benzer belgeleri temsil eden en yakın komşu vektörleri bulmaktır; bu da modern yapay zeka sistemlerinin doğal dili işleme biçiminin temel taşlarından biridir.

Ekrem Sarı
Ekrem Sarı
Yapay Zeka Araştırmacısı
Ekrem, AIMultiple'da yapay zeka araştırmacısı olarak çalışmakta olup, akıllı otomasyon, GPU'lar, yapay zeka ajanları ve RAG çerçeveleri üzerine yoğunlaşmaktadır.
Tam Profili Görüntüle

Yorum yapan ilk kişi olun

E-posta adresiniz yayınlanmayacak. Tüm alanlar gereklidir.

0/450