Çok Modlu Gömme Modelleri: Apple vs Meta vs OpenAI

ile

güncellendi May 20, 2026

Çok modlu gömme modelleri nesneleri tanımlamada başarılıdır ancak ilişkiler konusunda zorlanırlar. Mevcut modeller "haritada telefon" ile "telefonda harita"yı ayırt etmekte güçlük çekmektedir. Bu özel sınırlamayı ölçmek için MS-COCO ve Winoground veritabanlarında 7 önde gelen modeli karşılaştırmalı olarak test ettik.

Adil bir karşılaştırma sağlamak için, her modeli NVIDIA A40 donanımı ve bfloat16 hassasiyeti kullanarak aynı koşullar altında değerlendirdik. Bu belirleyici kurulum, hangi modellerin sahne yapısını gerçekten anladığını ve hangilerinin sadece gelişmiş anahtar kelime eşleştiricileri olduğunu ortaya koymaktadır.

Çok modlu gömme modellerinin karşılaştırmalı test sonuçları

Loading Chart

Metriklerin açıklaması

T2I R@1 (Metinden Görüntüye Geri Çağırma@1): Verilen bir başlık karşısında, model 5.000 aday arasından doğru görüntüyü birinci sıraya yerleştirebilir mi? Bu, en zor geri çağırma ölçütüdür çünkü ikinci sıraya yerleşmek için kısmi bir puanlama yoktur.
I2T R@1 (Görüntüden Metne Geri Çağırma@1): Verilen bir görüntü için, model 25.000 doğru cevap arasından beş doğru açıklama metninden herhangi birini birinci sıraya koyabilir mi? Puanlar, T2I'ye göre yaklaşık 20 puan daha yüksektir çünkü tek bir geçerli cevap yerine beş geçerli cevap vardır.
Winoground görseli: Yapısal olarak farklılık gösteren iki görsel ve iki alt yazı ("harita üzerinde telefon" ve "telefon üzerinde harita") verildiğinde, model her iki çifti de doğru şekilde eşleştirebilir mi? Rastgele şans %25'tir.

Temel bulgular

Apple DFN5B-H, en yüksek arama doğruluğunu (%50,1 T2I R@1) ve en yüksek kompozisyonel muhakeme puanını (%35,2 Winoground'da) elde etmektedir.
Bütün modellerde bileşimsel akıl yürütme yetersiz kalıyor. Apple'ın %35,2'lik performansı bile %25'lik rastgele temel çizgiyi zar zor geçiyor.
OpenAI CLIP, benzer bir mimariye sahip olmasına rağmen modern modellere göre %10 ila %16 puan geride kalarak yaşını belli ediyor .

Not: Protokol hatası nedeniyle I2T puanları T2I'den yaklaşık 20 puan daha yüksektir. Her görüntünün beş geçerli açıklaması vardır, ancak her açıklama yalnızca bir geçerli görüntüye karşılık gelir. Ayrıntılar için metodoloji bölümüne bakın.

Çok modlu gömme modelleri nasıl çalışır?

Karşılaştırma testlerinin ayrıntılarına geçmeden önce, bu modellerin aslında ne işe yaradığını ve nerede yetersiz kaldığını anlamak çok önemlidir.

Çekirdek mekanizma

Çok modlu bir gömme modeli, hem görüntüleri hem de metni, aynı geometrik alanı kaplayan sayı listeleri olan sayısal vektörlere dönüştürür. Benzer kavramlar bir araya kümelenirken, farklı kavramlar birbirinden daha uzakta yer alır.

Arama yapmak için, hangi görüntü vektörünün metin vektörünüze en yakın olduğunu hesaplarsınız. Gömme tabanlı aramanın hızlı olmasının nedeni budur: insan anlamında anlamı "anlamak" yerine sayıları karşılaştırıyorsunuz.

Arızanın meydana geldiği yer

Kompozisyon açısından farklı altyazılarla neler olduğunu izleyin:

Vektörler neredeyse özdeş. Her iki başlık da aynı kavramları içeriyor: {telefon, harita, açık}. Model, mevcut olanı kodluyor ancak nesnelerin birbirleriyle nasıl ilişkili olduğunu kaybediyor.

Bu , kelime torbası problemidir . Model aynı "bileşenleri" görüyor ve sahneler tamamen farklı olsa bile benzer gömülü temsiller üretiyor. Birinde telefon üstte, diğerinde harita. Kodlama sırasında ilişkisel yapı ortadan kayboluyor.

Değerlendirme görevleri: Bilgi edinme ve akıl yürütme

MS-COCO: Samanlıkta iğne bulmak

Kurulum:
5.000 görselden oluşan bir galeri, yüzlerce dış mekan sahnesi, düzinelerce araç ve çok sayıda depolama alanı ve yapı da dahil olmak üzere benzer içerik kümeleri içeriyor. Her görselin farklı yorumcular tarafından yazılmış beş farklı açıklaması bulunuyor ve toplamda 25.000 açıklama mevcut.

Sorgu: "Bir motosiklet, diğer eşyalarla birlikte ahşap bir yapının altına park edilmiş halde."

Görüntü:

Aynı görüntü şu şekilde de tanımlanabilir:

"Siyah bir motosiklet, dışarıda bir saçak altında duruyor."
“Motosiklet, çitlerle çevrili avludaki kapalı alana park edilmiş durumda.”

Her bir altyazı ayrı ayrı test edilir ve model, altyazının nasıl ifade edildiğine bakılmaksızın doğru görüntüyü bulmalıdır.

Görev:
5.000 aday arasından tam olarak bu sahneye uyan tek bir görsel bulun. Herhangi bir motosiklet veya ahşap yapı değil, tam olarak bu sahne.

Ölçüt: Geri Çağırma@1
İkili ve acımasız. Doğru görsel 1. sırada ise = İsabet. 2. sırada ise = İsabet değil. Kısmi puan yok.

Winoground: Kimin kime ne yaptığını anlamak

Kurulum:
400 adet karşıt çift. Her çift, yalnızca kompozisyon yapısı bakımından farklılık gösteren 2 resim ve 2 alt yazıdan oluşmaktadır.

Soru:

Resim alt yazısı A: "Haritada bir telefon var"
Altyazı B: " Telefonda bir harita var ."

Her iki başlık da tamamen aynı kavramları içeriyor: {telefon, harita, üzerinde}. Tek fark, hangi nesnenin hangisinin üzerinde olduğudur .

Görüntü:

Görev:
Her iki altyazıyı da doğru görsellerle aynı anda eşleştirin. Altyazı A, Görsel A (harita üzerinde duran telefon) ile eşleşmeli ve Altyazı B, Görsel B (telefonda görüntülenen harita) ile eşleşmelidir. Kısmi puan verilmez: yalnızca birini doğru cevaplamak başarısızlık olarak sayılır.

Ölçüt: Görüntü Puanı
İkili ve acımasız. Her iki çift de doğru eşleşirse = İsabet. Bir veya sıfır doğru eşleşme = Kaçırma. Rastgele şans %25'tir.

Winoground'dan daha fazla örnek:

Modeller neden kompozisyonda başarısız oluyor?

Düşük Winoground puanları (%30-40, rastgele temel çizgiye kıyasla %25), mevcut modellerin bu özel türdeki kompozisyonel akıl yürütme konusunda zorlandığını göstermektedir. Bununla birlikte, birkaç uyarı da geçerlidir:

Küçük örneklem boyutu : Winoground yalnızca 400 örnek içeriyor ve bu da yaklaşık ±%5 güven aralığı sağlıyor. Bu durum, onu bir gösterge olarak kullanışlı kılıyor ancak bestecilik yeteneklerinin kesin kanıtı olarak sunmuyor.
Özgül ancak çeşitli görev kapsamı : Winoground, mekânsal ilişkiler (üzerinde/üstünde/altında), özne-nesne değişimleri (kim kime ne yapar), nitelik bağlama (renk/boyut atamaları), nicelik belirleyiciler (daha fazla/daha az, sayma), eylem koordinasyonu (oturur/ayakta durur), zamansal sıralama (önce/sonra), olumsuzlama (ile/olmadan) ve kapsam belirsizliği dahil olmak üzere çok çeşitli kompozisyonel akıl yürütme türlerini test eder. Bu çeşitlilik, Winoground'u birden fazla dilsel olgu genelinde kompozisyonel anlayışın etkili bir inceleme aracı haline getirir.

Teknik analiz ve uygulama önerileri

Veri kalitesi, model ölçeğinden daha önemlidir.

Apple, LAION ve MetaCLIP'in tamamı aynı ViT-H/14 omurgasını (630M parametre) kullanıyor.

Apple'ın +3,8 puanlık avantajı, büyük ölçüde Veri Filtreleme Ağı (DFN) yaklaşımından kaynaklanıyor gibi görünüyor.

Otomatik İçerik Seçimi: Apple, yalnızca sentetik altyazılar kullanmak yerine, eğitim verilerini agresif bir şekilde filtrelemek için bir öğretmen modeli eğitti. Model, devasa web havuzundan gürültülü görüntü-metin çiftlerini tanımlamayı ve atmayı öğrendi.
Buradan şu sonuç çıkar: Gelişmeler, yalnızca sentez veya ham ölçekten ziyade, veri derleme kalitesinden (doğru veriyi seçmekten) kaynaklanır.

Buradan şu sonuç çıkar: sınırda, gelişmeler daha büyük mimarilerden değil, daha iyi verilerden gelir.

%50 performans seviyesini anlamak

MS-COCO, her bir altyazının belirli bir sahneyi tanımladığı, birbirinden farklı ve özenle seçilmiş görsellerle tasarlanmıştır. Küçük belirsizlikler mevcut olsa da (örneğin, birbirine benzeyen iki otopark sahnesi), veri setini oluşturanlar görsel olarak ayırt edilebilir görselleri kasıtlı olarak seçmişlerdir.

%50'lik doğruluk oranı, modellerin doğru görüntüyü ilk sıraya koymakta gerçekten başarısız olmasını yansıtır; eşit derecede geçerli alternatifleri seçmekten dolayı haksız bir cezalandırma anlamına gelmez.

Neden OpenAI KLİP 10-16 sayfa geride kalıyor?

OpenAI'in CLIP-L (2021) modeli %34,4 T2I R@1 puanına sahipken, benzer ViT mimarilerini kullanan modern modeller %44-50'ye ulaşıyor. Bu 10-16 puanlık fark, üç yıllık ilerlemeyi yansıtıyor:

Temel mimari prensipler benzer kalırken (kontrastlı öğrenme ile görsel dönüştürücüler), modern modellerin boyutu iki katına çıktı. Bununla birlikte, performans kazanımlarının çoğu, yalnızca mimari yenilikten ziyade, veri düzenleme ve eğitim tekniklerindeki iyileşmelerden kaynaklandı.

ColPali: Mimari Esneklik İçin Hızdan Vazgeçmek

ColPali farklı bir mimari yaklaşımı temsil eder: her görüntüyü tek bir vektöre kodlamak yerine, geç etkileşim kullanarak 1.030 yama gömme işlemi üretir. Bu tasarım tercihi çeşitli ödünleşmelere yol açar:

Avantajlar:

Daha simetrik geri alma : ColPali, yoğun modellerdeki 16-24 pp'lik farklara kıyasla, I2T (%48,8) ve T2I (%44,9) arasında yalnızca 3,9 pp'lik bir fark göstermektedir. Bu, görüntü yapısını daha homojen bir şekilde kodladığını göstermektedir.
Mimari esneklik : Geç etkileşim, metin belirteçleri ve görüntü parçaları arasında ince taneli eşleştirmeye olanak tanır; bu da özel alanlar için faydalı olabilir.

Dezavantajları:

Depolama yükü : Her görüntü için 1 yerine 1030 vektör gerekiyor, bu da indeks boyutunu yaklaşık 1000 kat artırıyor.

Genel performans düşüklüğü : ColPali, kıyaslama testimizde 4. sırada yer alıyor (%44,9 T2I), en yüksek yoğunluklu modellerin 5,2 puan gerisinde (Apple DFN5B-H %50,1 ile karşılaştırıldığında).

Hesaplama maliyeti : Görüntü başına 1.030 gömme işleminden kaynaklanan bellek yükü nedeniyle 4 kat daha küçük toplu işlem boyutları (4'e karşı 32) gerektirir. Bu, ölçeklenebilirlik durumunda daha yavaş indeksleme ve daha yüksek sunma maliyetleri anlamına gelir.

Hangi modeli kullanmalısınız?

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Takip Et

Metodoloji

Donanım ve yazılım

GPU: NVIDIA A40 (48GB VRAM) RunPod aracılığıyla
Hassasiyet: bfloat16
Çerçeve: PyTorch 2.4.0, CUDA 12.1
Kütüphaneler: transformers==4.44.0 , datasets==2.20.0

Değerlendirilen modeller

Hugging Face Hub'dan aşağıdaki belirli model ağırlıklarını kullandık. Tüm modeller, herhangi bir değişiklik yapılmadan doğrudan bu depolardan bfloat16 hassasiyetinde yüklendi.

Çıkarım protokolü

Yoğun modeller (CLIP/SigLIP), görüntü başına tek bir vektör yüksek paralellik sağladığı için 32'lik toplu işlem boyutuyla değerlendirildi. ColPali, görüntü başına 1.030 yama gömme işlemi gerektirdiğinden önemli ölçüde daha fazla bellek gerektirdiğinden 4'lük toplu işlem boyutu kullandı.

Değerlendirme protokolü

Sıfır Atış: Modeller, Hugging Face ağırlık kullanılarak kutudan çıktığı gibi değerlendirildi. İnce ayar yapılmadı.
Deterministik: Rastgele tohum 42 olarak sabitlenmiştir. Tüm modeller için veri seti sırası aynıdır.
Standart Bölmeler: yerevann/coco-karpathy testi (5.000 görüntü), facebook/winoground doğrulama.

I2T ve T2I arasındaki fark

I2T puanları, model hatasından değil, istatistiksel olasılıktan dolayı T2I'den sürekli olarak ~20 puan daha yüksektir.

T2I (Metinden Görüntüye): Model, 5.000 görüntü arasından belirli bir görüntüyü bulmalıdır. (Hedef havuzu = 1).
I2T (Görüntüden Metne): Model, o görüntüyle ilişkili 5 geçerli başlıktan herhangi birini eşleştirebilir. (Hedef havuzu = 5).

I2T görevi her sorgu için beş farklı 'doğru' yanıt sunduğundan, başarı oranı T2I'da gerekli olan kesin bire bir eşleştirmeye kıyasla doğal olarak daha yüksektir.

Sınırlamalar

Şarap üretim alanı örneklem büyüklüğü

400 örnek, %35 doğrulukta ~±5pp güven aralığı vermektedir. Sonuçlar gösterge niteliğindedir , kesin değildir. Daha büyük karşılaştırma testleri (ARO, SugarCrepe) mevcuttur ancak farklı altyapı gerektirir.

Sadece Sıfır Atış

Alan özelinde ince ayar gerekmez. Tıp, hukuk veya uydu uygulamaları, alana özgü eğitimle 5-10 puanlık iyileşme gösterebilir.

Veri kümesinin sınırlamaları:

MS-COCO ve Winoground, çok modlu anlama yeteneğinin belirli yönlerini test eder. Bu kıyaslama testlerindeki performans, alan özgü görevlerde veya diğer bileşimsel akıl yürütme testlerinde benzer sonuçları garanti etmez.

Çözüm

Mevcut çok modlu gömme modelleri nesne tanımada başarılıdır ancak bileşimsel akıl yürütmede zorlanmaktadır.

Standart arama sorguları için ("motosiklet fotoğrafları bul"), ilk 3 modelden herhangi biri iyi sonuç verir. İlişkisel sorgular için ("haritada telefon" ile "telefonda harita" karşılaştırması), en iyi ihtimalle %30-40 doğruluk bekleyin.

Bulgularımız ve güncel araştırma eğilimlerine dayanarak, performansı artırmak için çeşitli yaklaşımlar önerilebilir:

Ölçekten ziyade veri kalitesi : Apple'ın aynı ViT-H mimarisini kullanarak elde ettiği +3,8 puanlık avantaj, eğitim verilerinin düzenlenmesinin önemli ölçüde katkıda bulunduğunu gösteriyor, ancak bu tek bir karşılaştırmaya dayanıyor.
Kompozisyonel eğitim verileri : Eğitim sırasında ilişkisel varyasyonlara sahip zor negatiflerin dahil edilmesi, teorik olarak kompozisyonel duyarlılığı artırabilir, ancak bu durum büyük ölçekte henüz büyük ölçüde test edilmemiştir.
Hibrit mimariler : İki aşamalı işlem hatları (yoğun arama → geç etkileşimli yeniden sıralama), hızı hassasiyetle birleştirir; ancak kıyaslamamız, bu modellerin bu görevlerde henüz yoğun modellerden daha iyi performans göstermediğini ortaya koymaktadır.

Eğitim paradigmaları değişene kadar, kompozisyon anlayışı keşfedilmemiş bir alan olarak kalacaktır.

Daha fazla okuma

Aşağıdakiler gibi diğer RAG kıyaslamalarını inceleyin:

Cem Dilmegani

Baş Analist

Takip Et

Cem, 2017'den beri AIMultiple'da baş analist olarak görev yapmaktadır. AIMultiple, her ay Fortune 500 şirketlerinin %55'i de dahil olmak üzere yüz binlerce işletmeye (benzer Web'e göre) bilgi sağlamaktadır. Cem'in çalışmaları, Business Insider, Forbes, Washington Post gibi önde gelen küresel yayınlar, Deloitte, HPE gibi küresel firmalar, Dünya Ekonomik Forumu gibi STK'lar ve Avrupa Komisyonu gibi uluslararası kuruluşlar tarafından alıntılanmıştır. AIMultiple'ı referans gösteren daha fazla saygın şirket ve kaynağı görebilirsiniz. Kariyeri boyunca Cem, teknoloji danışmanı, teknoloji alıcısı ve teknoloji girişimcisi olarak görev yapmıştır. On yıldan fazla bir süre McKinsey & Company ve Altman Solon'da işletmelere teknoloji kararları konusunda danışmanlık yapmıştır. Ayrıca dijitalleşme üzerine bir McKinsey raporu yayınlamıştır. Bir telekom şirketinin CEO'suna bağlı olarak teknoloji stratejisi ve tedarikini yönetmiştir. Ayrıca, 2 yıl içinde sıfırdan 7 haneli yıllık yinelenen gelire ve 9 haneli değerlemeye ulaşan derin teknoloji şirketi Hypatos'un ticari büyümesini yönetmiştir. Cem'in Hypatos'taki çalışmaları TechCrunch ve Business Insider gibi önde gelen teknoloji yayınlarında yer aldı. Cem düzenli olarak uluslararası teknoloji konferanslarında konuşmacı olarak yer almaktadır. Boğaziçi Üniversitesi'nden bilgisayar mühendisliği diplomasına ve Columbia Business School'dan MBA derecesine sahiptir.

Tam Profili Görüntüle

Araştıran

Ekrem Sarı

Yapay Zeka Araştırmacısı

Takip Et

Ekrem, AIMultiple'da yapay zeka araştırmacısı olarak çalışmakta olup, akıllı otomasyon, GPU'lar, yapay zeka ajanları ve RAG çerçeveleri üzerine yoğunlaşmaktadır.

Tam Profili Görüntüle