Kıyaslama

Çok Modlu Yapay Zeka Modellerini Görsel Muhakeme Üzerinde Karşılaştırın

Sıla Ermut

ile

Nazlı Şipi

Güncellenme tarihi: 20 Şub 2026

Bakınız etik normlar

Bu Benchmarkı Kaynak Göster

15 önde gelen çok modlu yapay zeka modelini, 200 görsel tabanlı soru kullanarak görsel muhakeme üzerinde kıyasladık. Değerlendirme iki parkurdan oluşuyordu: veri görselleştirme yorumlamasını test eden 100 grafik anlama sorusu ve örüntü tanıma ile uzamsal muhakemeyi değerlendiren 100 görsel mantık sorusu. Tutarlı ve güvenilir sonuçlar sağlamak için her soru 5 kez çalıştırıldı.

Görsel muhakeme kıyaslaması

Loading Chart

Test prosedürlerimizi öğrenmek için kıyaslama metodolojimize bakın.

gemini-3.1-pro-preview ve gemini-3-pro-preview liderlik tablosunun başında yer alıyor. Onları, bir sonraki model grubuna liderlik eden gpt-5.2, kimi-k2.5 ve gpt-5.2-pro takip ediyor. Çoğu model veri odaklı görevlerde iyi performans gösterirken, llama-4-maverick için görsel girdileri mantıksal adımlarla birleştirmede bir boşluk devam ediyor.

Görsel mantık

Görsel mantık, örüntü tanıma ve uzamsal muhakeme gerektirir. gemini-3.1-pro-preview , soyut muhakeme görevlerinde en yüksek performansı göstererek görsel mantık testinde liderdir. Birçok model, grafik analizindeki sonuçlarla karşılaştırıldığında performanslarında bir düşüş gösterir. llama-4-maverick bu görevlerde bir sınırlılık sergiler.

Grafik anlama

Modeller, grafik yorumlamada görsel mantığa kıyasla daha iyi yeterlilik gösterir. gemini-3.1-pro-preview grafik anlama testlerinde en yüksek puana sahiptir ve onu yakından gemini-3-pro-preview ve gemini-2.5-pro takip ederek yapılandırılmış verileri ve görselleştirmeleri çözümlemede güçlü bir yetenek gösterir. claude-opus-4.6 ve claude-sonnet-4.6, mantık puanlarına kıyasla grafikleri yorumlarken daha yüksek sonuçlar gösterir. Veri odaklı görsel görevler, mevcut çok modlu modeller için örüntü tanımadan daha erişilebilirdir.

Görsel muhakeme performansının istatistiksel güvenilirliği (95% CI)

Her model için hata payını tanımlamak üzere 95% Güven Aralıklarını (CI) 10.000 bootstrap yeniden örneklemesi yoluyla hesapladık ve gerçek performanslarının muhtemelen düştüğü aralığı gösterdik.

Model	Genel (95% CI)	Görsel Mantık (95% CI)	Grafik Anlama (95% CI)
gemini-3.1-pro-preview	71 (65,20, 77,00)	58 (49,20, 66,80)	84 (77,60, 90,60)
gemini-3-pro-preview	69 (62,80-74,70)	55 (46,40-63,80)	82 (75,20-89,20)
gpt-5.2	67 (61,10-73,30)	56 (47,00-64,40)	79 (70,80-86,20)
gpt-5.2-pro	66 (59,60-71,90)	53 (44,20-61,40)	79 (70,80-86,40)
kimi-k2.5	66 (59,80-71,30)	53 (44,60-61,00)	78 (71,00-85,20)
gemini-2.5-pro	63 (56,90-68,90)	46 (37,80-53,80)	80 (72,40-87,00)
claude-opus-4.6	55 (48,50-61,40)	36 (27,80-44,00)	74 (65,60-82,20)
gpt-5.1-codex	53 (47,50-58,70)	33 (26,20-39,60)	73 (66,00-80,60)
claude-sonnet-4.6	52 (45,70-58,10)	31 (23,00-38,60)	73 (65,20-80,80)
qwen3-vl-8b-thinking	50 (44,40-56,00)	34 (26,40-41,00)	67 (58,60-74,20)

LLM'lerin en başarılı olduğu ve en çok zorlandığı yerlere dair kıyaslama soruları

En düşük LLM başarı oranına sahip grafik sorusu

12 ay boyunca Yıldız Satış Hacimlerini gösteren, her ay için dört kümelenmiş çubuk içeren çubuk grafik (1998-2000 verileri). Her ay, birbirine yakın gruplandırılmış dolu, beyaz ve çizgili çubuklar gösterir.

Şekil 1: 12 ay boyunca Yıldız Satış Hacimlerini gösteren, her ay için dört kümelenmiş çubuk içeren çubuk grafik (1998-2000 verileri). Her ay, birbirine yakın gruplandırılmış dolu, beyaz ve çizgili çubuklar gösterir.

Not: Tüm grafikler Hitbullseye'dan alınmıştır.¹

Soru: Birbirini takip eden üç yılın satışları sürekli artıyorsa veya sürekli azalıyorsa, buna istikrarlı trend denir. Hangi aylar birbirini takip eden üç yıl boyunca istikrarlı bir artış trendi gösterir?

Örneğin, Haziran 1999'da, Gerçekleşen 1998'e göre daha düşüktü, bu bir düşüş gösterir, ancak model bunu yanlışlıkla istikrarlı bir artış olarak yorumladı. Çoğu model bu soruda aynı hatayı yapıyor.

Her ay için 4 çubuk bir arada küm elendiğinde, modeller çubuktan yıla eşleme ve göreceli yükseklik algısında zorlandı. Hangi çizgili/dolu/beyaz çubuğun hangi yıla ait olduğunu doğru bir şekilde ayırt edemediler, bu da çubukların yanlış sırada okunmasına veya yüksekliklerinin karıştırılmasına yol açtı.

Bu, görsel-uzamsal muhakemede temel bir sınırlamayı ortaya çıkardı: mevcut modeller, yoğun şekilde paketlenmiş çubukları doğru bir şekilde ölçmek ve sıralamak için gereken piksel hassasiyetinde algıdan yoksundu ve bu da trendlerin sistematik olarak yanlış tanımlanmasına yol açtı.

En yüksek LLM başarı oranına sahip grafik sorusu

1952-1998 yılları arasında Hindistan genel seçimlerindeki seçmen katılım yüzdelerini gösteren çubuk grafik. Her seçim yılı için bir çubuk ve çubuklar arasında net boşluklar bulunur.

Şekil 2: 1952'den 1998'e kadar Hindistan genel seçimlerindeki seçmen katılım yüzdelerini gösteren çubuk grafik. Her seçim yılı için bir çubuk ve çubuklar arasında net boşluklar bulunur.

Soru: Şimdiye kadarki en yüksek ve en düşük seçmen katılımı (yüzde olarak) sırasıyla hangi yıllarda olmuştur?

Tüm modeller bu soruyu doğru yanıtladı. Bu başarı, modellerin en uzun ve en kısa çubukları bularak basit minimum-maksimum belirlemede mükemmelleştiğini gösterir.

Kafa karıştırıcı olan kümelenmiş 4 çubuklu grupların aksine, bu grafikte yıl başına tek bir çubuk ve net boşluklar bulunur, bu da doğrudan görsel karşılaştırmayı kolaylaştırır. Modeller, karmaşık çubuktan kategoriye eşleme gerektirmeyen tamamen gözlemsel görevlerde iyi performans gösterir.

En yüksek LLM başarı oranına sahip görsel mantık sorusu

Cebirsel örüntü eşleştirmeyi gösteren iki hizalı 3x3 ızgara. Üst ızgara değişkenleri ve işlemlerini (çarpma, bölme, üsler) içerir. Alt ızgara, bazı hücreleri dolu (6, 36, 3/4) ve iki bilinmeyenli (A, B) sayısal değerleri gösterir. Soru B-A'yı bulmayı ister.

Şekil 3: Cebirsel örüntü eşleştirmeyi gösteren iki hizalı 3×3 ızgara. Üst ızgara değişkenleri ve işlemlerini (çarpma, bölme, üsler) içerir. Alt ızgara, bazı hücreleri dolu (6, 36, 3/4) ve iki bilinmeyenli (A, B) sayısal değerleri gösterir. Soru B-A'yı bulmayı ister.

Başarı, tablo yapısında görünen net matematiksel örüntüden geldi (a×b, c×d gibi cebirsel ilişkiler). Görsel karmaşıklık içermeyen basit ızgara düzeni, modellerin yalnızca sayısal çıkarım ve mantıksal tümdengelime odaklanmasını sağladı.

Modeller, problemler adım adım akıl yürütme yoluyla çözülebilen açık matematiksel örüntüler içerdiğinde mükemmelleşir ve görsel dikkat dağıtıcılar minimum olduğunda sembolik mantık ve örüntü tanımadaki güçlerini gösterir.

En düşük LLM başarı oranına sahip görsel mantık sorusu

Farklı iç çizgi desenleri ve geometrik şekiller içeren dairelerle örüntü tanıma bulmacası. Üstte oklarla gösterilen iki örnek dizi ve ardından beş çoktan seçmeli seçenek arasından üçüncü diziyi tamamlamayı isteyen bir soru.

Şekil 4: Farklı iç çizgi desenleri ve geometrik şekiller içeren dairelerle örüntü tanıma bulmacası. Üstte oklarla gösterilen iki örnek dizi ve ardından beş çoktan seçmeli seçenek arasından üçüncü diziyi tamamlamayı isteyen bir soru.

Zorluk, soyut görsel örüntü tanıma, birden fazla örnek üzerinden geometrik dönüşüm kurallarını belirleme gereksiniminden kaynaklanır.

Bu, şekillerin nasıl döndüğünü, dönüştüğünü ve birbiriyle nasıl ilişkili olduğunu anlamak için saf uzamsal muhakeme talep eder. Modeller, yalnızca uzamsal örüntüler mevcut olduğunda ve açık sayısal veya metinsel rehberlik olmadığında görsel dizilerden kural çıkarımı yapmakta zorlanır.

Görsel muhakeme nedir?

Görsel muhakeme, bir modelin görüntüleri yorumlama, görsel öğeleri birbirine bağlama ve hem görsel hem de metinsel bilgilerin anlaşılmasını gerektiren soruları yanıtlama yeteneğidir. Bu yetenek, basit nesne tanımanın ötesine geçerek veri görselleştirmelerini analiz etme, uzamsal örüntüleri belirleme ve görsel öğeler arasındaki ilişkileri anlama gibi görevlere uzanır.

Kıyaslamamız bunu, farklı bilişsel yönleri test etmek için iki ayrı parkur üzerinden değerlendirdi: modellerin veri görselleştirmelerinden yapılandırılmış bilgi çıkarma yeteneklerini değerlendirmek için çubuk grafikleri, çizgi grafikleri ve dağılım grafiklerini yorumladıkları grafik anlama; ve açık sayısal rehberlik olmadan soyut muhakemeyi ölçmek için örüntü tanıma bulmacaları ve uzamsal muhakeme problemleriyle uğraştıkları görsel mantık. Bu ayrım, modellerin açık verileri örtük örüntülere karşı nasıl işlediğindeki temel ayrımı yansıtır.

Modeller, görsel muhakemeyi farklı mimari yaklaşımlarla gerçekleştirir. Örneğin, Cola çerçevesi, her birinin başlıklar ve makul cevaplar sağladığı birden fazla görüntü-dil modelini koordine eder, ardından merkezi bir LLM bu seçenekleri değerlendirir ve en doğru yanıtı seçer.

Şekil 5: Cola'nın görsel muhakeme için koordine edici bir dil modelini nasıl kullandığını gösteren grafik.²

Bir başka örnek ise, CaID yöntemini kullanarak görüntüleri bağlam farkında açıklamalara dönüştüren ve CVR-ICL prosedürü ile ilgili örnekleri seçen CVR-LLM çerçevesidir. Bu çerçeve, görüntü bilgisini metin tabanlı temsiller olarak ele alır ve LLM'nin çeşitli çok modlu görev türlerinde ilişkileri daha etkili bir şekilde analiz etmesini sağlar.³

LLM'lerde görsel muhakeme nasıl çalışır?

LLM'ler görüntüleri doğrudan algılamaz. Görüntüleri, dil modelleri için uyarlanmış yapılandırılmış temsillere dönüştüren görüntü kodlayıcılarına güvenirler. Kodlayıcı nesneleri, dokuları, uzamsal ilişkileri ve görsel örüntüleri tanımlar. LLM daha sonra bir muhakeme zinciri oluşturmak için bu temsili metin sorgusuyla birleştirir.

Karmaşık görsel senaryolar için iki ana mekanizma mevcuttur: bir LLM'nin yorumları çapraz kontrol etmek için birden fazla görüntü modelinden gelen çıktıları entegre ettiği koordinasyon; ve LLM'nin eksik bilgileri belirleyen geri bildirim döngüleri aracılığıyla görüntü açıklamalarını yinelemeli olarak iyileştirdiği iyileştirme. Her ikisi de tek modellerin karmaşık senaryoları analiz edemediği sınırlamaları ele alır.

Çok modlu muhakeme için bağlam içi öğrenme

Bazı çerçeveler, eğitim verilerinden benzer örnekleri getirerek modele görsel girdileri yorumlamak için şablonlar sağlar. Bu gösterimler, modelin öğrenilmiş muhakeme örüntülerini yeni problemlere uygulamasına yardımcı olur.

Nihai açıklamanın üretilmesi

LLM, görüntüyü nasıl yorumladığını, hangi görsel öğelere dayandığını ve yaptığı mantıksal bağlantıları açıklayan bir muhakeme süreciyle desteklenen bir cevap üretir.

Ekibimiz, iş süreçlerinizden birini yapay zeka ajanlarıyla ücretsiz olarak otomatikleştirsin.

Bir süreci otomatikleştir

Görsel görevlerde Zincirleme Düşünce muhakemesi

Zincirleme Düşünce (CoT) muhakemesi, görsel muhakemede önemli bir yaklaşım olarak ortaya çıkmıştır. Modeller artık bir görüntüyü bir kerede analiz etmek yerine, tıpkı insanların karmaşık problemleri adım adım düşünerek çözmelerine benzer şekilde, görsel problemleri daha küçük, sıralı adımlara bölerler.

Görsel CoT, modellerin bir görüntünün farklı uzamsal bölgeleri boyunca odaklarını dinamik olarak ayarlamalarını sağlar ve modellerin daha önce sabit ayrıntı düzeyinde görüntü işlemeye dayandığı önemli bir sınırlamayı ele alır. Örneğin, karmaşık bir grafiği analiz ederken, model her şeyi aynı anda anlamaya çalışmak yerine önce eksenleri tanımlayabilir, sonra bireysel veri noktalarını inceleyebilir ve son olarak trendleri karşılaştırabilir.

Bu yaklaşım, modelleri insan muhakeme örüntüleriyle daha yakından hizalamak için pekiştirmeli öğrenme ve taklit öğrenmeyi entegre eder. Bu, pasif örüntü tanımadan, modellerin gördüklerini aktif olarak keşfettiği ve hakkında muhakeme yürüttüğü aktif görsel problem çözmeye doğru temel bir değişimi temsil eder. ⁴

LLM'lerde görsel muhakemenin iş uygulamaları

Görsel yeteneklere sahip LLM'ler birden fazla iş senaryosunu destekleyebilir. Bu uygulamalar, modelin görüntüleri analiz etme, bunları metin verileriyle ilişkilendirme ve güvenilir içgörüler üretme yeteneğine bağlıdır.

Belge ve içerik analizi

İşletmeler diyagramlar, mühendislik çizimleri, bilimsel dergi şekilleri ve çeşitli görsel veri biçimleriyle uğraşır. Bir görsel muhakeme modeli şunları yapabilir:

Eksik veya yanlış öğeleri tespit etmek.
Diyagramların alt kısmındaki veya köşelerindeki nesneleri veya işaretleri tanımlamak.
Kalite kontrolleri için metin ve görüntü bölümlerini birleştirmek.
Daha ileri dağıtım veya raporlama için yapılandırılmış bilgi çıkarmak.

Örneğin, Intuit, yaygın ABD vergi formlarında vergi beyannamelerini otomatik doldurmak için Google Cloud'un Doc AI ve Gemini modellerini entegre ederek belge işlemede hem hızı hem de doğruluğu artırdı.⁵

Kalite kontrol ve operasyonlar

Üretim ve lojistikte, modeller ürünleri veya paketleri inceleyebilir. Görsel muhakeme, kusurları, yanlış hizalamaları veya olağandışı örüntüleri tespit etmeye yardımcı olur. Model, görüntüleri bir referansla karşılaştırabilir ve neyin değiştiğine veya neyin eksik olduğuna dair bir açıklama üretebilir.

Örneğin, Intel, yılda 2 milyon $ tasarruf sağlayan yapay zeka görüntü denetim sistemlerini kullanıyor ve üreticiler, azalan hurda ve daha az müşteri iadesi yoluyla tipik olarak 6-12 ay içinde ROI elde ediyor. ⁶

Perakende ve e-Ticaret

Modeller, ürün görüntülerini analiz eder, temel özellikleri tanımlar ve bunları katalog verileriyle eşleştirir. Görsel arama yetenekleri, müşterilerin bilgisayarla görme kullanarak benzer ürünleri bulmak için görüntü yüklemesine olanak tanırken, yapay zeka destekli beden önerisi motorları iade oranlarını 20-30% oranında azalttı. Bu sistemler ayrıca ürün açıklamaları ve görüntüler arasındaki tutarsızlıkları da tespit eder.⁷

Güvenlik ve izleme

Görsel muhakeme, kare dizilerini analiz ederek ve olağandışı örüntüleri tespit ederek video ve görüntü inceleme görevlerini destekler. Cambridge Industries, şantiyeler için acil onarım maliyetlerini neredeyse 50% oranında azaltan yapay zeka destekli bir güvenlik sistemi uyguladı. ⁸

Pazarlama ve kullanıcı deneyimi

Görsel muhakeme, ekiplerin kullanıcıların dijital içerikle nasıl etkileşime girdiğini anlamalarına yardımcı olur. Bir model, ekran görüntülerini veya kreatifleri değerlendirebilir ve düzen, nesne yerleşimi ve olası sorunlar hakkında içgörüler sağlayabilir. Bu, özellikle farklı görsel varlık kategorilerini değerlendirirken geçerlidir.

Örneğin, Comeen, daha önce içeriğin yayınlanmadan önce geçerliliğini yitirmesine neden olan çok günlü, çok satıcılı süreci ortadan kaldırarak, iş yeri videoları için tek tıklamayla 40 dilde çok dilli altyazılar oluşturmak için Gemini AI kullanıyor. ⁹

Kıyaslamalarımızı ve veri odaklı içgörülerimizi kaçırmayın. Düğme Google'ı açar; AIMultiple'ı seçmeniz, Google arama sonuçlarında AIMultiple'ı daha sık görmek istediğinizi onaylar.

Tercih edilen kaynak olarak ekle

Karşılaştırmalı manzara: büyük oyuncular ve yaklaşımları

Chance AI

Chance AI, öncelikle görüntüyü anlamaya odaklanan ilk ticari araçlar arasındadır. Görsel muhakeme sistemi, görüntüleri kültürel, tarihsel, işlevsel ve estetik merceklerden analiz eder. Basit etiketler atamak yerine, bir nesnenin, figürün veya sahnenin neden önemli olduğunu açıklayan yapılandırılmış içgörüler sunar, örneğin sanat eserinin stili, sembolizmi ve tarihsel bağlamı ile konusunun yanı sıra.

Tasarım, yazılı sorgular olmadan görüntüler aracılığıyla anlam odaklı keşfi mümkün kılarak kullanıcı deneyimine öncelik verir. Bu, özellikle bağlamın tanımanın ötesinde değer kattığı yaratıcı endüstriler, eğitim ve turizm için geçerli hale getirerek, geleneksel bilgisayarla görmenin ötesine, yorumlama, hikaye anlatımı ve insan benzeri açıklamaya doğru ilerler.¹⁰

Meta AI

Meta'nın UniBench çerçevesi, uzamsal anlama, bileşimsel muhakeme ve sayma için elliden fazla kıyaslamayı birleştirerek görsel muhakemeyi değerlendirmek için birleşik bir yaklaşım sundu. Yaklaşık altmış görüntü-dil modelini test eden Meta, veri ve model boyutunu ölçeklendirmenin algıyı iyileştirdiğini ancak muhakemeyi iyileştirmediğini, gelişmiş modellerin bile rakam tanıma ve nesne sayma gibi basit görevlerde başarısız olduğunu buldu.

Bu bulgular, görsel muhakeme ilerlemesinin nasıl ölçüldüğünü değiştirdi ve yalnızca daha büyük modellere güvenmek yerine daha yüksek kaliteli veri, hedefli hedefler ve yapılandırılmış öğrenme ihtiyacını vurguladı. İşletmeler için UniBench, dağıtımdan önce çok modlu görevler arasında muhakeme performansını karşılaştırmanın şeffaf bir yolunu sunar.¹¹

Grafik, 53 kıyaslamada 59 VLM'nin medyan performansını göstermektedir.

Şekil 6: Grafik, 59 VLM'nin 53 kıyaslamadaki medyan performansını göstermekte ve ilerlemeye rağmen birçok modelin, özellikle Winoground, iNaturalist, DSPR ve diğerleri gibi görevlerde hala şans seviyesine yakın performans gösterdiğini ortaya koymaktadır (mavi: sıfır-atış medyan; gri: şans seviyesi).¹²

OpenAI

OpenAI, görüntü manipülasyonunu muhakemelerine entegre ederek görüntülerle düşünebilen o3 ve o4-mini modelleriyle görsel muhakemeyi ilerletti. Analiz sırasında, tıpkı insanların diyagramları veya çizimleri yorumlarken görsel dikkatlerini ayarlamalarına benzer şekilde, ilgili ayrıntılara odaklanmak için görüntüleri yakınlaştırır, kırpar veya döndürürler.

Grafik yorumlama, görsel problem çözme ve matematiksel muhakeme gibi çok modlu kıyaslamalarda test edilen modeller, doğruluk ve bağlamsal anlamada net kazanımlar gösterdi. Bununla birlikte, sonuçlar aynı zamanda tutarsız muhakeme ve ara sıra algısal hatalar da dahil olmak üzere sınırlamaları ortaya çıkardı ve görsel muhakeme sistemlerinde güvenilirliğin süregelen zorluğunun altını çizdi.

Şekil 7: Grafik, yüksek “muhakeme çabası” ayarları altında değerlendirilen tüm modellerin sonuçlarını göstermektedir.¹³

Akademik ve açık araştırma çabaları

Bu makale, çok modlu modellerin görsel muhakeme görevlerindeki performansını değerlendirmek için bir kıyaslama olan VisuLogic'i tanıtır. Uzamsal ilişkiler, bileşimsel mantık ve nesne sayma dahil olmak üzere çeşitli muhakeme türlerini kapsayan elliden fazla veri kümesini birleştirir.

Yazarlar düzinelerce mevcut modeli analiz eder ve boyutu veya veri ölçeğini artırmanın görüntü tanımayı iyileştirdiğini ancak muhakemeyi iyileştirmediğini bulur. Modeller genellikle nesneler arasındaki ilişkileri anlamadan örüntüleri tespit eder. Makale, anlamlı ilerleme için muhakemeye özgü eğitimin, daha iyi veri kalitesinin ve ayrıntılı değerlendirmenin gerekli olduğunu vurgular.

VisuLogic, araştırmacıların ve işletmelerin yalnızca algı ölçümlerine güvenmek yerine muhakeme yeteneklerini analiz etmelerine yardımcı olan birleşik bir çerçeve sunarak, çok modlu muhakeme sistemlerini değerlendirmek için değerli bir kaynak haline getirir.¹⁴

Cevaplamadan Önce Açıkla: Bileşimsel Görsel Muhakeme Üzerine Bir Araştırma

Bu araştırma, modellerin doğru bir cevaba ulaşmak için görsel ve metinsel ipuçlarını nasıl birleştirdiğine odaklanarak bileşimsel görsel muhakemeye yönelik mevcut yaklaşımları gözden geçirir. Yapılandırılmış muhakeme yerine tanımaya dayanan mevcut yöntemlerdeki zayıflıkları belirler.

Yazarlar, her muhakeme sürecinin şeffaf ve yorumlanabilir olmasını sağlayarak, modelleri cevaplamadan önce açıklama yapmaları için eğitmeyi önerir. Modellerin diyagramları, şekilleri ve nesne ilişkilerini daha iyi anlayabilmesi için görsel ve dilsel temsilleri hizalamaya yönelik teknikleri tartışırlar.

Makale, hizalanmış ve açıklanabilir muhakemenin çok modlu görevlerde güvenilirliği ve yorumlanabilirliği artırdığı sonucuna varır. Görsel muhakeme araştırmasının geleceğinin, açıklama tabanlı öğrenmeyi model tasarımına entegre etmeye bağlı olduğunu vurgular.¹⁵

LLM görsel muhakeme yeteneklerindeki zorluklar

Görsel muhakemedeki ilerleme, aynı zamanda dikkate alınması gereken teknik ve etik zorlukları da beraberinde getirir.

Güvenilirlik önemli bir endişe olmaya devam ediyor. Kıyaslamamızda görüldüğü gibi, modeller yoğun şekilde paketlenmiş görselleştirmelerle zorlanmakta, karmaşık grafiklerde çubuktan yıla eşleme ve göreceli yükseklik algısında başarısız olmakta ve bu da trend tanımlamada sistematik hatalara yol açmaktadır. Gelişmiş modeller bile rakam tanıma ve nesne sayma gibi basit görevlerde başarısız olmakta ve verileri ölçeklendirmek algıyı iyileştirmekte ancak muhakemeyi iyileştirmemektedir.

Önyargı ve yorumlama sorunları yaygındır. Görsel muhakeme modelleri, görüntüleri yorumlarken eğitim verilerinde mevcut olan önyargıları öğrenir ve yansıtır. Modeller, cinsiyet, ırk, yaş ve engellilik önyargıları da dahil olmak üzere eğitim verilerinden kültürel varsayımları ve stereotipleri yansıtır. Örneğin, bir görüntüdeki insanların mesleklerini tahmin ederken veya senaryoları yorumlarken, bu önyargılar sonuçları çarpıtabilir.

Açıklanabilirlik güven için kritiktir. Modeller, özellikle önyargılı çıktıların zarara yol açtığı sağlık hizmetleri, işe alım ve ceza adaleti gibi yüksek riskli uygulamalarda muhakeme süreçlerini şeffaf bir şekilde açıklamalıdır.

Kıyaslama metodolojisi

Tüm modeller, standartlaştırılmış parametrelerle OpenRouter API'si aracılığıyla değerlendirildi: sıcaklık 0,8 olarak ayarlandı ve muhakeme yeteneklerini sınırlamamak için maksimum token parametresi ayarlanmadı. Modellere yalnızca tek bir harf (A-E) ile açıklama yapmadan yanıt vermeleri talimatı verildi, ancak bazı modeller yine de ayrıntılı muhakeme sağladı ve biz de nihai cevapları çıkarmak için bunları ayrıştırdık. Değerlendirme tüm modellerde aynı anda paralel olarak yürütüldü. Tutarlı ve güvenilir sonuçlar sağlamak için her soru 5 kez çalıştırıldı.

Kıyaslama, iki kategoriye ayrılmış 200 sorudan oluşuyordu: çubuk grafikleri, çizgi grafikleri, dağılım grafikleri ve karmaşık veri görselleştirmelerini kapsayan Grafik Anlama (100 soru) ve örüntü tanıma, uzamsal muhakeme ve matematiksel görsel mantığı test eden Görsel Mantık (10 soru). Tüm sorular, modellerin görüntüleri analiz etmesini ve doğru cevabı seçmesini gerektiren beş seçenekli (A-E) çoktan seçmeli formatta sunuldu.

Questions:

1. Grafik anlama Modelleri, çeşitli veri görselleştirmelerinden bilgi çıkarma, yorumlama ve analiz etme yetenekleri üzerinde değerlendirdik:

Çubuk grafikler: Yatay ve dikey konfigürasyonlar, yığılmış ve gruplandırılmış formatlar
Çizgi grafikler: Tekli ve çok serili trendler, zaman serisi verileri
Dağılım grafikleri: Korelasyon analizi, etiketli eksenlerle örüntü tanımlama
Pasta grafikler: Yüzde dağılımları ve orantısal muhakeme
Karmaşık görselleştirmeler: Kombinasyon grafikleri, çift eksenli grafikler ve çok panelli ekranlar

2. Görsel mantık Soyut muhakeme ve uzamsal zekayı şu yollarla değerlendirdik:

Örüntü tanıma: Dizileri tanımlama ve görsel örüntüleri tamamlama
Uzamsal muhakeme: 3B görselleştirme, küp açınımları ve geometrik dönüşümler
Matematiksel mantık: Sayısal örüntüler, cebirsel muhakeme ve kombinatorik
Soyut düşünme: Sembol manipülasyonu, mantıksal tümdengelim ve kural çıkarımı

Soru formatı

Cevap formatı: Çoktan seçmeli (A, B, C, D, E)

Bu benchmarkı kaynak gösterin

Yayınlayacağınız yere uygun formatı seçin. Bağlantılı sürümü CMS'inize yapıştırmak, geri bağlantıyı korur.

Sıla Ermut and Nazlı Şipi (2026) - "Çok Modlu Yapay Zeka Modellerini Görsel Muhakeme Üzerinde Karşılaştırın". AIMultiple.com adresinde çevrimiçi yayımlanmıştır. Erişim tarihi: 20 Şubat 2026, kaynak: https://aimultiple.com/visual-reasoning [Çevrimiçi Kaynak]

Ermut, S., & Şipi, N. (2026, 20 Şubat). Çok Modlu Yapay Zeka Modellerini Görsel Muhakeme Üzerinde Karşılaştırın. AIMultiple. https://aimultiple.com/visual-reasoning

@misc{ermut2026,
  author = {Ermut, Sıla and Şipi, Nazlı},
  title  = {{Çok Modlu Yapay Zeka Modellerini Görsel Muhakeme Üzerinde Karşılaştırın}},
  year   = {2026},
  month  = feb,
  howpublished    = {\url{https://aimultiple.com/visual-reasoning}},
  note   = {AIMultiple. Erişim tarihi: 20 Şubat 2026}
}

Referans Linkleri

Hitbullseye: Transforming Education with Cutting Edge Technology

https://papers.neurips.cc/paper_files/paper/2023/file/ddfe6bae7b869e819f842753009b94ad-Paper-Conference.pdf

https://arxiv.org/pdf/2409.13980

Why Reasoning Matters? A Survey of Advancements in Multimodal Reasoning (v1)

Real-world gen AI use cases from the world's leading organizations | Google Cloud Blog

Google Cloud

100% Accuracy AI Vision: The Real Cost of Defects

Overview.ai

Top AI Use Cases Transforming Industries in 2025 | Databricks Blog

WEF highlights 32 AI case studies with real-world business impact | CIO

CIO

Real-world gen AI use cases from the world's leading organizations | Google Cloud Blog

Google Cloud

10.

Introducing Visual Reasoning: A New Way to Understand What You See

Chance AI

11.

UniBench: Visual Reasoning Requires Rethinking Vision-Language Beyond Scaling | Research - AI at Meta

12.

https://proceedings.neurips.cc/paper_files/paper/2024/file/96271227d3e204501d199433e56af289-Paper-Datasets_and_Benchmarks_Track.pdf

13.

Pensar con imágenes | OpenAI

14.

https://arxiv.org/pdf/2504.15279

15.

https://arxiv.org/pdf/2508.17298

Sıla Ermut

Sektör Analisti

Takip Et

Sıla Ermut, AIMultiple'ta e-posta pazarlama ve satış videolarına odaklanan bir sektör analistidir. Daha önce proje yönetimi ve danışmanlık firmalarında işe alım uzmanı olarak çalıştı. Sıla, Sosyal Psikoloji alanında Yüksek Lisans ve Uluslararası İlişkiler alanında Lisans derecesine sahiptir.

Tam Profili Görüntüle

Araştıran

Nazlı Şipi

Yapay Zeka Araştırmacısı

Nazlı, AIMultiple'de veri analistidir. Çeşitli sektörlerde veri analizi konusunda önceden deneyime sahip olup, karmaşık dataset'leri eyleme dönüştürülebilir içgörülere dönüştürme üzerine çalışmıştır.

Tam Profili Görüntüle