200 görsel tabanlı soru kullanarak, önde gelen 15 çok modlu yapay zeka modelini görsel akıl yürütme konusunda kıyasladık. Değerlendirme iki bölümden oluştu: Veri görselleştirme yorumlamasını test eden 100 grafik anlama sorusu ve örüntü tanıma ve mekansal akıl yürütmeyi değerlendiren 100 görsel mantık sorusu. Tutarlı ve güvenilir sonuçlar elde etmek için her soru 5 kez çalıştırıldı.
Görsel muhakeme kıyaslaması
Test yöntemlerimiz hakkında bilgi edinmek için kıyaslama metodolojimize bakın.
gemini-3.1-pro-preview ve gemini-3-pro-preview liderlik tablosunda başı çekiyor. Onları, bir sonraki model grubuna liderlik eden gpt-5.2 , kimi-k2.5 ve gpt-5.2-pro takip ediyor. Modellerin çoğu veri odaklı görevlerde iyi performans gösterirken, llama-4-maverick görsel girdileri mantıksal adımlarla ilişkilendirmede bir eksiklik gösteriyor.
Görsel mantık
Görsel mantık, örüntü tanıma ve mekansal akıl yürütme gerektirir. gemini-3.1-pro-preview, soyut akıl yürütme görevlerinde en yüksek performansı göstererek görsel mantık testinde lider konumdadır. Birçok model, grafik analizindeki sonuçlarla karşılaştırıldığında performansta düşüş göstermektedir. llama-4-maverick, bu görevlerde bir sınırlama göstermektedir.
Grafik anlama
Modeller, görsel mantıktan ziyade grafik yorumlamada daha iyi bir yeterlilik sergiliyor. gemini-3.1-pro-preview, grafik anlama testlerinde en yüksek puanı alırken, onu yakından gemini-3-pro-preview ve gemini-2.5-pro takip ediyor ve yapılandırılmış verileri ve görselleştirmeleri çözmede güçlü bir yetenek gösteriyor. claude-opus-4.6 ve claude-sonnet-4.6, mantık puanlarına kıyasla grafik yorumlamada daha yüksek sonuçlar gösteriyor. Veri odaklı görsel görevler, mevcut çok modlu modeller için örüntü tanımaya göre daha erişilebilir durumda.
Görsel muhakeme performansının istatistiksel güvenilirliği (%95 güven aralığı)
Her modelin hata payını tanımlamak ve gerçek performanslarının muhtemelen hangi aralıkta yer aldığını göstermek için 10.000 bootstrap örneklemesi yoluyla %95 Güven Aralığı (GA) hesapladık.
Hukuk yüksek lisans programlarının en başarılı ve en zorlandığı alanlara ilişkin kıyaslama soruları.
LLM başarı oranı en düşük olan grafik sorusu
Şekil 1: 12 aylık dönemdeki Yıldız Satış Hacimlerini gösteren çubuk grafik (1998-2000 verileri), her ay için dört kümelenmiş çubuk gösterilmiştir. Her ay, birbirine yakın gruplandırılmış düz, beyaz ve çizgili çubuklar sergilemektedir.
Not: Tüm grafikler Hitbullseye'dan alınmıştır. 1
Soru: Üç yıl üst üste satışlar sürekli artıyorsa veya sürekli azalıyorsa, buna istikrarlı trend denir. Üç yıl üst üste hangi aylarda sürekli artış trendi görülmektedir?
Örneğin, Haziran 1999'da Gerçek değer 1998'e göre daha düşüktü, yani bir düşüş gösteriyordu, ancak model bunu yanlış bir şekilde sürekli artış olarak yorumladı. Çoğu model bu konuda aynı hatayı yapar.
Ay başına 4 çubuk bir araya kümelendiğinde, modeller çubukların yıllarla eşleştirilmesi ve göreceli yükseklik algılanmasında zorluk yaşadı. Hangi çizgili/düz/beyaz çubuğun hangi yıla ait olduğunu doğru bir şekilde ayırt edemediler; bu da çubukların yanlış sırada okunmasına veya yüksekliklerinin karıştırılmasına yol açtı.
Bu durum, görsel-mekansal akıl yürütmede temel bir sınırlamayı ortaya çıkardı: mevcut modeller, yoğun şekilde paketlenmiş çubukları doğru bir şekilde ölçmek ve sıralamak için gereken piksel hassasiyetindeki algıdan yoksundu ve bu da eğilimlerin sistematik olarak yanlış tanımlanmasına yol açıyordu.
En yüksek LLM başarı oranına sahip grafik sorusu
Şekil 2: 1952'den 1998'e kadar Hindistan genel seçimlerindeki seçmen katılım yüzdelerini gösteren çubuk grafik. Her seçim yılı için bir çubuk ve çubuklar arasında net bir boşluk bulunmaktadır.
Soru: Seçmen katılım oranlarının (yüzde olarak) en yüksek ve en düşük olduğu yıllar sırasıyla hangileridir?
Tüm modeller bu soruyu doğru yanıtladı. Bu başarı, modellerin en uzun ve en kısa çubukları bulma gibi basit minimum-maksimum belirleme konusunda üstün olduklarını gösteriyor.
Kafa karıştırıcı olabilen kümelenmiş 4 çubuklu grupların aksine, bu grafikte her yıl için net aralıklarla tek bir çubuk bulunur, bu da doğrudan görsel karşılaştırmayı kolaylaştırır. Modeller, karmaşık çubuk-kategori eşleştirmesi gerektirmeyen tamamen gözlemsel görevlerde iyi performans gösterir.
En yüksek LLM başarı oranına sahip görsel mantık sorusu

Şekil 3: Cebirsel örüntü eşleştirmeyi gösteren iki hizalanmış 3×3 ızgara. Üstteki ızgara değişkenleri ve işlemlerini (çarpma, bölme, üs alma) içerir. Alttaki ızgara, bazı hücreleri doldurulmuş (6, 36, 3/4) ve iki bilinmeyen (A, B) ile sayısal değerleri göstermektedir. Soru, BA'yı bulmayı istemektedir.
Başarı, tablo yapısında görülebilen açık matematiksel örüntüden (a×b, c×d gibi cebirsel ilişkiler) kaynaklanıyordu. Görsel karmaşıklık içermeyen basit tablo düzeni, modellerin yalnızca sayısal çıkarım ve mantıksal sonuçlara odaklanmasına olanak sağladı.
Modeller, adım adım akıl yürütme yoluyla çözülebilen açık matematiksel kalıplar içeren problemler söz konusu olduğunda üstün performans gösterir ve görsel dikkat dağıtıcı unsurların minimum düzeyde olduğu durumlarda sembolik mantık ve kalıp tanıma yeteneklerini sergiler.
En düşük LLM başarı oranına sahip görsel mantık sorusu

Şekil 4: Farklı iç çizgi desenleri ve geometrik şekiller içeren dairelerle oluşturulmuş desen tanıma bulmacası. Üstte oklarla gösterilen iki örnek dizi, ardından beş çoktan seçmeli seçenekten üçüncü diziyi tamamlamayı isteyen bir soru yer almaktadır.
Zorluk, soyut görsel desen tanımayı gerektirmesinden ve birden fazla örnekte geometrik dönüşüm kurallarını belirlemeyi gerektirmesinden kaynaklanmaktadır.
Bu, şekillerin nasıl döndüğünü, dönüştüğünü ve birbirleriyle nasıl ilişkili olduğunu anlamak için saf uzamsal akıl yürütmeyi gerektirir. Modeller, açık sayısal veya metinsel bir kılavuz olmadığında, yalnızca uzamsal kalıplar mevcut olduğunda, görsel dizilerden kural çıkarımında zorlanırlar.
Görsel akıl yürütme nedir?
Görsel akıl yürütme, bir modelin görüntüleri yorumlama, görsel öğeleri birleştirme ve hem görsel hem de metinsel bilgiyi anlamayı gerektiren soruları yanıtlama yeteneğidir. Bu yetenek, basit nesne tanımadan öte, veri görselleştirmelerini analiz etme, mekansal desenleri belirleme ve görsel öğeler arasındaki ilişkileri anlama gibi görevlere kadar uzanır.
Değerlendirme ölçütümüz, farklı bilişsel yönleri test etmek için iki ayrı yol üzerinden yapılmıştır: modellerin veri görselleştirmelerinden yapılandırılmış bilgileri çıkarma yeteneklerini değerlendirmek için çubuk grafikler, çizgi grafikler ve dağılım grafikleri yorumladığı grafik anlama; ve açık sayısal yönlendirme olmaksızın soyut akıl yürütmeyi ölçmek için örüntü tanıma bulmacaları ve mekansal akıl yürütme problemlerini ele aldıkları görsel mantık. Bu ayrım, modellerin açık verileri ve örtük örüntüleri nasıl işledikleri arasındaki temel ayrımı yansıtmaktadır.
Modeller, farklı mimari yaklaşımlar aracılığıyla görsel akıl yürütmeyi gerçekleştirir. Örneğin, Cola çerçevesi, her biri açıklamalar ve olası yanıtlar sağlayan birden fazla görsel-dil modelini koordine eder; daha sonra merkezi bir LLM bu seçenekleri değerlendirir ve en doğru yanıtı seçer.
Şekil 5: Cola'nın görsel akıl yürütme için koordinatif bir dil modelinden nasıl yararlandığını gösteren grafik. 2
Bir diğer örnek ise , CaID yöntemiyle görüntüleri bağlam duyarlı açıklamalara dönüştürerek ve CVR-ICL prosedürüyle ilgili örnekleri seçerek akıl yürütmeyi geliştiren CVR-LLM çerçevesidir . Bu çerçeve, görüntü bilgilerini metin tabanlı temsiller olarak ele alarak, LLM'nin çeşitli çok modlu görev türlerinde ilişkileri daha etkili bir şekilde analiz etmesini sağlar. 3
LLM'lerde görsel akıl yürütme nasıl çalışır?
Dil modelleri (LLM'ler) görüntüleri doğrudan algılamaz. Görüntüleri dil modellerine uygun yapılandırılmış gösterimlere dönüştüren görme kodlayıcılarına güvenirler. Kodlayıcı nesneleri, dokuları, mekansal ilişkileri ve görsel desenleri tanımlar. LLM daha sonra bu gösterimi metin sorgusuyla birleştirerek bir akıl yürütme zinciri oluşturur.
Koordinasyon veya iyileştirme
Karmaşık görsel senaryolar için iki ana mekanizma mevcuttur: koordinasyon, burada bir LLM, yorumları çapraz kontrol etmek için birden fazla görme modelinden gelen çıktıları entegre eder; ve iyileştirme, burada LLM, eksik bilgileri belirleyen geri bildirim döngüleri aracılığıyla görüntü açıklamalarını yinelemeli olarak geliştirir. Her ikisi de tek modellerin karmaşık senaryoları analiz edemediği sınırlamaları ele alır.
Çok modlu akıl yürütme için bağlam içi öğrenme
Bazı çerçeveler, eğitim verilerinden benzer örnekler alarak modele görsel girdileri yorumlamak için şablonlar sağlar. Bu gösterimler, modelin öğrenilen akıl yürütme kalıplarını yeni sorunlara uygulamasına yardımcı olur.
Son açıklamayı üretmek
LLM, görüntüyü nasıl yorumladığını, hangi görsel unsurlara dayandığını ve kurduğu mantıksal bağlantıları açıklayan, akıl yürütme süreciyle desteklenen bir yanıt üretir.
Görsel görevlerde düşünce zinciri mantığı
Düşünce zinciri (Chain-of-Thought - CoT) akıl yürütmesi, görsel akıl yürütmede önemli bir yaklaşım olarak ortaya çıkmıştır. Modeller artık bir görüntüyü tek seferde analiz etmek yerine, görsel problemleri, insanların karmaşık problemleri adım adım düşünerek çözmelerine benzer şekilde, daha küçük, ardışık adımlara ayırırlar.
Visual CoT, modellerin bir görüntünün farklı uzamsal bölgelerinde odak noktasını dinamik olarak ayarlamasını sağlayarak, modellerin daha önce sabit taneli görüntü işlemeye dayandığı önemli bir sınırlamayı ortadan kaldırır. Örneğin, karmaşık bir grafiği analiz ederken, model önce eksenleri belirleyebilir, ardından tek tek veri noktalarını inceleyebilir ve son olarak eğilimleri karşılaştırabilir; her şeyi aynı anda anlamaya çalışmak yerine.
Bu yaklaşım, modelleri insan muhakeme kalıplarıyla daha yakından uyumlu hale getirmek için pekiştirmeli öğrenme ve taklit öğrenmeyi entegre eder. Bu, pasif kalıp tanımadan aktif görsel problem çözmeye doğru temel bir geçişi temsil eder; burada modeller gördüklerini aktif olarak keşfeder ve bunlar hakkında muhakeme yaparlar. 4
Hukuk yüksek lisans programlarında görsel muhakemenin iş dünyasına uygulanması
Görsel yeteneklere sahip doğrusal öğrenme modelleri (LLM'ler) birden fazla iş senaryosunu destekleyebilir. Bu uygulamalar, modelin görüntüleri analiz etme, bunları metin verileriyle ilişkilendirme ve güvenilir içgörüler üretme yeteneğine bağlıdır.
Belge ve içerik analizi
İşletmeler diyagramlar, mühendislik çizimleri, bilimsel dergi şekilleri ve çeşitli görsel verilerle çalışır. Görsel akıl yürütme modeli şunları yapabilir:
- Eksik veya hatalı öğeleri tespit edin.
- Diyagramların alt kısımlarında veya köşelerinde yer alan nesneleri veya işaretleri belirleyin.
- Kalite kontrolü için metin ve görüntü bölümlerini birbirine bağlayın.
- Daha sonraki kullanım veya raporlama için yapılandırılmış bilgileri çıkarın.
Örneğin, Intuit, yaygın ABD vergi formlarında vergi beyannamelerini otomatik olarak doldurmak için Cloud'un Doc AI ve modellerini entegre ederek belge işlemede hem hızı hem de doğruluğu artırdı. 5
Kalite kontrolü ve operasyonları
Üretim ve lojistik sektörlerinde, modeller ürünleri veya paketleri inceleyebilir. Görsel akıl yürütme, kusurları, yanlış hizalamaları veya olağandışı desenleri tespit etmeye yardımcı olur. Model, görüntüleri bir referansla karşılaştırabilir ve neyin değiştiğini veya neyin eksik olduğunu açıklayabilir.
Örneğin, Intel, yıllık 2 milyon dolar tasarruf sağlayan yapay zeka destekli görüntü denetleme sistemleri kullanıyor ve üreticiler genellikle hurda miktarının azalması ve müşteri iadelerinin düşmesi yoluyla 6-12 ay içinde yatırım getirisini elde ediyor. 6
Perakende ve E-ticaret
Modeller, ürün görsellerini analiz eder, temel özellikleri belirler ve bunları katalog verileriyle eşleştirir. Görsel arama özellikleri, müşterilerin bilgisayar görüşü kullanarak benzer ürünleri bulmak için görseller yüklemelerine olanak tanırken, yapay zeka destekli beden öneri motorları iade oranlarını %20-30 oranında azaltmıştır. Bu sistemler ayrıca ürün açıklamaları ve görseller arasındaki tutarsızlıkları da tespit eder. 7
Güvenlik ve izleme
Görsel akıl yürütme, kare dizilerini analiz ederek ve olağandışı kalıpları tespit ederek video ve görüntü inceleme görevlerini destekler. Cambridge Industries, inşaat sahaları için yapay zeka destekli bir güvenlik sistemi uygulayarak acil onarım maliyetlerini neredeyse %50 oranında azalttı. 8
Pazarlama ve kullanıcı deneyimi
Görsel akıl yürütme, ekiplerin kullanıcıların dijital içerikle nasıl etkileşim kurduğunu anlamalarına yardımcı olur. Bir model, ekran görüntülerini veya görselleri değerlendirebilir ve düzen, nesne yerleşimi ve potansiyel sorunlar hakkında bilgiler sağlayabilir. Bu, özellikle farklı görsel varlık kategorilerini değerlendirirken önemlidir.
Örneğin Comeen, iş yeri videoları için 40 dilde çok dilli altyazı oluşturmak üzere tek tıklamayla yapay zeka kullanıyor ve böylece daha önce içeriğin yayınlanmadan önce kullanılamaz hale gelmesine neden olan günler süren, birden fazla tedarikçi gerektiren süreci ortadan kaldırıyor. 9
Karşılaştırmalı tablo: başlıca oyuncular ve yaklaşımları
Şans Yapay Zekası
Chance AI, görsel odaklı anlama üzerine kurulu ilk ticari araçlardan biridir. Görsel akıl yürütme sistemi, görüntüleri kültürel, tarihsel, işlevsel ve estetik açılardan analiz eder. Basit etiketler atamak yerine, bir nesnenin, figürün veya sahnenin neden önemli olduğunu açıklayan yapılandırılmış bilgiler sunar; örneğin, eserin konusuyla birlikte üslubu, sembolizmi ve tarihsel bağlamı gibi.
Bu tasarım, yazılı sorgulara gerek kalmadan görseller aracılığıyla anlam odaklı keşif olanağı sağlayarak kullanıcı deneyimine öncelik veriyor. Bu, gelenekselbilgisayar görüşünün ötesine geçerek yorumlama, hikaye anlatımı ve insan benzeri açıklamaya doğru ilerliyor ve bu da onu özellikle bağlamın tanınmanın ötesinde değer kattığı yaratıcı endüstriler, eğitim ve turizm için son derece önemli kılıyor. 10
Meta Yapay Zeka
Meta'in UniBench çerçevesi, mekansal anlama, kompozisyonel akıl yürütme ve sayma için elliden fazla ölçütü birleştirerek görsel akıl yürütmeyi değerlendirmek için birleşik bir yaklaşım sunmuştur. Yaklaşık altmış görme-dil modelini test eden Meta, veri ve model boyutunun ölçeklendirilmesinin algıyı iyileştirdiğini ancak akıl yürütmeyi iyileştirmediğini, hatta gelişmiş modellerin bile rakam tanıma ve nesne sayma gibi basit görevlerde başarısız olduğunu bulmuştur.
Bu bulgular, görsel muhakeme gelişiminin ölçülme biçimini değiştirdi ve yalnızca büyük modellere güvenmek yerine daha yüksek kaliteli verilere, hedefli amaçlara ve yapılandırılmış öğrenmeye duyulan ihtiyacı vurguladı. İşletmeler için UniBench, dağıtımdan önce çok modlu görevlerdeki muhakeme performansını karşılaştırmanın şeffaf bir yolunu sunuyor. 11
Şekil 6: Grafik, 53 kıyaslama testinde 59 VLM'nin medyan performansını göstermekte olup, ilerlemeye rağmen birçok modelin özellikle Winoground, iNaturalist, DSPR ve diğerleri gibi görevlerde hala şans seviyesine yakın performans sergilediğini ortaya koymaktadır (mavi: sıfır atış medyanı; gri: şans seviyesi). 12
OpenAI
OpenAI O3 ve O4-mini modelleriyle gelişmiş görsel akıl yürütme yeteneği, görüntü manipülasyonunu akıl yürütmelerine entegre ederek görüntülerle düşünmeyi mümkün kılar. Analiz sırasında, ilgili ayrıntılara odaklanmak için görüntüleri yakınlaştırır, kırpar veya döndürürler; bu, insanların diyagramları veya çizimleri yorumlarken görsel dikkatlerini nasıl ayarladıklarını yansıtır.
Grafik yorumlama, görsel problem çözme ve matematiksel akıl yürütme gibi çok modlu kıyaslama testlerinde, modeller doğruluk ve bağlamsal anlayışta belirgin kazanımlar gösterdi. Bununla birlikte, sonuçlar tutarsız akıl yürütme ve ara sıra görülen algısal hatalar da dahil olmak üzere sınırlamaları ortaya koyarak, görsel akıl yürütme sistemlerinde güvenilirliğin devam eden zorluğunu vurguladı.
Şekil 7: Grafik, yüksek "akıl yürütme çabası" ayarları altında değerlendirilen tüm modellerin sonuçlarını göstermektedir. 13
Akademik ve açık araştırma çalışmaları
VisuLogic: Çok Modlu Büyük Dil Modellerinde Görsel Akıl Yürütmeyi Değerlendirmek için Bir Kıyaslama Aracı
Bu makale, görsel akıl yürütme görevlerinde çok modlu modellerin performansını değerlendirmek için bir kıyaslama aracı olan VisuLogic'i tanıtmaktadır. Mekansal ilişkiler, kompozisyonel mantık ve nesne sayımı da dahil olmak üzere çeşitli akıl yürütme türlerini kapsayan elliden fazla veri setini bir araya getirmektedir.
Yazarlar, mevcut düzinelerce modeli analiz ederek, boyut veya veri ölçeğinin artmasının görüntü tanımayı iyileştirdiğini ancak mantıksal çıkarımı etkilemediğini bulmuşlardır. Modeller genellikle nesneler arasındaki ilişkileri anlamadan kalıpları tespit eder. Makale, anlamlı bir ilerleme için mantıksal çıkarıma özel eğitimin, daha iyi veri kalitesinin ve ayrıntılı değerlendirmenin şart olduğunu vurgulamaktadır.
VisuLogic, araştırmacılara ve işletmelere yalnızca algılama ölçütlerine güvenmek yerine akıl yürütme yeteneklerini analiz etmelerine yardımcı olan birleşik bir çerçeve sunarak, çok modlu akıl yürütme sistemlerini değerlendirmek için değerli bir kaynak haline gelmektedir. 14
Cevap Vermeden Önce Açıklayın: Kompozisyonel Görsel Akıl Yürütme Üzerine Bir Araştırma
Bu çalışma, görsel ve metinsel ipuçlarını birleştirerek doğru cevaba ulaşmayı amaçlayan kompozisyonel görsel akıl yürütme yaklaşımlarını incelemektedir. Mevcut yöntemlerin, yapılandırılmış akıl yürütme yerine tanımaya dayalı zayıf yönlerini belirlemektedir.
Yazarlar, her akıl yürütme sürecinin şeffaf ve yorumlanabilir olmasını sağlamak için, yanıt vermeden önce açıklama yapacak şekilde modelleri eğitmeyi öneriyorlar. Modellerin diyagramları, şekilleri ve nesne ilişkilerini daha iyi anlayabilmesi için görsel ve dilsel temsilleri hizalama tekniklerini tartışıyorlar.
Makale, uyumlu ve açıklanabilir akıl yürütmenin çok modlu görevlerde güvenilirliği ve yorumlanabilirliği artırdığı sonucuna varmaktadır. Görsel akıl yürütme araştırmalarının geleceğinin, açıklama tabanlı öğrenmenin model tasarımına entegre edilmesine bağlı olduğunu vurgulamaktadır. 15
LLM'de görsel muhakeme yeteneklerindeki zorluklar
Görsel akıl yürütmedeki ilerleme, dikkate alınması gereken teknik ve etik zorlukları da beraberinde getiriyor.
Güvenilirlik önemli bir endişe kaynağı olmaya devam ediyor. Karşılaştırma çalışmamızda görüldüğü gibi, modeller yoğun görselleştirmelerle başa çıkmakta zorlanıyor, karmaşık grafiklerde çubuk-yıl eşleştirmesi ve göreceli yükseklik algılamasında başarısız oluyor ve bu da trend belirlemede sistematik hatalara yol açıyor. Gelişmiş modeller bile rakam tanıma ve nesne sayma gibi basit görevlerde başarısız oluyor ve verilerin ölçeklendirilmesi algılamayı iyileştiriyor ancak mantıksal çıkarımı sağlamıyor.
Önyargı ve yorumlama sorunları yaygındır. Görsel akıl yürütme modelleri, görüntüleri yorumlarken eğitim verilerinde bulunan önyargıları öğrenir ve yansıtır. Modeller, cinsiyet, ırk, yaş ve engellilik önyargıları da dahil olmak üzere, eğitim verilerinden kültürel varsayımları ve kalıplaşmış yargıları yansıtır. Örneğin, bir görüntüdeki kişilerin mesleklerini tahmin ederken veya senaryoları yorumlarken, bu önyargılar sonuçları bozabilir.
Açıklanabilirlik, güven için kritik öneme sahiptir. Modeller, özellikle sağlık hizmetleri, işe alım ve ceza adaleti gibi önyargılı sonuçların zarara yol açtığı yüksek riskli uygulamalarda, akıl yürütme süreçlerini şeffaf bir şekilde açıklamalıdır.
Kıyaslama metodolojisi
Tüm modeller, standartlaştırılmış parametrelerle OpenRouter API'si aracılığıyla değerlendirildi: sıcaklık 0,8 olarak ayarlandı ve mantıksal çıkarım yeteneklerini sınırlamamak için maksimum belirteç parametresi ayarlanmadı. Modellerden açıklama yapmadan yalnızca tek bir harf (AE) ile yanıt vermeleri istendi, ancak bazı modeller yine de ayrıntılı gerekçeler sundu ve biz de bu gerekçeleri nihai yanıtları çıkarmak için ayrıştırdık. Değerlendirme, tüm modellerde eş zamanlı olarak paralel bir şekilde yürütüldü. Tutarlı ve güvenilir sonuçlar sağlamak için her soru 5 kez çalıştırıldı.
Değerlendirme testi, iki kategoriye ayrılmış 200 sorudan oluşuyordu: Grafik Anlama (100 soru), çubuk grafikler, çizgi grafikler, dağılım grafikleri ve karmaşık veri görselleştirmelerini kapsıyordu ve Görsel Mantık (10 soru), örüntü tanıma, mekansal akıl yürütme ve matematiksel görsel mantığı test ediyordu. Tüm sorular, beş seçenekli çoktan seçmeli formatta (AE) sunuldu ve modellerin görüntüleri analiz edip doğru cevabı seçmesi gerekiyordu.
Questions:
1. Grafik Anlama: Modelleri, çeşitli veri görselleştirmelerinden bilgi çıkarma, yorumlama ve analiz etme yetenekleri açısından değerlendirdik:
- Çubuk grafikler : Yatay ve dikey konfigürasyonlar, yığılmış ve gruplandırılmış formatlar.
- Çizgi grafikler : Tek ve çok serili trendler, zaman serisi verileri
- Saçılım grafikleri : Korelasyon analizi, etiketli eksenlerle desen tanımlama.
- Pasta grafikleri : Yüzde dağılımları ve orantısal akıl yürütme
- Karmaşık görselleştirmeler : Kombinasyon grafikleri, çift eksenli grafikler ve çok panelli ekranlar
2. Görsel Mantık Soyut akıl yürütme ve mekansal zekayı şu yöntemlerle değerlendirdik:
- Desen tanıma : Dizileri belirleme ve görsel desenleri tamamlama
- Uzamsal akıl yürütme : 3 boyutlu görselleştirme, küp ağları ve geometrik dönüşümler
- Matematiksel mantık : Sayısal örüntüler, cebirsel akıl yürütme ve kombinatorik
- Soyut düşünme : Sembol manipülasyonu, mantıksal çıkarım ve kural çıkarımı
Soru formatı
- Cevap formatı : Çoktan seçmeli (A, B, C, D, E)
Yorum yapan ilk kişi olun
E-posta adresiniz yayınlanmayacak. Tüm alanlar gereklidir.