Büyük Çok Modlu Modeller (LMM'ler) ve Büyük Çok Modlu Modeller (LLM'ler)

güncellendi May 22, 2026

Özenle seçilmiş bir veri kümesi kullanarak, Büyük Çok Modlu Modellerin (LMM'ler) finansal akıl yürütme görevlerindeki performansını değerlendirdik. Yüksek kaliteli finansal örneklerin bir alt kümesini analiz ederek, modellerin finansal alanda çok modlu verilerle işlem yapma ve akıl yürütme yeteneklerini değerlendirdik.

Loading Chart

Metodoloji bölümü, kullanılan veri seti ve değerlendirme çerçevesine ilişkin ayrıntılı bilgiler sunmaktadır.

Büyük çok modlu modelleri inceleyin ve bunları büyük dil modelleriyle karşılaştırın.

Modeller neden farklı performans gösterdi?

Başarı oranlarındaki farklılık, her modelin çok modlu finansal görevleri nasıl işlediğine dair farklılıkları yansıtır. Karşılaştırma ölçütü, metin ve grafikler, yapılandırılmış belgeler gibi finansal görsellerin entegrasyonunu gerektiren FinMME veri kümesinden örnekler kullandığı için, performans büyük ölçüde modelin mimarisine, eğitim kalitesine ve çok modlu uyumuna bağlıdır.

Model mimarisi ve parametre tasarımı

Modeller, metin ve görüntü kodlayıcılarını birleştirme biçimleri, aktif parametre sayısı ve uzman yönlendirme karmaşıklığı bakımından farklılık gösterir.

Örneğin, Llama 4 Maverick, daha güçlü mantıksal çıkarım yapmayı sağlayan, daha geniş kapsamlı ve uzman tabanlı bir tasarım kullanmaktadır.
Daha küçük veya verimliliğe odaklı modeller, çok modlu akıl yürütmeyle uyumlu daha az parametreye sahiptir, bu da performansı sınırlar.

Bu mimari farklılıklar, her modelin sayısal ilişkileri, grafik yapılarını ve alana özgü görselleri ne kadar iyi yorumlayabileceğini etkiler.

Eğitim verisi kapsamı

Bazı modeller kapsamlı çok modlu veri kümeleri üzerinde eğitilirken, diğerleri öncelikle genel amaçlı verilere dayanmaktadır.

Claude 4 ve Qwen 2.5 ailelerindeki modeller, büyük ölçekli görsel ve metin verilerini bünyesine katarak sayısal ve görsel ipuçlarını hizalama yeteneklerini geliştirir.
Daha sınırlı çok modlu veri kümeleri üzerinde eğitilen modeller, finansal grafikler ve yapılandırılmış diyagramlarla başa çıkmakta zorlanmaktadır.

Eğitim verileri, bir modelin farklı finansal kavramları ne kadar güvenilir bir şekilde ele alacağını doğrudan etkiler.

Bu kıyaslama, görüntü yorumlama ve metin tabanlı akıl yürütme arasında koordinasyon gerektirir.

Claude 4 modelleri, grafik ve diyagram içeren görevlerde güçlü olarak tanımlanmaktadır.
Özel çapraz modlu ince ayar özelliği olmayan modeller, görsel özellikleri doğru bir şekilde algılayabilir ancak bunları finansal dil veya mantıkla ilişkilendirmede yetersiz kalabilir.

Bir modelin ince ayar stratejisi, analiz sırasında metinsel ve görsel sinyalleri birleştirme yeteneğini etkiler.

Bağlam işleme kapasitesi

Finansal örnekler genellikle birlikte okunması gereken birden fazla unsur içerir; örneğin, çok bölümlü grafikler veya uzun açıklamalar.

Daha geniş bağlam pencerelerine sahip modeller, uzun girdiler boyunca ilişkileri koruyabilir.
Daha kısıtlı modeller bağımlılıkları gözden kaçırabilir ve bu da birden fazla görsel ve metinsel bileşenin izlenmesini gerektiren görevlerde doğruluğu azaltabilir.

Bağlam penceresinin boyutu, bir modelin nicel ve görsel ayrıntılar arasındaki uyumu ne kadar iyi koruduğunu etkiler.

Model boyutu ve verimlilik öncelikleri

Bazı modeller, yüksek karmaşıklıkta akıl yürütme yerine, kasıtlı olarak hafif bir şekilde kullanıma yönelik olarak tasarlanmıştır.

Phi-4 çok modlu ve benzeri modeller verimliliğe öncelik vererek çok modlu işlemlemenin derinliğini sınırlandırır.
Daha büyük modeller, ayrıntılı grafik anlayışı gerektiren akıl yürütme görevlerinde daha yüksek kapasiteye sahiptir.

Bu denge, daha küçük modeller için daha düşük puanlarla sonuçlanır.

Görsel anlayıştaki farklılıklar

Değerlendirme, doğru grafik okuma, finansal belgeler içindeki nesne tanımlama ve görsel ayrıntıları çıkarma gerektiren görevleri içermektedir.

Qwen 2.5-VL varyantları gibi gelişmiş görsel işlem hatlarına sahip modeller, bu görevleri daha etkili bir şekilde yönetir.
Diğerleri genel görselleri iyi işleyebilir ancak yapılandırılmış finansal görseller söz konusu olduğunda tutarsız performans gösterebilir.

Görsel muhakeme yeteneği, FinMME tarzı örneklerdeki sonuçları önemli ölçüde etkiler.

Değerlendirme veri setinin özellikleri

Bu veri seti, genel amaçlı görevlerden ziyade çok modlu finansal muhakemeye odaklanmaktadır.

Finansal, sayısal veya grafik tabanlı görevler için eğitilmiş veya ince ayar yapılmış modeller daha iyi performans gösterir.
Alan uzmanlığı olmayan genel modeller, finansal veri kümelerinde daha düşük doğruluk oranı sergiler.

Veri kümesi uzmanlaşması, performansı çapraz modal akıl yürütmenin kalitesine karşı daha hassas hale getirir.

Açık kaynaklı büyük çok modlu modeller nelerdir?

GitHub yıldız sayılarıyla birlikte açık kaynaklı LMM'ler:

Grafik, çeşitli açık kaynaklı LMM'lerin GitHub'daki popülaritesinin arttığını ve bazı modellerin piyasaya sürülmelerinden kısa süre sonra hızla benimsendiğini göstermektedir.

DeepSeek tarafından geliştirilen Janus-Series, Janus-Pro'nun 27 Ocak 2025'te yayınlanmasının ardından günler içinde binlerce GitHub yıldızı kazanarak, benzer sayılara ulaşması aylar süren rakiplerini geride bıraktı. Bu hızlı yükseliş sadece Janus-Pro'nun başarısından değil, aynı zamanda DeepSeek-R1'in yarattığı ivmeden de kaynaklandı.

Google tarafından geliştirilen Gemma 3 : Gemma 3, Gemini 2.0 teknolojisinden türetilmiş, hafif ve son teknoloji ürünü açık modellerden oluşan bir ailedir. Bu modeller, gelişmiş metin ve görsel akıl yürütme yetenekleri, 128 bin tokenlik bir bağlam penceresi, fonksiyon çağırma desteği ve optimize edilmiş performans için nicelleştirilmiş sürümler sunar. Görüntü güvenliği için ShieldGemma 2'yi içerir ve çeşitli araçları ve dağıtım seçeneklerini destekler. ¹
DeepSeek tarafından geliştirilen Janus-Pro : Janus-Pro, hem metin hem de görüntüleri anlamak ve üretmek için tasarlanmış, Janus modelinin gelişmiş bir sürümüdür. Optimize edilmiş bir eğitim stratejisi, genişletilmiş eğitim verileri ve daha büyük bir model boyutuyla çok modlu yeteneklerini artırır. ²
Alibaba'nın Qwen2.5-VL modeli : Alibaba'nın Qwen2.5-VL modeli, hem metin hem de görüntü anlama için tasarlanmış, Qwen2.5 dil modelinin çok modlu bir uzantısıdır. Geniş ölçekli ön eğitim (18T'ye kadar belirteç), genişletilmiş bağlam penceresi (128K'ya kadar belirteç), geliştirilmiş talimat takibi ve sağlam çok dilli desteğiyle öne çıkar ve görüntü açıklaması ve görsel soru cevaplama gibi görevler için uygundur. ³
- Alibaba, Qwen2.5-VL serisini temel alarak, gelişmiş ince taneli görüntü anlama ve akıl yürütme özelliklerini içeren 32B VL modeli olan Qwen2.5-VL-32B-Instruct'ı optimize etti ve açık kaynaklı hale getirdi. Bu, görüntü ayrıştırma, içerik tanıma ve görsel mantık çıkarımı gibi görevlerde performansı ve ayrıntılı analizi iyileştirir. ⁴
CLIP (Kontrastif Dil-Görüntü Ön Eğitimi) OpenAI tarafından geliştirilmiştir: CLIP, görüntüleri doğal dil bağlamında anlamak üzere tasarlanmıştır. Metin açıklamalarını anlayarak, açıkça eğitilmediği kategorilerde bile görüntüleri doğru bir şekilde sınıflandırabilen sıfır atışlı görüntü sınıflandırması gibi görevleri yerine getirebilir. ⁵
DeepMind tarafından geliştirilen Flamingo : Flamingo, hem dilin hem de görsel anlayışın güçlü yönlerinden yararlanmak üzere tasarlanmıştır ve bu sayede hem metinden hem de görsellerden gelen bilgileri yorumlamayı ve bütünleştirmeyi gerektiren görevleri yerine getirebilir. ⁶

Şekil 1: Chip Huyen'den alınmış bir örnek ⁷

Önde gelen LMM'ler nelerdir?

Genel amaçlı LLM'lerin kullanıcı arayüzü ve API özellikleri

Tedarikçiler, karşılaştırılabilirlik, veri kullanılabilirliği ve güncellik kriterlerine göre en popüler çok modlu yaşam döngüsü modelleri arasından seçilir.

LMM'ler ve token başına fiyatları:

En uygun modeli seçmek için bütçeniz, gerekli özellikler ve performans düzeyi ile belirli kullanım durumunuz için gereken beklenen giriş/çıkış token hacmi gibi faktörleri göz önünde bulundurun.

LLM'lerin fiyatlandırması hakkında daha fazla bilgi edinebilirsiniz.

Çok modlu ulaşım modellerindeki son gelişmeler nelerdir?

Çok modlu modellerdeki son gelişmeler, yapay zeka geliştirme alanında yeni yetenekler ve verimlilikler ortaya çıkardı.

Video öncelikli çok modlu temel modeller

Video odaklı çok modlu temel modeller, üst düzey altyazılar veya özetler oluşturmanın ötesine geçerek, videoların içindeki kanıtları açıkça yerelleştirmeyi öğreniyor.

Olanları anlatmak yerine, ne zaman olduğunu (zaman damgaları) ve nerede olduğunu (nesnelerin veya bölgelerin etrafındaki sınırlayıcı kutular) belirleyebilirler.

Mekânsal-zamansal temellendirmeye doğru bu kayma, video anlama sürecini daha hassas ve doğrulanabilir hale getiriyor. Ayrıca, kesin anları bulma, nesneleri zaman içinde izleme, doğal dil kullanarak videoları düzenleme ve robotik ve güvenlik açısından kritik sistemleri destekleme gibi görevleri de mümkün kılıyor.

Örneğin, Vidi ⁸ video anlama ve düzenleme için büyük çok modlu modellere odaklanan, ByteDance tarafından geliştirilen açık kaynaklı bir projedir.

Bu depo, görüntü, ses ve metni girdi olarak alarak aşağıdaki gibi görevleri yerine getiren bir model ailesinin (örneğin, Vidi-7B, Vidi1.5-9B, Vidi2 ve Vidi2.5) kodunu ve kaynaklarını barındırmaktadır:

Zamansal bilgi alma (bir videoda metin sorgusuna uyan zaman dilimlerini bulma)
Mekânsal-zamansal temellendirme (nesnelerin zaman içindeki konumunu sınırlayıcı kutularla belirleme)
Video soru cevaplama

Mistral 3 çok modlu sınır sürümü

Mistral AI, Mistral 3 adında yeni bir açık kaynaklı yapay zeka modeli ailesi geliştirdi. Mistral 3 paketi, hem öncü çok modlu/çok dilli modelleri hem de buluttan uç noktaya ve hatta tek GPU'lara kadar çeşitli cihazlarda çalışmak üzere tasarlanmış daha küçük, verimli modelleri içerir.

Açık kaynak lisansı (Apache 2.0) altında yayınlanan bu modeller, gelişmiş yapay zekaya erişimi demokratikleştirmeyi, özelleştirme ve dağıtım esnekliğini sağlamayı ve en son teknolojilerde ABD ve Çin'in gerisinde kalma endişelerinin bulunduğu Avrupa'nın yapay zeka geliştirme alanındaki konumunu güçlendirmeyi amaçlamaktadır. ⁹

Açık kaynaklı MoE görsel-dil modelleri

Kimi-VL (9912591736 numaralı koddan) metin, görüntü ve video kombinasyonunu içeren görevlerde hesaplama verimliliğini koruyarak çalışan, Uzmanlar Karışımı (MoE) mimarisiyle oluşturulmuş açık kaynaklı çok modlu bir görüntü-dil modelidir.

Toplam 16 milyar parametrelik bir omurgaya sahip olmasına rağmen, çıkarım sırasında genellikle yalnızca ~2,8 milyar parametreyi etkinleştirir; bu da yetenek ve maliyet arasında bir denge kurulmasına yardımcı olur.

Kimi-VL, gelişmiş çok modlu akıl yürütme, uzun bağlamlı anlama (yaklaşık 128 bin belirtece kadar) ve ajan tarzı etkileşimler için tasarlanmıştır ve video anlama, optik karakter tanıma (OCR) , matematiksel akıl yürütme ve çoklu görüntü görevleri gibi kıyaslama testlerinde daha büyük modellerle iyi bir şekilde rekabet etmektedir.

Kimi-VL-A3B-Thinking gibi varyantlar, düşünce zinciri ve akıl yürütme görevleri için daha da ince ayarlanmıştır; MoonViT görsel kodlayıcı ise yüksek çözünürlüklü girdi anlama özelliğini destekler.

Şekil 2: Kimi-VL mimari tasarımı. ¹⁰

Anthropic'in Claude 4 Serisi

Anthropic'in Claude 4 serisi, gelişmiş görsel anlama yeteneğini metin tabanlı akıl yürütme motoruyla entegre ederek, görmeyi doğrudan problem çözme iş akışlarına yerleştirir.

Claude 4 modelleri, özellikle grafiklerin, diyagramların ve karmaşık görsel verilerin yorumlanmasında MMMU gibi çok modlu akıl yürütme kıyaslama testlerinde güçlü performans sergilemektedir. Claude Opus 4.1'in ayırt edici özelliği, görüntülerin estetik niteliklerini değerlendirebilme yeteneğidir; bu da tanıma yeteneğinin ötesine geçerek daha incelikli değerlendirmelere kadar uzanmaktadır.

Bu yetenekler, Claude'un aracı işlevleriyle birleştiğinde, diziyi, karışık metin ve görseller içeren raporlardan araştırma sonuçlarını sentezlemek veya görsel maketlerin analizi yoluyla arayüz tasarımına yardımcı olmak gibi görevler için etkili hale getiriyor.

GPT-5 tarafından OpenAI

GPT-5 , metin, ses, görüntü ve video genelinde gelişmiş yerel çok modluluk sunar. Eklentilere büyük ölçüde dayanan önceki sistemlerin aksine, GPT-5, bu modları birleşik bir mimari içinde entegre ederek daha sorunsuz bir etkileşim sağlar. Model, çeşitli giriş türlerine esnek bir şekilde uyum sağlar ve bunlar arasında geçiş yapabilir.

Öne çıkan özelliklerinden biri, kullanıcı talimatlarına göre tonu, hızı ve stili ayarlayabilen Gerçek Zamanlı Ses Modu'dur. Bu, daha doğal ve uyarlanabilir bir konuşma deneyimi yaratır. Görsel işlemleme de iyileştirilmiş olup, görüntü, diyagram ve grafiklerin yorumlanmasında veya oluşturulmasında halüsinasyonları azaltmıştır. Bir diğer gelişme ise, sistemin önceki girdileri hatırlamasını ve uzun süreli etkileşimler boyunca bağlamı korumasını sağlayan bellek yeteneklerinde yatmaktadır.

Bu iyileştirmeler, özellikle duyusal engeli olan bireyler için erişilebilir çok modlu arayüzler açısından GPT-5'i son derece değerli kılıyor.

Google DeepMind'ın robotik odaklı çok modlu modelleri

DeepMind, robotik sistemlerde görme, dil ve eylemi entegre etmek üzere tasarlanmış Gemini Robotics ve Gemini Robotics-ER modellerini geliştirdi. Bu modeller, robotların kağıt katlama veya şişe kapağı açma gibi yapılandırılmamış ortamlarda görevleri yerine getirmesini sağlıyor.

Bu modellerin en önemli özelliklerinden biri güvenlik mekanizmasıdır. Sistem, eylemleri gerçekleştirmeden önce riskleri en aza indirmek ve görevlerin uygun şekilde ele alınmasını sağlamak için yerleşik kontroller yapar. Bu yaklaşım, robotikteki önemli zorluklardan birini ele almaktadır: gelişmiş yapay zeka muhakemesini güvenli ve güvenilir gerçek dünya uygulamasıyla birleştirmek.

Llama 4 Scout ve Llama 4 Maverick, Meta AI tarafından.

Llama 4 Scout, 17 milyar aktif parametreye ve 16 uzmana sahip çok modlu bir modeldir. Bu model, önceki nesil Llama modellerinden daha iyi performans gösterir ve tek bir H100 GPU üzerinde çalışacak şekilde tasarlanmıştır. Büyük miktarda bilgiyi işlemek için 10 milyon tokenlik bir bağlam penceresine sahiptir. Karşılaştırma test sonuçları, Llama 4 Scout'un, yaygın olarak bildirilen bir dizi karşılaştırma testinde Gemma 3, Gemini 2.0 Flash-Lite ve Mistral 3.1'den daha iyi sonuçlar elde ettiğini göstermektedir.

Llama 4 Maverick, 17 milyar aktif parametreye ve 128 uzmana sahip çok modlu bir modeldir. Bu model, sınıfında en iyi performans gösterenlerden biri olarak sunulmakta olup, çeşitli kıyaslama testlerinde GPT-4o ve Gemini 2.0 Flash modellerini geride bırakmaktadır. Daha az aktif parametre kullanırken, akıl yürütme ve kodlama alanlarında DeepSeek v3 ile karşılaştırılabilir bir performans elde etmektedir. Llama 4 Maverick'in deneysel bir sohbet sürümü, LMArena platformunda 1417 ELO puanına ulaşmıştır.

4o Görüntü Oluşturma OpenAI tarafından

OpenAI'un GPT-4o'ya entegre edilmiş en yeni görüntü oluşturma modeli, metin ve görsel oluşturmayı birleşik bir sisteme entegre eder. Bu çok modlu yetenek, GPT-4'in metin tabanlı bilgisine ve sohbet bağlamına dayanarak görüntüler oluşturmasını ve dil ile görseller arasında bir etkileşim yaratmasını sağlar.

Aşağıdaki şekillerde gösterildiği gibi, çok turlu üretim sayesinde kullanıcılar görüntüleri konuşma yoluyla iyileştirebilirler. Model, tutarlılığı korumak için önceki metin girdilerine ve yüklenen görüntülere dayanır. Kullanıcı tarafından sağlanan görselleri analiz ederek ve bağlam içinde öğrenerek, GPT-4o belirli ayrıntılara uyum sağlar ve bağlam duyarlı görüntüler üretme yeteneğini geliştirir.

Şekil 3: Referanslar kullanılarak bir çizim oluşturulmasına teşvik etme ve görsel için metin özelliklerine ilişkin talimatlar verme.

Şekil 4: Çizimden bir fotoğraf oluşturulmasını ve bunun bir sahneye yerleştirilmesini teşvik etme. ¹¹

Qwen2.5-VL-32B-Alibaba tarafından verilen talimat

Alibaba'nın Qwen2.5-VL-32B-Instruct modeli, görsel işleme özelliklerine sahip Qwen2.5 dil modelini temel almaktadır. 32B parametreli model, görüntü anlama ve akıl yürütmeye odaklanmaktadır. 128K token bağlam penceresiyle 18T token üzerinde önceden eğitilmiştir ve çok dilli desteği içermektedir. Model, görüntü ayrıştırma, içerik tanıma ve görsel akıl yürütmeyi geliştirerek, görüntü ve metin analizini birleştiren uygulamalar için kullanışlı hale gelmektedir.

Gemma 3, Google tarafından.

Google'un Gemma 3'ü, Gemini 2.0 modellerinden gelen teknolojiyi temel alıyor. Farklı donanım gereksinimleri için dört boyutta (1B, 4B, 12B ve 27B) sunuluyor ve 128k token'lık bir bağlam penceresi sağlıyor. Gemma 3, tek hızlandırıcı kurulumlarında iyi performans gösteriyor ve metin ve görsel akıl yürütme, fonksiyon çağırma ve 35'ten fazla dil desteği içeriyor; 140'tan fazla dil için ön eğitim de mevcut. Nicelleştirilmiş sürümler, model boyutunu ve hesaplama ihtiyaçlarını azaltıyor. ShieldGemma 2 sistemi, içerik güvenliği sınıflandırması sağlıyor.

Phi-4-multimodal by Microsoft

Microsoft'un Phi-4-multimodal modeli, konuşma, görüntü ve metni birleşik bir mimaride işleyen 5,6 milyar parametreli bir modeldir. Farklı girdi türleri arasında bağlam duyarlı etkileşimler için çapraz modlu öğrenmeyi kullanır. Model, ayrı işleme sistemlerine ihtiyaç duymadan birden fazla girdi formatını işler ve cihaz dağıtımı ve uç bilişim için tasarlanmıştır. Uygulamaları arasında akıllı telefon yapay zekası, otomotiv sistemleri ve çok dilli hizmetler yer almaktadır.

Büyük çok modlu model (LMM) nedir?

Büyük çok modlu model, birden fazla veri türünü işleyebilen ve anlayabilen gelişmiş bir yapay zeka modelidir. Bu çok modlu veriler metin, görüntü, ses, video ve potansiyel olarak diğerlerini içerebilir. Çok modlu bir modelin temel özelliği, bu farklı veri kaynaklarından gelen bilgileri genellikle eş zamanlı olarak entegre etme ve yorumlama yeteneğidir.

Bunlar, metinle ve çeşitli veri türleriyle çalışabilen büyük dil modellerinin (LLM'ler) daha gelişmiş versiyonları olarak anlaşılabilir. Ek olarak, çok modlu dil modeli çıktıları yalnızca metinsel değil, aynı zamanda görsel, işitsel vb. olacak şekilde tasarlanmıştır.

Çok modlu dil modelleri, yapay genel zekâya ulaşmada bir sonraki adım olarak kabul edilmektedir.

Çok modlu yapay zeka ajanı nedir?

Çok modlu yapay zeka ajanları , görüntüler, videolar ve metinler de dahil olmak üzere çeşitli veri türlerini kullanarak dünyayla etkileşim kurmak üzere tasarlanmış sistemlerdir ve bu sayede hem dijital hem de fiziksel ortamlarda çalışabilirler. Çok modlu modeller, bu ajanların temel bileşenidir ve çeşitli kaynaklardan gelen bilgileri algılamalarını ve anlamalarını sağlar.

Örneğin, Magma gibi modeller, çok modlu veri kümeleri üzerinde ön eğitim sırasında Set-of-Mark ve Trace-of-Mark gibi teknikler aracılığıyla elde edilen görsel-dilsel anlama ve mekansal zekayı kullanır.

Bu, ajanın video içeriğini anlamaktan ve soruları yanıtlamaktan, kullanıcı arayüzlerinde gezinmeye ve robotları kontrol etmeye kadar çeşitli görevleri yerine getirmesini sağlar ve çok modlu modellerin farklı veri türlerinden yararlanarak yapay zeka ajanlarına kazandırdığı çok yönlü yetenekleri gösterir. Aşağıdaki görsel, Magma'nın görevleri gerçekleştirmek için robot yörüngelerini planlamasını ve mekansal zekasını uygulamada göstermesini göstermektedir. ¹²

LMM'ler ve LLM'ler arasındaki fark nedir?

1. Veri türleri

LMM'ler ( Doğrusal Karma Modeller): Birden fazla veri girdisi türünü veya yöntemini anlamak ve işlemek üzere tasarlanmıştır. Bu, metin, görüntü, ses, video ve bazen duyusal veriler gibi diğer veri türlerini içerir. LMM'lerin temel yeteneği, bu farklı veri biçimlerini genellikle eş zamanlı olarak entegre etme ve anlamlandırma yeteneğidir.
LLM'ler : Bu modeller metinsel verileri işleme ve üretme konusunda uzmanlaşmıştır. Öncelikle büyük metin külliyatları üzerinde eğitilirler ve çeşitli bağlamlarda insan dilini anlama ve üretme konusunda yeteneklidirler. Görüntü veya ses gibi metin dışı verileri doğal olarak işlemezler.

2. Uygulamalar ve görevler

LMM'ler : Çok modlu yapıları nedeniyle, bu modeller farklı veri türlerindeki bilgileri anlamayı ve bütünleştirmeyi gerektiren görevlere uygulanabilir. Örneğin, bir LMM, kapsamlı bir anlayış elde etmek için bir haber makalesini (metin), ona eşlik eden fotoğrafları (görüntüler) ve ilgili video klipleri analiz edebilir.
LLM'ler : Uygulamaları, makale yazma, dil çevirisi, soru cevaplama, belge özetleme ve metin tabanlı içerik oluşturma gibi metinle ilgili görevler etrafında yoğunlaşmaktadır.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Takip Et

Büyük çok modlu modellerin veri türleri nelerdir?

Metin

Bu, kitaplar, makaleler, web sayfaları ve sosyal medya gönderileri gibi her türlü yazılı içeriği içerir. Model, çeviri, özetleme ve soru cevaplama gibi doğal dil işleme görevleri de dahil olmak üzere metinsel içeriği anlayabilir, yorumlayabilir ve üretebilir.

Görseller

Bu modeller görsel verileri analiz edebilir ve üretebilir. Bu, fotoğrafların, illüstrasyonların ve diğer grafiksel gösterimlerin içeriğini ve bağlamını anlamayı içerir. Görüntü sınıflandırma, nesne tespiti ve metinsel açıklamalardan görüntü oluşturma gibi görevler bu kategoriye girer.

Ses

Bu, ses kayıtlarını, müziği ve konuşulan dili kapsar. Modeller, konuşmayı, müziği, ortam seslerini ve diğer işitsel girdileri tanımak üzere eğitilebilir. Konuşmayı yazıya dökebilir, konuşulan komutları anlayabilir ve hatta sentetik konuşma veya müzik üretebilirler.

Video

Görsel ve işitsel unsurları bir araya getiren video işleme, hareketli görüntüleri ve bunlara eşlik eden sesleri anlamayı içerir. Bu, video içeriğini analiz etmeyi, videolardaki eylemleri veya olayları tanımayı ve video klipler oluşturmayı kapsayabilir.

Günümüzdeki büyük çok modlu dil modellerinin çoğu yalnızca metin ve görüntüleri işleyebilirken, gelecekteki araştırmalar ses ve video veri girişlerini de dahil etmeyi hedefliyor.

Büyük çok modlu modeller nasıl eğitilir?

Büyük çok modlu modellerin (LMM'ler) eğitilmesi, büyük dil modellerinin (LLM'ler) eğitilmesinden birkaç önemli açıdan önemli ölçüde farklılık gösterir:

1. Veri toplama ve hazırlama

LLM'ler : Kitaplardan, web sitelerinden ve yazılı kaynaklardan elde edilen metin verilerine odaklanır ve LLM eğitim veri kaynakları için dilsel çeşitliliğe önem verir.
LMM'ler : Metin, resim, ses ve video verilerine ihtiyaç duyar. Çeşitli formatlar nedeniyle veri toplama daha karmaşıktır. Veri açıklaması ve veri türleri arasındaki uyum esastır.

2. Model mimarisi tasarımı

LLM'ler : Sıralı metin işleme için optimize edilmiş dönüştürücü mimarileri kullanır.
LMM'ler : Birden fazla sinir ağı türünü (görüntüler için CNN'ler, metin için transformatörler) birbirine bağlayan mekanizmalarla entegre eden daha karmaşık mimariler kullanır.

3. Ön eğitim

LLM'ler : Maskeli dil modellemesi gibi teknikler kullanılarak metin veri kümeleri üzerinde ön eğitim yapılır.
LMM'ler : Birden fazla veri türü üzerinde önceden eğitilirler; metni görüntülerle ilişkilendirmeyi veya video dizilerini anlamayı öğrenirler.

4. İnce ayar

LLM'ler : Belirli görevler için özel metin veri kümeleri üzerinde ince ayar yapma .
LMM'ler : Farklı veri türleri arasındaki ilişkileri kurmak için hem modaliteye özgü veri kümelerinde hem de modaliteler arası veri kümelerinde ince ayar gerektirir.

5. Değerlendirme ve yineleme

LLM'ler : Değerlendirme ölçütleri, akıcılık, tutarlılık ve alaka düzeyi de dahil olmak üzere dil anlama ve üretme görevlerine odaklanır.
LMM'ler : Görüntü tanıma, ses işleme ve çapraz mod entegrasyonu yeteneklerini kapsayan daha geniş ölçütler üzerinden değerlendirilmiştir.

LLM programları nasıl çalışır?

Büyük çok modlu modeller, eğitim süreçleri, tasarımları ve işleyişleri açısından büyük dil modelleriyle benzerlikler gösterir. Aynı transformatör mimarisini ve eğitim stratejilerini kullanırlar. Büyük çok modlu modeller şu konularda eğitilir:

Metin verileri
Milyonlarca veya milyarlarca görsel, metin açıklamalarıyla birlikte.
Video klipler
Ses örnekleri
Kod gibi diğer girdi verileri

Bu eğitim, modelin birden fazla veri türünü eş zamanlı olarak öğrenmesini sağlayarak aşağıdaki yeteneklere sahip olmasını mümkün kılar:

Bir kedinin fotoğrafını tanıyın.
Ses kaydındaki bir kelimeyi belirleyin.
Metnin ötesinde kavramları ve duyusal ayrıntıları anlayın.

Bu sayede kullanıcılar şunları yükleyebilir:

Bir görsel:
- Olan bitenin açıklamasını alın.
- Bu görseli metin veya görsel oluşturmak için bir komut istemi olarak kullanın.
- Görüntünün belirli unsurları hakkında ek sorular sorun.
- Resimdeki metni farklı bir dile çevirin (örneğin, Menü).

Şekil 5: Bir kedinin resmini ChatGPT'ye yükleyerek onu tanımlama.

Grafikler ve çizelgeler şunlar için kullanılır:
- Gösterdikleriyle ilgili karmaşık takip soruları sorun.
Tasarım taslağı şu amaçla kullanılacaktır:
- Bunu oluşturmak için gerekli HTML ve CSS kodunu edinin.

Şekil 6: Wes Anderson film tarzında bir görüntü oluşturma isteği. ChatGPT, isteği bir görüntü oluşturma modeline (DALL·E gibi) iletir; bu model isteği yorumlar ve stilize edilmiş görüntüyü üretir.

Eğitim sürecinin ardından, modeller sağlıksız kalıplaşmış düşünceleri ve zehirli fikirleri bünyesine katabilir. Bunları iyileştirmek için şu teknikler kullanılabilir:

İnsan geri bildirimiyle pekiştirmeli öğrenme (RLHF)
Denetleyici yapay zeka modelleri
Kırmızı takım çalışması (modelin sağlamlığını test etme) kullanılabilir.

Ek olarak, yapay zeka uyumluluk çözümleri olarak işlev gören yapay zeka yönetişim araçları ve sorumlu yapay zeka araçları , yapay zeka envanterinin optimizasyonunu sağlayarak yapay zeka önyargısını ve diğer etik ikilemleri önlemeye yardımcı olabilir . İşte bu araçların genel yapay zeka telif hakkı endişelerini nasıl ele aldığına dair bir örnek:

Şekil 7: ChatGPT, telif haklarını korumaya yönelik içerik politikası yönergeleri nedeniyle isteğimi reddediyor.

Amaç, aşağıdaki işlevleri yerine getirebilen işlevsel bir çok modlu sistem geliştirmektir:

Metinden görüntüye sentez
Resim alt yazısı
Metin tabanlı görüntü alma
Görsel soru cevaplama.

Bu sayede çok modlu yapay zeka, çeşitli yöntemleri entegre ederek hem dil hem de görmeyi içeren görevler için gelişmiş yetenekler sağlayabilir.

Büyük dil modellerinin sınırlamaları nelerdir?

Veri gereksinimleri ve önyargılar : Bu modeller, eğitim için büyük ve çeşitli veri kümelerine ihtiyaç duyar. Ancak, bu tür veri kümelerinin bulunabilirliği ve kalitesi bir zorluk olabilir. Dahası, eğitim verileri önyargılar içeriyorsa, modelin bu önyargıları devralması ve muhtemelen güçlendirmesi, adaletsiz veya etik olmayan sonuçlara yol açabilir.
Hesaplama kaynakları : Büyük çok modlu modellerin eğitilmesi ve çalıştırılması önemli hesaplama kaynakları gerektirir; bu da onları pahalı hale getirir ve küçük kuruluşlar veya bağımsız araştırmacılar için erişimi zorlaştırır.
Yorumlanabilirlik ve açıklanabilirlik : Karmaşık yapay zeka modellerinde olduğu gibi, karar verme süreçlerini anlamak zor olabilir. Bu şeffaflık eksikliği, özellikle sağlık hizmetleri veya kolluk kuvvetleri gibi hassas uygulamalarda kritik bir sorun olabilir.
Farklı veri türlerinin (metin, görüntü ve ses gibi) entegrasyonu , her bir türün nüanslarını gerçekten anlayacak şekilde etkili bir şekilde gerçekleştirilebilir. Model, bu türlerin birleştirilmesinden kaynaklanan bağlamı veya insan iletişiminin inceliklerini her zaman doğru bir şekilde kavrayamayabilir.
Genelleme ve aşırı uyum : Bu modeller geniş veri kümeleri üzerinde eğitilmiş olsalar da, yeni, daha önce görülmemiş verilere veya eğitim verilerinden önemli ölçüde farklı senaryolara genelleme yapmakta zorlanabilirler. Tersine, eğitim verilerine aşırı uyum sağlayarak gürültüyü ve anormallikleri kalıp olarak yakalayabilirler.

Daha fazla bilgi edinmek için, üretken ve dil modelleriyle ilişkili zorlukları ve riskleri inceleyin.

LMM'ler için kıyaslama metodolojisi

FinMME veri setinin bir alt kümesini kullanarak Büyük Çok Modlu Modellerin (LMM'ler) performansını değerlendirdik. ¹³ , finansal çok modlu akıl yürütme yeteneklerini değerlendirmek için tasarlanmış kapsamlı bir kıyaslama ölçütüdür. FinMME, 18 finansal alan ve 6 varlık sınıfında 11.000'den fazla yüksek kaliteli finansal örneklem içermekte olup, finansal alanda LMM'leri değerlendirmek için sağlam bir çerçeve sunmaktadır.

Bu kıyaslama çalışması için, modellerin çok modlu finansal verileri işleme ve bunlarla ilgili çıkarımlar yapma yeteneğini analiz etmek amacıyla FinMME veri kümesinden seçilmiş 100 örnek kullandık.

Yasal Uyarı

Bu değerlendirme, LMM'leri kıyaslamak için daha büyük bir veri kümesinden seçilmiş 100 örnekten oluşan bir alt kümeyi kullandı. Model performansının kapsamlı bir değerlendirmesi için, tam kıyaslama veri kümesindeki tüm örneklerin dikkate alınması gerekir.

Çözüm

Büyük çok modlu modeller (LMM'ler), metin, görüntü, ses ve video gibi çeşitli veri türlerini entegre ederek, büyük dil modellerinin (LLM'ler) yalnızca metinle sınırlı yeteneklerini aşmaktadır. AI'nin Llama 4'ü, AI'nin 1178o'su ve Alibaba'nın VL'si gibi gelişmelerle LMM'ler, görsel akıl yürütmeden bağlam duyarlı görüntü oluşturmaya kadar daha zengin uygulamalara olanak sağlamaktadır.

Ancak, karmaşıklıkları, yüksek hesaplama gereksinimleri ve veri entegrasyonu ve önyargı azaltma ile ilgili zorluklar hâlâ engeller oluşturmaktadır. LMM'ler geliştikçe, daha çok yönlü yapay zeka ajanlarının önünü açarak bizi yapay genel zekaya daha da yaklaştırıyorlar. Kuruluşlar ve araştırmacılar için doğru modeli seçmek, performans, maliyet ve kullanım durumunun özel ihtiyaçları arasında bir denge kurmayı gerektirir.

Referans Linkleri

Gemma 3: Google’s new open model based on Gemini 2.0

Google

GitHub - deepseek-ai/Janus: Janus-Series: Unified Multimodal Understanding and Generation Models · GitHub

GitHub - QwenLM/Qwen3-VL: Qwen3-VL is the multimodal large language model series developed by Qwen team, Alibaba Cloud. · GitHub

Qwen2.5-VL-32B: Smarter and Lighter | Qwen

CLIP: Connecting text and images | OpenAI

Qwen2.5-VL-32B: Smarter and Lighter | Qwen

[2204.14198] Flamingo: a Visual Language Model for Few-Shot Learning

Multimodality and Large Multimodal Models (LMMs)

GitHub - bytedance/vidi: The official repo for "Vidi: Large Multimodal Models for Video Understanding and Editing" · GitHub

GitHub - MoonshotAI/Kimi-VL: Kimi-VL: Mixture-of-Experts Vision-Language Model for Multimodal Reasoning, Long-Context Understanding, and Strong Agent Capabilities · GitHub

12.

Gemini 3: Introducing the latest Gemini AI model from Google

Google

13.

Introducing 4o Image Generation | OpenAI

Cem Dilmegani

Baş Analist

Takip Et

Cem, 2017'den beri AIMultiple'da baş analist olarak görev yapmaktadır. AIMultiple, her ay Fortune 500 şirketlerinin %55'i de dahil olmak üzere yüz binlerce işletmeye (benzer Web'e göre) bilgi sağlamaktadır. Cem'in çalışmaları, Business Insider, Forbes, Washington Post gibi önde gelen küresel yayınlar, Deloitte, HPE gibi küresel firmalar, Dünya Ekonomik Forumu gibi STK'lar ve Avrupa Komisyonu gibi uluslararası kuruluşlar tarafından alıntılanmıştır. AIMultiple'ı referans gösteren daha fazla saygın şirket ve kaynağı görebilirsiniz. Kariyeri boyunca Cem, teknoloji danışmanı, teknoloji alıcısı ve teknoloji girişimcisi olarak görev yapmıştır. On yıldan fazla bir süre McKinsey & Company ve Altman Solon'da işletmelere teknoloji kararları konusunda danışmanlık yapmıştır. Ayrıca dijitalleşme üzerine bir McKinsey raporu yayınlamıştır. Bir telekom şirketinin CEO'suna bağlı olarak teknoloji stratejisi ve tedarikini yönetmiştir. Ayrıca, 2 yıl içinde sıfırdan 7 haneli yıllık yinelenen gelire ve 9 haneli değerlemeye ulaşan derin teknoloji şirketi Hypatos'un ticari büyümesini yönetmiştir. Cem'in Hypatos'taki çalışmaları TechCrunch ve Business Insider gibi önde gelen teknoloji yayınlarında yer aldı. Cem düzenli olarak uluslararası teknoloji konferanslarında konuşmacı olarak yer almaktadır. Boğaziçi Üniversitesi'nden bilgisayar mühendisliği diplomasına ve Columbia Business School'dan MBA derecesine sahiptir.

Tam Profili Görüntüle