Gelişmiş Görsel Dil Modelleri (VLM'ler) geleneksel görüntü tanıma modellerinin yerini alabilir mi? Bunu öğrenmek için, üç paradigmada 16 önde gelen modeli karşılaştırmalı olarak test ettik: geleneksel CNN'ler (ResNet, EfficientNet), VLM'ler (örneğin GPT-4.1, Gemini 2.5) ve Bulut API'leri (AWS, Google, Azure).
Ortalama Hassasiyet (mAP), gecikme süresi, maliyet ve sınıfa özgü performans analizleriyle desteklenerek, birincil doğruluk ölçütümüz olarak kullanıldı.
Kıyaslama metodolojisini buradan görebilirsiniz.
Doğruluk ve gecikme performansı karşılaştırması
Karşılaştırma çalışmamızda, modelleri dört boyutta değerlendirdik: gecikme süresi, ortalama hassasiyet (mAP), fiyat ve başarı oranı. Gecikme süresi, bir modelin tek bir görüntüyü işlemesi için geçen süreyi ölçerken, mAP genel sınıflandırma doğruluğunu yansıtır. Başarı oranı, bir modelin geçerli bir JSON çıktısı döndürüp döndürmediğini takip eder; bu, özellikle görüntüleri yapılandırılmış veriler yerine doğal dilde yorumlayan görme dili modelleri için önemlidir.
EfficientNet, ResNet18, ResNet50, ResNet101 ve DenseNet121 gibi geleneksel görüntü tanıma modelleri, hem düşük gecikme süresi (0,03–0,2 saniye) hem de rekabetçi doğruluk (mAP 0,75–0,81) göstermektedir. Bunlar arasında DenseNet121 ve ResNet18 en yüksek mAP puanlarını (sırasıyla 0,81 ve 0,80) elde ederken, EfficientNet onları yakından takip etmektedir (0,78). ResNet50 ve ResNet101 bu grupta orta düzeyde performans göstermektedir (0,75 ve 0,77), ancak tüm geleneksel modeller, 2–3,5 saniyelik gecikme süreleriyle orta düzeyde doğruluk (mAP 0,61–0,64) elde eden AWS Rekognition, Cloud Vision ve Azure Vision gibi bulut tabanlı görüntü tanıma araçlarından önemli ölçüde daha iyi performans göstermektedir. Bu, geleneksel modellerin hem hız hem de hassasiyet açısından üstün olduğunu göstermektedir.
OpenAI GPT-4.1, Claude Opus 4.1, X-AI Grok 2 Vision, Meta-Llama/LLama-3.2-11B Vision Instruct ve Google Gemini 2.5 Flash dahil olmak üzere görsel dil modelleri için gecikmeler önemli ölçüde daha yüksektir ve 1 ila 12 saniye arasında değişirken, mAP değerleri 0,60 ile 0,75 arasındadır. Google Gemini 2.5 Flash, 0,75 mAP değerine ulaşarak testimizdeki en doğru VLM olmuştur. Diğer VLM'ler arasında, GPT-4.1, 0,73'lük mAP değeriyle güçlü bir performans sergilerken, onu Claude Opus 4.1 (0,71) ve X-AI Grok 2 Vision (0,70) takip ediyor. GPT-4o-mini orta düzeyde bir performans (0,66 mAP) gösterirken, Meta-Llama Vision Instruct önemli ölçüde geride kalıyor (0,60 mAP).
Çoğu görüntü işleme dili modeli, neredeyse %100 başarıyla JSON çıktısı verirken, Meta-Llama Vision Instruct modeli yalnızca %36 oranında başarılı olmuş ve Gemini 2.5 Pro modeli ise sürekli olarak başarısız olmuş (%0 başarı), bu da otomatikleştirilmiş işlem hatlarında pratik uygulanabilirliklerini ciddi şekilde sınırlamıştır.
Görsel dil modelleri genellikle ham hız açısından geleneksel görüntü tanıma modellerinin gerisinde kalsa da, Google Gemini 2.5 Flash (0.75 mAP) ve GPT-4.1 (0.73 mAP) gibi en iyi performans gösteren VLM'ler, geleneksel CNN performansına yaklaşan ve AWS Rekognition ve Azure Vision gibi bulut API'lerini önemli ölçüde aşan sınıflandırma doğruluğuna ulaşmaktadır. Gecikme açısından, çoğu görsel dil modeli 3-4 saniye civarında kümelenirken, Meta-Llama 12 saniye ile belirgin şekilde daha yavaş kalmaktadır; bu da model mimarisinin ve optimizasyonunun etkisini vurgulamaktadır.
Genel olarak, geleneksel görüntü tanıma modelleri hem hız hem de doğruluk açısından hala üstün performans sergiliyor. Bununla birlikte, VLM'ler çok modlu akıl yürütme ve yapılandırılmış çıktılar için umut vaat ediyor; gecikme süreleri sürekli olarak daha yüksek olsa da, en iyi modeller geleneksel CNN'lere yaklaşan ve bulut tabanlı görüntü tanıma hizmetlerini aşan bir doğruluk elde ediyor.
Sınıfa özgü performans: Modellerin başarılı ve başarısız olduğu alanlar
Değerlendirmemizde, nesne algılamanın farklı yönlerini test eden yedi örtüşen sınıf kullandık:
- Yüz : Sadece yüz bölgesini temsil eder. Modelin bir kişinin yüzünü tespit etmesi gerekir; bu da yüzün küçük boyutu ve ince detayları nedeniyle zorlayıcı olabilir.
- Baş : Yüz hariç tüm baş bölgesini kapsar. Başın şeklini ve yapısını tespit etmeye odaklanır.
- head_with_helmet : Kask takmış başı temsil eder. Model, hem başı hem de kaskı birlikte algılamalı ve aralarındaki ilişkiyi tanıma yeteneğini test etmelidir.
- Kask : Kişi veya başın varlığına bakılmaksızın yalnızca kaskı temsil eder. Ekipman tespiti için önemlidir.
- Kişi : Kasklı veya kasksız bir kişinin varlığını tespit eder. Genel bir insan tespit sınıfı olarak görev yapar.
- person_no_helmet : Kask takmayan bir kişiyi temsil eder. Model, hem insan varlığını hem de kaskın yokluğunu tespit etmelidir.
- kasklı kişi : Kask takan bir kişiyi temsil eder. İnsan varlığını ve kask kullanımını ayırt etmeyi gerektirir, kasksız kişi ile yakından ilişkilidir.
Birbiriyle örtüşen ve yakından ilişkili bu sınıflar, görsel bilgileri doğrudan piksel düzeyindeki ince farklılıkları yakalamak yerine doğal dil aracılığıyla yorumladıkları için, görme dili modelleri için zorlayıcı olabilir.
Geleneksel CNN performansı
- Yüz yüze ders
- En iyi performans: EfficientNet ve DenseNet121 (%100)
- En düşük: ResNet101 (%95) Yüz tespiti, CNN'ler genelinde oldukça doğru olup çoğu VLM'den daha iyi performans göstermektedir.
- Baş sınıf
- En İyiler: ResNet18 ve DenseNet121 (%69)
- En düşük: ResNet50 (%50) Orta düzey performans; CNN'ler, yüz ve kask sınıflarına kıyasla kafa tespitinde daha fazla zorlanıyor.
- Kafa ve Kasklı Kafa
- En iyi performans: EfficientNet ve ResNet18 (Kasklı Kafa %98, Kafa %65–69)
- En düşük: ResNet50 (Kafa %50, Kasklı Kafa %96) CNN'ler kasklı kafalarda çok iyi performans göstererek tüm modellerde %96-98 doğruluk oranına ulaşıyor. Kasksız kafaların tespiti daha zorlayıcı olup daha düşük doğruluk oranına (%50-69) sahiptir; bu da CNN'lerin kask gibi belirgin nesneleri, kasksız kafalar gibi daha az belirgin bölgelere göre daha iyi ayırt ettiğini göstermektedir.
- Kişi sınıfı
- Tüm modeller: %0 doğruluk
- Kasksız Kişi
- En İyi: DenseNet121 (%72)
- En düşük: ResNet50 (%53) CNN'ler bu zorlu sınıfı VLM'lerden daha iyi ele alarak ince ayrıntıları yakalama yeteneklerini vurguluyor.
- kasklı kişi
- En İyi: EfficientNet (%98)
- En düşük: DenseNet121 (%96) Tüm modellerde yüksek doğruluk; kask takan kişiler sürekli olarak tanınıyor.
Görsel dil modeli performansı
- Yüz sınıfı (yüz algılama)
- En iyi performans: Claude Opus 4.1 (83%)
- En Zayıf: Meta-Llama Vision Instruct (%4) ve GPT-4o-mini (%12) VLM'ler genellikle yüzler gibi küçük ve detaylı nesnelerde daha kötü performans gösterir; Meta-Llama ve GPT-4o-mini ince detaylarda zorlanır.
- Kafa ve Kasklı Kafa
- Başlık: Claude Opus 4.1 (%96) en yüksek, Meta-Llama (%30) en düşük
- Kasklı Kafa: GPT-4.1 (%99) ve Gemini 2.5 Flash (%98) en yüksek, Meta-Llama (%50) en düşük. Modeller, kasklı veya kasksız kafa tespitinde iyi performans gösteriyor; Meta-Llama hariç çoğu %90'ın üzerinde doğruluk oranına ulaşıyor.
- Kask sınıfı
- En Yüksek: Grok 2 Vision (100%), GPT-4.1 (99%), Gemini 2.5 Flash (98%)
- En düşük: Meta-Llama (%52) Kasklı ve kasksız nesneleri ayırt etmek genellikle daha kolaydır, ancak Meta-Llama bu konuda düşük performans gösteriyor.
- Kişi sınıfı
- Tüm modeller %100 başarı oranına ulaşıyor, muhtemelen bunun sebebi büyük ve net nesneler kullanılmış olması.
- Kasksız Kişi
- En İyi: GPT-4.1 ve Gemini 2.5 Flash (%58)
- En düşük: Meta-Llama (%18) ve GPT-4o-mini (%29). Kaskın yokluğu gibi ince detayları tespit etmek zor; bazı modeller belirgin nesnelerde mükemmel performans gösterirken, incelikli sınıflarda geride kalıyor.
- kasklı kişi
- En yüksek: GPT-4.1 (98%) ve Gemini 2.5 Flash (98%)
- En düşük: Meta-Llama (55%) Çoğu model burada çok iyi performans gösteriyor.
Bulut API performansı
- Yüz yüze ders
- En İyi: AWS Rekognition (%22)
- En düşük: Google Cloud Vision (%0) Cloud API'lerinde yüz algılama genel olarak zayıf; yüzler gibi ince ayrıntılı ayrımlar zorlayıcı.
- Kafa ve Kasklı Kafa
- Başlık: AWS Rekognition (%24) en iyi, Azure Vision en düşük (%0)
- Kasklı Kafa: AWS Rekognition (%10) en iyi, Azure Vision (%1) en düşük. Özellikle kasklı veya kasksız kafa tespiti sınırlıdır; Bulut API'leri ince ayrıntılardan ziyade daha geniş nesnelere odaklanmaktadır.
- Kask sınıfı
- En İyi: AWS Rekognition (%94)
- En düşük: Azure Vision (%37) Kask algılama bazı API'ler (AWS) için orta derecede başarılı, ancak sağlayıcılar arasında tutarsızlık gösteriyor.
- Kişi sınıfı
- Tüm modeller: Tam insan figürleri gibi büyük ve net nesneler, tüm Bulut API'leri tarafından %100 güvenilir bir şekilde algılanır.
- Kasksız Kişi
- En İyi: Azure Vision (%78)
- En düşük: Google Cloud Vision (%26) Performans büyük ölçüde değişiyor; bazı API'ler zorlu sınıfları orta derecede iyi işleyebiliyor.
- kasklı kişi
- En İyi: AWS Rekognition (%94)
- En düşük: Azure Vision (%37). Kask takan kişiler AWS tarafından güvenilir bir şekilde algılanırken, diğer sağlayıcılar tarafından tutarsız bir şekilde algılanıyor.
Yüzler için, CNN'ler en yüksek doğruluğa ulaşırken, VLM'ler ikinci sırada yer alıyor ve Cloud API'ler düşük performans gösteriyor. Baş ve kasklı baş sınıflarında, CNN'ler güçlü kalırken, VLM'ler kasklı başlarda iyi performans gösteriyor ancak kasksız başlarda daha az tutarlı performans sergiliyor ve Cloud API'ler her ikisinde de zorlanıyor. Kasklar için, CNN'ler ve VLM'ler genellikle çok iyi performans gösterirken, Cloud API'ler değişken başarı gösteriyor. Kişi sınıfında, tüm paradigmalar tam kişileri güvenilir bir şekilde algılıyor. Kasksız kişi için, CNN'ler hem VLM'lerden hem de Cloud API'lerden daha iyi performans göstererek ince ayrıntıların üstün bir şekilde ele alınmasını sağlıyor. Son olarak, kasklı kişi için, CNN'ler ve VLM'ler yüksek doğruluk oranını korurken, Cloud API'ler sağlayıcıya bağlı olarak tutarsız performans gösteriyor.
Hassasiyet, geri çağırma ve F1 puanı
Hassasiyet, bir modelin olumlu tahminlerinden kaçının gerçekten doğru olduğunu ölçer. Başka bir deyişle, şu soruyu yanıtlar: "Modelin olumlu olarak etiketlediği tahminlerden kaç tanesi gerçekten doğrudur?"
Geri çağırma (Recall) oranı, modelin gerçek pozitif vakaların kaçını başarıyla tespit ettiğini ölçer. Şu soruyu yanıtlar: "Tüm gerçek pozitif vakalar arasında model kaç tanesini tespit etti?"
F1-Skoru, hassasiyet ve geri çağırmanın dengeli bir özetidir. Hem doğruluğu hem de kapsamı yansıtan tek bir ölçüt sunar; özellikle hassasiyet ve geri çağırma arasında denge kurmak istediğinizde kullanışlıdır.
CNN tabanlı modeller (ResNet50, ResNet101, DenseNet121), hem hassasiyet (0,93–0,95) hem de geri çağırma (0,91–0,94) açısından yüksek performans göstererek yüksek F1 puanları (0,92–0,93) elde etmektedir. Bu, tahminlerinde oldukça doğru olduklarını ve gerçek pozitif örneklerin çoğunu yakalayabildiklerini göstermektedir. EfficientNet de yüksek bir F1 puanı (0,92) göstererek tutarlı ve güvenilir bir performans sunmaktadır.
Bulut API'lerinin (AWS Rekognition, Cloud Vision, Azure Vision) hassasiyet ve geri çağırma oranları daha düşüktür ve F1 puanları 0,32 ile 0,58 arasında değişmektedir. Bu, bulut hizmetlerinin genel amaçlı görevler için optimize edilmiş olmasına rağmen, ince taneli sınıf ayrımlarındaki doğruluklarının sınırlı olduğunu göstermektedir.
Görsel-dil modelleri daha değişken performans sergiliyor. GPT-4.1, X-AI Grok 2 Vision ve Claude Opus 4.1 tam olarak 0,76 F1 puanına ulaşırken, Google Gemini 2.5 Flash 0,80'lik bir F1 puanıyla biraz daha iyi performans gösteriyor. Bu modeller bazı sınıflarda güçlü performans gösterse de, genel doğruluk açısından genellikle CNN'lerin gerisinde kalıyorlar. Meta-Llama Vision Instruct, hem düşük hassasiyet hem de düşük geri çağırma oranıyla 0,47'lik bir F1 puanına sahip; bu da modelin hem doğru tahminler yapmada hem de gerçek pozitifleri yakalamada zorlandığı anlamına geliyor.
Performans farklılıklarının ardındaki olası nedenler
CNN mimarisinin avantajı
Geleneksel CNN'ler, piksel düzeyinde özellik çıkarımında uzmanlaşmıştır ve ince taneli nesnelerin hızlı ve doğru bir şekilde tespit edilmesini sağlar. Optimize edilmiş evrişim katmanları ve hiyerarşik özellik haritaları, standart görüntü tanıma görevlerinde düşük gecikme süresi ve yüksek mAP (anlamlı hata oranı) sağlar.
VLM'lerde çok modlu ek yük
Görsel Dil Modelleri, çapraz dikkat ve gömme hizalama adımları ekleyerek hem görüntüleri hem de metni işler. Bu, akıl yürütmeyi ve bağlamsal çıktıları mümkün kılar, ancak çıkarım süresini artırarak CNN'lere kıyasla daha yüksek gecikmeye yol açar.
Ayrıntılı sınıf tespiti
Örtüşen veya ince farklılıklar içeren sınıflar (örneğin, kask takmayan kişi ile kask takan kişi) model farklılıklarını vurgular. CNN'ler bu ayrıntıları tutarlı bir şekilde yakalarken, VLM'ler belirgin nesnelerde iyi performans gösterir ancak ince ayrımlarda zorlanır ve Bulut API'leri geniş sınıflara odaklanarak doğruluğu sınırlar.
Yapılandırılmış çıktı güvenilirliği
Tutarsız JSON üretimi, VLM performansını etkiler. Başarı oranı düşük modeller, işlem hatlarında daha az etkili görünürken, CNN'ler ve Bulut API'leri öngörülebilir, deterministik çıktılar üretir.
Peki hangisini seçmelisiniz?
Geleneksel Evrişimsel Sinir Ağları (CNN'ler), gerçek zamanlı video işleme, otonom araçlar veya endüstriyel güvenlik sistemleri gibi milisaniyelik yanıt sürelerinin önemli olduğu hız açısından kritik uygulamalar için idealdir. Üstün doğrulukları (mAP 0,75–0,81) ve yıldırım hızındaki çıkarımları (0,03–0,2 s) ile bu geleneksel yapay zeka modelleri, doğal dil işleme veya model karmaşıklığının getirdiği ek yük olmadan güvenilir ve tutarlı performansa ihtiyaç duyduğunuzda mükemmeldir. CNN'ler, nesne tespiti gibi görsel veri ve görüntü sınıflandırma görevlerine odaklanarak, çok modlu modellerde ince ayar gerektirmeden hem görme doğruluğu hem de verimlilik sunar.
Görsel Dil Modelleri (VLM'ler), bağlamsal anlayış ve esnek çıktılar gerektiğinde öne çıkar. Bu görsel dil modelleri hem görsel hem de metinsel modalitelerde çalışarak, büyük dil modellerinin görüntü girdisini metin açıklamalarıyla birlikte işlemesine olanak tanır. Doğal dil açıklamaları, görüntü alt yazıları, görsel akıl yürütme görevleri veya hatta görsel soru cevaplama gerektiren uygulamalar için mükemmel olan bu modeller, görüntü kodlayıcıları ve çapraz dikkat katmanlarını kullanarak görüntü-metin çiftlerini aynı boyutlu alana hizalar. Daha yüksek gecikmeyi (3-12 saniye) kabul etseniz de, görüntü anlama, görsel öğeler ve görsel talimatlara getirdikleri akıl yürütme yetenekleri, onları akıllı içerik denetimi, görüntü oluşturma, görsel matematiksel akıl yürütme veya etkileşimli görsel asistanlar gibi daha spesifik alt görevler için ideal hale getirir. Yüksek kaliteli eğitim verileriyle parametre açısından verimli ince ayar kullanılarak, görsel dil modelleri (VLM'ler), görsel ve metinsel bilgileri paylaşılan bir gömme alanı altında birleştiren güçlü makine öğrenimi modelleri haline gelir.
Bulut API'leri, zengin meta veriler ve güven puanlarıyla ayrıntılı ve kapsamlı yanıtlar sağlayarak, basit sınıflandırmanın ötesinde kapsamlı bilgilere ihtiyaç duyduğunuzda idealdir. Bu API'ler genellikle önceden eğitilmiş görüntü kodlayıcı bileşenlerine ve kavramsal altyazılar ve ilgili fotoğraflardan oluşan büyük ölçekli kamuya açık model veri kümeleri üzerinde eğitilmiş görsel kodlayıcılara dayanır. Yapılandırılmış JSON çıktıları, sınırlayıcı kutular, nesne yerelleştirme veya uzun video anlama gerektiren uygulamalar için en uygun olan bu API'ler, sağlam model eğitimi veya altyapı yönetimine ihtiyaç duymadan kullanıma hazır çözümlerdir. Doğrulukları orta düzeyde olsa da (mAP 0,61–0,66), teknik ayrıntıları ve altyapı maliyetlerini azaltarak otomatik rapor oluşturma, anlamsal anlam çıkarma ve mevcut üretken modellerle birleşik çerçeve entegrasyonu gibi görevleri mümkün kılar.
Fiyat hesaplayıcı
Görsel dil modelleri (VLM'ler) – Temel özellikler ve avantajlar
Çok modlu akıl yürütme
Görsel Dil Modelleri (VLM'ler), hem görsel hem de metinsel modaliteleri eş zamanlı olarak işleyebilen, böylece görsel ve metinsel bilgileri daha zengin ve bağlam duyarlı bir şekilde yorumlayabilen güçlü çok modlu modellerdir. Görüntü girdisini doğal dil istemleriyle eşleştirerek, otomatik görüntü alt yazılama, güvenlik kameralarında kask tespiti, görsel akıl yürütme görevleri, görsel soru cevaplama ve hatta görsel içeriği doğal dilde açıklama gibi gelişmiş görevleri mümkün kılarlar. Yalnızca görsel verilere odaklanan geleneksel yapay zeka modellerinin aksine, VLM'ler görme yeteneklerini büyük dil modeli akıl yürütmesiyle birleştirerek karmaşık sonraki aşama görevleri için idealdir.
Yapılandırılmış çıktı ve JSON üretimi
Birçok görüntü işleme dil modeli, otomatikleştirilmiş işlem hatları ve görüntü özelliklerinin yanı sıra metin açıklamaları gerektiren uygulamalar için değerli olan JSON gibi yapılandırılmış çıktılar üretebilir. Karşılaştırma testimizde ChatGPT-5 ve Gemini 2.5 Pro sürekli olarak başarısız olurken, Meta-Llama Vision Instruct yalnızca yaklaşık %36 oranında başarılı oldu. Yapılandırılmış çıktılar, özellikle görüntü asistanları için kullanışlıdır; nesne tespiti, nesne konumlandırma gibi görevleri mümkün kılar ve kapsamlı ince ayar gerektirmeden makine öğrenimi modelleri için güvenilir veri üretir.
İnce ayar yetenekleri
VLM'ler, nispeten küçük eğitim verileriyle parametre açısından verimli ince ayar yapmayı destekleyerek, alana özgü görsel akıl yürütme görevlerine hızlı adaptasyon sağlar. Örneğin, görüntü giriş senaryolarında kasklı ve kasksız bireyleri veya özel güvenlik ekipmanlarını ayırt etmek için ince ayar yapılabilir. Önceden eğitilmiş görüntü kodlayıcı mimarilerinden ve sağlam model eğitim tekniklerinden yararlanarak, daha az kavramsal açıklama veya görüntü-metin çiftiyle daha iyi genelleme yapabilirler.
Görsel dil modellerinin sınırlamaları
Gecikme ve hız
Geleneksel CNN'lere veya daha basit görüntü işleme modellerine kıyasla, görüntü işleme dil modelleri genellikle daha yüksek gecikme süresine sahiptir; bu da uzun video anlama gibi gerçek zamanlı uygulamaları sınırlayabilir. X-AI Vision ve Gemini 2.5 Flash gibi bazı çok modlu modeller hız açısından bulut API'lerine daha yakındır, ancak Llama belirgin şekilde daha yavaştır. Bu denge, modelin uçtan uca tasarımından ve çapraz dikkat katmanlarından kaynaklanmaktadır; bu da akıl yürütme yeteneklerini geliştirir ancak çıkarım süresini artırır.
Sınıf bazında zorluklar
Görsel dil modelleri bazen örtüşen sınıflar ve ince taneli nesne tanıma konusunda zorluk yaşarlar; örneğin, "kafa" ile "kasklı kafa" veya "kasksız kişi" ile "kasklı kişi" arasında ayrım yapmak gibi. Bazı modeller kasklı sınıflarda iyi performans gösterirken, yüzleri veya ince görsel unsurları tespit etmek gibi diğer görsel akıl yürütme görevlerinde düşük performans sergilerler. Bu durum, daha spesifik alt görevleri hedef alırken yüksek kaliteli eğitim verilerinin ve dikkatli ince ayarın önemini vurgular.
Yapılandırılmış çıktı güvenilirliği
JSON gibi yapılandırılmış çıktıların tutarlılığı büyük ölçüde değişmektedir. Bazı VLM'ler güvenilir bir şekilde geçerli çıktılar üretirken, diğerleri belirli kullanım durumlarında başarısız olarak, tamamen otomatikleştirilmiş işlem hatlarındaki kullanışlılıklarını sınırlamaktadır. Önceden eğitilmiş görüntü kodlayıcı omurgaları ve paylaşılan gömme alanı yaklaşımlarıyla bile, bazı modeller yapılandırılmış çıktıda anlamsal anlamı koruyamamaktadır. Bu tutarsızlık, sağlam model eğitimine, veri kümesindeki ilgili fotoğraflara ve görüntü ve dil modülleri için üretken modellerde sürekli iyileştirmelere duyulan ihtiyacın altını çizmektedir.
Kıyaslama metodolojisi
Kapsamlı değerlendirmemizi, özellikle tüm model mimarilerinde tutarlı bir karşılaştırma sağlamak amacıyla ilk 500 görüntüyü kullanarak SHEL5K güvenlik kaskı algılama veri setini kullanarak gerçekleştirdik. Veri seti, ince taneli nesne algılama yeteneklerini test etmek için tasarlanmış yedi örtüşen sınıf içermektedir: yüz, kafa, kasklı kafa, kask, kişi, kasksız kişi ve kasklı kişi.
Veri ön işleme
Orijinal SHEL5K veri seti açıklamaları XML formatında sağlanmıştır. Bu açıklamaları sistematik değerlendirmeye uygun çok etiketli CSV formatına dönüştürmek için bir ön işleme hattı geliştirdik:
Her görüntü, karşılık gelen gerçek etiketlerine eşleştirilerek standartlaştırılmış bir değerlendirme çerçevesi oluşturuldu. Geleneksel CNN'ler için görüntüler, standart normalizasyon ile 224×224 çözünürlüğe ön işleme tabi tutuldu. Görsel dil modelleri ve bulut API'leri, bağlamsal bilgileri korumak için görüntüleri orijinal formatlarında aldı.
Geleneksel CNN değerlendirme protokolü
Geleneksel evrimsel sinir ağları (EfficientNet, ResNet varyantları, DenseNet121), yerleşik en iyi uygulamalar kullanılarak denetimli ince ayardan geçirildi:
Eğitim yapılandırması:
- Mimari: Değiştirilmiş sınıflandırma başlıklarına sahip önceden eğitilmiş modeller
- Kayıp fonksiyonu: Çok etiketli sınıflandırma için BCEWithLogitsLoss
- Optimizasyon algoritması: 1e-4 öğrenme oranına sahip Adam algoritması
- Eğitim dönemleri: 5
- Veri dağılımı: %80 eğitim, %20 doğrulama
- Parti boyutu: 16
Görsel dil modeli test çerçevesi
VLM'ler, tutarlı ve makine tarafından okunabilir yanıtlar elde etmek için tasarlanmış, dikkatlice yapılandırılmış sorular aracılığıyla değerlendirildi. Soru mühendisliği yaklaşımımız, her sınıf için JSON formatında güven puanları talep etti.
API yapılandırması:
- Sıcaklık: 0.1 (kıvam için düşük sıcaklık)
- Maksimum jeton sayısı: 800
- Modeller OpenRouter API entegrasyonu aracılığıyla test edilmiştir.
- Hata yönetimi ve biçim doğrulaması içeren JSON ayrıştırma
Başarı oranı takibi: VLM'ler bazen yapılandırılmış çıktı yerine doğal dil açıklamaları ürettiğinden, geçerli JSON yanıtlarının yüzdesini izledik. Bu ölçüt, pratik dağıtımın uygulanabilirliğini değerlendirmek için çok önemliydi.
Bulut API entegrasyonu ve etiket eşlemesi
Bulut API'leri, genel amaçlı yapıları ve farklı taksonomileri nedeniyle benzersiz zorluklar ortaya koydu. Her bir hizmet için kapsamlı eşleme stratejileri geliştirdik:
Etiket eşleme stratejisi:
Bulut API'leri temel bir zorluk sunuyor: bunlar bizim yedi sınıflı sınıflandırma sistemimiz için tasarlanmamıştır. Bu hizmetler, değerlendirmemiz gereken kesin kombinasyonlar (örneğin "kasklı kişi" veya "kasklı kafa") yerine "kişi", "kask", "inşaat işçisi" veya "güvenlik ekipmanı" gibi genel amaçlı etiketler döndürüyor.
Bu sınırlamayı gidermek için, her bulut hizmeti için çıktılarına dayalı kapsamlı eşleme sözlükleri geliştirdik. Azure Computer Vision eşlemesi, API'nin insanları (kişi, erkek, kadın, işçi, birey), kaskları (kask, baret, güvenlik kaskı, kep) ve yüz özelliklerini (yüz, insan yüzü, portre) tanımlayabileceği farklı yolları kapsayan 50'den fazla etiket varyantı içeriyordu. AWS Rekognition ve Cloud Vision için de benzer kapsamlı eşlemeler oluşturuldu ve her biri o hizmetin özel sözlüğüne ve etiketleme kalıplarına göre uyarlandı.
Birleşik sınıf çıkarım mantığı:
Bulut API değerlendirmemizin en karmaşık yönü, API'lerin açıkça tanımadığı birleşik sınıfları çıkarım yoluyla belirlemeyi içeriyordu. Birden fazla temel öğenin birlikte göründüğü durumları tespit etmek için kural tabanlı bir mantık uyguladık:
Aynı görüntüde hem "kişi" hem de "kask" yeterli güvenilirlikle tespit edildiğinde, sistem iki tespit arasındaki minimum güvenilirlik puanını kullanarak "kasklı kişi" çıkarımını yapar (muhafazakar yaklaşım). Benzer şekilde, "kafa" ve "kask"ın aynı anda tespit edilmesi "kasklı kafa" sınıflandırmasını tetikler.
Negatif sınıflandırmalarda, bir kişi tespit edildiğinde ancak kask bulunmadığında, sistem negatif çıkarımın doğasında bulunan belirsizliği hesaba katmak için biraz daha düşük güvenle (orijinal kişi güveninin %90'ı) "kasksız kişi" çıkarımında bulunur.
Bu yaklaşım, bulut API'lerinin tek tek nesneleri tespit etmede başarılı olduğunu ancak nesne kombinasyonları hakkında ilişkisel akıl yürütmede zorlandığını kabul eder; bu da ince taneli, bağlama bağlı sınıflandırma görevlerini değerlendirirken önemli bir sınırlamadır.
Değerlendirme ölçütleri ve istatistiksel analiz
Başlıca ölçütler:
- Ortalama Hassasiyet (mAP): Sınıflar arasında makro ortalama kullanılarak yapılan birincil doğruluk ölçüsü.
- Hassasiyet, Geri Çağırma, F1 Puanı: Genel performans değerlendirmesi için mikro ortalama alınmıştır.
- Sınıf Bazında Doğruluk: Detaylı analiz için her sınıfın performansı
- Gecikme süresi: Görüntü başına uçtan uca işlem süresi
- Başarı Oranı: Geçerli çıktıların yüzdesi (özellikle VLM'ler için önemlidir)
Eşik seçimi: Tüm modellerde tutarlı bir şekilde 0,5'lik bir sınıflandırma eşiği uygulandı; VLM'ler güven puanlarını, geleneksel modeller ise sigmoid aktivasyonlu logitleri kullandı.
İstatistiksel sağlamlık: Adil bir karşılaştırma sağlamak için her model, tutarlı ön işleme tabi tutulmuş özdeş görüntü kümeleri üzerinde değerlendirilmiştir. Sistem varyansını hesaba katmak için gecikme ölçümleri birden fazla çalıştırma üzerinden ortalama alınmıştır.
Deneysel kontroller ve sınırlamalar
Uygulanan kontroller:
- Tüm modellerde aynı 500 görüntülük test seti kullanılmıştır.
- Tutarlı değerlendirme ölçütleri ve eşikleri
- Standartlaştırılmış hata işleme ve zaman aşımı prosedürleri
- Hız sınırlamalarını yönetmek için birden fazla API anahtarı döndürme işlemi.
Yorum yapan ilk kişi olun
E-posta adresiniz yayınlanmayacak. Tüm alanlar gereklidir.