Duyguların ve hislerin kesin olarak etiketlenmesinin yanı sıra ironi, nefret ve saldırganlığın tespit edilmesi, daha fazla test ve iyileştirme gerektiren bir zorluk olmaya devam etmektedir. Beş temel duyguyla ilgili görevde sekiz LLM'yi (Claude 3.5, Claude 3.7, Claude 4.5, ChatGPT 4.0, ChatGPT 4.5, ChatGPT 5.0, DeepSeek V3 ve Grok 4) karşılaştırmalı olarak değerlendiriyoruz.
Sonuçlar, araçlar arasında belirgin farklılıklar olduğunu ortaya koymaktadır:
- Claude 3.7 en iyi genel doğruluk oranına (%79) ulaştı.
- ChatGPT 4.5 ve DeepSeek V3 (%70) en düşük genel performansı kaydetti.
Deneysel sonuçlar: duygu analizi kıyaslaması
Sıralama : Araçlar, test edilen tüm kategorilerde (duygu, nefret, ironi, saldırganlık ve duygu) toplanan ortalama doğruluk oranlarına göre sıralanır.
Daha detaylı bilgi için, kıyaslama yöntemimizin metodolojisini okuyun.
Genel doğruluk
Modellerin tüm görevleri bir araya getirerek elde ettikleri toplam doğruluk puanları, yeteneklerine dair bütünsel bir bakış açısı sunar:
- Claude 3.7, ironi tespiti hariç tüm kategorilerde diğer tüm araçlardan daha iyi performans gösterdi. Claude 3.7'nin 5 kategori için ortalama doğruluğu yaklaşık %80'dir.
- Claude 3.5'in performansı %67 ile %98 arasında değişti ve düşük hacimli testlerde kayda değer iyileşmeler gösterdi.
- ChatGPT 5.0 Auto , genel ortalamada %75'lik bir başarı elde ederek tüm kategorilerde dengeli bir performans sergiledi.
- Claude 4.5, %75'lik genel bir doğruluk oranına ulaştı. Duygu, ironi ve saldırganlık tespitinde güçlü performans gösterirken, nefret sınıflandırmasında düşük performans sergileyerek puanını düşürdü.
- Genel etiketleme doğruluğu %64 ile %98 arasında değişenChatGPT 4.0 , ironi tespiti kategorisindeki diğer tüm araçlardan daha başarılıdır.
- Grok 4, %71'lik genel bir doğruluk oranına ulaştı. Duygu tespiti konusunda iyi performans gösterse de, ironi, saldırganlık ve duygu sınıflandırmasındaki sınırlamaları rekabet gücünü azalttı.
- __991259_1033 __'ün farklı duyguları/hissiyatları tespit etmedeki doğruluk oranı %52 ile %92 arasında değişmektedir.
- ChatGPT 4.5, örneklemimizde duygu analizi konusunda en kötü performansı göstererek ortalama %70'lik bir başarı elde etti.
1. Duygu tespiti
Duygu tespiti, duygu analizinde zorlu bir görevdir ve genellikle modellerin dildeki ince ipuçlarını ayırt etmesini gerektirir. İşte modellerin performansı:
- ChatGPT 4.0, 50 ifadeyi analiz ederken %72 doğruluk oranına ulaştı.
- ChatGPT 4.5, 50 ifadeyi analiz ederken yaklaşık %80'lik bir başarı oranıyla, duygu tespiti konusunda Claude 3.7 ile birlikte en yüksek doğruluk oranını paylaştı.
- ChatGPT 5.0 Auto, %80 doğruluk oranıyla en yüksek başarı oranına ulaşarak Claude 3.7 ve ChatGPT 4.5 ile aynı seviyeye geldi.
- Claude 3.5 ise %77,5 puan aldı.
- Claude 3.7, 50 ifadeyi analiz ederken duygu tespiti konusunda yaklaşık %80'lik en yüksek başarı oranına ulaştı.
- Claude 4.5 bu görevde diğer tüm rakiplerini az farkla geride bırakarak %82'lik doğruluk oranıyla en yüksek puanı elde etti.
- DeepSeek V3, verilen 50 ifadedeki duyguları yaklaşık %76 doğrulukla analiz eder.
- Grok 4 , duygu tespiti konusunda %80 doğruluk oranına ulaşarak güçlü bir performans sergiledi.
2. Nefret içerikli içerik tespiti
Nefret içerikli paylaşımların tespiti, Twitter duygu sınıflandırması ve diğer moderasyon görevleri için çok önemlidir. Sonuçlar, dikkat çekici farklılıkları ortaya koydu:
- ChatGPT 4.0 %64 doğruluk oranı sergiledi.
- ChatGPT 4.5, örneklemimizde nefret içerikli davranışların tespitinde yaklaşık %57'lik bir doğruluk oranı sergiledi.
- ChatGPT 5.0 Auto bu görevde %54 doğruluk oranıyla sınırlı bir başarı gösterdi.
- Claude 3.5, nefret içerikli davranışların tespitinde %67,5'lik bir başarı oranı gösterdi.
- Claude 3.7 , %78'lik başarı oranıyla, diğer araçlar arasında en yüksek doğrulukla nefret içerikli ifadeleri tespit etmek için tweet'leri değerlendirdi.
- Claude 4.5, nefret içerikli materyalleri tespit etmede %50 doğruluk oranıyla tüm modeller arasında en zayıf sonucu kaydetti.
- DeepSeek V3, nefret söylemini tespit etmede yalnızca %52'lik bir başarı oranıyla kıyaslama testinde en düşük puanı aldı.
- Grok 4, %65'lik bir puanla orta derecede iyi bir performans sergiledi.
3. İroni tespiti
İroni tespiti, anlamsal değerlendirmenin çok önemli bir rol oynadığı bir alandır. Her iki model de yüksek duygu analizi kıyaslama performansı sergiledi, ancak GPT-4o açık ara lider olarak ortaya çıktı:
- ChatGPT 4.0, ironik ifadeleri belirlemede %98 gibi olağanüstü bir doğruluk oranı yakaladı. Bu başarı, karmaşık metin sınıflandırma senaryolarında olumsuz kutupluluğu yorumlama yeteneğine bağlanabilir.
- ChatGPT 4.5 , %87'lik başarı oranıyla, duygu/duygu tespiti için test ettiğimiz diğer araçlar arasında verilen metnin ironisini en az başarılı şekilde tahmin eden araç oldu.
- ChatGPT 5.0 Auto , %93 doğruluk oranıyla ironiyi tespit etme konusunda sağlam bir yetenek sergiledi.
- Claude 3.5 , 50 ifadeyle %97 doğruluk oranına ulaşarak ChatGPT 4.0'dan biraz daha düşük bir puan elde etti.
- Claude 3.7 verilen metinde ironiyi yaklaşık %96 doğrulukla tespit etti.
- Claude 4.5, %95'lik doğruluk oranıyla ironi tespiti konusunda en yüksek performanslardan birini sergiledi.
- DeepSeek V3, verilen tweet'lerdeki ironiyi tespit etmede yaklaşık %92'lik bir başarı oranı elde etti.
- Grok 4 bu alanda geride kaldı ve test edilen tüm modeller arasında en düşük puan olan %83'ü aldı.
Modellerin genel olarak yüksek doğruluk oranları göz önüne alındığında, hepsi ironik veya alaycı içerikli Twitter mesajları için oldukça uygundur. Bununla birlikte, GPT-4o'nun başarısı, duygu analizi için standart bir güvenilirlik ölçütü gerektiren uygulamalar için önemli bir avantaj sağlamaktadır.
4. Saldırganlık tespiti
Saldırgan içeriklerin tespiti, sağlıklı çevrimiçi toplulukların sürdürülmesi için kritik öneme sahiptir. Bu görevde modellerin duygu analizi performansları şu şekildeydi:
- ChatGPT 4.0, 50 farklı ifade boyutuyla %76'lık bir puan elde etti. Bu sonuç, güçlü makine öğrenimi yaklaşımları ve veri hacmindeki değişimlere uyum sağlama yeteneğiyle örtüşmektedir.
- ChatGPT 4.5, verilen Tweet'ler için saldırganlık tespitinde yaklaşık %75 başarı oranı elde etti.
- ChatGPT 5.0 Auto, %82'lik doğruluk oranıyla, saldırganlık tespiti konusunda tüm araçlar arasında en yüksek başarı oranına ulaştı.
- Claude 3.5, beş araç arasında saldırganlık tespitinde en düşük doğruluk oranını gösterdi ve 50 ifadeyle yaklaşık %67'lik bir başarı oranına ulaştı.
- Claude 3.7, örneklemimiz içinde yaklaşık %77'lik başarı oranıyla en yüksek saldırganlık tespit puanını almıştır.
- Claude 4.5 , %81 oranında saldırganlık tespit ederek bu görevdeki gücünü pekiştirdi.
- DeepSeek V3, %69 doğrulukla saldırgan ifadeleri tespit etti.
- Grok 4 , %67'lik mütevazı bir puan elde ederek bu kategorideki daha zayıf performans gösterenler arasında yer aldı.
Bu sonuçlar, veri kümesindeki kalıpların sonuçları önemli ölçüde etkileyebildiği saldırgan dil tespiti modelleri tasarlarken bağlamın ve eğitimin önemini vurgulamaktadır.
5. Duygu analizi
Genel duygu analizi görevi, verileri olumlu, olumsuz ve nötr duygular olarak sınıflandırmaya odaklanmıştır. Bu görev için doğruluk puanları modeller arasında önemli ölçüde farklılık göstermiştir:
- ChatGPT 4.0 %64 başarı oranı elde etti.
- ChatGPT 4.5 , %54'ün altında kalan en düşük başarı oranıyla Twitter duygu sınıflandırmasında en düşük doğruluğu sergiledi.
- ChatGPT 5.0 Auto , genel duygu sınıflandırmasında %67'lik bir başarı oranı elde ederek diğer araçlara kıyasla orta sıralarda yer aldı.
- Claude 3.5, 50 ifade üzerinden yapılan değerlendirmede %68 doğruluk oranıyla daha iyi bir performans sergiledi.
- Claude 3.7 , yaklaşık %68'lik başarı oranıyla, duygu tespiti konusunda Claude 3.5 ile birlikte en iyi performansı paylaştı.
- Claude 4.5, %69'luk doğruluk oranıyla en yüksek performansı elde etti.
- DeepSeek V3 olumlu, olumsuz ve nötr duyguları tespit etmede %64 doğruluk oranına ulaştı.
- Grok 4 , yalnızca %60 doğruluk oranıyla düşük performans gösterdi.
Modellerin hiçbiri duygu sınıflandırmasında yetkinlik göstermedi; bu sınıflandırmanın başarı oranı %54 ile %69 arasında değişti.
Gözlemler ve içgörüler
Giriş hacminin etkisi
Her iki model de bazı görevlerde daha küçük girdi hacimleriyle duygu analizi kıyaslama performansında iyileşme gösterdi; bu da nefret tespiti ve duygu sınıflandırması gibi görevler için eğitim verilerindeki gürültüyü azaltmanın önemini vurguluyor.
Göreve özgü güçlü yönler
GPT-4o ironi tespiti konusunda üstünlük sağladı ve tüm görevlerde tutarlı bir şekilde iyi performans gösterdi. Claude 3.5 ise biraz daha az tutarlı olsa da, özellikle daha büyük girdi hacimlerinde duygu tespiti gibi görevlerde mükemmel performans sergiledi.
Daha geniş kapsamlı sonuçlar
Bu deneysel sonuçlar, TweetEval gibi kıyaslama veri kümelerinin metin sınıflandırma araştırmalarında kullanımının etkinliğini doğrulamaktadır. Bulgular, araştırma topluluğuna, ister incelikli duygu yoğunluğunu tespit etmek isterse Twitter mesajlarındaki olumsuz kutuplaşmayı analiz etmek olsun, belirli kullanım durumlarına göre doğru modeli seçmede rehberlik edebilir.
Karşılaştırma veri seti ve metodolojisi
Analiz veri seti
TweetEval veri seti, gerçek dünyadaki Twitter mesajlarına uygulanan duygu analizi teknikleri için uygunluğu nedeniyle seçilmiştir . 1 Bu veri seti, Hesaplamalı Dilbilim Derneği (ACL) girişiminin bir parçasıdır ve anlamsal değerlendirme ve metin sınıflandırma görevlerinde yaygın olarak kullanılmaktadır. Duygu ve bağlamsal anlayışın çeşitli boyutlarını kapsayan önceden etiketlenmiş eğitim verileri ve test setlerinden oluşmaktadır:
- Duygu tespiti : Tweetlerde öfke, sevinç, iyimserlik veya üzüntü gibi duygusal tonları belirleme.
Örnek tweet ve etiket: “#Depresyon gerçek. #Depresyonda olan kişilerle birlikte olan kişiler, bizi ne kadar derinden etkilediklerini gerçekten anlamıyorlar. Buna #kaygı da eklenince durum daha da kötüleşiyor” tweeti üzücü olarak etiketlenmiştir. 2
- Nefret söylemi tespiti : Verilen tweetlerde nefret söyleminin varlığının değerlendirilmesi.
Örnek tweet ve etiket: “Trump, yasadışı göçmenleri 'hakim veya mahkeme davası olmadan' sınır dışı etmek istiyor #MeToo Bu eylemin arkasındayım. Bir ülkeye yasadışı yollarla girip yasalarına saygı göstermeyen birinin aynı yasalarla korunması fikri saçma! #HepsiniSınırdışıEdin” tweeti nefret içerikli olarak etiketlenmiştir. 3
- İroni tespiti : Metin içeriğinde ironik niyeti tanıma.
Örnek tweet ve etiket: “Kaygı bozukluğu olanlara ‘endişelenmeyi bırak’ diyen insanlar benim en sevdiğim insan türü #kendinieğitme” tweeti ironi olarak etiketlenmiştir. 4
- Saldırganlık tespiti : Saldırgan dil içeren tweet'leri sınıflandırma.
Örnek tweet ve etiket: "#AnayasaGünü Aşırı sağcı muhafazakarların, sadece #SilahKontrolüŞimdi istediğimiz için anayasayı mahvettiğimizi söylemeleri çok garip, oysa anayasayı mahvedenler kendileri; beyaz olmayan yabancıların bu topraklara gelip yaşamak istemelerinden rahatsız oluyorlar" tweeti saldırgan olarak etiketlenmiştir. 5
- Duygu sınıflandırması : Tweetlere olumlu, olumsuz veya nötr etiketler atama.
Örnek tweet ve etiket: “Bunu denemek için sabırsızlanıyorum – Google Earth VR – bu gerçekten de keşiflerin geleceği…” tweeti olumlu olarak etiketlenmiştir. 6
Bu görevler, gerçek dünyadaki makine öğrenimi yaklaşımlarıyla örtüşmekte olup, bu da onları iki modelin deneysel sonuçlarını değerlendirmek için ideal hale getirmektedir.
Analiz metodolojisi
Bu kıyaslama, sekiz adet son teknoloji ürünü büyük dil modelini (LLM) karşılaştırmaktadır: Claude 3.5, Claude 3.7, Claude 4.5, ChatGPT 4.0, ChatGPT 4.5, ChatGPT 5.0, DeepSeek V3 ve Grok 4.
Deneysel düzenek
Deneylerde tutarlılık ve güvenilirliği sağlamak için aşağıdaki metodoloji kullanılmıştır:
Giriş hacmi
- İki farklı giriş hacmi test edildi: görev başına 50 tweet ve 10 tweet.
- Bu varyasyon, özellikle veri hacminin doğruluğu etkileyebildiği duygu analizi ve nefret tespiti gibi görevlerde, girdi boyutunun model performansını nasıl etkilediğini belirlemeyi amaçlamıştır.
Göreve özgü değerlendirme
TweetEval veri setindeki her görev ayrı ayrı test edildi. Görevler ve ilgili çıktılar, modellerin duygu analizi modelleri kullanılarak analiz edildi ve doğruluk puanları kaydedildi.
Kullanılan ölçütler
Deneysel sonuçların güvenilirliğini sağlamak için her görev için doğruluk puanları hesaplandı.
Kurulum sınırlamaları
Gerçek verilerin kamuya açık olduğu veri kümelerini kullandık. Bu durum veri zehirlenmesine (yani LLM'lerin gerçek veriler üzerinde eğitilmesine) yol açmış olabilir. Ancak, doğruluk oranları mükemmele yakın olmadığı için bunun böyle olmadığını varsaydık. Bir sonraki sürümde, gerçek verileri yayınlanmamış tweet'leri kullanmayı düşünebiliriz.
LLM'lere ilişkin detaylı genel bakış
ChatGPT 4.0, 4.5, Claude 3.5, 3.7 ve DeepSeek V3 araçlarının tümü, duygu analizinden yapay zekâ destekli konuşmaya kadar uzanan uygulamalarıyla doğal dil işleme (NLP) alanında önemli ilerlemeleri temsil etmektedir. Bu modeller, insan benzeri metinleri yorumlama, işleme ve üretme yetenekleriyle en yaygın olarak tanınan modeller arasındadır. Aşağıda, her modelin benzersiz yeteneklerini ve duygu sınıflandırması ve ilgili makine öğrenimi görevleriyle olan ilişkisini vurgulayan ayrıntılı bir açıklaması bulunmaktadır.
ChatGPT 4.0
OpenAI tarafından geliştirilen ChatGPT 4.0, önceki sürümü GPT-3.5'in geliştirilmiş bir versiyonudur ve derin öğrenme mimarisi ve dil anlama konusunda önemli iyileştirmeler içermektedir. Bu model, duygu analizi modelleri ve yönelim tabanlı duygu analizi de dahil olmak üzere çok çeşitli doğal dil işleme (NLP) görevleri için optimize edilmiştir.
Duygu analizindeki uygulamalar
ChatGPT 4.0, araştırma camiasında ve endüstride sıklıkla aşağıdaki gibi görevler için kullanılmaktadır:
- Sosyal medya takibi için Twitter mesajlarının duygu analizi.
- E-ticarette müşteri geri bildirimlerinin duygu sınıflandırması .
- Ruh sağlığı uygulamalarında duygu tespiti .
- Ürün yorumları ve anketler için yön tabanlı duygu analizi .
Sınırlamalar
Güçlü yönlerine rağmen, ChatGPT 4.0 bazen belirli duygu kalıplarına aşırı uyum sağlayabilir ve bu da alan spesifik bağlamlarda doğruluğun azalmasına yol açabilir.
ChatGPT 4.5
OpenAI'nin GPT serisinin daha da geliştirilmiş bir versiyonu olan ChatGPT 4.5, çeşitli duygu analizi görevlerinde sağlam bir performans sunmaktadır. Duygu kategorizasyonunda iyi bir kavrayış sergilerken, nefret tespiti ve duygu sınıflandırmasındaki performansı nispeten daha düşüktür; bu da bazı son derece hassas bağlamlarda uygulamasını sınırlayabilir.
Duygu analizindeki uygulamalar
ChatGPT 4.5 genellikle şu alanlarda kullanılır:
- Hakaret içeren dil ve nefret söylemini tespit etmeye yönelik moderasyon araçları .
- Çevrimiçi tartışmalarda ve haber yorumlarında ironi tespiti .
- Çeşitli konulardaki kamuoyu görüşünü ölçmek için sosyal medya duygu analizi .
- E-ticaret platformları için müşteri geri bildirim analizi , özellikle duygulara odaklanarak.
Sınırlamalar
ChatGPT 4.5'in duygu analizi performansı, duygu sınıflandırması ve nefret tespiti konusundaki nispeten düşük doğruluğu nedeniyle olumsuz etkilenmektedir.
ChatGPT 5.0
ChatGPT 5.0, bağlamsal akıl yürütme, nüans tespiti ve içerik denetimi alanlarındaki iyileştirmelerle OpenAI'nin modellerinin en yeni neslini temsil ediyor. Ortalama doğruluğu Claude 4.5 ile aynı seviyede (%75) olsa da, model saldırganlık tespiti (%82) ve ironi tespiti (%93) alanlarındaki olağanüstü performansıyla öne çıkıyor.
Duygu analizindeki uygulamalar
ChatGPT 5.0 özellikle şu alanlarda etkilidir:
- Çevrimiçi forumlarda ve sosyal medya platformlarında saldırganlık tespitinde , diğer tüm araçların ötesinde bir doğruluk oranına sahiptir.
- İroni ve alaycılık analizi , araştırmacılara ve işletmelere karmaşık kullanıcı tarafından oluşturulan içeriği anlamada destek sağlar.
- Müşteri hizmetleri geri bildirimlerinde duygu tanıma , ruh sağlığı takibi ve sosyal medya duygu izleme.
- Geniş ölçekli anket verilerinde genel duygu sınıflandırması , kategoriler arasında dengeli performansın tercih edildiği durumlarda kullanılır.
Sınırlamalar
Güçlü yönlerine rağmen, ChatGPT 5.0'ın nefret söylemi tespitinde daha zayıf sonuçlar vermesi (%54), zehirli veya ayrımcı dil içeren yüksek riskli moderasyon için uygunluğunu azaltmaktadır.
Claude 3.7
Claude 3.7, selefi Claude 3.5'in güçlü yönlerini temel alarak bağlam anlama ve duygu doğruluğunda iyileştirmeler sunuyor. Güvenli ve etik yapay zeka uygulamalarına güçlü bir şekilde odaklanan Claude 3.7, duygu, ironi ve nefret söylemi de dahil olmak üzere karmaşık duyguları tespit etmede mükemmeldir ve bu da onu yüksek düzeyde hassasiyet ve bağlam gerektiren uygulamalar için ideal bir seçim haline getirir.
Duygu analizindeki uygulamalar
Claude Sonnet 3.7 aşağıdaki gibi görevler için oldukça etkilidir:
- Müşteri geri bildirimlerinde ve ruh sağlığı uygulamalarında duygu tespiti .
- Çevrimiçi içerik denetimi için nefret söylemi ve saldırganlık tespiti , dijital platformlarda güvenli alanlar sağlanması.
- Pazar araştırması ve iş zekasında duygu sınıflandırması .
Sınırlamalar
Claude 3.7 temel duygu analiz alanlarında tüm modellerden daha iyi performans gösterse de, özellikle ince duygu ifadeleri söz konusu olduğunda, alana özgü senaryolardaki performansı hala zorluklarla karşılaşabilir. Ayrıca, daha incelikli veya küçük bağlamsal ipuçlarıyla ilgili duygu tespitindeki doğruluğunun daha da geliştirilmesi gerekebilir.
Claude 3.5
Anthropic tarafından oluşturulan Claude 3.5, güvenlik, etik davranış ve hassas metin üretimine odaklanılarak tasarlanmış bir NLP modelidir. Özellikle bağlama duyarlılık ve incelikli duygu analizi teknikleri gerektiren görevler için oldukça uygundur.
Duygu analizindeki uygulamalar
Claude 3.5, aşağıdaki gibi senaryolarda çalışmak için uygundur:
- Sosyal medya ve çevrimiçi platformları izlemek için nefret içerikli paylaşımların tespiti .
- İçerik denetleme sistemlerinde saldırganlık tespiti .
- Kullanıcı deneyimini iyileştirmek amacıyla duygu sınıflandırmasına odaklanan müşteri hizmetleri etkileşimleri.
- İş zekasında duygu eğilimlerini belirlemek için yön tabanlı duygu analizi .
Sınırlamalar
Claude 3.5 etik ve bağlamsal anlayışta üstün olsa da, rakiplerine kıyasla son derece incelikli veya örtük duyguları tespit etmede bazen yetersiz kalmaktadır. Ayrıca, eğitim veri seti ChatGPT 4.0'a göre daha az çeşitlidir; bu da bazı kıyaslama veri setlerinde sağlamlığının azalmasına neden olabilir.
Claude 4.5
Claude 4.5, Anthropic'nin Claude serisini bağlamsal duyarlılık ve yorumlanabilirlik alanlarındaki geliştirmelerle temel alıyor. Duygu analizi görevlerinde ortalama %75 doğruluk elde eden Claude 4.5, duygu tespitinde en yüksek doğruluğa (%82), ironi (%95) ve saldırganlık tespitinde (%81) güçlü performansa ulaştı, ancak nefret tespitinde (%50) tüm test edilen modeller arasında en düşük performansı gösterdi.
Duygu analizindeki uygulamalar
Claude 4.5 aşağıdakiler için oldukça uygundur:
- Sağlık geri bildirimi veya sağlıklı yaşam uygulamaları gibi ince ipuçlarının kritik önem taşıdığı uygulamalarda duygu tespiti .
- Sosyal medya takibi ve görüş madenciliğinde ironi ve alaycılığın belirlenmesi , incelikli yorumlamanın esas olduğu bir alandır.
- İçerik denetiminde saldırganlık tespiti , daha güvenli çevrimiçi ortamlar oluşturmak için rekabetçi sonuçlar sağlar.
- Pazar araştırması ve marka analizinde duygu sınıflandırması , dengeli ancak biraz daha güçlü kutupluluk tespiti (%69) avantajından yararlanmaktadır.
Sınırlamalar
Claude 4.5'in nefret söylemini tespit etmedeki düşük doğruluğu (%50), zararlı veya zehirleyici konuşmaların yer aldığı senaryolarda kullanımını önemli ölçüde sınırlandırmaktadır. Dahası, belirli kategorilerde üstün performans gösterse de, görevler arasında performansı dengesizdir; bu da tüm duygu boyutlarında tekdüze doğruluk gerektiren projeler için güvenilirliğini azaltmaktadır.
DeepSeek V3
DeepSeek V3, geniş bir yelpazedeki duygu analizi görevlerinde sağlam sonuçlar sunuyor, ancak genel doğruluğu, özellikle nefret tespiti konusunda diğer modellerin gerisinde kalıyor.
Duygu analizindeki uygulamalar
DeepSeek V3 yaygın olarak şu amaçlarla kullanılır:
- Ruh sağlığı uygulamalarında duygu tespiti ve müşteri duygu takibi.
- Gündelik konuşmalarda, sosyal medya platformlarında ve kullanıcı tarafından oluşturulan içeriklerde ironi tespiti .
- Pazar araştırması anketleri ve geri bildirim formları için temel duygu sınıflandırması .
- Çevrimiçi forumlardaki saldırgan ifadeleri filtrelemek için içerik denetimi .
Sınırlamalar
DeepSeek V3'ün nefret içerikli materyalleri tespit etmedeki düşük performansı ve genel olarak duygu sınıflandırma yeteneklerinin nispeten daha zayıf olması, onu hassas platformlarda içerik denetimi gibi yüksek riskli uygulamalar için daha az uygun hale getiriyor.
Grok 4
Grok, mizah, sosyal etkileşim ve dinamik katılım odaklı geliştirilmiş bir konuşma yapay zekâ modelidir. Duygu analizi kıyaslamalarında Grok, tüm test edilen modeller arasında en düşük sırada yer alarak ortalama %71 doğruluk oranına ulaşmıştır.
Duygu analizindeki uygulamalar
Grok şu alanlarda uygulanabilir:
- Etkileşimli uygulamalarda duygu tespiti ; burada ton ve ruh halinin belirlenmesi kullanıcı etkileşimini artırır.
- Özellikle nefret içerikli yayınları orta düzeyde doğrulukla (%65) tespit edebilen moderasyon araçları .
- Çevrimiçi söylemlerde ironi tespiti için geliştirilmiş, ancak daha gelişmiş modellere kıyasla bazı sınırlamaları olan hafif bir yöntem .
- Konuşma akışının yüksek hassasiyetten daha öncelikli olduğu yaratıcı veya gayri resmi ortamlarda keşifsel duygu analizi .
Sınırlamalar
Grok'un duygu sınıflandırmasındaki zayıflığı (%60) ve düşük ironi tespit doğruluğu (%83), yüksek hassasiyetli araştırma veya ticari analizlerde kullanımını kısıtlamaktadır. Tasarımında, kıyaslama doğruluğundan ziyade konuşmaya duyarlılığa odaklanması, duygu kategorizasyonunda tutarlı güvenilirlik gerektiren görevler için daha az uygun hale getirmektedir.
Yorum yapan ilk kişi olun
E-posta adresiniz yayınlanmayacak. Tüm alanlar gereklidir.