Duygu Analizi Benchmark Testi: ChatGPT, Claude & DeepSeek

Güncellenme tarihi: 15 Haz 2026

Duygu ve hislerin hassas bir şekilde etiketlenmesi, ayrıca ironi, nefret ve kabalığın tespit edilmesi, daha fazla test ve iyileştirme gerektiren bir zorluk olmaya devam etmektedir. Beş temel duygu ile ilgili görevde sekiz LLM, Claude 3.5, Claude 3.7, Claude 4.5, ChatGPT 4.o, ChatGPT 4.5, ChatGPT 5.o, DeepSeek V3 ve Grok 4 modelini benchmark ediyoruz.

Sonuçlar, araçlar arasında net ayrımları vurgulamaktadır:

Claude 3.7 en iyi genel doğruluğu (%79) elde etti,
ChatGPT 4.5 ve DeepSeek V3 (%70) en düşük genel performansı kaydetti.

Deneysel sonuçlar: duygu analizi benchmark

Loading Chart

Sıralama: Araçlar, tüm test edilen kategorilerdeki (duygu, nefret, ironi, kabalık ve duygu) toplanan ortalama doğruluk oranlarına göre sıralanmıştır.

Daha fazla detay için, benchmark metodolojimizi okuyun.

Genel doğruluk

Tüm görevleri birleştirerek, modellerin toplam doğruluk puanları yeteneklerine bütüncül bir bakış sağlar:

Claude 3.7 ironi tespiti hariç tüm kategorilerde diğer tüm araçları geride bıraktı. Claude 3.7 için 5 kategorideki ortalama doğruluk %80'e yakındır.
Claude 3.5‘in performansı %67-%98 arasında değişti ve düşük hacimli testlerde önemli iyileştirmeler gösterdi.
ChatGPT 5.o Auto genel ortalamaya %75 ulaştı ve tüm kategorilerde dengeli bir performans sergileyen bir konuma yerleşti.
Claude 4.5 genel doğruluk oranı %75 olarak gerçekleşti. Duygu, ironi ve kabalık tespitinde güç gösterdi ancak nefret sınıflandırmasında başarısız oldu, bu da dengesini düşürdü.
ChatGPT 4.o, genel etiketleme doğruluğu %64-%98 arasında değişen, ironi tespit kategorisinde diğer tüm araçlardan daha başarılıdır.
Grok 4 genel doğruluk oranına %71 ulaştı. Duygu tespitinde iyi performans gösterse de, ironi, kabalık ve duygu sınıflandırmasındaki kısıtlamaları rekabet gücünü azalttı.
DeepSeek V3‘in farklı duyguları/duyguları tespit etme doğruluğu %52-%92 arasında değişmektedir.
ChatGPT 4.5 örneğimiz için duygu analizinde en kötü performansı getiriyor, ortalama %70.

1. Duygu tespiti

Duygu tespiti, duygu analizinde zorlu bir görevdir, genellikle modellerin dildeki ince ipuçlarını ayırt etmesini gerektirir. Modellerin performansı şu şekildedir:

ChatGPT 4.o 50 ifadeyi analiz ederken %72 doğruluk elde etti.
ChatGPT 4.5 Claude 3.7 ile duygu tespitinde en yüksek doğruluğu paylaştı, 50 ifadeyi analiz ederken başarı oranı ~%80 idi.
ChatGPT 5.o Auto %80 doğrulukla en yüksek başarı oranına eşleşti, bu da onu Claude 3.7 ve ChatGPT 4.5 ile aynı seviyeye getirdi.
Claude 3.5 diğer yandan %77.5 puan aldı.
Claude 3.7 50 ifadeyi analiz ederken duygu tespitinde ~%80'lik en yüksek başarı oranını elde etti.
Claude 4.5 bu görevde diğerlerinin hepsini hafifçe geride bıraktı ve %82 doğrulukla en yüksek puana ulaştı.
DeepSeek V3 verilen 50 ifadeyi bir anda ~%76 doğrulukla analiz ediyor.
Grok 4 güçlü bir performans sergiledi, duygu tespitinde %80 doğruluğa ulaştı.

2. Nefret tespiti

Nefret içeren içeriği tespit etmek, Twitter duygu sınıflandırması ve diğer moderasyon görevleri için çok önemlidir. Sonuçlar dikkat çekici farklılıklar ortaya koydu:

ChatGPT 4.o %64 doğruluk gösterdi.
ChatGPT 4.5 örneğimizde nefret tespitinde ~%57 doğrulukla bir başarı oranı sundu.
ChatGPT 5.o Auto bu görevde %54 doğrulukla sınırlı bir başarı gösterdi.
Claude 3.5 nefret tespitinde %67.5 başarı gösterdi.
Claude 3.7, %78 başarı oranıyla diğer araçlar arasında nefret içeren ifadeleri tespit etmek için tweetleri en yüksek doğrulukla değerlendirdi.
Claude 4.5 tüm modeller arasında en zayıf sonucu kaydetti, nefret içeren içeriği tespit etme doğruluk oranı %50 idi.
DeepSeek V3 benchmark'ta en düşük puanı elde etti, nefret tespiti için sadece %52 başarı.
Grok 4 %65'te orta düzeyde iyi bir puan aldı.

3. İroni tespiti

İroni tespiti, anlamsal değerlendirmenin kilit bir rol oynadığı bir alandır. Her iki model de yüksek duygu analizi benchmark performansı sundu, ancak GPT-4o açık bir lider olarak ortaya çıktı:

ChatGPT 4.o ironik ifadeleri belirlemede olağanüstü %98 doğruluk korudu. Bu başarı, karmaşık metin sınıflandırma senaryoları içinde negatif kutupluluğu yorumlama yeteneğine bağlanabilir.
ChatGPT 4.5, %87 başarı oranıyla, bu karşılaştırmada duygu/duygu tespiti için test ettiğimiz diğer araçlar arasında verilen metnin ironisini en başarısız şekilde tahmin etti.
ChatGPT 5.o Auto ironiyi tespit etmede sağlam bir yetenek gösterdi, %93 doğruluğa ulaştı.
Claude 3.5 ChatGPT 4.o'dan biraz daha düşük puan aldı, 50 ifade ile %97 doğruluk elde etti.
Claude 3.7 verilen metin için ~%96 doğrulukla ironiyi tespit etti.
Claude 4.5 ironi tespitinde en yüksek performanslardan birini sundu, %95 doğruluk oranıyla.
DeepSeek V3 verilen tweetler için ironi tespitinde ~%92 başarı oranına ulaştı.
Grok 4 bu alanda geride kaldı, %83 puan aldı, test edilen tüm modellerin en düşük puanı.

Modellerin genel yüksek doğruluğu göz önüne alındığında, hepsi ironik veya alaycı içerik içeren Twitter mesajları için uygun hale gelmiştir. Ancak, GPT-4o‘nın başarısı, duygu için standart bir güvenilirlik benchmark gerektiren uygulamalar için ona önemli bir avantaj sağlar.

4. Kabalık tespiti

Kaba içeriği tespit etmek, sağlıklı çevrimiçi toplulukları korumak için kritiktir. Modellerin bu görevdeki duygu analizi benchmark performansları şu şekildeydi:

ChatGPT 4.o 50 ifade boyutuyla %76 puan aldı. Bu, güçlü makine öğrenimi yaklaşımları ve veri hacmindeki varyasyonlara uyum sağlama yeteneği ile uyumludur.
ChatGPT 4.5 verilen Tweetler için kabalık tespitinde ~%75 başarı oranına ulaştı.
ChatGPT 5.o Auto kabalık tespiti için tüm araçlar arasında en yüksek başarı oranına ulaştı, %82 doğrulukla
Claude 3.5 beş araç içinde kabalık tespitinde en düşük doğruluğu sundu, 50 ifade ile ~%67 doğruluk başarı oranıyla.
Claude 3.7 örneğimizde en yüksek kabalık tespitini ~%77 başarı oranıyla elde etti.
Claude 4.5 %81 ile kabalığı tespit etti, bu görevdeki gücünü pekiştirdi.
DeepSeek V3 kaba ifadeleri %69 doğrulukla tespit etti.
Grok 4 mütevazı %67'ye ulaştı, bu kategoride daha zayıf performans gösterenler arasında yer aldı.

Bu sonuçlar, veri setindeki desenlerin sonuçları önemli ölçüde etkileyebileceği kaba dil tespiti için modeller tasarlarken bağlam ve eğitimin önemini vurgulamaktadır.

5. Duygu analizi

Genel duygu analizi görevi, verileri pozitif, negatif ve nötr duygulara sınıflandırmaya odaklandı. Bu görev için doğruluk puanları modeller arasında önemli ölçüde değişti:

ChatGPT 4.o %64 başarı oranı elde etti.
ChatGPT 4.5, %54'ten daha düşük en düşük başarı oranıyla, Twitter duygu sınıflandırmasında en düşük doğruluğu sundu.
ChatGPT 5.o Auto genel duygu sınıflandırmasında %67 puan aldı, diğer araçlara kıyasla orta aralıkta yer aldı.
Claude 3.5 50 ifadeyle daha iyi performans gösterdi, %68 doğrulukla.
Claude 3.7, ~%68 başarı oranıyla, duygu tespitinde Claude 3.5 ile en iyi performansı paylaştı.
Claude 4.5 %69 doğruluk oranıyla en yüksek performansı elde etti.
DeepSeek V3 pozitif, negatif ve nötr duyguları tespit etmede %64 doğruluk oranına ulaştı.
Grok 4 düşük performans gösterdi, sadece %60 doğrulukla.

Hiçbir model duygu sınıflandırmasında yetkinlik göstermedi, başarı oranı ~%54 ile %69 arasında değişti.

Gözlemler ve içgörüler

Girdi hacminin etkisi

Her iki model de bazı görevlerde daha küçük girdi hacimleriyle geliştirilmiş duygu analizi benchmark performansı gösterdi, nefret tespiti ve duygu sınıflandırması gibi görevler için eğitim verisinde gürültüyü azaltmanın önemini vurguladı.

Göreve özgü güçler

GPT-4o ironi tespitinde baskın oldu ve tüm görevlerde tutarlı bir şekilde iyi performans gösterdi. Claude 3.5, biraz daha az tutarlı olsa da, özellikle daha büyük girdi hacimleriyle duygu tespiti gibi görevlerde mükemmel sonuçlar verdi.

Daha geniş sonuçlar

Bu deneysel sonuçlar, metin sınıflandırma araştırmaları için TweetEval gibi benchmark veri setlerinin kullanımının etkinliğini doğrulamaktadır. Bulgular, araştırma topluluğuna, hassas duygu yoğunluğunu tespit etmek veya Twitter mesajlarında negatif kutupluluğu analiz etmek olsun, belirli kullanım durumlarına göre doğru modeli seçmede rehberlik edebilir.

Benchmark veri seti ve metodoloji

Analiz veri seti

TweetEval veri seti, gerçek dünya Twitter mesajlarına uygulanan duygu analizi teknikleri için uygunluğu nedeniyle seçildi.¹ Veri seti, Hesaplamalı Dilbilim Derneği (ACL) girişiminin bir parçasıdır ve anlamsal değerlendirme ve metin sınıflandırma görevlerinde yaygın olarak kullanılmaktadır. Duygu ve bağlamsal anlayışın birkaç boyutunu kapsayan önceden etiketlenmiş eğitim verisi ve test setlerinden oluşur:

Duygu tespiti: Tweetlerde öfke, neşe, iyimserlik veya üzüntü gibi duygusal tonları belirleme.

Örnek tweet ve etiket: “#Depresyon gerçek. #depressed olanlarla ortaklar bizi etkiledikleri derinliği gerçekten anlamıyorlar. #anxiety ekleyin ve daha da kötüleşir” tweeti üzüntü olarak etiketlenmiştir.²

Nefret tespiti: Verilen tweetlerde nefret söyleminin varlığını değerlendirme.

Örnek tweet ve etiket: “Trump, yargıçları veya mahkeme davaları olmadan yasadışı yabancıları sınır dışı etmek istiyor #MeTooBu eylemin arkasında kesinlikle duruyorumBir ülkeye yasadışı yollarla giren ve yasalarına saygı göstermeyen birinin düşünce, aynı yasalar tarafından korunmalı!#OnlarıHepSınırDışıEt” tweeti nefret içeren olarak etiketlenmiştir.³

İroni tespiti: Metinsel içerikte ironik niyeti tanıma.

Örnek tweet ve etiket: “Kaygısı olan insanlara 'sadece endişelenmeyi bırak' diyen insanlar benim en sevdiğim insan türü #değil #kendiniEğit” tweeti ironi olarak etiketlenmiştir.⁴

Kabalık tespiti: Kaba dil içeren tweetleri sınıflandırma.

Örnek tweet ve etiket: “#AnayasaGünü Sağcı muhafazakarların anayasayı mahvettiğimizi söylemesi çok garip, çünkü #SilahKontrolüİstiyoruz ama anayasayı mahvedenler yabancıların bu topraklara gelmesinden ve Beyaz olmayanların yaşamak istemesinden rahatsız oldukları için” tweeti kaba olarak etiketlenmiştir.⁵

Duygu sınıflandırması: Tweetlere pozitif, negatif veya nötr etiketler atama.

Örnek tweet ve etiket: “Bunu denemeyi sabırsızlıkla bekliyorum – Google Earth VR – bu şey gerçekten keşiflerin geleceği….” tweeti pozitif olarak etiketlenmiştir.⁶

Bu görevler, gerçek dünya makine öğrenimi yaklaşımlarıyla uyumludur, bu da onları iki modelin deneysel sonuçlarını değerlendirmek için ideal kılar.

Analiz metodolojisi

Bu benchmark, sekiz son teknoloji büyük dil modelini (LLM) karşılaştırır: Claude 3.5, Claude 3.7, Claude 4.5, ChatGPT 4.o, ChatGPT 4.5, ChatGPT 5.o, DeepSeek V3 ve Grok 4.

Deneysel kurulum

Deneylerde tutarlılık ve güvenilirliği sağlamak için aşağıdaki metodoloji kullanıldı:

Girdi hacmi

İki girdi hacmi test edildi: Görev başına 50 tweet ve 10 tweet.
Bu varyasyon, girdi boyutunun model performansını, özellikle veri hacminin doğruluğu etkileyebileceği duygu analizi ve nefret tespiti gibi görevlerde nasıl etkilediğini belirlemeyi amaçladı.

Göreve özgü değerlendirme

TweetEval veri setinden her görev ayrı ayrı test edildi. Görevler ve ilgili çıktılar, modellerin duygu analizi modelleri kullanılarak analiz edildi ve doğruluk puanları kaydedildi.

Kullanılan metrikler

Güvenilir deneysel sonuçları sağlamak için her görev için doğruluk puanları hesaplandı.

Kurulum sınırlamaları

Gerçekler kamuya açık olan veri setlerini kullandık. Bu, veri zehirlenmesine yol açmış olabilir (yani LLM'lerin gerçekler üzerinde eğitilmesi). Ancak, doğrulukların mükemmel olmadığı varsaydığımız için bunun böyle olmadığını varsaydık. Bir sonraki sürüm için, gerçekleri yayınlanmamış tweetleri kullanmayı düşünebiliriz.

LLM'lerin detaylı özeti

Tüm araçlar, ChatGPT 4.o, 4.5, Claude 3.5, 3.7 ve DeepSeek V3, doğal dil işleme (NLP) alanında önemli ilerlemeleri temsil eder, duygu analizinden konuşma yapay zekaya kadar uygulamalarla. Bu modeller, insan benzeri metni yorumlama, işleme ve oluşturma yetenekleri için en yaygın olarak tanınanlar arasındadır. Aşağıda, her modelin benzersiz yeteneklerini ve duygu sınıflandırması ve ilgili makine öğrenimi görevleriyle ilgili önemini vurgulayan her modelin detaylı bir açıklaması bulunmaktadır.

ChatGPT 4.o

OpenAI tarafından geliştirilen ChatGPT 4.o, öncülü GPT-3.5'in geliştirilmiş bir versiyonudur ve derin öğrenme mimarisinde ve dil anlayışında önemli iyileştirmeler sunar. Bu model, duygu analizi modelleri ve temelli duygu analizi dahil olmak üzere geniş bir NLP görevi yelpazesi için optimize edilmiştir.

Duygu analizinde uygulamalar

ChatGPT 4.o, araştırma topluluğunda ve endüstride şu görevler için sıklıkla kullanılır:

Sosyal medya izleme için Twitter mesajları duygu analizi.
E-ticarette müşteri geri bildirimlerinin duygu sınıflandırması.
Zihinsel sağlık uygulamalarında duygu tespiti.
Ürün incelemeleri ve anketler için temelli duygu analizi.

Sınırlamalar

Güçlü yönlerine rağmen, ChatGPT 4.o, belirli duygu kalıplarına aşırı uyum sağlayabilir, bu da yüksek düzeyde alana özgü bağlamlarda doğruluğun azalmasına yol açabilir.

ChatGPT 4.5

OpenAI'ın GPT serisinin daha da geliştirilmiş bir versiyonu olan ChatGPT 4.5, çeşitli duygu analizi görevlerinde sağlam performans sunar. Duygu kategorizasyonunda iyi bir kavrayış gösterir, ancak nefret tespiti ve duygu sınıflandırmasındaki performansı nispeten daha düşüktür, bu da bazı yüksek hassasiyetli bağlamlarda uygulamasını sınırlayabilir.

Duygu analizinde uygulamalar

ChatGPT 4.5 genellikle şunlarda kullanılır:

Kaba dil ve nefret söylemini tespit etmek için moderasyon araçları.
Çevrimiçi tartışmalar ve haber yorumlarında ironi tespiti.
Çeşitli konularda kamuoyunu ölçmek için sosyal medya duygu analizi.
Duygulara vurgu yapan e-ticaret platformları için müşteri geri bildirim analizi.

Sınırlamalar

ChatGPT 4.5'in duygu analizindeki performansı, duygu sınıflandırması ve nefret tespitindeki nispeten daha düşük doğruluğu tarafından engellenmektedir.

ChatGPT 5.o

ChatGPT 5.o, OpenAI'ın modellerinin en yeni neslini temsil eder, bağlamsal akıl yürütme, nüans tespiti ve içerik moderasyonunda iyileştirmelerle. Ortalama doğruluğu Claude 4.5 (%75) ile eşleşse de, model kabalık tespitinde (%82) ve ironi tespitinde (%93) olağanüstü performansı ile öne çıkar.

Duygu analizinde uygulamalar

ChatGPT 5.o özellikle şunlar için etkilidir:

Çevrimiçi forumlarda ve sosyal medya platformlarında kabalık tespiti, burada doğruluğu diğer tüm araçları geride bırakır.
Karmaşık kullanıcı tarafından oluşturulan içeriği anlamada araştırmacıları ve işletmeleri destekleyen ironi ve alay analizi.
Müşteri hizmetleri geri bildiriminde, zihinsel sağlık izlemesinde ve sosyal medya duygu takibinde duygu tanıma.
Kategoriler arasında dengeli performansın tercih edildiği büyük ölçekli anket verilerinde genel duygu sınıflandırması.

Sınırlamalar

Güçlü yönlerine rağmen, ChatGPT 5.o'nun nefret tespitindeki (%54) daha zayıf sonuçları, toksik veya ayrımcı dil içeren yüksek riskli moderasyon için uygunluğunu azaltır.

Claude 3.7

Claude 3.7, öncülü Claude 3.5'in güçlerini üzerine inşa eder, bağlam anlayışında ve duygu doğruluğunda iyileştirmeler sunar. Güvenli ve etik AI uygulamalarına güçlü bir odakla, Claude 3.7 duygu, ironi ve nefret içeren konuşma dahil karmaşık duyguları tespit etmede mükemmel sonuçlar verir, yüksek hassasiyet ve bağlam gerektiren uygulamalar için ideal bir seçim yapar.

Duygu analizinde uygulamalar

Claude Sonnet 3.7 şu görevler için son derece etkilidir:

Müşteri geri bildiriminde ve zihinsel sağlık uygulamalarında duygu tespiti.
Çevrimiçi platformlarda güvenli alanlar sağlamak için çevrimiçi içerik moderasyonu için nefret ve kabalık tespiti.
Pazar araştırması ve iş zekasında duygu sınıflandırması.

Sınırlamalar

Claude 3.7 ana duygu alanlarında tüm modelleri geride bıraksa da, yüksek düzeyde alana özgü senaryolardaki performansı hala zorluklarla karşılaşabilir, özellikle ince duygu formlarıyla. Ayrıca, daha nüanslı veya küçük bağlamsal ipuçlarıyla ilgili duygu tespitindeki doğruluğu daha fazla iyileştirme gerektirebilir.

Claude 3.5

Claude 3.5, Anthropic tarafından oluşturulmuş, güvenlik, etik davranış ve hassas metin oluşturma odaklı bir NLP modelidir. Bağlama duyarlılık ve nüanslı duygu analizi teknikleri gerektiren görevler için özellikle uygundur.

Duygu analizinde uygulamalar

Claude 3.5 şu senaryolarda çalışır:

Sosyal medya ve çevrimiçi platformları izlemek için nefret tespiti.
İçerik moderasyon sistemlerinde kabalık tespiti.
Kullanıcı deneyimini iyileştirmek için duygu sınıflandırmasına vurgu yapan müşteri hizmetleri etkileşimleri.
İş zekasında duygu trendlerini belirlemek için temelli duygu analizi.

Sınırlamalar

Claude 3.5 etik ve bağlamsal anlayışta mükemmel olsa da, bazen rakiplerine kıyasla yüksek düzeyde ince veya örtük duyguları tespit etmede başarısız olabilir. Ayrıca, eğitim veri seti ChatGPT 4.o'ya göre daha az çeşitlidir, bu da bazı benchmark veri setlerinde azalmış sağlamlığa yol açabilir.

Claude 4.5

Claude 4.5, Anthropic'in Claude serisi üzerine bağlamsal hassasiyet ve yorumlanabilirlikte iyileştirmelerle inşa edilmiştir. Duygu analizi görevlerinde %75 ortalamayla, Claude 4.5 duygu tespitinde (%82) en yüksek doğruluğu, ironide (%95) ve kabalık tespitinde (%81) güçlü performans gösterdi, ancak nefret tespitinde (%50) kısa kaldı, test edilen tüm modeller arasında en düşük.

Duygu analizinde uygulamalar

Claude 4.5 şu alanlar için uygundur:

Sağlık hizmeti geri bildirimleri veya sağlık uygulamaları gibi ince ipuçlarının kritik olduğu uygulamalarda duygu tespiti.
Nüanslı yorumlamanın gerekli olduğu sosyal medya izleme ve görüş madenciliğinde ironi ve alay tanıma.
Daha güvenli çevrimiçi alanlar oluşturma için rekabetçi sonuçlar sağlayan içerik moderasyonunda kabalık tespiti.
Dengeli ancak biraz daha güçlü kutupluluk tespiti (%69) faydasıyla pazar araştırması ve marka analizinde duygu sınıflandırması.

Sınırlamalar

Claude 4.5'in nefret tespitindeki düşük doğruluğu (%50), zararlı veya toksik konuşma içeren senaryolardaki kullanımını önemli ölçüde sınırlar. Ayrıca, bazı kategorilerde mükemmel olsa da, performansı görevler arasında düzensizdir, bu da tüm duygu boyutlarında tutarlı doğruluk gerektiren projeler için daha az güvenilir hale getirir.

DeepSeek V3

DeepSeek V3 geniş bir duygu analizi görevi yelpazesinde sağlam sonuçlar sunar, ancak genel doğruluğu diğer modellerin gerisinde kalır, özellikle nefret tespitinde.

Duygu analizinde uygulamalar

DeepSeek V3 yaygın olarak şunlar için kullanılır:

Zihinsel sağlık uygulamalarında ve müşteri duygu takibinde duygu tespiti.
Sosyal medya platformları ve kullanıcı tarafından oluşturulan içerik dahil günlük konuşmalarda ironi tespiti.
Pazar araştırması anketleri ve geri bildirim formları için temel duygu sınıflandırması.
Çevrimiçi forumlarda kaba dili filtrelemek için İçerik moderasyonu.

Sınırlamalar

DeepSeek V3'ün nefret içeren içeriği tespit etmedeki daha düşük performansı ve nispeten daha zayıf genel duygu sınıflandırma yetenekleri, hassas platformlarda içerik moderasyonu gibi yüksek riskli uygulamalar için daha az uygun hale getirir.

Grok 4

Grok, mizah, sosyal etkileşim ve dinamik katılım odaklı geliştirilmiş bir konuşma yapay zeka modelidir. Duygu analizi benchmarklarında, Grok test edilen tüm modeller arasında en düşük sırada yer aldığı ortalama %71 doğruluğa ulaştı.

Duygu analizinde uygulamalar

Grok şunlara uygulanabilir:

Ton ve ruh halini belirlemenin kullanıcı katılımını artırdığı etkileşimli uygulamalarda duygu tespiti.
Orta düzey doğruluk seviyesinde (%65) nefret içeren içeriği tespit etmek için özellikle moderasyon araçları.
Daha gelişmiş modellere kıyasla kısıtlamalarla çevrimiçi söylemde hafif ironi tespiti.
Yüksek hassasiyetten ziyade konuşma akışının önceliklendirildiği yaratıcı veya gayri resmi ortamlarda keşif duygu analizi.

Sınırlamalar

Grok'un duygu sınıflandırmasındaki (%60) zayıflığı ve daha düşük ironi tespit doğruluğu (%83), yüksek hassasiyetli araştırmalarda veya ticari analizlerde kullanımını kısıtlar. Benchmark doğruluğundan ziyade konuşma yanıtına odaklanan tasarımı, duygu kategorizasyonunda tutarlı güvenilirlik gerektiren görevler için daha az uygun hale getirir.

Kıyaslamalarımızı ve veri odaklı içgörülerimizi kaçırmayın. Düğme Google'ı açar; AIMultiple'ı seçmeniz, Google arama sonuçlarında AIMultiple'ı daha sık görmek istediğinizi onaylar.

Tercih edilen kaynak olarak ekle

Daha fazla okuma

Bu benchmarkı kaynak gösterin

Yayınlayacağınız yere uygun formatı seçin. Bağlantılı sürümü CMS'inize yapıştırmak, geri bağlantıyı korur.

Ezgi Arslan, PhD. (2026) - "Duygu Analizi Benchmark Testi: ChatGPT, Claude & DeepSeek". AIMultiple.com adresinde çevrimiçi yayımlanmıştır. Erişim tarihi: 15 Haziran 2026, kaynak: https://aimultiple.com/sentiment-analysis-benchmark [Çevrimiçi Kaynak]

PhD., E. A. (2026, 15 Haziran). Duygu Analizi Benchmark Testi: ChatGPT, Claude & DeepSeek. AIMultiple. https://aimultiple.com/sentiment-analysis-benchmark

@misc{phd2026,
  author = {PhD., Ezgi Arslan,},
  title  = {{Duygu Analizi Benchmark Testi: ChatGPT, Claude & DeepSeek}},
  year   = {2026},
  month  = jun,
  howpublished    = {\url{https://aimultiple.com/sentiment-analysis-benchmark}},
  note   = {AIMultiple. Erişim tarihi: 15 Haziran 2026}
}

Referans Linkleri

Cardiff NLP · GitHub

SemEval-2018 Task 1: Affect in Tweets - ACL Anthology

SemEval-2019 Task 5: Multilingual Detection of Hate Speech Against Immigrants and Women in Twitter - ACL Anthology

SemEval-2018 Task 3: Irony Detection in English Tweets - ACL Anthology

SemEval-2019 Task 6: Identifying and Categorizing Offensive Language in Social Media (OffensEval) - ACL Anthology

SemEval-2017 Task 4: Sentiment Analysis in Twitter - ACL Anthology

Ezgi Arslan, PhD.

Sektör Analisti

Takip Et

Ezgi, işletme yönetimi alanında finans uzmanlığıyla doktora derecesine sahip olup AIMultiple'da Endüstri Analisti olarak görev yapmaktadır. Sürdürülebilirlik, anket ve duygu analizi, finansta yapay zeka ajan uygulamaları, yanıt motoru optimizasyonu, güvenlik duvarı yönetimi ve tedarik teknolojileri alanlarındaki uzmanlığıyla teknoloji ve iş dünyasının kesiştiği noktada araştırmalar ve içgörüler geliştirmektedir.

Tam Profili Görüntüle

Yorum yapan ilk kişi olun

E-posta adresiniz yayınlanmayacak. Tüm alanlar gereklidir. Yorumlar orijinal dilinde bırakılır.

Deneysel sonuçlar: duygu analizi benchmark

Benchmark veri seti ve metodoloji

LLM'lerin detaylı özeti

Daha fazla okuma

Bu benchmarkı kaynak gösterin

Etik normlar ve sürecimiz doğrultusunda tarafsızlığı esas alıyoruz. Bu araştırma AIMultiple'ın müşterilerinden hiçbirini içermiyor.

Tercih edilen kaynak olarak ekle

Sıradaki Okunma

Yönetilen Dosya Transferi22 Haz

Duygu Analizi Benchmark Testi: ChatGPT, Claude & DeepSeek

Deneysel sonuçlar: duygu analizi benchmark

Genel doğruluk

1. Duygu tespiti

2. Nefret tespiti

3. İroni tespiti

4. Kabalık tespiti

5. Duygu analizi

Gözlemler ve içgörüler

Girdi hacminin etkisi

Göreve özgü güçler

Daha geniş sonuçlar

Benchmark veri seti ve metodoloji

Analiz veri seti

Analiz metodolojisi

Deneysel kurulum

Girdi hacmi

Göreve özgü değerlendirme

Kullanılan metrikler

Kurulum sınırlamaları

LLM'lerin detaylı özeti

ChatGPT 4.o

Duygu analizinde uygulamalar

Sınırlamalar

ChatGPT 4.5

Duygu analizinde uygulamalar

Sınırlamalar

ChatGPT 5.o

Duygu analizinde uygulamalar

Sınırlamalar

Claude 3.7

Duygu analizinde uygulamalar

Sınırlamalar

Claude 3.5

Duygu analizinde uygulamalar

Sınırlamalar

Claude 4.5

Duygu analizinde uygulamalar

Sınırlamalar

DeepSeek V3

Duygu analizinde uygulamalar

Sınırlamalar

Grok 4

Duygu analizinde uygulamalar

Sınırlamalar

Daha fazla okuma

Bu benchmarkı kaynak gösterin

Atıflı bağlantıHTML; blog yazıları, LinkedIn makaleleri ve bültenler için. Tavsiye edilir.

APA 7. baskıAPA 7. baskı stiline uyan akademik makaleler ve analist raporları için.

BibTeXLaTeX belgeleri ve akademik referans yöneticileri için.

Referans Linkleri

Yorum yapan ilk kişi olun

Sıradaki Okunma

MFT Kıyaslaması: Files.com, Thru, Cerberus FTP ve Serv-U Test Edildi

İnceleme ve Test Edilen En İyi 10 AI Word Belge Oluşturucu

AI Halüsinasyon Tespit Araçları: W&B Weave & Comet

MySQL İzleme: SolarWinds vs New Relic vs Datadog

Çok Modlu Gömme Modelleri: Apple vs Meta vs OpenAI

İlişkisel Temel Modelleri Karşılaştırın