Yapay zekâ yetenekleri geliştikçe, metinden sese (TTS) yazılımları da doğal, insana benzer konuşma üretme konusunda daha yetenekli hale geliyor.
Duygusal tonları en doğru, tutarlı ve kapsamlı şekilde tanıyabilen aracı belirlemek amacıyla, yedi temel duygu kategorisi genelinde beş farklı metinden sese dönüştürme ve duygu analizi aracının (Resemble, ElevenLabs, Hume, Azure ve Cartesia) performansını değerlendirdik ve karşılaştırdık.
Metinden sese dönüştürme performans testi sonuçları
- Hume (7.40) ve ElevenLabs (7.34) en yüksek genel ortalama puanları elde etti.
- Cartesia (7.11) istikrarlı duygusal kapsama gösterdi ancak bazı durumlarda (özellikle tekrarlanan "üzgün" senaryolar için) tutarsız sonuçlar verdi.
- Resemble (6.03) ve Azure (5.91) belirli duygular konusunda iyi performans gösterdi ancak genel ortalamaları daha düşüktü.
Bu araçları nasıl ölçtüğümüzü ve değerlendirdiğimizi öğrenmek için metodoloji bölümüne bakın.
Metinden sese dönüştürme yazılımının detaylı analizi
ElevenLabs
ElevenLabs, etkileyici, çok dilli ve gerçekçi konuşma sentezine odaklanan bir yapay zeka ses üreteci ve metinden sese dönüştürme yazılımıdır.
Eleven v3 modeli ve geniş araç seti sayesinde, içerik oluşturucuların ve geliştiricilerin hikaye anlatımı, müşteri etkileşimi ve dijital içerik için insan benzeri sesler üretmelerine olanak tanır.
Geliştirici ve API entegrasyonu
ElevenLabs, geliştiricilerin yapay zeka ses modellerini uygulamalarına entegre etmeleri için API'ler ve SDK'lar sunmaktadır. Metinden Sese Dönüştürme API'si, Sesten Metne Dönüştürme API'si ve Ses Değiştirici API'si ölçeklenebilirlik, düşük gecikme süresi ve güvenlik için tasarlanmıştır.
Sistem 29'dan fazla dili desteklemekte olup GDPR ve SOC II standartlarına uyumludur ve bu da onu kurumsal ortamlar için uygun hale getirmektedir.
Kurumsal uygulamalar
- Müşteri hizmetleri ve çağrı merkezleri: Gelen ve giden aramalar için yapay zeka destekli sesli asistanları iyileştirin.
- Eğitim teknolojisi: Çoklu dil desteği ve etkileyici sesler sunan konuşma yapay zekasıyla öğrenme araçlarını geliştirin.
- Medya oluşturma: Profesyonel kalitede yapımlar için içerik platformlarının seslendirme, dublaj ve ses efektlerini entegre etmesini sağlayın.
- Yapay zekâ asistanları: Gerçekçi ve etkileşimli iletişim için dijital asistanlara ses verin.
Yapay zeka güvenliği ve etiği
ElevenLabs, sesli yapay zekanın sorumlu kullanımına önem vermektedir. Şirket, kötüye kullanımı önlemek ve etik yapay zeka uygulamasını sağlamak için denetim, hesap verebilirlik ve kaynak takibi önlemleri uygulamaktadır.
Ayrıca, seslendirme sanatçılarını ve yaratıcılarını yetkisiz kopyalamadan korumak için ses tanımlama sistemleri gibi girişimler de başlattı.
Hume Yapay Zekası
Hume AI, içerik üreticileri, geliştiriciler ve işletmeler için duygusal zekaya sahip yapay zeka ses üreteci sistemleri geliştiren bir ses teknolojisi şirketidir.
Octave: Duygusal anlama özelliğine sahip metinden sese dönüştürme hizmeti
Octave 2, Hume'un metinden sese dönüştürme motorunun en yeni sürümüdür ve çok yönlü bir metin ve ses modeli olarak tanımlanır. Geleneksel metinden sese dönüştürme sistemlerinin aksine, Octave dilin anlamını ve duygusal bağlamını anlar ve bu sayede tonu, ritmi ve ruh halini doğal bir şekilde ifade edebilir.
Octave ayrıca ses dönüştürme ve fonem düzenleme özelliklerini de destekler. Ses dönüştürme, zamanlama ve artikülasyonu koruyarak bir sesin diğeriyle değiştirilmesini sağlar; bu da dublaj veya performans ayarlamalarında yardımcı olur.
Fonem düzenleme, telaffuz ve vurgu üzerinde hassas kontrol sağlayarak özel dilsel ince ayarları destekler.
Yaratıcılar ve işletmeler için uygulamalar
Hume'un modelleri yaratıcı, ticari ve teknik sektörlerin tamamında kullanılmaktadır:
- Sesli kitaplar ve podcast'ler: Gerçekçi duygusal aktarımla çok konuşmacılı yapımlara olanak tanır.
- Video prodüksiyonu: Gerçekçi seslendirmeler ve çok dilli dublaj sağlayın.
Geliştirici araçları ve entegrasyonu
Hume, Python, TypeScript, Swift, React ve .NET için API'ler ve SDK'lar sağlayarak çeşitli yazılım ortamlarına entegrasyonu mümkün kılar. Geliştiriciler, sesleri test etmek, özelleştirmek ve dağıtmak için tarayıcı tabanlı bir oyun alanına erişebilirler.
Kartezyen
Cartesia'nın Sonic-3'ü, etkileyici konuşma sentezi, bağlamsal anlama ve çok dilli yetenekleri birleştiren bir yapay zekâ ses üretecisidir.
Düşük gecikme süresi performansı ve güvenli entegrasyonu, hem doğruluk hem de doğal iletişim gerektiren gerçek zamanlı sesli asistanlar ve konuşma sistemleri geliştiren işletmeler için uygun hale getirir.
Endüstriyel uygulamalar
- Sağlık Hizmetleri : Hasta randevularının planlanması ve destek hizmetleri için net ve empatik sesli etkileşim sağlar.
- Müşteri hizmetleri : Doğru sesli yanıtlarla kullanıcı deneyimini geliştirir.
- Oyunlar : Sürükleyici oyun deneyimi için gerçekçi karakter sesleri oluşturur.
- Konaklama ve lojistik : Doğal dil arayüzleri aracılığıyla rezervasyon, takip ve koordinasyonu kolaylaştırır.
Benzemek
Resemble AI, kuruluşların yapay sesler oluşturmasına, düzenlemesine ve güvenliğini sağlamasına olanak tanıyan ve deepfake tehditlerine karşı koruma sağlayan bir yapay zeka ses oluşturma platformudur.
Kurumsal kullanım için tasarlanan bu platform, ölçeklenebilirlik ve veri güvenliğine önem vererek ses teknolojilerinin gerçek dünya ortamlarında güvenli bir şekilde uygulanabilmesini sağlar.
Güvenlik ve farkındalık çözümleri
Resemble ayrıca, ekipleri deepfake tehditlerine hazırlamak için yapay zeka tabanlı güvenlik farkındalığı eğitimi de sunmaktadır. Bu simülasyonlar, telefon, WhatsApp ve e-posta yoluyla gerçek dünyadaki saldırıları taklit ederek çalışanların sahte yapay zeka tarafından oluşturulan sesleri tanımasını ve bunlara yanıt vermesini sağlar. Kuruluşlar, sürekli izleme, ayrıntılı analizler ve farkındalıkta ölçülebilir iyileştirmelerden faydalanır.
Geliştirici ve kurumsal kullanım
Geliştiriciler, Resemble'ın özelliklerini SDK'lar ve API'ler aracılığıyla entegre edebilir veya sistemi kendi altyapılarına kurabilirler. Platform, çok dilli ses üretimini destekler ve konuşma ajanları , sanal karakterler ve yerelleştirilmiş konuşma uygulamaları oluşturmak için kullanılabilir.
Azure
Azure AI Speech, geliştiricilerin sesle etkinleştirilen, çok dilli yapay zeka uygulamaları oluşturmasına yardımcı olan, Azure'da konuşmaya odaklı bir hizmettir.
Önceden oluşturulmuş ve özelleştirilebilir yapay zeka modellerini kullanarak konuşmayı yazıya dökme, oluşturma ve analiz etme araçları sunar.
Azure ekosistemiyle entegrasyon
Azure AI Speech diğer Azure hizmetleriyle birlikte çalışır:
- Foundry Models'daki Azure OpenAI, metin, görüntü, ses ve video işleyen çok modlu yapay zekayı entegre eder.
- Azure AI İçerik Güvenliği, sorumlu yapay zeka kullanımını izlemek ve yönetmek için araçlar sağlar.
- Azure AI İçerik Anlama, çok modlu verileri eyleme dönüştürülebilir içgörülere dönüştürür.
Metinden sese dönüştürme yazılımının temel özellikleri
Doğallık ve ses kalitesi
Yüksek kaliteli metinden sese dönüştürme yazılımları, doğru tonlama ve vurguyla insana benzer konuşma üretmeyi amaçlar. Robotik tonları en aza indirmek, eğitim, medya ve profesyonel ortamlarda etkili iletişim için çok önemlidir.
Ses çeşitliliği ve stilleri
Modern sistemler, konuşma dili ve resmi üsluplar da dahil olmak üzere çok sayıda ses seçeneği ve sunum stili sunar. Bu çeşitlilik, içeriğin farklı hedef kitlelere ve kullanım durumlarına göre uyarlanmasına olanak tanır.
Özelleştirme kontrolleri
Kullanıcılar hızı, perdeyi, tonu ve ses seviyesini ayarlayabilir ve duraklamalar ekleyebilir. Bu kontroller, sunumu geliştirir ve ses çıkışının resmi sunumlardan gündelik dinlemeye kadar çeşitli ortamlara uyum sağlamasını mümkün kılar.
Telaffuz ve bağlam duyarlılığı
Gelişmiş sistemler, belirsiz kelime ve ifadeleri çözümlemek için bağlamı dikkate alır. Fonem sözlükleri ve özelleştirilebilir kurallar, telaffuz doğruluğunu daha da artırır.
Metin normalizasyonu
Sayılar, tarihler, kısaltmalar ve semboller doğal konuşmaya dönüştürülür. Doğru normalleştirme, garip okumaları önler ve dinleyicinin anlamasını iyileştirir.
Dışa aktarma ve çıktı seçenekleri
Çoğu yazılım, ses dosyalarını MP3 veya WAV gibi formatlarda kaydetmeyi destekler. Toplu işleme ve gerçek zamanlı akış özellikleri genellikle hem kişisel hem de ticari ihtiyaçları karşılamak üzere mevcuttur.
Çevrimdışı veya cihaz üzerinde çalışma özelliği
Çevrimdışı işlevsellik, internet erişimi olmadan konuşma üretmeyi mümkün kılar. Bu özellik, özellikle gizliliğin korunması, düşük gecikmeli kullanımın desteklenmesi ve bağlantının sınırlı olduğu ortamlar için önemlidir.
Ses klonlama ve özel sesler
Bazı çözümler, konuşmacı örneklerine dayalı özel ses oluşturma olanağı sunar. Bu, kişiselleştirilmiş deneyimler sağlar ancak etik ve lisanslama konularının da dikkatlice değerlendirilmesini gerektirir.
Erişilebilirlik özellikleri
Ekran okuyucularla entegrasyon, metin vurgulama ve yardımcı teknolojilere destek, engelli kullanıcılar için erişilebilirliği sağlar. Bu özellikler, kapsayıcı dijital ortamlar oluşturmak için kritik öneme sahiptir.
Metinden sese dönüştürme yazılımının farklılaştırıcı özellikleri
Metinden sese dönüştürme araçları genellikle temel konuşma sentezinin ötesine geçen bir dizi gelişmiş özellik ile öne çıkarlar. Bu özellikler, sağlayıcıların eğitim, iş dünyası, medya ve erişilebilirlik alanlarındaki belirli kullanım durumlarına nasıl çözüm ürettiklerini vurgular.
Dil sayısı
Desteklenen dil yelpazesi, çözümün küresel kullanıcılar için uyarlanabilirliğini yansıtmaktadır. Daha geniş bir dil kütüphanesi, daha geniş bir erişim sağlayarak yazılımı uluslararası işletmeler, üniversiteler ve çeşitli dilsel bağlamlarda kişisel kullanım için uygun hale getirmektedir.
Seslendirme (VO) çevirisi
Seslendirme çevirisi, kullanıcıların metin veya kaydedilmiş bir sesi girmelerine ve seçilen dilde çıktı üretmelerine olanak tanır. Bu özellik, konuşma sentezinin orijinal anlatımın yerini alabileceği veya onu tamamlayabileceği ve çok dilli iletişimi kolaylaştırabileceği video prodüksiyonunda çok önemlidir.
Video editörü
Bazı sağlayıcılar, video düzenleme ve oluşturma özelliklerini platformlarına entegre eder. Bu, abonelerin videoları düzenlemesine veya üretmesine ve doğrudan konuşmaya dayalı seslendirmeler eklemesine olanak tanıyarak üçüncü taraf düzenleme araçlarına olan ihtiyacı ortadan kaldırır. Video oluşturma ve konuşma sentezinin birleşimi, daha hızlı içerik üretimini destekler.
Dublaj
Seslendirme, oluşturulan sesi orijinal videonun temposu, ifadeleri ve görsel ipuçlarıyla senkronize ederek temel çevirinin ötesine geçer. Bu özelliği sunan sağlayıcılar, konuşma duraklamalarının, tonun ve ağız hareketlerinin dikkatlice senkronize edilmesini sağlayarak doğal ve yerelleştirilmiş izleme deneyimleri sunar.
Ses editörü
Ses düzenleyici, sentezlenmiş veya kaydedilmiş sesi iyileştirmek için araçlar sağlar. Ses seviyesini değiştirme, duraklama ekleme veya filtre uygulama gibi ayarlamalar, kullanıcıların harici düzenleme programlarına ihtiyaç duymadan profesyonel ses kalitesi elde etmelerini sağlar.
Altyazılar ve transkripsiyon
Konuşma sentezinin yanı sıra, birçok sağlayıcı altyazı veya transkripsiyon oluşturmayı sağlayan konuşma tanıma özellikleri de sunmaktadır. Bu işlev, metinden sese dönüştürmenin tersidir ve içeriği erişilebilir kılmak, araştırmayı desteklemek ve belgelerin veya videoların çok dilli sürümlerini üretmek için değerlidir.
Entegrasyon ve API'ler
API'ler ve SDK'lar, konuşma yeteneklerinin uygulamalara, web sitelerine ve kurumsal sistemlere entegre edilmesini sağlar. Bu entegrasyon, sohbet botları ve otomatik telefon sistemleri gibi hizmetleri destekler.
Metinden sese dönüştürme yazılımı kullanım örnekleri
Erişilebilirlik ve yardımcı teknoloji
Metinden sese dönüştürme yazılımları, erişilebilirliği artırmada çok önemli bir rol oynar. Görme engelli veya okuma güçlüğü çeken bireyler, belgeler, web sayfaları veya PDF dosyaları gibi dijital formatlardaki yazılı metinlere erişmek için genellikle konuşma yazılımlarına güvenirler.
Metni sesli konuşmaya dönüştürerek, bu araçlar kullanıcıların aksi takdirde erişilemeyecek bilgilerle etkileşim kurmasını sağlar. Ekran okuyucular ve metin okuyucular, web sitelerinde, araştırma makalelerinde ve eğitim içeriklerinde metni sesli okumak için yaygın olarak kullanılmaktadır.
Disleksi veya benzeri rahatsızlıkları olan kişiler için, okumak yerine içeriği duymak, sayfadaki kelimelerle boğuşmak yerine anlama odaklanmalarına yardımcı olur. Metinden sese dönüştürme özelliği ayrıca konuşma yeteneğini kaybetmiş bireylere de ses imkanı sağlar.
Bu gibi durumlarda, kayıtlardan oluşturulan özel sesler, kişisel kimlik ve bağımsızlık duygusunu geri kazandırabilir.
Gerçek hayattan bir örnek: Tesco ve Kraliyet Ulusal Görme Engelliler Enstitüsü (RNIB)
Tesco, dijital alışverişi daha kapsayıcı hale getirmek amacıyla, Görme Engelliler Ulusal Enstitüsü (RNIB) ile iş birliği yaparak çevrimiçi market platformunun erişilebilirliğini geliştirdi.
Bu iş birliğinin sonucunda Tesco, erişilebilirliği artırmaya yönelik çeşitli iyileştirmeler yaptı:
- Sitenin genelinde daha net ve anlaşılması daha kolay bir dil.
- Görme engelli kullanıcılar için ekran okuyucularla geliştirilmiş uyumluluk.
- Daha sezgisel gezinme ve basitleştirilmiş menüler. 1
Eğitim ve e-öğrenme
Öğrenciler, özellikle yoğun akademik materyaller çalışırken veya sınavlara hazırlanırken, yazılı metinleri dinlemekten sıklıkla fayda görürler. Dinleme, kavrama yeteneğini artırabilir, yorgunluğu azaltabilir ve öğrencilerin diğer etkinliklerle meşgulken materyali gözden geçirmelerini sağlayabilir.
Eğitim kurumları, e-öğrenme ortamlarında sıklıkla metin okuyucuları kullanır; bu sayede ders materyallerinin sesli versiyonları, farklı öğrenci grupları için erişilebilir içerik oluşturulmasına yardımcı olur. Dil öğreniminde, içeriği birden fazla dilde dinleme yeteneği, doğru telaffuz, ritim ve tonlamayı destekler.
Konuşma yazılımı tarafından oluşturulan ses dosyaları kaydedilebilir ve tekrar tekrar oynatılabilir, bu da tekrar için ek özellikler sunar. Bu, üniversite ve okullardaki öğrencilerin hem metin hem de konuşma formatlarına erişmelerini sağlayarak farklı öğrenme tercihlerine uyum sağlamalarına olanak tanır.
Gerçek hayattan bir örnek: Perkins Görme Engelliler Okulu
Perkins Görme Engelliler Okulu, görme engelli öğrenciler için öğrenme materyallerini erişilebilir kılmak amacıyla metinden sese dönüştürme (TTS) teknolojisini kullanmaktadır. Ders kitaplarını, çalışma sayfalarını ve diğer eğitim kaynaklarını sese dönüştürerek, öğrenciler yalnızca görmeye güvenmek yerine içeriği dinleyebilirler.
Bu yaklaşım, öğrencilerin sınıf içi etkinliklere daha tam olarak katılmalarını sağlarken, daha fazla bağımsızlık kazanmalarına da olanak tanır. Genel olarak, Perkins'teki TTS (Öğretmen Destekli Öğretim) programı, okuma yazma becerilerinin geliştirilmesini destekler ve öğrencilerin daha güçlü akademik sonuçlar elde etmelerine yardımcı olur.
İçerik oluşturma ve medya
İçerik üreticileri, videolar, podcast'ler, reklamlar ve eğitim materyalleri için seslendirme oluşturmak amacıyla metinden sese dönüştürme araçlarına giderek daha fazla güveniyor. Metni ses dosyalarına dönüştürmek, içerik üreticilerinin bilgileri birden fazla formatta sunmalarına ve okumak yerine dinlemeyi tercih eden kitlelere ulaşmalarına olanak tanıyor.
Yazarlar ve yayıncılar da öyküleri ve araştırmaları sesli versiyonlara dönüştürmek için konuşma yazılımı kullanırlar. Bu, seyahat ederken veya aynı anda birden fazla iş yaparken kişisel cihazlarında dinlemeyi tercih eden kullanıcılar için erişilebilir içerik sağlar.
Yüksek kaliteli ses üretebilen yazılımları kullanarak, içerik oluşturucular çıktılarının profesyonel standartlara uygun olmasını sağlayabilirler. Bu araçlar tarafından oluşturulan ses formatları, yaygın cihazlarla uyumludur ve bu da onları hem kişisel hem de ticari kullanım için pratik hale getirir.
Müşteri hizmetleri ve iş iletişimi
İşletmeler, otomatik telefon menüleri, sohbet robotları ve dijital asistanlar da dahil olmak üzere müşteri hizmetleri sistemlerinde metinden sese dönüştürme yazılımı kullanmaktadır. Bu uygulamalar, bilgileri birden fazla dilde ve iletişim kanalında net ve tutarlı bir şekilde sunmak için konuşmaya dayanmaktadır.
Yazılı belgelerden ve duyurulardan ses kayıtları oluşturarak, şirketler iletişimlerinin hem verimli hem de erişilebilir olmasını sağlayabilirler.
Kurum içi iletişim de raporları, bültenleri ve eğitim materyallerini sese dönüştürme özelliğinden faydalanır. Çalışanlar diğer görevlerini yönetirken içeriği dinleyebilir, bu da verimliliği artırır.
Gömülü cihazlar ve günlük kullanım
Metinden sese dönüştürme teknolojisi artık birçok günlük cihaza entegre edilmiş durumda. Araçlardaki navigasyon sistemleri sürücülere yol tariflerini sesli olarak okurken, evlerde veya ofislerdeki akıllı asistanlar hatırlatıcıları ve bilgileri sesli olarak sunuyor. Tarayıcı uzantıları ve uygulamaları, web sayfalarını veya belgeleri doğrudan ekrandan sesli olarak okuyabiliyor ve kullanıcıların diğer faaliyetleri gerçekleştirirken içeriği dinlemelerini sağlıyor.
Bireyler ayrıca kişisel belgelerini, araştırma materyallerini ve çalışma materyallerini ses dosyalarına dönüştürmek ve daha sonra telefonlarda, dizüstü bilgisayarlarda veya diğer cihazlarda kaydedip oynatmak için konuşma yazılımları kullanırlar.
Gerçek hayattan bir örnek: Speechify ile Alinea
Alinea, Speechify metinden sese dönüştürme API'sini kullanarak finansal eğitimi Z kuşağı kullanıcıları için daha ilgi çekici ve erişilebilir hale getiriyor. Yazılı finansal içeriği sese dönüştürerek, platform karmaşık yatırım kavramlarını basitleştiriyor ve daha kolay anlaşılır bir formatta sunuyor.
Bu ses odaklı yaklaşım, genç izleyicilerin podcast'ler veya kısa formatlı medya gibi içerikleri tüketmeyi tercih etme biçimleriyle örtüşüyor ve öğrenmeyi daha doğal ve daha az bunaltıcı hale getiriyor.
Sonuç olarak, Alinea farklı öğrenme stilleri için erişilebilirliği artırıyor, kullanıcı etkileşimini yükseltiyor ve bireylerin finanslarını yönetme ve yatırım kararları alma konusunda özgüven kazanmalarına yardımcı oluyor. 2
Metinden sese dönüştürme teknolojisinin benimsenmesindeki zorluklar
Geniş uygulama alanlarına rağmen, metinden sese dönüştürme sistemlerinin etkinliğini sınırlayan çeşitli zorluklar bulunmaktadır.
- Kullanıcı farkındalığı : Birçok kullanıcı, ses kaydetme, ton veya hız ayarlama veya özel sesler oluşturma gibi metinden sese dönüştürme araçlarının sağladığı ek özelliklerin tam olarak farkında değildir. Bu farkındalık eksikliği, kullanıcıların mevcut teknolojiden tam olarak yararlanmasını engelleyebilir.
- Konuşmanın doğallığı : İnsan benzeri duygu, ritim ve tonu aktaran konuşma üretmek hâlâ zor. Kullanıcılar genellikle sadece kelimeleri iletmekle kalmayıp aynı zamanda bağlam ve duygu farkındalığını da ifade eden ses kayıtları beklerler.
- Telaffuz doğruluğu : Kelimeler, karakterler ve kısaltmalar, özellikle metinleri farklı diller veya formatlar arasında dönüştürürken yanlış telaffuz edilebilir. Bu durum, uluslararası kullanıcılar için anlama ve kaliteyi düşürebilir.
- Biçim uyumluluğu : Çoğu araç yaygın ses formatlarını desteklerken, resim, müzik veya etkileşimli içerik içeren karmaşık dosyaları dönüştürürken zorluklar ortaya çıkabilir.
- Performans hızı : Müşteri desteği veya canlı sunumlar gibi gerçek zamanlı uygulamalarda, konuşma yazılımı kaliteden ödün vermeden hızlı bir şekilde ses üretmelidir.
- Maliyet ve erişilebilirlik: Bazı programlar ücretsiz olsa da, en yüksek kalitede seslere ve gelişmiş özelliklere sahip yazılımlar genellikle yalnızca ücretli sürümlerde mevcuttur; bu da öğrenciler ve bu araçları kişisel kullanım için kullanan kişiler için erişilebilirliği sınırlamaktadır.
Metinden sese dönüştürme yazılımı kıyaslama metodolojisi
Veri kümesi
Bu değerlendirmede kullanılan veri seti beş metin dosyasından (.txt) oluşmaktadır. Her dosya tek bir cümle içerir ve her cümle birincil bir duyguyu temsil eder: üzgün, kızgın, mutlu, nötr, rahat, ciddi veya şaşırmış.
Adil bir değerlendirme sağlamak amacıyla, tüm araçlara aynı girdiler sağlandı ve böylece eşit test koşulları garanti altına alındı.
Bu cümleler kısaydı ve gerçek kullanıcı ifadelerinden türetilmişti; yani ton ve duygu algılamasında sıkça karşılaşılan doğal senaryoları temsil ediyorlardı. Bu kurulum, tüm araçların kısa metinsel girdiler içindeki gerçekçi duygusal içerik üzerinde test edilmesini sağlar.
Değerlendirme süreci
Değerlendirme süreci, aynı beş metin girdisinin beş aracın her birine gönderilmesini içeriyordu.
Her bir araç, ses tonu, duygu etiketi ve prozodi analizi gibi çıktılar üretti ve bunlar daha sonra amaçlanan duyguyu ne kadar iyi yakaladıklarına bağlı olarak 0-10 ölçeğinde manuel olarak derecelendirildi.
- "0" puan, aracın hedeflenen duyguyu tespit etmede tamamen başarısız olduğunu, "10" puan ise duyguyu mükemmel bir şekilde yakaladığını gösterir.
- Yedi duygunun her biri için, her bir aracın ortalama puanı hesaplandı.
- Daha sonra, bu ortalamaların aritmetik ortalaması, aracın genel performans puanını belirlemek için kullanıldı.
- Son olarak, farklı araçlar arasında adil bir karşılaştırma sağlamak ve puanlama veya performans ölçeklerindeki farklılıkları hesaba katmak için sonuçlar normalize edildi.
Değerlendirme ölçütleri
Değerlendirmede, ayrı nicel ölçütler yerine nitel kriterleri dikkate alan manuel puanlama kullanılmıştır. Puanlama yapılırken, değerlendiriciler aşağıdaki hususları göz önünde bulundurmuştur:
- Doğruluk: Aracın hedeflenen duyguyu ne kadar etkili bir şekilde belirlediği.
- Tutarlılık: Aracın benzer duygusal girdileri işlerken ürettiği çıktıların benzer olup olmadığı.
- Kapsam: Aracın yedi duygu kategorisinin tamamını ne kadar iyi tanıdığı ve ayırt edebildiği.
- Genel izlenim (ortalama puan): Yukarıdaki üç unsurun birleşik değerlendirmesi olup, aracın genel performansını yansıtır.
Bu hususların ayrı ölçütler olarak ele alınmadığı, bunun yerine her bir aracın nihai manuel puanı atanırken topluca değerlendirildiği ve bütüncül bir değerlendirme yaklaşımının vurgulandığı belirtilmektedir.
Bu değerlendirmede manuel puanlama kullanıldı çünkü mevcut araçların hiçbiri duygusal çeşitliliği otomatik ve güvenilir bir şekilde ölçemiyordu.
Gelecekteki çalışmalar için, daha kapsamlı bir kıyaslama sağlamak amacıyla daha büyük veri kümeleri ve otomatik değerlendirme ölçütleri (örneğin Hassasiyet, Geri Çağırma ve F1 puanı) önerilmektedir.
Yorum yapan ilk kişi olun
E-posta adresiniz yayınlanmayacak. Tüm alanlar gereklidir.