Mit der Weiterentwicklung der KI-Fähigkeiten wird auch die Text-to-Speech-Software (TTS) immer besser darin, natürliche, menschenähnliche Sprache zu erzeugen.
Wir haben die Leistung von fünf verschiedenen TTS- und Stimmungsanalyse-Tools (Resemble, ElevenLabs, Hume, Azure und Cartesia) in sieben zentralen Emotionskategorien bewertet und verglichen, um festzustellen, welches Tool emotionale Töne am genauesten, konsistentesten und umfassendsten erkennen kann.
Ergebnisse des Text-zu-Sprache-Benchmarks
- Hume (7,40) und ElevenLabs (7,34) erzielten die höchsten durchschnittlichen Gesamtpunktzahlen .
- Cartesia (7.11) zeigte eine stabile emotionale Abdeckung, jedoch in einigen Fällen inkonsistente Ergebnisse (insbesondere bei wiederholten „traurigen“ Szenarien).
- Resemble (6,03) und Azure (5,91) schnitten bei bestimmten Emotionen gut ab, hatten aber insgesamt niedrigere Durchschnittswerte.
In der Methodik erfahren Sie, wie wir diese Instrumente gemessen und bewertet haben.
Detaillierte Analyse von Text-zu-Sprache-Software
ElevenLabs
ElevenLabs ist eine KI-Sprachgenerator- und Text-zu-Sprache-Software mit Fokus auf ausdrucksstarke, mehrsprachige und realistische Sprachsynthese.
Mit seinem Eleven v3-Modell und einer breiten Palette an Tools ermöglicht es Kreativen und Entwicklern, menschenähnliches Audio für Storytelling, Kundenbindung und digitale Inhalte zu produzieren.
Entwickler- und API-Integration
ElevenLabs bietet APIs und SDKs, mit denen Entwickler KI-Audiomodelle in ihre Anwendungen einbetten können. Die Text-to-Speech-API, die Speech-to-Text- API und die Voice-Changer-API sind auf Skalierbarkeit, geringe Latenz und Sicherheit ausgelegt.
Das System unterstützt über 29 Sprachen und entspricht den Standards der DSGVO und SOC II, wodurch es sich für Unternehmensumgebungen eignet.
Unternehmensanwendungen
- Kundenservice und Callcenter: Verbesserung der KI-gestützten Sprachagenten für eingehende und ausgehende Anrufe.
- Bildungstechnologie: Verbessern Sie Lernwerkzeuge mit dialogorientierter KI, die mehrere Sprachen und ausdrucksstarke Stimmen unterstützt.
- Medienerstellung: Ermöglichen Sie es Content-Plattformen, Sprachgenerierung, Synchronisation und Soundeffekte für Produktionen in professioneller Qualität zu integrieren.
- KI-Assistenten: Verleihen Sie digitalen Assistenten eine Stimme für eine realistische und interaktive Kommunikation.
KI-Sicherheit und Ethik
ElevenLabs legt Wert auf den verantwortungsvollen Einsatz von Sprach-KI. Das Unternehmen implementiert Maßnahmen zur Moderation, Verantwortlichkeit und Herkunftsnachverfolgung, um Missbrauch zu verhindern und einen ethischen KI- Einsatz zu gewährleisten.
Außerdem wurden Initiativen wie Voice-ID-Systeme ins Leben gerufen, um Synchronsprecher und Urheber vor unautorisierter Vervielfältigung zu schützen.
Hume AI
Hume AI ist ein Sprachtechnologieunternehmen, das emotional intelligente KI-Sprachgeneratorsysteme für Kreative, Entwickler und Unternehmen entwickelt.
Octave: Text-zu-Sprache-Funktion mit emotionalem Verständnis
Octave 2 ist die neueste Version der Text-to-Speech-Engine von Hume und wird als allumfassendes Text- und Sprachmodell beschrieben. Im Gegensatz zu herkömmlichen TTS-Systemen versteht Octave die Bedeutung und den emotionalen Kontext der Sprache und ermöglicht so die natürliche Wiedergabe von Tonfall, Sprechrhythmus und Stimmung.
Octave unterstützt außerdem Sprachkonvertierung und Phonembearbeitung . Die Sprachkonvertierung ermöglicht es, eine Stimme durch eine andere zu ersetzen, wobei Timing und Artikulation erhalten bleiben, was bei Synchronisationen oder Anpassungen in der Performance hilfreich ist.
Die Phonembearbeitung ermöglicht eine präzise Kontrolle über Aussprache und Betonung und unterstützt so eine individuelle sprachliche Feinabstimmung.
Anwendungen für Kreative und Unternehmen
Humes Modelle finden in kreativen, kommerziellen und technischen Branchen Anwendung:
- Hörbücher und Podcasts: Ermöglichen Sie Produktionen mit mehreren Sprechern und einer lebensechten, emotionalen Darbietung.
- Videoproduktion : Realistische Sprachaufnahmen und mehrsprachige Synchronisation.
Entwicklertools und Integration
Hume bietet APIs und SDKs für Python, TypeScript, Swift, React und .NET und ermöglicht so die Integration in verschiedene Softwareumgebungen. Entwickler können auf eine browserbasierte Testumgebung zugreifen, um Stimmen zu testen, anzupassen und bereitzustellen.
Cartesia
Cartesias Sonic-3 ist ein KI-Sprachgenerator, der ausdrucksstarke Sprachsynthese, Kontextverständnis und Mehrsprachigkeit vereint.
Dank seiner geringen Latenz und sicheren Integration eignet es sich für Unternehmen, die Echtzeit-Sprachagenten und Dialogsysteme entwickeln, die sowohl Genauigkeit als auch natürliche Kommunikation erfordern.
Branchenanwendungen
- Gesundheitswesen : Bietet eine klare und einfühlsame Sprachkommunikation für die Terminplanung und Unterstützung von Patienten.
- Kundenservice : Verbessert das Benutzererlebnis durch präzise Sprachantworten.
- Gaming : Erzeugt realistische Charakterstimmen für ein immersives Spielerlebnis.
- Gastgewerbe und Logistik : Ermöglicht Buchung, Nachverfolgung und Koordination über natürlichsprachliche Schnittstellen.
Ähneln
Resemble AI ist eine KI-Sprachgenerator-Plattform, die es Organisationen ermöglicht, synthetische Stimmen zu erstellen, zu bearbeiten und zu sichern und gleichzeitig Schutz vor Deepfake-Bedrohungen zu bieten.
Es ist für den Einsatz in Unternehmen konzipiert und legt Wert auf Skalierbarkeit und Datensicherheit, um sicherzustellen, dass Sprachtechnologien sicher in realen Umgebungen implementiert werden können.
Sicherheits- und Sensibilisierungslösungen
Resemble bietet zudem KI-basierte Sicherheitsschulungen an, um Teams auf Deepfake-Bedrohungen vorzubereiten. Diese Simulationen bilden reale Angriffe per Telefon, WhatsApp und E-Mail nach und ermöglichen es Mitarbeitern, betrügerische, KI-generierte Stimmen zu erkennen und darauf zu reagieren. Unternehmen profitieren von kontinuierlicher Überwachung, detaillierten Analysen und messbaren Verbesserungen des Sicherheitsbewusstseins.
Entwickler- und Unternehmensnutzung
Entwickler können die Funktionen von Resemble über SDKs und APIs integrieren oder das System auf ihrer eigenen Infrastruktur bereitstellen. Die Plattform unterstützt mehrsprachige Sprachgenerierung und eignet sich zur Erstellung von Dialogsystemen , virtuellen Charakteren und lokalisierten Sprachanwendungen.
Azurblau
Azure AI Speech ist ein auf Sprache fokussierter Dienst in Azure, der Entwicklern hilft, sprachgesteuerte, mehrsprachige KI-Anwendungen zu erstellen.
Es bietet Werkzeuge zum Transkribieren, Generieren und Analysieren von Sprache mithilfe vorgefertigter und anpassbarer KI-Modelle.
Integration in das Azure-Ökosystem
Azure AI Speech ist mit anderen Azure-Diensten kompatibel:
- Azure OpenAI in Foundry Models integriert multimodale KI, die Text, Bilder, Audio und Video verarbeitet.
- Azure AI Content Safety bietet Tools zur Überwachung und Verwaltung des verantwortungsvollen Einsatzes von KI.
- Azure AI Content Understanding wandelt multimodale Daten in umsetzbare Erkenntnisse um.
Hauptmerkmale von Text-zu-Sprache-Software
Natürlichkeit und Stimmqualität
Hochwertige Text-to-Speech-Software zielt darauf ab, menschenähnliche Sprache mit präziser Prosodie und Intonation zu erzeugen. Die Minimierung roboterhafter Töne ist entscheidend für eine effektive Kommunikation in Bildungs-, Medien- und Berufskontexten.
Stimmvielfalt und Stile
Moderne Systeme bieten vielfältige Sprachoptionen und Vortragsstile, darunter sowohl lockere als auch formelle. Diese Vielfalt ermöglicht es, Inhalte auf unterschiedliche Zielgruppen und Anwendungsfälle zuzuschneiden.
Anpassungssteuerung
Nutzer können Geschwindigkeit, Tonhöhe, Klangfarbe und Lautstärke anpassen sowie Pausen einfügen. Diese Steuerungsmöglichkeiten verbessern die Darbietung und ermöglichen die Anpassung der Audioausgabe an verschiedene Situationen, von formellen Präsentationen bis hin zum entspannten Musikhören.
Aussprache- und Kontextsensitivität
Moderne Systeme berücksichtigen den Kontext, um mehrdeutige Wörter und Ausdrücke aufzulösen. Phonemwörterbücher und anpassbare Regeln verbessern die Aussprachegenauigkeit zusätzlich.
Textnormalisierung
Zahlen, Datumsangaben, Abkürzungen und Symbole werden in natürliche Sprache umgewandelt. Eine korrekte Normalisierung verhindert holprige Lesarten und verbessert das Hörverständnis.
Export- und Ausgabeoptionen
Die meisten Softwareprogramme unterstützen das Speichern von Audiodateien in Formaten wie MP3 oder WAV. Stapelverarbeitung und Echtzeit-Streaming sind häufig verfügbar, um sowohl privaten als auch geschäftlichen Anforderungen gerecht zu werden.
Offline- oder Geräteinterne Funktionalität
Die Offline-Funktionalität ermöglicht die Sprachgenerierung ohne Internetzugang. Dies ist besonders wichtig für den Schutz der Privatsphäre, die Unterstützung latenzarmer Anwendungen und Umgebungen mit eingeschränkter Konnektivität.
Stimmenklonen und benutzerdefinierte Stimmen
Einige Lösungen bieten die Möglichkeit, individuelle Stimmen auf Basis von Sprecherproben zu erstellen. Dies ermöglicht personalisierte Nutzererlebnisse, erfordert aber auch eine sorgfältige Abwägung ethischer und lizenzrechtlicher Fragen.
Barrierefreiheitsfunktionen
Die Integration mit Bildschirmleseprogrammen, Texthervorhebung und Unterstützung für assistive Technologien gewährleistet Barrierefreiheit für Nutzer mit Behinderungen. Diese Funktionen sind entscheidend für die Schaffung inklusiver digitaler Umgebungen.
Charakteristische Merkmale von Text-zu-Sprache-Software
Text-to-Speech-Tools zeichnen sich häufig durch eine Reihe erweiterter Funktionen aus, die über die grundlegende Sprachsynthese hinausgehen. Diese Funktionen verdeutlichen, wie die Anbieter spezifische Anwendungsfälle in den Bereichen Bildung, Wirtschaft, Medien und Barrierefreiheit adressieren.
Anzahl der Sprachen
Die Bandbreite der unterstützten Sprachen unterstreicht die Anpassungsfähigkeit der Lösung für globale Nutzer. Eine umfangreichere Sprachbibliothek ermöglicht eine größere Reichweite und macht die Software somit für international tätige Unternehmen, Universitäten und den privaten Gebrauch in unterschiedlichen sprachlichen Kontexten geeignet.
Voiceover (VO) Übersetzung
Die Voiceover-Übersetzung ermöglicht es Nutzern, Text oder eine Sprachaufnahme einzugeben und die Ausgabe in einer ausgewählten Sprache zu generieren. Diese Funktion ist in der Videoproduktion unerlässlich, da die Sprachsynthese den Originalkommentar ersetzen oder ergänzen und so die mehrsprachige Kommunikation erleichtern kann.
Videoeditor
Einige Anbieter integrieren Videobearbeitungs- und -erstellungsfunktionen in ihre Plattformen. Dadurch können Abonnenten Videos bearbeiten oder produzieren und direkt Sprachaufnahmen hinzufügen, sodass keine externen Bearbeitungsprogramme benötigt werden. Die Kombination aus Videoerstellung und Sprachausgabe ermöglicht eine schnellere Content-Produktion.
Synchronisation
Die Synchronisation geht über die reine Übersetzung hinaus, indem sie den generierten Ton mit dem Tempo, den Mimik und den visuellen Hinweisen des Originalvideos synchronisiert. Anbieter dieser Funktion gewährleisten eine präzise Synchronisierung von Sprechpausen, Tonfall und Mundbewegungen, was zu einem natürlichen und lokalisierten Seherlebnis führt.
Audioeditor
Ein Audioeditor bietet Werkzeuge zur Bearbeitung von synthetisierten oder aufgenommenen Audiodateien. Anpassungen wie die Lautstärkeregelung, das Einfügen von Pausen oder das Anwenden von Filtern ermöglichen es Benutzern, professionelle Klangqualität zu erzielen, ohne dass externe Bearbeitungsprogramme erforderlich sind.
Untertitel und Transkription
Neben der Sprachsynthese bieten viele Anbieter auch Spracherkennungsfunktionen an, die die Erstellung von Untertiteln oder Transkriptionen ermöglichen. Diese Funktionalität ist das Gegenstück zur Text-zu-Sprache-Umwandlung und ist wertvoll, um Inhalte barrierefrei zu gestalten, Forschung zu unterstützen und mehrsprachige Versionen von Dokumenten oder Videos zu erstellen.
Integration und APIs
APIs und SDKs ermöglichen die Integration von Sprachfunktionen in Anwendungen, Websites und Unternehmenssysteme. Diese Integration unterstützt Dienste wie Chatbots und automatisierte Telefonsysteme.
Anwendungsfälle für Text-zu-Sprache-Software
Barrierefreiheit und Assistenztechnologien
Text-to-Speech-Software spielt eine entscheidende Rolle bei der Verbesserung der Barrierefreiheit. Menschen mit Sehbehinderungen oder Leseschwierigkeiten sind häufig auf Sprachsoftware angewiesen, um auf geschriebene Texte in digitalen Formaten wie Dokumenten, Webseiten oder PDF-Dateien zuzugreifen.
Durch die Umwandlung von Text in hörbare Sprache ermöglichen diese Tools Nutzern den Zugang zu Informationen, die ihnen sonst nicht zugänglich wären. Bildschirmleseprogramme und Textvorleser werden häufig verwendet, um Texte auf Websites, Forschungsartikeln und Bildungsinhalten vorzulesen.
Für Menschen mit Legasthenie oder ähnlichen Störungen ist es hilfreich, Inhalte zu hören, anstatt sie zu lesen. So können sie sich besser auf den Sinn konzentrieren, anstatt mit den Wörtern auf einer Seite zu kämpfen. Die Sprachausgabe bietet zudem Menschen, die ihre Sprechfähigkeit verloren haben, eine Stimme.
In solchen Fällen können individuell aus Aufnahmen erstellte Stimmen das Gefühl der persönlichen Identität und Unabhängigkeit wiederherstellen.
Beispiel aus der Praxis: Tesco mit dem Royal National Institute of Blind People (RNIB)
Tesco verbesserte die Zugänglichkeit seiner Online-Lebensmittelplattform durch die Zusammenarbeit mit dem Royal National Institute of Blind People (RNIB) mit dem Ziel, das digitale Einkaufen inklusiver zu gestalten.
Als Ergebnis dieser Zusammenarbeit führte Tesco mehrere Verbesserungen in puncto Barrierefreiheit ein:
- Eine klarere und verständlichere Sprache auf der gesamten Website.
- Verbesserte Kompatibilität mit Bildschirmleseprogrammen für sehbehinderte Nutzer.
- Intuitivere Navigation und vereinfachte Menüs. 1
Bildung und E-Learning
Studierende profitieren oft vom Hören geschriebener Texte, insbesondere beim Lernen komplexer akademischer Inhalte oder bei der Prüfungsvorbereitung. Hören kann das Verständnis verbessern, Ermüdung reduzieren und es den Studierenden ermöglichen, den Stoff zu wiederholen, während sie anderen Aktivitäten nachgehen.
Bildungseinrichtungen nutzen häufig Textvorleser in E-Learning-Umgebungen, wo Audioversionen von Unterrichtsmaterialien dazu beitragen, Inhalte für unterschiedliche Lerntypen zugänglich zu machen. Beim Sprachenlernen unterstützt das Hören von Inhalten in mehreren Sprachen die korrekte Aussprache, den Rhythmus und die Betonung.
Von Sprachsoftware erzeugte Audiodateien lassen sich speichern und wiederholt abspielen und bieten so zusätzliche Funktionen zum Lernen. Dadurch haben Studierende und Schüler Zugriff auf Text- und Sprachformate und können unterschiedlichen Lernpräferenzen gerecht werden.
Beispiel aus der Praxis: Perkins-Schule für Blinde
Die Perkins School for the Blind nutzt TTS-Technologie, um Lernmaterialien für Schüler mit Sehbehinderungen zugänglich zu machen. Indem Lehrbücher, Arbeitsblätter und andere Lernmaterialien in Audio umgewandelt werden, können die Schüler die Inhalte hören, anstatt sich ausschließlich auf ihr Sehvermögen zu verlassen.
Dieser Ansatz ermöglicht es den Lernenden, sich intensiver am Unterricht zu beteiligen und gleichzeitig ihre Selbstständigkeit zu fördern. Insgesamt trägt das TTS-Programm an der Perkins-Schule zu verbesserten Lese- und Schreibfähigkeiten bei und hilft den Schülern, bessere schulische Leistungen zu erzielen.
Inhaltserstellung und Medien
Immer mehr Content-Ersteller nutzen Text-to-Speech-Tools, um Sprachaufnahmen für Videos, Podcasts, Werbung und Schulungsmaterialien zu generieren. Die Umwandlung von Text in Audiodateien ermöglicht es ihnen, Informationen in verschiedenen Formaten zu präsentieren und so ein breiteres Publikum zu erreichen, das lieber zuhört als liest.
Autoren und Verlage nutzen außerdem Spracherkennungssoftware, um Geschichten und Forschungsergebnisse in Audioversionen umzuwandeln. Dadurch erhalten Nutzer, die unterwegs oder beim Multitasking lieber auf ihren persönlichen Geräten zuhören möchten, leicht zugängliche Inhalte.
Durch die Verwendung von Software, die qualitativ hochwertige Sprachaufnahmen erzeugt, können Kreative sicherstellen, dass ihre Ergebnisse professionellen Standards entsprechen. Die von diesen Tools generierten Audioformate sind mit gängigen Geräten kompatibel und eignen sich daher sowohl für den privaten als auch für den geschäftlichen Gebrauch.
Kundenservice und Geschäftskommunikation
Unternehmen nutzen Text-to-Speech-Software in Kundenservicesystemen, darunter automatisierte Telefonmenüs, Chatbots und digitale Assistenten. Diese Anwendungen verwenden Sprache, um Informationen klar und einheitlich über verschiedene Sprachen und Kommunikationskanäle hinweg darzustellen.
Durch die Erstellung von Audiodateien aus schriftlichen Dokumenten und Ankündigungen können Unternehmen sicherstellen, dass ihre Kommunikation sowohl effizient als auch zugänglich ist.
Die interne Unternehmenskommunikation profitiert ebenfalls von der Möglichkeit, Berichte, Newsletter und Schulungsmaterialien in Audioformate umzuwandeln. Mitarbeiter können die Inhalte anhören, während sie andere Aufgaben erledigen, was die Produktivität steigert.
Eingebettete Geräte und tägliche Nutzung
Die Text-to-Speech-Technologie ist mittlerweile in viele Alltagsgeräte integriert. Navigationssysteme in Fahrzeugen lesen dem Fahrer die Wegbeschreibung vor, während Sprachassistenten in Haushalten und Büros per Sprache Erinnerungen und Informationen präsentieren. Browsererweiterungen und Apps können Webseiten oder Dokumente direkt vom Bildschirm vorlesen, sodass Nutzer Inhalte anhören können, während sie anderen Tätigkeiten nachgehen.
Darüber hinaus nutzen Einzelpersonen Spracherkennungssoftware, um persönliche Dokumente, Recherchematerialien und Lernmaterialien in Audiodateien umzuwandeln, die gespeichert und später auf Handys, Laptops oder anderen Geräten abgespielt werden können.
Praxisbeispiel: Alinea mit Speechify
Alinea nutzt die Speechify-Text-to-Speech-API, um Finanzbildung für die Generation Z ansprechender und zugänglicher zu gestalten. Durch die Umwandlung schriftlicher Finanzinhalte in Audio vereinfacht die Plattform komplexe Anlagekonzepte und präsentiert sie in einem verständlicheren Format.
Dieser Audio-First-Ansatz entspricht den Vorlieben jüngerer Zielgruppen beim Konsum von Inhalten, ähnlich wie bei Podcasts oder Kurzformatmedien, wodurch sich das Lernen natürlicher und weniger überfordernd anfühlt.
Dadurch verbessert Alinea die Zugänglichkeit für unterschiedliche Lernstile, erhöht die Nutzerbindung und hilft Einzelpersonen, Vertrauen in den Umgang mit ihren Finanzen und in Anlageentscheidungen aufzubauen. 2
Herausforderungen bei der Einführung von Text-to-Speech
Trotz der vielfältigen Anwendungsmöglichkeiten schränken mehrere Herausforderungen die Effektivität von Text-zu-Sprache-Systemen ein.
- Nutzerbewusstsein : Vielen Nutzern sind die zusätzlichen Funktionen von Text-to-Speech-Tools nicht vollständig bewusst, wie z. B. das Speichern von Audiodateien, das Anpassen von Tonhöhe oder Geschwindigkeit oder das Erstellen eigener Stimmen. Dieses mangelnde Bewusstsein kann Nutzer daran hindern, die verfügbare Technologie voll auszuschöpfen.
- Natürlichkeit der Sprache : Es bleibt schwierig, Sprache so zu erzeugen, dass sie menschenähnliche Emotionen, Rhythmus und Tonfall vermittelt. Nutzer erwarten oft, dass Audio nicht nur Wörter wiedergibt, sondern auch Kontext und Emotionen zum Ausdruck bringt.
- Aussprachegenauigkeit : Wörter, Schriftzeichen und Abkürzungen können falsch ausgesprochen werden, insbesondere bei der Konvertierung von Texten zwischen verschiedenen Sprachen oder Formaten. Dies kann das Verständnis und die Qualität für internationale Nutzer beeinträchtigen.
- Formatkompatibilität : Während die meisten Tools gängige Audioformate unterstützen, können Schwierigkeiten bei der Konvertierung komplexer Dateien auftreten, die Bilder, Musik oder interaktive Inhalte enthalten.
- Leistungsgeschwindigkeit : In Echtzeitanwendungen wie Kundensupport oder Live-Präsentationen muss Sprachsoftware schnell Audio erzeugen, ohne dabei an Qualität einzubüßen.
- Kosten und Verfügbarkeit: Während einige Programme kostenlos sind, ist Software mit den hochwertigsten Sprachausgaben und erweiterten Funktionen oft nur in kostenpflichtigen Versionen erhältlich, was die Zugänglichkeit für Studenten und Personen, die diese Tools für den persönlichen Gebrauch nutzen, einschränkt.
Benchmark-Methodik für Text-to-Speech-Software
Datensatz
Der für diese Auswertung verwendete Datensatz besteht aus fünf Textdateien (.txt) . Jede Datei enthält einen einzelnen Satz, und jeder Satz repräsentiert eine primäre Emotion: traurig, wütend, glücklich, neutral, entspannt, ernst oder überrascht.
Um Fairness zu gewährleisten, wurden allen Tools die gleichen Eingaben zur Verfügung gestellt, um gleiche Testbedingungen sicherzustellen.
Diese Sätze waren kurz und basierten auf echten Nutzeräußerungen, d. h. sie repräsentieren natürliche Szenarien, die häufig bei der Ton- und Emotionserkennung auftreten. Dieses Vorgehen gewährleistet, dass alle Tools anhand realistischer emotionaler Inhalte in prägnanten Texteingaben getestet wurden.
Evaluierungsprozess
Der Evaluierungsprozess beinhaltete das Senden der gleichen fünf Texteingaben an jedes der fünf Tools.
Jedes Tool erzeugte Ausgaben wie Tonfall, Emotionsbezeichnung und Prosodieanalyse, die dann manuell auf einer Skala von 0 bis 10 bewertet wurden, je nachdem, wie gut sie die beabsichtigte Emotion erfassten.
- Ein Wert von „0“ bedeutet, dass das Tool die beabsichtigte Emotion überhaupt nicht erkannt hat, während ein Wert von „10“ bedeutet, dass es sie perfekt erfasst hat.
- Für jede der sieben Emotionen wurde der Durchschnittswert jedes Instruments berechnet.
- Anschließend wurde der arithmetische Mittelwert dieser Mittelwerte verwendet, um die Gesamtleistungsbewertung des Tools zu ermitteln.
- Abschließend wurden die Ergebnisse normalisiert, um einen fairen Vergleich zwischen den verschiedenen Instrumenten zu gewährleisten und Abweichungen bei den Bewertungs- oder Leistungsskalen zu berücksichtigen.
Bewertungskriterien
Die Bewertung erfolgte anhand einer manuellen Punktevergabe, die qualitative Kriterien anstelle separater quantitativer Kennzahlen berücksichtigte. Bei der Vergabe der Punktzahlen berücksichtigten die Gutachter die folgenden Aspekte:
- Genauigkeit: Wie effektiv das Tool die beabsichtigte Emotion identifiziert hat.
- Konsistenz: Ob die Ergebnisse des Tools bei der Verarbeitung ähnlicher emotionaler Eingaben ähnlich waren.
- Abdeckung: Wie gut das Tool alle sieben Emotionskategorien erkannt und unterschieden hat.
- Gesamteindruck (Durchschnittspunktzahl): Eine kombinierte Beurteilung der drei oben genannten Aspekte, die die allgemeine Leistungsfähigkeit des Tools widerspiegelt.
Es wird darauf hingewiesen, dass diese Aspekte nicht als separate Kennzahlen behandelt, sondern bei der Vergabe der endgültigen manuellen Punktzahl jedes Tools gemeinsam berücksichtigt wurden, wodurch ein ganzheitlicher Bewertungsansatz betont wird.
Bei dieser Auswertung wurde eine manuelle Auswertung vorgenommen, da keines der verfügbaren Instrumente die emotionale Vielfalt automatisch und zuverlässig quantifizieren konnte.
Für zukünftige Arbeiten werden größere Datensätze und automatisierte Bewertungsmetriken (wie Präzision, Trefferquote und F1-Score) empfohlen, um einen umfassenderen Vergleichsmaßstab zu erhalten.
Seien Sie der Erste, der kommentiert
Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.