Große Sprachmodelle und KI zur Emotionserkennung können Gefühle anhand von Stimmen, Gesichtern und Daten erkennen und auf Basis von Eingabeaufforderungen Videos oder Audioinhalte generieren. Wir evaluierten die Fähigkeiten zweier Software-Tools zur Emotionserkennung und sieben großer Sprachmodelle anhand von 70 Gesichtsbildern. In diesem Benchmark stach GPT o4 Mini High hervor, indem es Emotionen in 69 % der Bilder korrekt identifizierte.
Darüber hinaus stellen wir zehn führende KI-Tools für emotionale Analyse vor und teilen unsere praktischen Erkenntnisse .
Benchmark zur Emotionserkennung
Benchmark-Ergebnisse zur Emotionserkennung
- GPT o4 Mini High erzielte die höchste Genauigkeit und identifizierte Emotionen in 69 % der Bilder korrekt.
- Es folgten GPT 5.2 (67 %), GPT 5 Mini (66 %) und GPT o4 Mini (66 %). GPT 5 Nano (61 %) schnitt im Vergleich zu den anderen in der Analyse verwendeten GPT-Modellen schlechter ab.
- Im Allgemeinen schnitten die Modelle der Familien Gemini , Grok und Claude weniger effektiv ab, wobei Gemini 3 Flash Preview 63 %, Claude Opus 4.5 60 %, Gemini 3 Pro Preview 59 %, Grok 4 54 % , Claude Sonnet 4.5 50 % (genauso viel wie Grok 4.1 Fast ) und Claude Haiku 4.5 49 % erreichten.
Zu den KI-Tools für Emotionen gehören
- Imertiv AI erreichte eine Erfolgsquote von 40 % , Hume folgte mit 36 % .
Insgesamt zeigen die Ergebnisse, dass aktuelle LLMs , insbesondere GPT-4.1 Mini , Emotionen in Bildern mit mäßigem Erfolg erkennen können und dabei die meisten spezialisierten KI-Tools zur Emotionserkennung in diesem Test übertreffen.
Weitere Einzelheiten zur Benchmark-Bewertung finden Sie im Abschnitt „ Bewertungskriterien“ .
Methodik des Benchmarking von Software zur Emotionserkennung und LLMs
Dieser Benchmark testete, wie gut große Sprachmodelle (LLMs) und Software zur Emotionserkennung Emotionen in Bildern erkennen können.
Spezielle Emotionsanalyse-Tools wurden innerhalb ihrer jeweiligen Benutzeroberflächen getestet, und die LLMs wurden je nach Verfügbarkeit mit ihren jeweiligen API- Schlüsseln oder den universellen API-Schlüsseln von OpenRouter getestet.
Datensatz
Wir verwenden einen Teil des Datensatzes zur Gesichtsemotionserkennung, der eine Reihe von beschrifteten Bildern enthält, die verschiedene menschliche Emotionen zeigen. 1 Jedes Bild enthielt Gesichtsausdrücke, die gängige emotionale Zustände wie Freude, Traurigkeit, Wut, Angst und Überraschung darstellten.
Neun Werkzeuge wurden getestet:
- Sieben große Sprachmodelle (LLMs): GPT o4 Mini High , GPT o4 Mini , GPT 5 Mini , GPT 5.2 , GPT 5 Nano , Claude Opus 4.5 , Claude Sonnet 4.5 , Claude Haiku 4.5 , Gemini 3 Pro Preview , Gemini 3 Flash Preview , Grok 4 und Grok 4.1 Fast
- Zwei spezialisierte KI-Tools für Emotionen: Hume und Imertiv AI .
Jedes Tool erhielt denselben Bildersatz und sollte die jeweils vorherrschende Emotion identifizieren. Die Antworten wurden mit den korrekten Emotionsbezeichnungen verglichen. Die Erfolgsquote gibt den Prozentsatz der Bilder an, bei denen das Tool die entsprechende Emotion korrekt zugeordnet hat.
Vergleich affektiver Computerwerkzeuge
Hume-Expressionsmessung
Hume Expression Measurement ist ein KI-gestütztes Tool zur Emotionserkennung und -messung. Es funktioniert über eine einzige App und nutzt vier Datentypen: Stimme, Bilder, Video und Gesichtsausdrücke. Zusammen ermöglichen diese einen tieferen und detaillierteren Einblick in den menschlichen Emotionsausdruck.
Erfahrungen aus dem realen Leben
Diese Software zur Emotionserkennung ist zwar nicht immer hundertprozentig genau, erfasst aber emotionale Nuancen effektiv, insbesondere anhand von Sprachmustern. Sie ist jedoch nicht perfekt. Manchmal erkennt sie grundlegende Emotionen in kurzen Lautäußerungen nicht. Dennoch wirken die Ergebnisse oft realistisch und differenziert.
Hume eignet sich am besten für Nutzer, die einen detaillierten und reaktionsschnellen Einblick in das emotionale Verhalten wünschen und nicht nur einfache Kategorien wie „glücklich“ oder „traurig“. Die Webanwendung für die Emotionserkennungssoftware ist äußerst benutzerfreundlich.
Hauptmerkmale
- Die Software bietet eine Echtzeitanalyse von Emotionen, Stimmungen und Toxizität eines gegebenen Textes.
Abbildung 1. Hume-Expression-Measurement-Textanalyse zur Erfassung von Emotionen
Abbildung 2. Hume Expression Measurement Textanalyse zur Stimmungsanalyse
Weitere Informationen zur Stimmungsanalyse finden Sie in unseren Artikeln zur Stimmungsanalyse .
- Diese Software zur Emotionserkennung erkennt Emotionen auch in Videos, Bildern und Audiodateien. Nutzer können Dokumente hochladen oder alternativ ihre eigene Kamera und Lautsprecher zur Emotionserkennung verwenden.
Hume analysiert Sprache, Bilder und Videos mithilfe verschiedener Merkmale:
- Gesichtsausdruck : Erkennt Gesichtsbewegungen, um Emotionen wie Freude, Wut oder Traurigkeit zu verstehen.
- Vokaler Ausbruch : Misst, wie jemand klingt, ob ruhig, aufgeregt, gestresst usw.
- Sprachprosodie : Sie erfasst Veränderungen in Tonfall, Tonhöhe und Rhythmus. Dies hilft, den emotionalen Tonfall dessen zu erkennen, was jemand sagt.
Abbildung 3. Hume Expression Measurement Videoanalyse zur Sprachprosodie
Mangold-Beobachtungsstudio
Mangold Observation Studio ist eine umfassende Plattform für fortschrittliche, sensorgestützte Forschung. Sie vereint zahlreiche Datenquellen – Video, Audio, Gesichtsausdrücke, physiologische Signale und mehr – in einem synchronisierten System.
Hauptmerkmale
- Video- und Bildschirmaufzeichnung : Erfasst das Verhalten der Teilnehmer und ihre Bildschirmaktivitäten, um den vollständigen Kontext zu erfassen.
- Sensorintegration : Unterstützt EEG, Blickverfolgung, Herzfrequenz, Hautreaktion und Muskelaktivität.
- Sprachanalyse : Wandelt gesprochene Wörter automatisch in Text um.
- Umfragen und Anmerkungen : Fügen Sie Feedback von Teilnehmern hinzu oder markieren Sie wichtige Momente während der Sitzungen.
- Multimodales Design : Im Gegensatz zu Tools, die sich nur auf einen Datentyp konzentrieren (wie z. B. Gesichtsausdrücke), kombiniert Mangold über 120 Sensortypen auf einer Plattform.
- Skalierbares Setup : Unterstützt eine unbegrenzte Anzahl von Teilnehmern und Geräten gleichzeitig, mit zeitsynchronisierten Aufnahmen.
- Vollständige Netzwerkkontrolle : Alle Geräte können von einer zentralen Station aus verwaltet werden.
- Modular und anpassbar : Forscher können ihr eigenes Setup erstellen und es mithilfe einer API mit externen Tools integrieren.
Visage SDK
Visage SDK ist eine Software zur Gesichtsausdruckserkennung, die Unternehmen dabei unterstützt, Gesichter in Echtzeit zu verfolgen und zu analysieren. Sie nutzt fortschrittliche Computer Vision, um Emotionen, Alter, Geschlecht und Identität von Personen zu erkennen.
Hauptmerkmale
- Online- und Offline-Unterstützung : Funktioniert sowohl online (in der Cloud) als auch offline (auf Ihrem Gerät), sodass Sie nicht immer auf eine Internetverbindung angewiesen sind.
- Datenschutz hat oberste Priorität : Wir stellen sicher, dass keine personenbezogenen Daten wie Namen oder Fotos ohne Ihre Zustimmung gespeichert oder verarbeitet werden.
- Unity-Integration : Lässt sich in Unity integrieren, um Gesichtsfilter oder interaktive Erlebnisse in Spielen zu erstellen.
Anwendungen
- Virtuelle Anprobe : Mithilfe von Gesichtserkennung können Kunden Brillen, Make-up oder andere Produkte virtuell anprobieren.
- Fahrerüberwachung : Erkennung unsicheren Fahrverhaltens, wie z. B. Müdigkeit oder Ablenkung, zur Erhöhung der Verkehrssicherheit.
- Fahrgastüberwachung : Das Wohlbefinden der Fahrgäste in Autos oder öffentlichen Verkehrsmitteln wird überwacht, um Sicherheit und Komfort zu verbessern.
- Augmented Reality (AR) : Erstellen Sie unterhaltsame und ansprechende Erlebnisse wie Verschönerungsfilter oder realistische Gesichtsmasken für soziale Medien oder Apps.
Imentiv KI
Imentiv AI ist eine Software zur Emotionserkennung, die Nutzern hilft zu verstehen, wie Menschen in Video-, Audio- und Textinhalten fühlen, sprechen und sich verhalten. Sie kombiniert künstliche Intelligenz mit psychologischer Expertise, um menschliche Emotionen und Persönlichkeit in Echtzeit zu analysieren.
Erfahrung aus dem realen Leben:
Imentiv AI hilft Nutzern, Emotionen in Videoinhalten zu analysieren. Sie können ein komplettes Video hochladen oder sich auf ein bestimmtes Einzelbild konzentrieren. Das Tool analysiert Gesichtsausdrücke, Tonfall und das Transkript, um emotionale Signale zu erkennen.
Die Analyse scheint präzise zu sein und deckt ein breites Spektrum an emotionalen Signalen ab. Neben grundlegenden Erkenntnissen bietet die Plattform auch psychologische Gutachten an. Diese können über ein Terminsystem vereinbart werden.
Abbildung 4. Persönlichkeitsmerkmaleanalyse von Imentiv AI
Hauptmerkmale
- Multimodale Analyse : Video, Audio und Text werden gemeinsam analysiert. Dadurch ergibt sich ein umfassenderes Bild der emotionalen Reaktionen.
- Gesichts- und Spracherkennung : Erkennt mehrere Gesichter in jedem Videobild. Ordnet Stimmen Gesichtern zu oder analysiert sie separat. Zeigt an, welche Person wann spricht.
- Emotionsdiagramm : Zeigt Gesichtsausdrücke in Echtzeit auf einem dynamischen Kreisdiagramm. Das Emotionsrad veranschaulicht anschaulich, wie sich Emotionen im Laufe der Zeit verändern.
- Persönlichkeitsanalyse : Das OCEAN-Modell (Offenheit, Gewissenhaftigkeit, Extraversion, Verträglichkeit, Neurotizismus) dient zur Zusammenfassung der Persönlichkeitsmerkmale der Personen im Video. Die Ergebnisse werden in einem übersichtlichen, farbcodierten Balkendiagramm dargestellt.
- Psychologische Begutachtung : Ausgebildete Psychologen überprüfen die KI-Ergebnisse, um versteckte Verzerrungen und emotionale Auslöser aufzudecken. Dies liefert wertvolle Erkenntnisse für die KI-Analyse.
RightFlow
RightFlow ist ein KI-Tool zur Emotionsanalyse, das Gesichtsausdrücke analysiert, um zu verstehen, wie sich Menschen während ihrer Interaktion mit einer Marke fühlen. Es hilft Unternehmen, Emotionen wie Freude, Wut, Angst oder Überraschung zu erfassen, um Marketing, Kundenservice und Produktdesign zu verbessern.
Hauptmerkmale
- Hot-Zone-Erkennung : Identifiziert, wo sich Menschen aufhalten und was ihre Aufmerksamkeit erregt.
- Personenzählung : Erfasst, wie viele Personen mit einem Raum oder Produkt interagieren.
- Demografische Analyse : Erfasst Alter und Geschlecht, um Unterschiede im Publikum zu verstehen.
- Aufmerksamkeitsanalyse : Misst Kopf- und Augenbewegungen, um zu erfahren, worauf sich Kunden konzentrieren.
Im Gegensatz zu Tools, die sich ausschließlich auf die Emotionserkennung konzentrieren, kombiniert RightFlow Emotionsdaten mit Kundenzählung, demografischer Datenerfassung und Sicherheitsfunktionen. Es ist für öffentliche Räume, Geschäfte oder Veranstaltungen konzipiert, bei denen eine kontaktlose Echtzeitanalyse wichtig ist.
MoodMe Gesichtserkennungs-KI-Engine für Emotionen
Die Gesichtserkennungs-KI von MoodMe ist ein Tool, das Gesichtsausdrücke analysiert und Emotionen in Echtzeit erkennt. Es funktioniert direkt auf dem Gerät des Nutzers, ohne Internetverbindung oder Cloud-Verarbeitung.
Hauptmerkmale
- Demografische Erkennung: Die Engine kann Geschlecht, Alter, ethnische Zugehörigkeit und Haartyp schätzen. Dies hilft Apps, besser zu verstehen, wer mit ihnen interagiert.
- Gesichtserkennung: MoodMe verfügt über ein integriertes Tool zur Gesichtserkennung. Es kann ein Gesicht mit lokal gespeicherten Vorlagen abgleichen, um sichere Identitätsprüfungen durchzuführen.
- Unvoreingenommen und inklusiv: Die KI wird mit vielfältigen Daten trainiert, um keine Gruppe zu bevorzugen. Dies gewährleistet fairere Ergebnisse bei unterschiedlichen Gesichtern und Gesichtsausdrücken.
- Datenschutz hat oberste Priorität: Die gesamte Verarbeitung erfolgt auf dem Gerät des Nutzers. Gesichter werden niemals in der Cloud gespeichert oder übertragen. Dies schützt die Privatsphäre und erfüllt strenge Datenschutzbestimmungen.
MorphCast MyMoodScan
MyMoodScan ist eine kostenlose Web-App von MorphCast zur Emotionserkennung. Sie analysiert Gesichtsausdrücke, um verborgene Emotionen aufzudecken. Sie können ein Foto hochladen oder die Kamera Ihres Geräts verwenden, um in Echtzeit emotionales Feedback zu erhalten.
Erfahrung aus dem realen Leben:
Die App macht Spaß, ist aber nicht immer präzise. Manchmal werden Emotionen falsch kategorisiert, sodass fröhliche Gesichter als apathisch oder sehnsüchtig und angewiderte Ausdrücke als überrascht interpretiert werden. Trotzdem ist sie ein unbeschwerter Einstieg in die Komplexität menschlicher Emotionen.
Kurz gesagt, MyMoodScan zeichnet sich durch seinen Echtzeit- und sozialfreundlichen Ansatz zur Emotionserkennung aus, auch wenn die Ergebnisse eher spielerisch als präzise ausfallen können.
Abbildung 5. Emotionsanalyse eines Bildes mit MorphCast MyMoodScan
Hauptmerkmale
- Kostenlos und einfach zu bedienen : Keine Werbung, keine Gebühren, nur sofortige emotionale Erkenntnisse.
- Spielerisch und gesellig : Entwickelt, um Emotionen in sozialen Medien zu teilen und Gespräche anzuregen.
Hume Empathic Voice Interface (EVI)
Humes Empathic Voice Interface (EVI) ist ein KI-System zur Spracherkennung, das Gespräche natürlicher klingen lässt. Es ermöglicht Nutzern, Stimmen zu erstellen, zu klonen und zu steuern, die in Echtzeit mit Emotionen und Persönlichkeit reagieren.
Erfahrungen aus dem realen Leben
In Tests wirkten die Gespräche mit EVI lebensecht und fesselnd. Die Emotionserkennung funktionierte gut. Nutzer konnten Tonfall und Umgebung anpassen, obwohl diese Funktion nicht immer einwandfrei funktionierte.
Kurz gesagt: Humes empathische Sprachschnittstelle vereint schnelle Reaktionszeiten, emotionale Tiefe und hohe Kontrolle und lässt Gespräche mit KI so natürlich wie echte menschliche Interaktion klingen. Die Weboberfläche der Konversationsplattform ist einfach und intuitiv zu bedienen.
Abbildung 6. Hume-EVI-Analyse der Konversation mit KI
Hauptmerkmale
- Benutzerdefinierte Stimme : Unterstützt über 100.000 benutzerdefinierte Stimmen mit jeweils einzigartigen Merkmalen. Sie können sogar Stimmen wie die einer „ruhigen britischen Matriarchin“ oder eines „begeisterten karibischen Musikers“ erstellen, indem Sie einfach einen Text eingeben.
- Stimme klonen : Laden Sie eine Audioprobe hoch, um eine digitale Version Ihrer eigenen Stimme zu erstellen.
- Echtzeit-Konversationen : Reagiert in etwa 300 Millisekunden, also ungefähr so schnell wie ein Mensch.
Hume-Oktave
Hume Octave ist ein sprachbasiertes Sprachmodell, das die Bedeutung hinter Wörtern versteht. Das Unternehmen behauptet, dass es dazu beiträgt, Gespräche mit mehr Emotionen, Rhythmus und Tonfall zu gestalten.
Erfahrungen aus dem realen Leben
Octave fand oft die passende Stimme für eine Sprachansage. Es half, Stimmbeschreibungen zu verbessern und Tonlagen gut anzupassen. Allerdings klang die endgültige Stimme manchmal flach oder künstlich, wie eine schwache schauspielerische Leistung. Dennoch zeigte das Tool großes Potenzial bei der Erfassung verschiedener Sprechstile.
Kurz gesagt, Hume Octave verleiht der Stimme Bedeutung. Es hilft Nutzern, lebensechter und ausdrucksstärker zu sprechen, sodass die Sprache sowohl zu den Worten als auch zum jeweiligen Moment passt, und es ist sehr einfach zu bedienen.
Hauptmerkmale
- Niedrige Latenz : Beginnt im Instant-Modus in nur 200 Millisekunden zu sprechen.
- Eigene Stimmen : Erstellen Sie Stimmen von Grund auf, verwenden Sie Ihre eigene Stimme oder wählen Sie aus vielen vorgefertigten Optionen.
- Ausdruckskontrolle : Fügen Sie Anweisungen zum Schauspielstil hinzu, um die Art und Weise zu gestalten, wie die Stimme jede Zeile vorträgt.
- Einzigartige Stimmen : Mit einer einfachen Vorgabe können Sie Stimmen wie die eines „sarkastischen mittelalterlichen Bauern“ oder eines „ruhigen Naturwissenschaftslehrers“ erzeugen.
Revoicer
Revoicer ist eine KI-gestützte Text-to-Speech-Software mit Emotionserkennung, die geschriebenen Text in realistische Sprachaufnahmen umwandelt. Sie verspricht, Audioinhalte mit emotionalem Tonfall zu erzeugen, die natürlicher klingen und weniger auf künstlich erzeugte Emotionen setzen.
Hauptmerkmale
- Emotionale Stimmen : Revoicer kann in verschiedenen Tonlagen sprechen, z. B. fröhlich, traurig, wütend, freundlich, flüsternd oder aufgeregt.
- Umfassende Sprachunterstützung : Es funktioniert in Englisch und über 40 weiteren Sprachen, darunter Französisch, Deutsch, Arabisch und Mandarin.
- Individuelle Optionen : Nutzer können Tonhöhe, Sprechgeschwindigkeit und Klangfarbe der Stimme anpassen. Sie können außerdem Pausen einfügen oder bestimmte Wörter hervorheben.
- Viele Stimmen : Das Tool bietet über 80 Stimmen, darunter Männer-, Frauen- und Kinderstimmen. Nutzer können außerdem zwischen verschiedenen englischen Akzenten wie amerikanisch, britisch, australisch oder indisch wählen.
Bewertungskriterien
Um jedes Emotion-AI-Tool fair zu bewerten, haben wir auf allen Plattformen dieselben Kriterien angewendet. Diese umfassen:
- Genauigkeit der Emotionserkennung : Wie gut das Tool Emotionen wie Freude, Wut oder Überraschung anhand von Gesichtsausdrücken, Stimme oder Text erkennt.
- Multimodale Fähigkeiten : Kann das Tool mehrere Eingabetypen (z. B. Video, Audio, Text) gemeinsam oder getrennt analysieren?
- Benutzerfreundlichkeit : Wie intuitiv die Benutzeroberfläche für technisch nicht versierte Anwender ist, einschließlich Einrichtung und alltäglicher Nutzung.
- Echtzeit-Feedback : Kann die Plattform während Live-Interaktionen oder Aufzeichnungen sofortige Einblicke liefern?
- Tiefe der Erkenntnisse : Qualität und Detailgenauigkeit der Emotionsanalyse, einschließlich Verhaltensmuster, Aufmerksamkeitsverfolgung und demografischer Aufschlüsselungen.
Weiterführende Literatur
- Affektives Computing: Ein umfassender Leitfaden zur Emotions-KI
- Anwendungen affektiver Informatik: Anwendungsfälle von KI für Emotionen
- Beispiele und Anwendungsfälle für emotionale KI
Seien Sie der Erste, der kommentiert
Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.