Kontaktieren Sie uns
Keine Ergebnisse gefunden.

Benchmark-Test für Stimmungsanalysen: ChatGPT, Claude & DeepSeek

Ezgi Arslan, PhD.
Ezgi Arslan, PhD.
aktualisiert am Okt 2, 2025
Siehe unsere ethischen Normen

Die präzise Kategorisierung von Emotionen und Stimmungen sowie die Erkennung von Ironie, Hass und Beleidigungen stellen weiterhin eine Herausforderung dar und erfordern weitere Tests und Verbesserungen. Wir vergleichen acht Spracherkennungsmodelle (LLMs) – Claude 3.5, Claude 3.7, Claude 4.5, ChatGPT 4.o, ChatGPT 4.5, ChatGPT 5.o, DeepSeek V3 und Grok 4 – anhand von fünf zentralen Aufgaben im Bereich der Stimmungsanalyse.

Die Ergebnisse verdeutlichen klare Unterschiede zwischen den Werkzeugen:

  • Claude 3.7 erzielte die beste Gesamtgenauigkeit (79%).
  • ChatGPT 4.5 und DeepSeek V3 (70%) wiesen die niedrigste Gesamtleistung auf.

Experimentelle Ergebnisse: Benchmark für die Stimmungsanalyse

Loading Chart

Rangfolge : Die Tools werden nach ihrer durchschnittlichen Genauigkeit, aggregiert über alle getesteten Kategorien (Emotion, Hass, Ironie, Beleidigungen und Stimmung), eingestuft.

Weitere Einzelheiten entnehmen Sie bitte der Methodik unseres Benchmarks .

Gesamtgenauigkeit

Die Gesamtgenauigkeit der Modelle, die alle Aufgaben zusammenfassen, liefert einen ganzheitlichen Überblick über ihre Leistungsfähigkeit:

  • Claude 3.7 übertraf alle anderen Tools in allen Kategorien außer der Ironieerkennung. Die durchschnittliche Genauigkeit von Claude 3.7 liegt in den fünf Kategorien bei fast 80 %.
  • Die Leistung von Claude 3.5 lag zwischen 67% und 98%, wobei in Tests mit geringerem Volumen deutliche Verbesserungen zu verzeichnen waren.
  • ChatGPT 5.0 Auto erreichte einen Gesamtdurchschnitt von 75 % und positionierte sich damit als ausgewogener Performer in allen Kategorien.
  • Claude 4.5 erreichte eine Gesamtgenauigkeit von 75 %. Es zeigte Stärken bei der Erkennung von Emotionen, Ironie und Beleidigungen, schnitt aber bei der Klassifizierung von Hassreden schlechter ab, was seine Ausgewogenheit beeinträchtigte.
  • ChatGPT 4.0 ist mit einer allgemeinen Kennzeichnungsgenauigkeit zwischen 64% und 98% erfolgreicher als jedes andere Tool in der Kategorie der Ironieerkennung.
  • Grok 4 erreichte eine Gesamtgenauigkeit von 71 %. Obwohl es bei der Emotionserkennung gut abschnitt, schränkten seine Schwächen bei der Klassifizierung von Ironie, Beleidigungen und Stimmungen seine Wettbewerbsfähigkeit ein.
  • Die Genauigkeit von DeepSeek V3 bei der Erkennung verschiedener Emotionen/Stimmungen liegt zwischen 52% und 92%.
  • ChatGPT 4.5 liefert in unserer Stichprobe die schlechteste Leistung bei der Stimmungsanalyse mit einem Durchschnittswert von 70 %.

1. Emotionserkennung

Die Emotionserkennung ist eine anspruchsvolle Aufgabe in der Stimmungsanalyse , die oft von den Modellen verlangt, subtile sprachliche Hinweise zu erkennen. So haben die Modelle abgeschnitten:

  • ChatGPT 4.0 erreichte bei der Analyse von 50 Aussagen eine Genauigkeit von 72%.
  • ChatGPT 4.5 erreichte zusammen mit Claude 3.7 die höchste Genauigkeit bei der Emotionserkennung mit einer Erfolgsquote von ~80% bei der Analyse von 50 Aussagen.
  • ChatGPT 5.o Auto erreichte die höchste Erfolgsquote mit einer Genauigkeit von 80% und liegt damit gleichauf mit Claude 3.7 und ChatGPT 4.5.
  • Claude 3.5 hingegen erzielte 77,5%.
  • Claude 3.7 erzielte die höchste Erfolgsquote von ~80% bei der Emotionserkennung bei der Analyse von 50 Aussagen.
  • Claude 4.5 schnitt bei dieser Aufgabe etwas besser ab als alle anderen und erreichte die Höchstpunktzahl von 82% Genauigkeit.
  • DeepSeek V3 analysiert die Emotionen in den gegebenen 50 Aussagen gleichzeitig mit einer Genauigkeit von ~76%.
  • Grok 4 zeigte eine starke Leistung und erreichte eine Genauigkeit von 80 % bei der Emotionserkennung.

2. Hasserkennung

Die Erkennung hasserfüllter Inhalte ist für die Stimmungsanalyse auf Twitter und andere Moderationsaufgaben von entscheidender Bedeutung. Die Ergebnisse zeigten bemerkenswerte Unterschiede:

  • ChatGPT 4.0 wies eine Genauigkeit von 64% auf.
  • ChatGPT 4.5 wies in unserer Stichprobe eine Trefferquote von ~57% Genauigkeit bei der Erkennung von Hassreden auf.
  • ChatGPT 5.0 Auto zeigte bei dieser Aufgabe nur begrenzten Erfolg mit einer Genauigkeit von 54%.
  • Claude 3.5 wies eine Erfolgsquote von 67,5 % bei der Erkennung von Hassreden auf.
  • Claude 3.7 , mit einer Erfolgsquote von 78%, wertete die Tweets mit der höchsten Genauigkeit auf, um Hassreden zu erkennen.
  • Claude 4.5 erzielte mit einer Genauigkeit von 50 % bei der Erkennung hasserfüllter Inhalte das schwächste Ergebnis aller Modelle.
  • DeepSeek V3 erzielte das niedrigste Ergebnis im Vergleichstest mit einer Erfolgsquote von nur 52 % bei der Erkennung von Hassreden.
  • Grok 4 schnitt mit 65 % zufriedenstellend ab.

3. Ironieerkennung

Die Ironieerkennung ist ein Bereich, in dem die semantische Auswertung eine entscheidende Rolle spielt. Beide Modelle erzielten hohe Benchmark-Ergebnisse in der Stimmungsanalyse, aber GPT-4o erwies sich als klarer Spitzenreiter:

  • ChatGPT 4.0 erreichte eine außergewöhnliche Genauigkeit von 98 % bei der Erkennung ironischer Ausdrücke. Dieser Erfolg ist auf die Fähigkeit zurückzuführen, negative Polarität in komplexen Textklassifizierungsszenarien zu interpretieren.
  • ChatGPT 4.5 sagte die Ironie des gegebenen Textes mit einer Erfolgsquote von 87 % am wenigsten erfolgreich voraus von allen anderen Tools, die wir in diesem Vergleich zur Emotions-/Stimmungserkennung getestet haben.
  • ChatGPT 5.0 Auto zeigte eine solide Fähigkeit, Ironie zu erkennen, und erreichte eine Genauigkeit von 93%.
  • Claude 3.5 schnitt etwas schlechter ab als ChatGPT 4.0 und erreichte eine Genauigkeit von 97 % bei 50 Aussagen.
  • Claude 3.7 erkannte Ironie im gegebenen Text mit einer Genauigkeit von ~96%.
  • Claude 4.5 erzielte eine der höchsten Leistungen bei der Ironieerkennung mit einer Genauigkeitsrate von 95%.
  • DeepSeek V3 erreichte eine Erfolgsquote von ~92% bei der Ironieerkennung der gegebenen Tweets.
  • Der Grok 4 schnitt in diesem Bereich schlechter ab und erreichte mit 83 % das niedrigste Ergebnis aller getesteten Modelle.

Aufgrund der insgesamt hohen Genauigkeit der Modelle eignen sie sich alle gut für Twitter-Nachrichten mit ironischem oder sarkastischem Inhalt. Der Erfolg von GPT-4o verschafft ihm jedoch einen deutlichen Vorteil für Anwendungen, die einen standardisierten Zuverlässigkeitsmaßstab für Stimmungsanalysen benötigen.

4. Erkennung von Offensivverhalten

Die Erkennung anstößiger Inhalte ist entscheidend für den Erhalt gesunder Online-Communities. Die Benchmark-Leistungen der Modelle in der Stimmungsanalyse für diese Aufgabe waren wie folgt:

  • ChatGPT 4.0 erzielte bei 50 verschiedenen Anweisungsgrößen 76 %. Dies unterstreicht die Leistungsfähigkeit seiner Machine-Learning-Ansätze und seine Fähigkeit, sich an Schwankungen im Datenvolumen anzupassen.
  • ChatGPT 4.5 erreichte eine Erfolgsquote von ca. 75 % bei der Erkennung von anstößigen Inhalten in den gegebenen Tweets.
  • ChatGPT 5.0 Auto erzielte mit einer Genauigkeit von 82 % die höchste Erfolgsquote aller Tools zur Erkennung von anstößigen Inhalten.
  • Claude 3.5 wies die geringste Genauigkeit bei der Erkennung von Beleidigung unter allen fünf Tools auf, mit einer Erfolgsquote von ~67% bei 50 Aussagen.
  • Claude 3.7 erzielte die höchste Erkennungsrate für anstößige Inhalte innerhalb unserer Stichprobe mit einer Erfolgsquote von ~77%.
  • Claude 4.5 erkannte Offensivverhalten in 81% der Fälle und unterstrich damit seine Stärke in dieser Aufgabe.
  • DeepSeek V3 erkannte anstößige Äußerungen mit einer Genauigkeit von 69%.
  • Grok 4 erreichte lediglich 67 % und zählt damit zu den schwächeren Geräten in dieser Kategorie.

Diese Ergebnisse unterstreichen die Bedeutung von Kontext und Training bei der Entwicklung von Modellen zur Erkennung beleidigender Sprache, da Muster im Datensatz die Ergebnisse erheblich beeinflussen können.

5. Stimmungsanalyse

Die übergeordnete Aufgabe der Stimmungsanalyse konzentrierte sich auf die Klassifizierung von Daten in positive, negative und neutrale Stimmungen. Die Genauigkeitswerte für diese Aufgabe variierten zwischen den Modellen erheblich:

  • ChatGPT 4.0 erzielte eine Erfolgsquote von 64%.
  • ChatGPT 4.5 wies mit einer Erfolgsquote von unter 54 % die geringste Genauigkeit bei der Twitter-Sentimentanalyse auf.
  • ChatGPT 5.0 Auto erreichte bei der allgemeinen Stimmungsanalyse eine Bewertung von 67% und liegt damit im Mittelfeld im Vergleich zu anderen Tools.
  • Claude 3.5 zeigte bei 50 Aussagen eine bessere Leistung mit einer Genauigkeit von 68%.
  • Claude 3.7 erzielte mit einer Erfolgsquote von ca. 68 % die beste Leistung zusammen mit Claude 3.5 bei der Stimmungsanalyse.
  • Claude 4.5 erzielte mit einer Genauigkeitsrate von 69 % die beste Leistung.
  • DeepSeek V3 erreichte eine Genauigkeit von 64% bei der Erkennung positiver, negativer und neutraler Stimmungen.
  • Grok 4 zeigte eine geringe Leistung mit einer Genauigkeit von nur 60%.

Keines der Modelle zeigte Kompetenz im Umgang mit der Stimmungsanalyse; die Erfolgsquote lag zwischen ca. 54 % und 69 %.

Beobachtungen und Erkenntnisse

Einfluss des Eingangsvolumens

Beide Modelle zeigten bei einigen Aufgaben eine verbesserte Benchmark-Leistung in der Stimmungsanalyse mit kleineren Eingabevolumina, was die Bedeutung der Rauschreduzierung in den Trainingsdaten für Aufgaben wie die Erkennung von Hassreden und die Stimmungsklassifizierung unterstreicht.

Aufgabenspezifische Stärken

GPT-4o war bei der Ironieerkennung führend und schnitt in allen Aufgaben durchweg gut ab. Claude 3.5 war zwar etwas weniger konstant, glänzte aber bei Aufgaben wie der Emotionserkennung, insbesondere bei größeren Eingabevolumina.

Weiterreichende Implikationen

Diese experimentellen Ergebnisse bestätigen die Effektivität von Benchmark-Datensätzen wie TweetEval für die Textklassifizierungsforschung. Die Erkenntnisse können der Forschungsgemeinschaft bei der Auswahl des passenden Modells für ihren jeweiligen Anwendungsfall helfen, sei es die Erkennung differenzierter Stimmungsintensitäten oder die Analyse negativer Polarität in Twitter-Nachrichten.

Benchmark-Datensatz und Methodik

Analysedatensatz

Der TweetEval- Datensatz wurde aufgrund seiner Relevanz für Stimmungsanalysetechniken ausgewählt, die auf reale Twitter-Nachrichten angewendet werden. 1 Der Datensatz ist Teil der Initiative der Association for Computational Linguistics (ACL) und wird häufig für semantische Evaluierungs- und Textklassifizierungsaufgaben verwendet. Er besteht aus vorab gelabelten Trainingsdaten und Testdatensätzen, die verschiedene Dimensionen des Stimmungs- und Kontextverständnisses abdecken:

  • Emotionserkennung : Identifizierung von emotionalen Tönen wie Wut, Freude, Optimismus oder Traurigkeit in Tweets.

Beispiel-Tweet und -Label: Der Tweet „#Depression ist real. Partner von #depressiven Menschen verstehen wirklich nicht, wie sehr sie uns beeinflussen. #Angstzustände verschlimmern alles noch.“ wird als traurig gekennzeichnet. 2

  • Hassredeerkennung : Bewertung des Vorhandenseins von Hassrede in gegebenen Tweets.

Beispiel-Tweet und Kennzeichnung: Der Tweet „Trump will illegale Einwanderer ohne Richter oder Gerichtsverfahren abschieben #MeToo Ich stehe voll und ganz hinter dieser Maßnahme. Der Gedanke, dass jemand, der illegal in ein Land einreist und keinen Respekt vor dessen Gesetzen zeigt, durch dieselben Gesetze geschützt werden sollte, ist absurd! #DeportThemAll“ wird als hasserfüllt gekennzeichnet. 3

  • Ironieerkennung : Erkennen ironischer Absichten in Textinhalten.

Beispiel-Tweet und Kennzeichnung: Der Tweet „Leute, die Menschen mit Angststörungen sagen, sie sollen sich „einfach keine Sorgen machen“, sind meine Lieblingsmenschen #nicht #bildedichselbst“ wird als Ironie gekennzeichnet. 4

  • Erkennung von Beleidigungen : Klassifizierung von Tweets mit beleidigender Sprache.

Beispiel-Tweet und Kennzeichnung: Der Tweet „#ConstitutionDay Es ist sehr seltsam, dass die Alt-Right-Konservativen behaupten, wir würden die Verfassung ruinieren, nur weil wir #GunControlNow wollen, aber sie sind es, die die Verfassung ruinieren, indem sie sich darüber aufregen, dass Ausländer, die nicht weiß sind, in dieses Land kommen und hier leben wollen“ wird als beleidigend gekennzeichnet. 5

  • Sentimentklassifizierung : Tweets werden als positiv, negativ oder neutral eingestuft.

Beispiel-Tweet und Label: Der Tweet „Kann es kaum erwarten, das auszuprobieren – Google Earth VR – das ist wirklich die Zukunft der Erkundung…“ wird als positiv gekennzeichnet. 6

Diese Aufgaben entsprechen realen Ansätzen des maschinellen Lernens und eignen sich daher ideal zur Bewertung der experimentellen Ergebnisse der beiden Modelle.

Analysemethodik

Dieser Benchmark vergleicht acht hochmoderne große Sprachmodelle (LLMs): Claude 3.5, Claude 3.7, Claude 4.5, ChatGPT 4.o, ChatGPT 4.5, ChatGPT 5.o, DeepSeek V3 und Grok 4.

Versuchsaufbau

Um Konsistenz und Zuverlässigkeit der Experimente zu gewährleisten, wurde folgende Methodik angewendet:

Eingangslautstärke

  • Es wurden zwei Eingabemengen getestet: 50 Tweets und 10 Tweets pro Aufgabe.
  • Ziel dieser Variation war es, zu ermitteln, wie sich die Eingabegröße auf die Modellleistung auswirkt, insbesondere bei Aufgaben wie der Sentimentanalyse und der Hasserkennung, bei denen das Datenvolumen die Genauigkeit beeinflussen kann.

Aufgabenspezifische Bewertung

Jede Aufgabe aus dem TweetEval-Datensatz wurde separat getestet. Die Aufgaben und die zugehörigen Ergebnisse wurden mithilfe der Sentimentanalysemodelle der Modelle analysiert und die Genauigkeitswerte erfasst.

verwendete Metriken

Um zuverlässige experimentelle Ergebnisse zu gewährleisten, wurden für jede Aufgabe Genauigkeitswerte berechnet.

Einschränkungen bei der Einrichtung

Wir haben Datensätze verwendet, deren Referenzdaten öffentlich zugänglich waren. Dies könnte zu Datenvergiftung geführt haben (d. h., die LLMs wurden mit den Referenzdaten trainiert). Da die Genauigkeit jedoch nicht nahezu perfekt war, gingen wir davon aus, dass dies nicht der Fall ist. Für die nächste Version könnten wir Tweets verwenden, für die keine Referenzdaten veröffentlicht wurden.

Detaillierter Überblick über LLM-Studiengänge

Alle Tools – ChatGPT 4.0, 4.5, Claude 3.5, 3.7 und DeepSeek V3 – stellen bedeutende Fortschritte im Bereich der natürlichen Sprachverarbeitung (NLP) dar und finden Anwendung in Bereichen wie Stimmungsanalyse und dialogorientierter KI. Diese Modelle zählen zu den bekanntesten für ihre Fähigkeit, menschenähnliche Texte zu interpretieren, zu verarbeiten und zu generieren. Im Folgenden finden Sie eine detaillierte Beschreibung jedes Modells, die seine spezifischen Fähigkeiten und seine Relevanz für die Stimmungsanalyse und verwandte Aufgaben des maschinellen Lernens hervorhebt.

ChatGPT 4.0

ChatGPT 4.0, entwickelt von OpenAI, ist eine verbesserte Version des Vorgängers GPT-3.5 und zeichnet sich durch signifikante Verbesserungen in der Deep-Learning-Architektur und im Sprachverständnis aus. Dieses Modell ist für eine Vielzahl von NLP-Aufgaben optimiert, darunter Stimmungsanalysemodelle und aspektbasierte Stimmungsanalyse.

Anwendungen in der Stimmungsanalyse

ChatGPT 4.0 wird häufig in der Forschung und Industrie für Aufgaben wie die folgenden eingesetzt:

  • Stimmungsanalyse von Twitter-Nachrichten zur Überwachung sozialer Medien.
  • Sentimentanalyse von Kundenfeedback im E-Commerce.
  • Emotionserkennung in Anwendungen im Bereich der psychischen Gesundheit.
  • Aspektbasierte Stimmungsanalyse für Produktrezensionen und Umfragen.

Einschränkungen

Trotz seiner Stärken kann ChatGPT 4.0 gelegentlich zu einer Überanpassung an bestimmte Stimmungsmuster führen, was in stark domänenspezifischen Kontexten zu einer geringeren Genauigkeit führt.

ChatGPT 4.5

ChatGPT 4.5, eine Weiterentwicklung der GPT-Serie (OpenAI), bietet solide Ergebnisse bei verschiedenen Aufgaben der Stimmungsanalyse. Es zeichnet sich durch ein gutes Verständnis der Emotionskategorisierung aus, seine Leistung bei der Erkennung von Hassreden und der Stimmungsklassifizierung ist jedoch vergleichsweise geringer, was seinen Einsatz in bestimmten hochsensiblen Kontexten einschränken kann.

Anwendungen in der Stimmungsanalyse

ChatGPT 4.5 wird häufig verwendet in:

  • Moderationswerkzeuge zur Erkennung von beleidigender Sprache und Hassrede.
  • Ironieerkennung in Online-Diskussionen und Nachrichtenkommentaren.
  • Stimmungsanalyse in sozialen Medien zur Ermittlung der öffentlichen Meinung zu verschiedenen Themen.
  • Kundenfeedbackanalyse für E-Commerce-Plattformen mit Schwerpunkt auf Emotionen.

Einschränkungen

Die Leistungsfähigkeit von ChatGPT 4.5 bei der Stimmungsanalyse wird durch die vergleichsweise geringere Genauigkeit bei der Stimmungsklassifizierung und der Erkennung von Hassreden beeinträchtigt.

ChatGPT 5.0

ChatGPT 5.0 repräsentiert die neueste Generation der Modelle von OpenAI und bietet Verbesserungen in den Bereichen Kontextanalyse, Nuancenerkennung und Inhaltsmoderation. Während die durchschnittliche Genauigkeit der von Claude 4.5 (75 %) entspricht, zeichnet sich das Modell durch seine außergewöhnliche Leistung bei der Erkennung von Beleidigungen (82 %) und Ironie (93 %) aus.

Anwendungen in der Stimmungsanalyse

ChatGPT 5.0 ist besonders effektiv für:

  • Erkennung von Beleidigungen in Online-Foren und sozialen Medien, wobei die Genauigkeit alle anderen Tools übertrifft.
  • Ironie- und Sarkasmusanalyse zur Unterstützung von Forschern und Unternehmen beim Verständnis komplexer nutzergenerierter Inhalte.
  • Emotionserkennung im Kundenservice-Feedback, Überwachung der psychischen Gesundheit und Stimmungsanalyse in sozialen Medien.
  • Allgemeine Stimmungsanalyse in groß angelegten Umfragedaten, wobei eine ausgewogene Leistung über alle Kategorien hinweg bevorzugt wird.

Einschränkungen

Trotz seiner Stärken schränkt die schwächere Leistung von ChatGPT 5.o bei der Erkennung von Hassrede (54%) seine Eignung für die Moderation von kritischen Situationen mit toxischer oder diskriminierender Sprache ein.

Claude 3.7

Claude 3.7 baut auf den Stärken seines Vorgängers Claude 3.5 auf und bietet Verbesserungen beim Kontextverständnis und der Genauigkeit der Stimmungsanalyse. Mit einem starken Fokus auf sichere und ethische KI-Praktiken zeichnet sich Claude 3.7 durch seine Fähigkeit aus, komplexe Stimmungen wie Emotionen, Ironie und Hassrede zu erkennen. Dadurch ist es die ideale Wahl für Anwendungen, die ein hohes Maß an Sensibilität und Kontext erfordern.

Anwendungen in der Stimmungsanalyse

Claude Sonnet 3.7 ist für Aufgaben wie die folgenden sehr effektiv:

  • Emotionserkennung in Kundenfeedback- und psychischen Gesundheitsanwendungen.
  • Erkennung von Hass und Beleidigungen zur Moderation von Online-Inhalten, um sichere Räume auf digitalen Plattformen zu gewährleisten.
  • Sentimentanalyse in der Marktforschung und Business Intelligence.

Einschränkungen

Obwohl Claude 3.7 in wichtigen Bereichen der Stimmungsanalyse alle anderen Modelle übertrifft, könnte seine Leistung in stark domänenspezifischen Szenarien, insbesondere bei subtilen Stimmungsnuancen, weiterhin Herausforderungen mit sich bringen. Darüber hinaus bedarf seine Genauigkeit bei der Erkennung von Stimmungen, die mit differenzierteren oder weniger wichtigen Kontextinformationen zusammenhängen, möglicherweise weiterer Optimierung.

Claude 3.5

Claude 3.5, entwickelt von Anthropic, ist ein NLP-Modell mit Fokus auf Sicherheit, ethisches Verhalten und präzise Textgenerierung. Es eignet sich besonders für Aufgaben, die Kontextsensibilität und differenzierte Stimmungsanalyse erfordern.

Anwendungen in der Stimmungsanalyse

Claude 3.5 für die Bearbeitung von Szenarien wie:

  • Hasserkennung zur Überwachung sozialer Medien und Online-Plattformen.
  • Erkennung von anstößigen Inhalten in Systemen zur Inhaltsmoderation.
  • Interaktionen im Kundenservice mit Schwerpunkt auf Stimmungsanalyse zur Verbesserung des Nutzererlebnisses.
  • Aspektbasierte Stimmungsanalyse zur Identifizierung von Stimmungstrends in der Business Intelligence.

Einschränkungen

Claude 3.5 zeichnet sich zwar durch ein gutes ethisches und kontextuelles Verständnis aus, schneidet aber im Vergleich zu Konkurrenzprodukten mitunter schlechter ab, wenn es um die Erkennung subtiler oder impliziter Stimmungen geht. Zudem ist sein Trainingsdatensatz weniger divers als der von ChatGPT 4.0, was die Robustheit bei einigen Benchmark-Datensätzen beeinträchtigen kann.

Claude 4.5

Claude 4.5 baut auf der Claude-Serie von Anthropic auf und bietet Verbesserungen hinsichtlich Kontextsensitivität und Interpretierbarkeit. Mit einer durchschnittlichen Genauigkeit von 75 % bei allen Aufgaben der Stimmungsanalyse erzielte Claude 4.5 die höchste Genauigkeit bei der Emotionserkennung (82 %), eine starke Leistung bei der Erkennung von Ironie (95 %) und Beleidigung (81 %), schnitt jedoch bei der Erkennung von Hassreden (50 %) am schlechtesten ab und erreichte damit den niedrigsten Wert aller getesteten Modelle.

Anwendungen in der Stimmungsanalyse

Claude 4.5 eignet sich gut für:

  • Emotionserkennung in Anwendungen, bei denen subtile Hinweise entscheidend sind, wie z. B. Feedback-Apps im Gesundheitswesen oder Wellness-Apps.
  • Ironie- und Sarkasmuserkennung bei Social-Media-Monitoring und Meinungsforschung, wo eine differenzierte Interpretation unerlässlich ist.
  • Anstößige Inhalte werden bei der Moderation erkannt , wodurch wettbewerbsfähige Ergebnisse für die Schaffung sicherer Online-Räume erzielt werden.
  • Sentimentklassifizierung in der Marktforschung und Markenanalyse, die von ihrer ausgewogenen, aber etwas stärkeren Polaritätserkennung (69%) profitiert.

Einschränkungen

Die geringe Genauigkeit von Claude 4.5 bei der Erkennung von Hassrede (50 %) schränkt seine Einsatzmöglichkeiten in Szenarien mit schädlichen oder hetzerischen Äußerungen erheblich ein. Obwohl es in bestimmten Kategorien hervorragende Ergebnisse liefert, ist seine Leistung über verschiedene Aufgaben hinweg uneinheitlich, was es für Projekte, die eine gleichmäßige Genauigkeit über alle Stimmungsdimensionen hinweg erfordern, weniger zuverlässig macht.

DeepSeek V3

DeepSeek V3 liefert solide Ergebnisse bei einer breiten Palette von Stimmungsanalyseaufgaben, aber seine Gesamtgenauigkeit bleibt hinter anderen Modellen zurück, insbesondere bei der Erkennung von Hassreden.

Anwendungen in der Stimmungsanalyse

DeepSeek V3 wird häufig verwendet für:

  • Emotionserkennung in Apps für psychische Gesundheit und Kundenstimmungsanalyse.
  • Ironieerkennung in alltäglichen Gesprächen, einschließlich Social-Media-Plattformen und nutzergenerierten Inhalten.
  • Grundlegende Stimmungsanalyse für Marktforschungsumfragen und Feedbackformulare.
  • Inhaltsmoderation zur Filterung anstößiger Sprache in Online-Foren.

Einschränkungen

Die geringere Leistung von DeepSeek V3 bei der Erkennung hasserfüllter Inhalte und seine vergleichsweise schwächeren Fähigkeiten zur Stimmungsanalyse machen es weniger geeignet für risikoreiche Anwendungen wie die Inhaltsmoderation auf sensiblen Plattformen.

Grok 4

Grok ist ein dialogorientiertes KI-Modell, das auf Humor, soziale Interaktion und dynamisches Engagement ausgelegt ist. In Benchmarks zur Stimmungsanalyse erreichte Grok eine durchschnittliche Genauigkeit von 71 % und schnitt damit am schlechtesten unter allen getesteten Modellen ab.

Anwendungen in der Stimmungsanalyse

Grok kann angewendet werden auf:

  • Emotionserkennung in interaktiven Anwendungen, wo die Identifizierung von Tonfall und Stimmung die Benutzerinteraktion steigert.
  • Moderationswerkzeuge , insbesondere zur Erkennung hasserfüllter Inhalte mit einer mäßigen Genauigkeit (65%).
  • Einfache Ironieerkennung in Online-Diskursen, allerdings mit Einschränkungen im Vergleich zu fortgeschritteneren Modellen.
  • Explorative Stimmungsanalyse in kreativen oder informellen Umgebungen, in denen der Gesprächsfluss Vorrang vor hoher Präzision hat.

Einschränkungen

Groks Schwäche bei der Stimmungsanalyse (60 %) und die geringere Genauigkeit bei der Ironieerkennung (83 %) schränken seinen Einsatz in hochpräzisen Forschungs- oder kommerziellen Analysen ein. Der Fokus auf Konversationsreaktionsfähigkeit statt auf Benchmark-Genauigkeit macht es weniger geeignet für Aufgaben, die eine konsistente Zuverlässigkeit bei der Stimmungsanalyse erfordern.

Weiterführende Literatur

Ezgi Arslan, PhD.
Ezgi Arslan, PhD.
Branchenanalyst
Ezgi besitzt einen Doktortitel in Betriebswirtschaftslehre mit Schwerpunkt Finanzen und arbeitet als Branchenanalystin bei AIMultiple. Sie treibt Forschung und Erkenntnisse an der Schnittstelle von Technologie und Wirtschaft voran und verfügt über Expertise in den Bereichen Nachhaltigkeit, Umfrage- und Stimmungsanalyse, KI-Agentenanwendungen im Finanzwesen, Optimierung von Antwortsystemen, Firewall-Management und Beschaffungstechnologien.
Vollständiges Profil anzeigen

Seien Sie der Erste, der kommentiert

Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.

0/450

Als nächstes lesen