Benchmark

Sentiment-Analyse-Benchmark-Tests: ChatGPT, Claude & Qwen

aktualisiert am 15. Juni 2026

Die präzise Kennzeichnung von Emotionen und Stimmungen sowie das Erkennen von Ironie, Hass und Beleidigungen bleibt eine Herausforderung, die weitere Tests und Verfeinerungen erfordert. Wir haben 10 große Sprachmodelle für fünf Sentiment-Aufgaben getestet: Emotion, Hass, Ironie, Beleidigung und Sentiment. Wir haben sie nach der durchschnittlichen Genauigkeit über alle fünf bewertet.

Die Ergebnisse zeigen klare Unterschiede zwischen den Tools:

GPT 5.5 erreichte die beste Gesamtgenauigkeit (80%),
Minimax M2.7 (72%) erzielte die niedrigste Gesamtleistung.

Experimentelle Ergebnisse: Sentiment-Analyse-Benchmark

Loading Chart

Ranking: Die Tools sind nach ihren durchschnittlichen Genauigkeitsraten sortiert, die über alle getesteten Kategorien aggregiert wurden: Emotion, Hass, Ironie, Beleidigung und Sentiment.

Weitere Details finden Sie in der Methodik unseres Benchmarks.

Gesamtgenauigkeit

Zusammengefasst bieten die Gesamtgenauigkeitswerte der Modelle einen ganzheitlichen Überblick über ihre Fähigkeiten:

GPT 5.5 belegte den ersten Platz mit 80%. Es fiel in keiner Aufgabe unter 73%, was es zum konsistentesten Modell im Test machte.
Claude Sonnet 4.6 erreichte den zweiten Platz mit 79%. Es erzielte das höchste Einzelergebnis im Benchmark: 82% bei Hass.
Qwen 3.6 Plus und ChatGPT 5.4 mini teilten sich den dritten Platz mit 78%. ChatGPT 5.4 mini ist das kleinste Modell an der Spitze, führte jedoch bei der Erkennung von Beleidigungen und war gleichauf bei Ironie.
Kimi k2.6 erzielte 77%, mit stabilen Ergebnissen und keiner offensichtlich schwachen Aufgabe.
Gemini 3.1-pro und GLM 5.1 lagen gleichauf bei 76%. Gemini 3.1-pro war gleichauf an der Spitze bei der Emotionserkennung, rangierte aber bei Hass niedrig.
Claude Opus 4.8 erzielte 74%. Es wurde durch die Emotionserkennung (68%) zurückgehalten, seine schwächste Kategorie.
Gemini 3.5 Flash erzielte 73%. Sein Hass-Ergebnis (65%) war das niedrigste in dieser Aufgabe.
Minimax M2.7 rangierte auf dem letzten Platz mit 72%. Es erzielte die niedrigsten Werte bei Emotion, Ironie und Beleidigung.

1. Emotionserkennung

Emotionserkennung ist eine anspruchsvolle Aufgabe in der Sentiment-Analyse, die Modelle oft dazu zwingt, subtile sprachliche Hinweise zu erkennen. So haben die Modelle abgeschnitten:

GPT 5.5 und Gemini 3.1-pro teilten sich den ersten Platz mit 80%.
Qwen 3.6 Plus folgte mit 79%.
Kimi k2.6 erzielte 78%, und GLM 5.1 erzielte 77%.
ChatGPT 5.4 mini erreichte 76%, und Claude Sonnet 4.6 erreichte 75%.
Gemini 3.5 Flash erzielte 73%.
Claude Opus 4.8 erzielte 68%.
Minimax M2.7 erzielte den niedrigsten Wert mit 66%.

Die Emotionserkennung wies eine große Spannweite auf: 14 Punkte zwischen den besten und den schlechtesten Modellen. Damit ist sie eine der beiden Aufgaben, die Modelle am deutlichsten trennen.

2. Hass-Erkennung

Die Erkennung von hasserfüllten Inhalten ist entscheidend für die Sentiment-Klassifizierung auf Twitter und andere Moderationsaufgaben. Die Ergebnisse zeigten bemerkenswerte Unterschiede:

Claude Sonnet 4.6 führte mit 82%, dem höchsten Einzelwert im Benchmark.
GPT 5.5 folgte knapp mit 80%.
Qwen 3.6 Plus erzielte 77%.
Kimi k2.6 und GLM 5.1 erzielten beide 76%.
Minimax M2.7 erzielte 75%.
ChatGPT 5.4 mini erzielte 72%.
Gemini 3.1-pro und Claude Opus 4.8 erzielten beide 71%.
Gemini 3.5 Flash erzielte den niedrigsten Wert mit 65%.

Hass hatte die größte Spannweite aller Aufgaben: 17 Punkte. Wenn Moderation Ihr Anwendungsfall ist, wählen Sie aus der Spitze dieser Spalte und nicht nach dem Durchschnittsranking.

3. Ironieerkennung

Ironieerkennung ist ein Bereich, in dem die semantische Bewertung eine zentrale Rolle spielt. Beide Modelle lieferten eine hohe Benchmark-Leistung in der Sentiment-Analyse, aber GPT-4o erwies sich als klarer Spitzenreiter:

GPT 5.5, Claude Sonnet 4.6, Qwen 3.6 Plus und ChatGPT 5.4 mini teilten sich den ersten Platz mit 91%.
Gemini 3.1-pro, GLM 5.1 und Gemini 3.5 Flash erzielten jeweils 87%.
Claude Opus 4.8 erzielte 86%, und Kimi k2.6 erzielte 85%.
Minimax M2.7 erzielte den niedrigsten Wert mit 82%.

Dies war die einfachste Aufgabe im Set. Selbst der niedrigste Wert lag bei 82%. Für Arbeiten, die auf das Erkennen von Ironie oder Sarkasmus angewiesen sind, ist jedes dieser Modelle ein sicherer Ausgangspunkt.

4. Erkennung von Beleidigungen

Die Erkennung von beleidigenden Inhalten ist entscheidend für die Aufrechterhaltung gesunder Online-Communities. Die Benchmark-Leistungen der Modelle in der Sentiment-Analyse bei dieser Aufgabe waren wie folgt:

ChatGPT 5.4 mini führte mit 75%.
GPT 5.5 erzielte 73%, und Claude Sonnet 4.6 erzielte 72%. Claude Opus 4.8 erzielte 70%.
Qwen 3.6 Plus, Kimi k2.6, Gemini 3.1-pro und GLM 5.1 erzielten alle 69%.
Gemini 3.5 Flash erzielte 68%.
Minimax M2.7 erzielte den niedrigsten Wert mit 65%.

Kein Modell erreichte 76% bei der Metrik für Beleidigungen. Das gesamte Feld reichte von 65% bis 75%. Der Kontext bestimmt diese Aufgabe, und die Grenzfälle des Datasets lassen jedes Modell stolpern.

5. Sentiment-Analyse

Die übergeordnete Aufgabe der Sentiment-Analyse bestand darin, Daten in positive, negative und neutrale Stimmungen zu klassifizieren. Die Genauigkeitswerte für diese Aufgabe variierten erheblich zwischen den Modellen:

GPT 5.5, Qwen 3.6 Plus, ChatGPT 5.4 mini und Gemini 3.1-pro teilten sich den ersten Platz mit 75%.
Kimi k2.6, Claude Opus 4.8, Gemini 3.5 Flash und Minimax M2.7 erzielten alle 74%.
Claude Sonnet 4.6 erzielte 73%.
GLM 5.1 erzielte den niedrigsten Wert mit 72%.

Die gesamte Spanne betrug 3 Punkte, von 72% bis 75%. Kein Modell hat die dreifache Sentiment-Klassifizierung gut gemeistert. Wenn das Projekt zuverlässige positive, negative und neutrale Labels benötigt, ist keines dieser Modelle bereit, ohne menschliche Überprüfung zu laufen.

Beobachtungen und Erkenntnisse

Aufgaben sind nicht gleich schwer

Ironie war für jedes Modell einfach (82% bis 91%). Sentiment und Beleidigungen waren für jedes Modell schwer, mit Werten zwischen 65% und 75%. Wählen Sie ein Modell für die tatsächliche Aufgabe, nicht nach seinem Durchschnittsrang.

Emotion und Hass trennen die Modelle am besten

Diese beiden Aufgaben hatten die größten Punktunterschiede: 14 und 17 Punkte. Wenn Ihr Anwendungsfall Emotionsverfolgung oder Moderation ist, ist die Wahl des Modells hier wichtiger als anderswo.

Ein hoher Durchschnitt kann eine schwache Aufgabe verbergen

GPT 5.5 rangierte insgesamt an erster Stelle und blieb durchweg stark. Aber Claude Opus 4.8 rangierte insgesamt auf Platz acht, erzielte jedoch 86% bei Ironie. Lesen Sie die Spalte für Ihre Aufgabe, nicht den Durchschnitt.

Benchmark-Dataset und Methodik

Analyse-Dataset

Wir verwendeten das TweetEval-Dataset, das für die Sentiment-Analyse auf echten Twitter-Nachrichten erstellt wurde.¹ Es ist Teil der Arbeit der Association for Computational Linguistics (ACL) zur semantischen Evaluierung. Das Dataset wird mit vorab gekennzeichneten Trainings- und Testsets für fünf Aufgabentypen geliefert:

Emotionserkennung: Benennung des Gefühls in einem Tweet, wie Wut, Freude, Optimismus oder Traurigkeit. Beispiel-Tweet und Label: „#Deppression is real. Partners w/ #depressed people truly dont understand the depth in which they affect us. Add in #anxiety &makes it worse“ ist als traurig gekennzeichnet.²
Hass-Erkennung: Kennzeichnung von Hassrede in einem Tweet. Beispiel-Tweet und Label: „Trump wants to deport illegal aliens with ‘no judges or court cases’ #MeToo I am solidly behind this action The thought of someone illegally entering a country & showing no respect for its laws, should be protected by same laws is ludacris! #DeportThemAll“ ist als hasserfüllt gekennzeichnet.³
Ironieerkennung: Erkennen ironischer Absichten. Beispiel-Tweet und Label: „People who tell people with anxiety to ‘just stop worrying about it’ are my favorite kind of people #not #educateyourself“ ist als ironisch gekennzeichnet.⁴
Erkennung von Beleidigungen: Klassifizierung von Tweets mit beleidigender Sprache. Beispiel-Tweet und Label: „#ConstitutionDay It’s very odd for the alt right conservatives to say that we are ruining the constitution because we want #GunControlNow but they are the ones ruining the constitution getting upset because foreigners are coming to this land who are not White wanting to live“ ist als beleidigend gekennzeichnet.⁵
Sentiment-Klassifizierung: Zuweisung eines positiven, negativen oder neutralen Labels. Beispiel-Tweet und Label: „Can’t wait to try this – Google Earth VR – this stuff really is the future of exploration….“ ist als positiv gekennzeichnet.⁶

Diese Aufgaben entsprechen realen Machine-Learning-Ansätzen und eignen sich daher ideal zur Bewertung der experimentellen Ergebnisse der beiden Modelle.

Getestete Modelle

Wir haben 10 große Sprachmodelle getestet, alle über die OpenRouter API, sodass die Einrichtung für jedes Modell gleich war:

GPT 5.5, ChatGPT 5.4 mini, Claude Sonnet 4.6, Claude Opus 4.8, Gemini 3.1-pro, Gemini 3.5 Flash, Qwen 3.6 Plus, Kimi k2.6, GLM 5.1 und Minimax M2.7.

Experimenteller Aufbau

Wir haben jede Einstellung für alle 10 Modelle gleich gehalten.

Stichprobe

Wir verwendeten die ersten 200 Tweets des offiziellen Testsets jeder Aufgabe mit den Gold-Labels des Datasets. Die gleichen 200 Tweets gingen an jedes Modell, sodass der Vergleich direkt ist.

Prompting

Wir verwendeten Zero-Shot-Prompts: eine einfache Aufgabenanweisung und den rohen Tweet, ohne Beispiele. Das Modell gab ein Label zurück und sonst nichts.

Wir haben die Prompts so geschrieben, dass sie nichts verrieten. Wir nannten den Benchmark nicht, bezeichneten das Modell nicht als „Annotator“ und deuteten nicht an, dass es bewertet wurde. Die Nennung des Tests kann die Antwort eines Modells verändern, daher ließen wir sie weg. Der Emotions-Prompt forderte das Modell beispielsweise auf, eine der Optionen Wut, Freude, Optimismus oder Traurigkeit auszuwählen und mit dem entsprechenden Wort zu antworten.

Generierungseinstellungen

Wir haben die Temperatur auf 0 gesetzt, was die Ausgabe so stabil wie möglich macht. Wir haben das Token-Limit auf 4.096 gesetzt. Das hohe Limit ist für Reasoning-Modelle wichtig: Bei einem kleinen Limit verbrauchen sie das gesamte Budget für verstecktes Reasoning und geben eine leere Antwort zurück. Der zusätzliche Raum ermöglicht es ihnen, das Reasoning abzuschließen und trotzdem das Label auszugeben. Modelle, die kein Reasoning durchführen, antworten in einem kurzen Wort, sodass das Limit dort nichts kostet.

Lesen der Antworten

Wir ordneten jede Antwort schrittweise einem Label zu: zuerst eine exakte Übereinstimmung, dann eine kurze Liste von Synonymen (z.B. „happy“ wird Freude zugeordnet), dann eine Suche nach einem beliebigen Label in einer längeren Antwort. Antworten, die wir nicht lesen konnten, wurden als falsch gewertet.

Metrik

Die Punktzahl für jede Aufgabe ist nicht die reine Genauigkeit. Wir haben die Metrik verwendet, die TweetEval-Autoren für jede Aufgabe festgelegt haben:

Emotion: Macro-F1
Sentiment: Macro-Recall
Hass: Macro-F1
Ironie: F1 der Ironie-Klasse
Beleidigung: Macro-F1

Macro-F1 und Macro-Recall gewichten beide jede Klasse gleich, unabhängig davon, wie oft sie vorkommt. Dies ist hier die richtige Wahl, da Klassen wie Hass oder Ironie selten sind und eine einfache Genauigkeit es einem Modell ermöglichen würde, gut auszusehen, indem es immer das häufigste Label wählt. Die Durchschnittsspalte ist der Mittelwert dieser fünf Werte.

Zuverlässigkeit

Einige Modelle stießen während des Laufs auf Ratenbegrenzungen und verloren einige Aufrufe. Wir haben die fehlgeschlagenen Zeilen mit niedriger Geschwindigkeit erneut ausgeführt, um die Begrenzungen zu vermeiden, und dies wiederholt, bis nichts mehr fehlschlug. Die Endergebnisse enthalten keine fehlgeschlagenen Aufrufe und keine unlesbaren Antworten.

Einschränkungen des Setups

Wir haben einen Ausschnitt von 200 Tweets aus jedem Testset verwendet, nicht das gesamte Set, daher stimmen diese Zahlen nicht mit der veröffentlichten TweetEval-Bestenliste überein. Der Vergleich zwischen unseren 10 Modellen bleibt dennoch gültig, da jedes Modell dieselben Tweets gesehen hat.

Der 200-Tweet-Ausschnitt ist fest, nicht zufällig, daher ist er reproduzierbar, aber keine Zufallsstichprobe. Jede Aufgabe verwendete außerdem einen einzigen Prompt bei Temperatur 0. Ein anderer Prompt oder Few-Shot-Beispiele würden die absoluten Zahlen verschieben.

Wir haben Datasets mit öffentlichen Gold-Labels verwendet. Dies birgt das Risiko einer Kontamination, bei der ein Modell die Labels während des Trainings gesehen hat. Wir können dies nicht ausschließen, aber die Werte waren weit von perfekt entfernt, was darauf hindeutet, dass es kein wesentlicher Faktor war. Für die nächste Version planen wir, Tweets zu testen, deren Labels nicht veröffentlicht wurden.

Da die Stichprobe 200 Tweets pro Aufgabe umfasst, sind kleine Unterschiede mit Stichprobenrauschen behaftet. Wir betrachten einen Unterschied von ein bis zwei Punkten als Gleichstand und nicht als Rangfolge.

Lassen Sie unser Team einen Ihrer Geschäftsprozesse kostenlos mit KI-Agenten automatisieren.

Einen Prozess automatisieren

Welches Modell soll man wählen

Die vollständigen Punktzahlen stehen in der obigen Tabelle. Dieser Abschnitt ist kürzer: Er ordnet gängige Anforderungen dem passenden Modell zu.

Beste Allround-Wahl: GPT 5.5. Es belegte den ersten Platz und blieb bei jeder Aufgabe stark, daher ist es die sichere Standardwahl, wenn Ihre Arbeit mehrere Sentiment-Aufgaben umfasst.
Inhaltsmoderation und Hassrede: Claude Sonnet 4.6. Es erzielte die höchste Punktzahl aller Modelle bei Hass. GPT 5.5 ist ein knapper Zweiter.
Erkennung von beleidigender Sprache mit kleinem Budget: ChatGPT 5.4 mini. Es führte bei Beleidigungen und erreichte die Spitzenwerte bei Ironie, was für ein kleineres, günstigeres Modell selten ist.
Emotions- und Sentiment-Tracking: Gemini 3.1-pro oder Qwen 3.6 Plus. Beide stehen an der Spitze dieser beiden Spalten. Verwenden Sie für Stimmungs- und Meinungsarbeit statt für Moderation.
Ironie und Sarkasmus: fast jedes Modell hier. Die Werte reichten von 82% bis 91%, daher bestimmt diese Aufgabe selten die Wahl. Wählen Sie das günstigste Modell, das Ihre anderen Anforderungen erfüllt.
Stabile, allgemeine Nutzung: Kimi k2.6. Keine herausragende Aufgabe, aber auch keine schwache.
Mit Vorsicht für risikoreiche Arbeiten verwenden: Gemini 3.5 Flash und Minimax M2.7 rangierten am unteren Ende. Gemini 3.5 Flash war bei Hassrede am schwächsten, daher meiden Sie es insbesondere für Moderation.

Eine Erinnerung, die sich durch all dies zieht: Lesen Sie die Spalte für Ihre Aufgabe, nicht den Durchschnitt. Ein Modell kann insgesamt im Mittelfeld liegen und dennoch bei der einen Aufgabe, die Ihnen wichtig ist, führend sein.

Weiterführende Literatur

Entdecken Sie weitere unserer Benchmarks und datengestützten Erkenntnisse in der Google-Suche.

Als bevorzugte Quelle hinzufügen

Zitieren Sie diesen Benchmark

Wählen Sie das Format, das zu Ihrem Veröffentlichungsort passt. Wenn Sie die Link-Version in Ihr CMS einfügen, bleibt der Backlink erhalten.

Ezgi Arslan, PhD. (2026) - "Sentiment-Analyse-Benchmark-Tests: ChatGPT, Claude & Qwen". Online veröffentlicht auf AIMultiple.com. Abgerufen am 15. Juni 2026, von: https://aimultiple.com/sentiment-analysis-benchmark [Online-Ressource]

PhD., E. A. (2026, 15. Juni). Sentiment-Analyse-Benchmark-Tests: ChatGPT, Claude & Qwen. AIMultiple. https://aimultiple.com/sentiment-analysis-benchmark

@misc{phd2026,
  author = {PhD., Ezgi Arslan,},
  title  = {{Sentiment-Analyse-Benchmark-Tests: ChatGPT, Claude & Qwen}},
  year   = {2026},
  month  = jun,
  howpublished    = {\url{https://aimultiple.com/sentiment-analysis-benchmark}},
  note   = {AIMultiple. Abgerufen am 15. Juni 2026}
}

Referenzlinks

Cardiff NLP · GitHub

SemEval-2018 Task 1: Affect in Tweets - ACL Anthology

SemEval-2019 Task 5: Multilingual Detection of Hate Speech Against Immigrants and Women in Twitter - ACL Anthology

SemEval-2018 Task 3: Irony Detection in English Tweets - ACL Anthology

SemEval-2019 Task 6: Identifying and Categorizing Offensive Language in Social Media (OffensEval) - ACL Anthology

SemEval-2017 Task 4: Sentiment Analysis in Twitter - ACL Anthology

Ezgi Arslan, PhD.

Branchenanalystin

Folgen auf

Ezgi hat einen Doktortitel in Betriebswirtschaft mit Spezialisierung auf Finanzen und arbeitet als Branchenanalystin bei AIMultiple. Sie treibt Forschung und Erkenntnisse an der Schnittstelle von Technologie und Wirtschaft voran, mit Fachwissen in den Bereichen Nachhaltigkeit, Umfrage- und Stimmungsanalyse, KI-Agenten-Anwendungen im Finanzwesen, Antwortmaschinenoptimierung, Firewall-Management und Beschaffungstechnologien.

Vollständiges Profil anzeigen