Benchmark

Test de référence d'analyse des sentiments: ChatGPT, Claude & Qwen

mis à jour le 15 juin 2026

Parvenir à un étiquetage précis des émotions et des sentiments, ainsi qu'à la détection de l'ironie, de la haine et de l'offense, reste un défi qui nécessite des tests et des améliorations supplémentaires. Nous avons testé 10 grands modèles de langage sur cinq tâches de sentiments : émotion, haine, ironie, offense et sentiment. Nous les avons classés selon la précision moyenne sur l'ensemble des cinq.

Les résultats mettent en évidence des distinctions claires entre les outils :

GPT 5.5 a obtenu la meilleure précision globale (80%),
Minimax M2.7 (72%) a enregistré les performances globales les plus faibles.

Résultats expérimentaux : benchmark d'analyse des sentiments

Loading Chart

Classement : Les outils sont classés selon leur taux de précision moyen agrégé sur toutes les catégories testées : émotion, haine, ironie, offense et sentiment.

Pour plus de détails, lisez la méthodologie de notre benchmark.

Précision globale

En combinant toutes les tâches, les scores de précision totale des modèles offrent une vue d'ensemble de leurs capacités :

GPT 5.5 s'est classé premier avec 80%. Il n'est jamais descendu en dessous de 73% dans aucune tâche, ce qui en fait le modèle plus constant du test.
Claude Sonnet 4.6 est arrivé deuxième avec 79%. Il a obtenu le résultat le plus élevé du benchmark : 82% sur la détection de la haine.
Qwen 3.6 Plus et ChatGPT 5.4 mini sont à égalité en troisième position avec 78%. ChatGPT 5.4 mini est le plus petit modèle parmi les mieux classés, mais il a mené la détection d'offense et a été à égalité pour la première place en ironie.
Kimi k2.6 a obtenu 77%, avec des résultats stables et aucune tâche clairement faible.
Gemini 3.1-pro et GLM 5.1 sont à égalité à 76%. Gemini 3.1-pro a été à égalité pour la première place en détection d'émotion mais s'est classé bas en détection de haine.
Claude Opus 4.8 a obtenu 74%. Il a été freiné par la détection d'émotion (68%), sa catégorie la plus faible.
Gemini 3.5 Flash a obtenu 73%. Son résultat en haine (65%) a été le plus bas dans cette tâche.
Minimax M2.7 s'est classé dernier à 72%. Il a obtenu les scores les plus bas en émotion, ironie et offense.

1. Détection d'émotion

La détection d'émotion est une tâche difficile en analyse des sentiments, nécessitant souvent que les modèles discernent des indices subtils dans le langage. Voici comment les modèles ont performé :

GPT 5.5 et Gemini 3.1-pro sont à égalité en première position avec 80%.
Qwen 3.6 Plus a suivi avec 79%.
Kimi k2.6 a obtenu 78%, et GLM 5.1 a obtenu 77%.
ChatGPT 5.4 mini a atteint 76%, et Claude Sonnet 4.6 a atteint 75%.
Gemini 3.5 Flash a obtenu 73%.
Claude Opus 4.8 a obtenu 68%.
Minimax M2.7 a obtenu le score le plus bas avec 66%.

La détection d'émotion a présenté un large écart : 14 points entre les modèles mieux et les moins bien classés. Cela en fait l'une des deux tâches qui séparent le plus clairement les modèles.

2. Détection de la haine

La détection de contenus haineux est cruciale pour la classification des sentiments sur Twitter et d'autres tâches de modération. Les résultats ont révélé des différences notables :

Claude Sonnet 4.6 a mené avec 82%, le score individuel le plus élevé du benchmark.
GPT 5.5 a suivi de près avec 80%.
Qwen 3.6 Plus a obtenu 77%.
Kimi k2.6 et GLM 5.1 ont tous deux obtenu 76%.
Minimax M2.7 a obtenu 75%.
ChatGPT 5.4 mini a obtenu 72%.
Gemini 3.1-pro et Claude Opus 4.8 ont tous deux obtenu 71%.
Gemini 3.5 Flash a obtenu le score le plus bas avec 65%.

La détection de la haine a présenté l'écart le plus large de toutes les tâches : 17 points. Si la modération est votre cas d'usage, choisissez parmi les meilleurs de cette colonne plutôt qu'à partir du classement moyen.

3. Détection de l'ironie

La détection de l'ironie est un domaine où l'évaluation sémantique joue un rôle central. Les deux modèles ont fourni de hautes performances dans le benchmark d'analyse des sentiments, mais GPT-4o s'est imposé comme un leader incontesté :

GPT 5.5, Claude Sonnet 4.6, Qwen 3.6 Plus et ChatGPT 5.4 mini sont à égalité en première position avec 91%.
Gemini 3.1-pro, GLM 5.1 et Gemini 3.5 Flash ont chacun obtenu 87%.
Claude Opus 4.8 a obtenu 86%, et Kimi k2.6 a obtenu 85%.
Minimax M2.7 a obtenu le score le plus bas avec 82%.

C'était la tâche la plus facile de l'ensemble. Même le score le plus bas était de 82%. Pour les travaux qui reposent sur la détection de l'ironie ou du sarcasme, n'importe lequel de ces modèles constitue un point de départ sûr.

4. Détection de l'offense

La détection de contenus offensants est essentielle pour maintenir des communautés en ligne saines. Les performances des modèles dans ce benchmark d'analyse des sentiments pour cette tâche étaient les suivantes :

ChatGPT 5.4 mini a mené avec 75%.
GPT 5.5 a obtenu 73%, et Claude Sonnet 4.6 a obtenu 72%. Claude Opus 4.8 a obtenu 70%.
Qwen 3.6 Plus, Kimi k2.6, Gemini 3.1-pro et GLM 5.1 ont tous obtenu 69%.
Gemini 3.5 Flash a obtenu 68%.
Minimax M2.7 a obtenu le score le plus bas avec 65%.

Aucun modèle n'a atteint 76% sur la métrique d'offense. L'ensemble des résultats s'étend de 65% à 75%. Le contexte domine cette tâche, et les cas limites du jeu de données font trébucher chaque modèle.

5. Analyse des sentiments

La tâche globale d'analyse des sentiments consistait à classer les données en sentiments positifs, négatifs et neutres. Les scores de précision pour cette tâche variaient considérablement entre les modèles :

GPT 5.5, Qwen 3.6 Plus, ChatGPT 5.4 mini et Gemini 3.1-pro sont à égalité en première position avec 75%.
Kimi k2.6, Claude Opus 4.8, Gemini 3.5 Flash et Minimax M2.7 ont tous obtenu 74%.
Claude Sonnet 4.6 a obtenu 73%.
GLM 5.1 a obtenu le score le plus bas avec 72%.

L'écart total n'était que de 3 points, de 72% à 75%. Aucun modèle n'a bien géré le sentiment à trois classes. Si le projet a besoin d'étiquettes positives, négatives et neutres fiables, aucun de ces modèles n'est prêt à fonctionner sans vérification humaine.

Observations et perspectives

Toutes les tâches ne sont pas également difficiles

L'ironie était facile pour tous les modèles (82% à 91%). Le sentiment et l'offense étaient difficiles pour tous les modèles, avec tous les scores compris entre 65% et 75%. Choisissez un modèle pour la tâche que vous avez réellement, pas pour son classement moyen.

L'émotion et la haine séparent le mieux les modèles

Ces deux tâches présentaient les écarts de score les plus larges : 14 et 17 points. Si votre cas d'usage est le suivi des émotions ou la modération, le choix du modèle importe davantage ici que partout ailleurs.

Une moyenne élevée peut masquer une tâche faible

GPT 5.5 s'est classé premier au classement général et est resté solide dans tous les domaines. Mais Claude Opus 4.8 s'est classé huitième au classement général, tout en obtenant 86% en ironie. Lisez la colonne de votre tâche, pas la moyenne.

Jeu de données et méthodologie du benchmark

Jeu de données d'analyse

Nous avons utilisé le jeu de données TweetEval, conçu pour l'analyse des sentiments sur des messages Twitter réels.¹ Il fait partie des travaux de l'Association for Computational Linguistics (ACL) sur l'évaluation sémantique. Le jeu de données est fourni avec des ensembles d'entraînement et de test pré-étiquetés couvrant cinq types de tâches :

Détection d'émotion : nommer le sentiment dans un tweet, tel que la colère, la joie, l'optimisme ou la tristesse. Exemple de tweet et étiquette : « #Deppression is real. Partners w/ #depressed people truly dont understand the depth in which they affect us. Add in #anxiety &makes it worse » est étiqueté triste.²
Détection de la haine : signaler les discours haineux dans un tweet. Exemple de tweet et étiquette : « Trump veut expulser les immigrés clandestins sans 'juges ni procès' #MeToo Je soutiens fermement cette action L'idée que quelqu'un qui entre illégalement dans un pays & ne respecte pas ses lois, devrait être protégé par ces mêmes lois est ridicule ! #DeportThemAll » est étiqueté haineux.³
Détection de l'ironie : repérer l'intention ironique. Exemple de tweet et étiquette : « Les gens qui disent aux personnes anxieuses 'arrête de t'inquiéter' sont mon genre de personnes préféré #not #educateyourself » est étiqueté ironie.⁴
Détection de l'offense : classer les tweets contenant un langage offensant. Exemple de tweet et étiquette : « #ConstitutionDay C'est très étrange que les conservateurs d'extrême droite disent que nous ruinons la constitution parce que nous voulons #GunControlNow mais ce sont eux qui ruinent la constitution en s'énervant parce que des étrangers qui ne sont pas blancs viennent dans ce pays pour y vivre » est étiqueté offensant.⁵
Classification des sentiments : attribuer une étiquette positive, négative ou neutre. Exemple de tweet et étiquette : « J'ai hâte d'essayer ça – Google Earth VR – ce truc est vraiment l'avenir de l'exploration… » est étiqueté positif.⁶

Ces tâches correspondent aux approches réelles d'apprentissage automatique, ce qui les rend idéales pour évaluer les résultats expérimentaux des deux modèles.

Modèles testés

Nous avons testé 10 grands modèles de langage, tous via l'OpenRouter API afin que la configuration soit la même pour chacun :

GPT 5.5, ChatGPT 5.4 mini, Claude Sonnet 4.6, Claude Opus 4.8, Gemini 3.1-pro, Gemini 3.5 Flash, Qwen 3.6 Plus, Kimi k2.6, GLM 5.1 et Minimax M2.7.

Configuration expérimentale

Nous avons gardé tous les paramètres identiques pour l'ensemble des 10 modèles.

Échantillon

Nous avons utilisé les 200 premiers tweets de l'ensemble de test officiel de chaque tâche, avec les étiquettes de référence du jeu de données. Les mêmes 200 tweets ont été envoyés à chaque modèle, de sorte que la comparaison soit strictement comparable.

Prompting

Nous avons utilisé des prompts zero-shot : une instruction de tâche simple et le tweet brut, sans exemple travaillé. Le modèle renvoyait une étiquette et rien d'autre.

Nous avons rédigé les prompts de manière à ne rien révéler. Nous n'avons pas nommé le benchmark, appelé le modèle « annotateur » ou suggéré qu'il était évalué. Nommer le test peut modifier la façon dont un modèle répond, nous l'avons donc omis. Le prompt pour l'émotion, par exemple, demandait au modèle de choisir parmi colère, joie, optimisme ou tristesse et de répondre par ce mot.

Paramètres de génération

Nous avons réglé la température à 0, ce qui rend la sortie aussi stable que le modèle permet. Nous avons fixé la limite de tokens à 4,096. La limite élevée est importante pour les modèles de raisonnement : avec une petite limite, ils dépensent tout le budget en raisonnement caché et renvoient une réponse vide. L'espace supplémentaire leur permet de terminer le raisonnement et d'imprimer quand même l'étiquette. Les modèles qui ne raisonnent pas répondent en un seul mot court, donc la limite ne coûte rien dans ce cas.

Lire les réponses

Nous avons mappé chaque réponse à une étiquette en plusieurs étapes : d'abord une correspondance exacte, puis une courte liste de synonymes (par exemple, « happy » correspond à joie), puis une recherche de n'importe quelle étiquette à l'intérieur d'une réponse plus longue. Les réponses que nous ne pouvions pas lire ont été comptées comme fausses.

Métrique

Le score de chaque tâche n'est pas la précision brute. Nous avons utilisé la métrique que les auteurs de TweetEval ont définie pour chaque tâche :

Émotion : macro-F1
Sentiment : macro-recall
Haine : macro-F1
Ironie : F1 de la classe ironie
Offense : macro-F1

La macro-F1 et le macro-recall pondèrent chaque classe de la même manière, quelle que soit sa fréquence d'apparition. C'est le bon choix ici car les classes comme la haine ou l'ironie sont rares, et la précision brute permettrait à un modèle de paraître bon en choisissant toujours l'étiquette la plus courante. La colonne moyenne est la moyenne de ces cinq scores.

Fiabilité

Quelques modèles ont atteint les limites de débit pendant l'exécution et ont abandonné certains appels. Nous avons relancé les lignes échouées à faible vitesse pour éviter les limites et avons répété cela jusqu'à ce qu'il n'y ait plus d'échec. Les résultats finaux ne comportent aucun appel échoué ni réponse illisible.

Limites de la configuration

Nous avons utilisé un échantillon de 200 tweets de chaque jeu de test, pas l'ensemble complet, donc ces chiffres ne correspondent pas au classement TweetEval publié. La comparaison entre nos 10 modèles reste valable, car chaque modèle a vu les mêmes tweets.

L'échantillon de 200 tweets est fixe, non aléatoire, il est donc reproductible mais ne constitue pas un échantillon aléatoire. Chaque tâche a également utilisé un seul prompt à température 0. Un prompt différent, ou des exemples few-shot, modifieraient les valeurs absolues.

Nous avons utilisé des jeux de données avec des étiquettes de référence publiques. Cela comporte un risque de contamination, où un modèle aurait vu les étiquettes pendant l'entraînement. Nous ne pouvons pas l'exclure, mais les scores étaient loin d'être parfaits, ce qui suggère que ce n'était pas un facteur majeur. Pour la prochaine version, nous prévoyons de tester des tweets dont les étiquettes n'ont pas été publiées.

Étant donné que l'échantillon est de 200 tweets par tâche, de petits écarts sont dus au bruit d'échantillonnage. Nous considérons une différence d'un à deux points comme une égalité plutôt qu'un classement.

Laissez notre équipe automatiser l'un de vos processus métier avec des agents IA, gratuitement.

Automatiser un processus

Quel modèle choisir

Les scores complets se trouvent dans le tableau ci-dessus. Cette section est plus courte : elle associe les besoins courants au modèle qui convient.

Meilleur choix polyvalent : GPT 5.5. Il s'est classé premier et est resté solide sur toutes les tâches, c'est donc le choix par défaut sûr lorsque votre travail mélange plusieurs tâches de sentiment.
Modération de contenu et discours haineux : Claude Sonnet 4.6. Il a obtenu le score le plus élevé de tous les modèles sur la haine. GPT 5.5 est un deuxième très proche.
Détection de langage offensant à petit budget : ChatGPT 5.4 mini. Il a mené l'offense et égalé les meilleurs scores en ironie, ce qui est rare pour un modèle plus petit et moins cher.
Suivi des émotions et des sentiments : Gemini 3.1-pro ou Qwen 3.6 Plus. Tous deux se situent en tête de ces deux colonnes. Utilisez-les pour des travaux sur l'humeur et les opinions plutôt que pour la modération.
Ironie et sarcasme : presque n'importe quel modèle ici. Les scores allaient de 82% à 91%, donc cette tâche dicte rarement le choix. Choisissez le modèle moins cher qui répond à vos autres besoins.
Utilisation stable et polyvalente : Kimi k2.6. Aucune tâche exceptionnelle, mais aucune tâche faible non plus.
À utiliser avec prudence pour des travaux à enjeux élevés : Gemini 3.5 Flash et Minimax M2.7 se sont classés en bas du tableau. Gemini 3.5 Flash était le plus faible sur le discours haineux, donc évitez-le particulièrement pour la modération.

Un rappel qui traverse tout cela : lisez la colonne de votre tâche, pas la moyenne. Un modèle peut se classer au milieu du tableau général et pourtant être en tête sur la seule tâche qui vous intéresse.

Pour en savoir plus

Ne manquez pas nos benchmarks et analyses basées sur les données. Le bouton ouvre Google ; sélectionner AIMultiple confirme que vous souhaitez voir AIMultiple plus souvent dans les résultats de recherche Google.

Ajouter comme source préférée

Citez ce benchmark

Choisissez le format qui correspond à votre lieu de publication. Coller la version avec lien dans votre CMS préserve le lien retour.

Ezgi Arslan, PhD. (2026) - "Test de référence d'analyse des sentiments: ChatGPT, Claude & Qwen". Publié en ligne sur AIMultiple.com. Consulté le 15 Juin 2026, à : https://aimultiple.com/sentiment-analysis-benchmark [Ressource en ligne]

PhD., E. A. (2026, 15 Juin). Test de référence d'analyse des sentiments: ChatGPT, Claude & Qwen. AIMultiple. https://aimultiple.com/sentiment-analysis-benchmark

@misc{phd2026,
  author = {PhD., Ezgi Arslan,},
  title  = {{Test de référence d'analyse des sentiments: ChatGPT, Claude & Qwen}},
  year   = {2026},
  month  = jun,
  howpublished    = {\url{https://aimultiple.com/sentiment-analysis-benchmark}},
  note   = {AIMultiple. Consulté le 15 Juin 2026}
}

Liens de référence

Cardiff NLP · GitHub

SemEval-2018 Task 1: Affect in Tweets - ACL Anthology

SemEval-2019 Task 5: Multilingual Detection of Hate Speech Against Immigrants and Women in Twitter - ACL Anthology

SemEval-2018 Task 3: Irony Detection in English Tweets - ACL Anthology

SemEval-2019 Task 6: Identifying and Categorizing Offensive Language in Social Media (OffensEval) - ACL Anthology

SemEval-2017 Task 4: Sentiment Analysis in Twitter - ACL Anthology

Ezgi Arslan, PhD.

Analyste sectorielle

Suivre

Ezgi est titulaire d'un doctorat en administration des affaires avec une spécialisation en finance et travaille comme analyste sectorielle chez AIMultiple. Elle pilote la recherche et les analyses à l'intersection de la technologie et des affaires, avec une expertise couvrant la durabilité, l'analyse des enquêtes et des sentiments, les applications des agents IA en finance, l'optimisation pour les moteurs de réponse, la gestion des pare-feux et les technologies d'approvisionnement.

Voir le profil complet

Soyez le premier à commenter

Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires. Les commentaires sont laissés dans leur langue d'origine.

Résultats expérimentaux : benchmark d'analyse des sentiments

Jeu de données et méthodologie du benchmark

Quel modèle choisir

Pour en savoir plus

Citez ce benchmark

Nous suivons des normes éthiques et notre processus pour garantir l'objectivité. Cette étude ne mentionne aucun client d'AIMultiple.

Ajouter comme source préférée

Test de référence d'analyse des sentiments: ChatGPT, Claude & Qwen

Résultats expérimentaux : benchmark d'analyse des sentiments

Précision globale

1. Détection d'émotion

2. Détection de la haine

3. Détection de l'ironie

4. Détection de l'offense

5. Analyse des sentiments

Observations et perspectives

Toutes les tâches ne sont pas également difficiles

L'émotion et la haine séparent le mieux les modèles

Une moyenne élevée peut masquer une tâche faible

Jeu de données et méthodologie du benchmark

Jeu de données d'analyse

Modèles testés

Configuration expérimentale

Échantillon

Prompting

Paramètres de génération

Lire les réponses

Métrique

Fiabilité

Limites de la configuration

Quel modèle choisir

Pour en savoir plus

Citez ce benchmark

Liens de référence

Soyez le premier à commenter

À lire ensuite

Top 6 des constructeurs d'applications IA: Lovable, Base44 & Glide

Densité d'intelligence de 71 LLMs: modèles plus intelligents et plus denses

Benchmark VPS: Hetzner vs Digital Ocean

Modèles d'embedding multimodaux: Apple vs Meta vs OpenAI

Modèles de Langage Visuel Comparés à la Reconnaissance d'Images

Benchmark Finance Agentic AI: FinRobot vs FinRL vs FinGPT

Test de référence d'analyse des sentiments: ChatGPT, Claude & Qwen

Résultats expérimentaux : benchmark d'analyse des sentiments

Précision globale

1. Détection d'émotion

2. Détection de la haine

3. Détection de l'ironie

4. Détection de l'offense

5. Analyse des sentiments

Observations et perspectives

Toutes les tâches ne sont pas également difficiles

L'émotion et la haine séparent le mieux les modèles

Une moyenne élevée peut masquer une tâche faible

Jeu de données et méthodologie du benchmark

Jeu de données d'analyse

Modèles testés

Configuration expérimentale

Échantillon

Prompting

Paramètres de génération

Lire les réponses

Métrique

Fiabilité

Limites de la configuration

Quel modèle choisir

Pour en savoir plus

Citez ce benchmark

Lien avec attributionHTML, pour les billets de blog, articles LinkedIn et newsletters. Recommandé.

APA 7e éditionPour les articles universitaires et rapports d'analystes selon le style APA 7e.

BibTeXPour les documents LaTeX et les gestionnaires de références académiques.

Liens de référence

Soyez le premier à commenter

À lire ensuite

Top 6 des constructeurs d'applications IA: Lovable, Base44 & Glide

Densité d'intelligence de 71 LLMs: modèles plus intelligents et plus denses

Benchmark VPS: Hetzner vs Digital Ocean

Modèles d'embedding multimodaux: Apple vs Meta vs OpenAI

Modèles de Langage Visuel Comparés à la Reconnaissance d'Images

Benchmark Finance Agentic AI: FinRobot vs FinRL vs FinGPT