Tests de performance d'analyse des sentiments : ChatGPT, Claude et DeepSeek
L’identification précise des émotions et des sentiments, ainsi que la détection de l’ironie, de la haine et du caractère offensant, demeurent un défi nécessitant des tests et des améliorations supplémentaires. Nous avons évalué huit modèles linguistiques logiques (LLM), Claude 3.5, Claude 3.7, Claude 4.5, ChatGPT 4.0, ChatGPT 4.5, ChatGPT 5.0, DeepSeek V3 et Grok 4, sur cinq tâches clés liées à l’analyse des sentiments.
Les résultats mettent en évidence des distinctions nettes entre les outils :
- Claude 3.7 a obtenu la meilleure précision globale (79 %),
- ChatGPT 4.5 et DeepSeek V3 (70%) ont enregistré les performances globales les plus faibles.
Résultats expérimentaux : analyse comparative des sentiments
Classement : Les outils sont classés en fonction de leur taux de précision moyen, calculé sur l’ensemble des catégories testées : émotion, haine, ironie, caractère offensant et sentiment.
Pour plus de détails, consultez la méthodologie de notre analyse comparative .
Précision globale
En combinant toutes les tâches, les scores de précision totaux des modèles offrent une vue d'ensemble de leurs capacités :
- L'outil Claude 3.7 a surpassé tous les autres dans toutes les catégories, à l'exception de la détection de l'ironie. Sa précision moyenne pour les cinq catégories est de près de 80 %.
- Les performances de Claude 3.5 se situaient entre 67 % et 98 %, montrant des améliorations notables dans les tests à faible volume.
- ChatGPT 5.0 Auto a atteint une moyenne globale de 75 %, se positionnant comme un outil performant et équilibré dans toutes les catégories.
- Claude 4.5 a atteint une précision globale de 75 %. Il a démontré sa force dans la détection des émotions, de l'ironie et du caractère offensant, mais ses performances ont été moindres dans la classification de la haine, ce qui a nui à son équilibre.
- ChatGPT 4.0 , avec une précision d'étiquetage générale allant de 64 % à 98 %, est plus performant que tout autre outil dans la catégorie de la détection de l'ironie.
- Grok 4 a atteint une précision globale de 71 %. Bien qu'il ait obtenu de bons résultats en matière de détection des émotions, ses limitations concernant l'ironie, le caractère offensant et la classification des sentiments ont réduit sa compétitivité.
- La précision de DeepSeek V3 dans la détection de différentes émotions/sentiments varie entre 52 % et 92 %.
- ChatGPT 4.5 présente les pires performances en matière d'analyse des sentiments pour notre échantillon, avec une moyenne de 70 %.
1. Détection des émotions
La détection des émotions est une tâche complexe en analyse des sentiments , qui exige souvent des modèles qu'ils discernent des indices subtils dans le langage. Voici les performances des modèles :
- ChatGPT 4.0 a atteint une précision de 72 % lors de l'analyse de 50 déclarations.
- ChatGPT 4.5 a partagé la plus grande précision dans la détection des émotions avec Claude 3.7, avec un taux de réussite d'environ 80 % lors de l'analyse de 50 déclarations.
- ChatGPT 5.0 Auto a obtenu le taux de réussite le plus élevé avec une précision de 80 %, le mettant au même niveau que Claude 3.7 et ChatGPT 4.5.
- Claude 3.5 , quant à lui, a obtenu un score de 77,5 %.
- Claude 3.7 a atteint le taux de réussite le plus élevé d'environ 80 % dans la détection des émotions lors de l'analyse de 50 déclarations.
- Claude 4.5 a légèrement surpassé tous les autres dans cette tâche, atteignant le meilleur score de 82 % de précision.
- DeepSeek V3 analyse les émotions dans les 50 déclarations données à la fois avec une précision d'environ 76 %.
- Grok 4 a démontré d'excellentes performances, atteignant une précision de 80 % dans la détection des émotions.
2. Détection de la haine
La détection des contenus haineux est cruciale pour la classification des sentiments sur Twitter et d'autres tâches de modération. Les résultats ont révélé des différences notables :
- ChatGPT 4.0 a affiché une précision de 64 %.
- ChatGPT 4.5 a présenté un taux de réussite d'environ 57 % de précision dans la détection de la haine dans notre échantillon.
- ChatGPT 5.0 Auto a obtenu un succès limité dans cette tâche avec une précision de 54 %.
- Claude 3.5 a affiché un taux de réussite de 67,5 % dans la détection des propos haineux.
- Claude 3.7 , avec un taux de réussite de 78 %, a évalué les tweets pour détecter les déclarations haineuses avec la plus grande précision parmi les autres outils.
- Claude 4.5 a enregistré le résultat le plus faible parmi tous les modèles, avec un taux de précision de 50 % dans la détection des contenus haineux.
- DeepSeek V3 a obtenu le score le plus bas du test de référence, avec seulement 52 % de réussite dans la détection de la haine.
- Grok 4 a obtenu un score relativement bon de 65 %.
3. Détection de l'ironie
La détection de l'ironie est un domaine où l'évaluation sémantique joue un rôle crucial. Les deux modèles ont obtenu d'excellentes performances en matière d'analyse des sentiments, mais GPT-4o s'est clairement démarqué.
- ChatGPT 4.0 a conservé un taux de précision exceptionnel de 98 % dans l'identification des expressions ironiques. Ce succès s'explique par sa capacité à interpréter la polarité négative dans des scénarios complexes de classification de textes.
- ChatGPT 4.5 , avec un taux de réussite de 87 %, a prédit l'ironie du texte donné de la manière la moins réussie parmi les autres outils que nous avons testés dans cette comparaison pour la détection des émotions/sentiments.
- ChatGPT 5.0 Auto a démontré une solide capacité à détecter l'ironie, atteignant une précision de 93 %.
- Claude 3.5 a obtenu un score légèrement inférieur à celui de ChatGPT 4.0, atteignant une précision de 97 % avec 50 énoncés.
- Claude 3.7 a détecté l'ironie avec une précision d'environ 96 % pour le texte donné.
- Claude 4.5 a réalisé l'une des meilleures performances en matière de détection de l'ironie, avec un taux de précision de 95 %.
- DeepSeek V3 a atteint un taux de réussite d'environ 92 % dans la détection de l'ironie pour les tweets donnés.
- Le Grok 4 a obtenu un score inférieur dans ce domaine, avec 83 %, le plus bas de tous les modèles testés.
Compte tenu de la précision globale élevée des modèles, tous conviennent parfaitement aux messages Twitter à contenu ironique ou sarcastique. Cependant, le succès de GPT-4o lui confère un avantage considérable pour les applications exigeant un référentiel de fiabilité standard pour l'analyse des sentiments.
4. Détection de l'offense
La détection des contenus offensants est essentielle au maintien de communautés en ligne saines. Les performances de référence des modèles en matière d'analyse des sentiments pour cette tâche étaient les suivantes :
- ChatGPT 4.0 a obtenu un score de 76 % avec 50 tailles d'instructions. Ce résultat est cohérent avec ses solides méthodes d'apprentissage automatique et sa capacité d'adaptation aux variations de volume de données.
- ChatGPT 4.5 a atteint un taux de réussite d'environ 75 % dans la détection du caractère offensant des Tweets donnés.
- ChatGPT 5.0 Auto a obtenu le taux de réussite le plus élevé parmi tous les outils de détection d'offense, avec une précision de 82 %.
- Claude 3.5 a présenté la plus faible précision dans la détection du caractère offensant parmi les cinq outils, avec un taux de réussite d'environ 67 % avec 50 déclarations.
- Claude 3.7 a obtenu le meilleur score de détection d'offense au sein de notre échantillon avec un taux de réussite d'environ 77 %.
- Claude 4.5 a détecté l'offense avec 81%, renforçant sa force dans cette tâche.
- DeepSeek V3 a détecté des déclarations offensantes avec une précision de 69 %.
- Grok 4 a obtenu un score modeste de 67 %, se classant parmi les moins performants de cette catégorie.
Ces résultats soulignent l'importance du contexte et de la formation dans la conception de modèles de détection des propos offensants, où les schémas présents dans l'ensemble de données peuvent avoir un impact significatif sur les résultats.
5. Analyse des sentiments
L'analyse des sentiments, tâche principale, consistait à classer les données en sentiments positifs, négatifs et neutres. Les scores de précision obtenus pour cette tâche variaient considérablement d'un modèle à l'autre.
- ChatGPT 4.0 a obtenu un taux de réussite de 64 %.
- ChatGPT 4.5 , avec le taux de réussite le plus faible (moins de 54 %), a présenté la plus faible précision dans la classification des sentiments sur Twitter.
- ChatGPT 5.0 Auto a obtenu 67 % dans la classification générale des sentiments, ce qui le place dans la moyenne par rapport aux autres outils.
- Claude 3.5 a montré de meilleures performances sur 50 déclarations, avec une précision de 68 %.
- Claude 3.7 , avec un taux de réussite d'environ 68 %, a partagé les meilleures performances avec Claude 3.5 dans la détection des sentiments.
- Claude 4.5 a obtenu les meilleures performances avec un taux de précision de 69 %.
- DeepSeek V3 a obtenu un taux de précision de 64 % dans la détection des sentiments positifs, négatifs et neutres.
- Grok 4 a affiché de faibles performances, avec une précision de seulement 60 %.
Aucun des modèles n'a démontré de compétence dans la gestion de la classification des sentiments, dont le taux de réussite variait de ~54 % à 69 %.
Observations et réflexions
Impact du volume d'entrée
Les deux modèles ont montré une amélioration des performances de référence en matière d'analyse des sentiments avec des volumes d'entrée plus faibles dans certaines tâches, soulignant l'importance de réduire le bruit dans les données d'entraînement pour des tâches telles que la détection de la haine et la classification des sentiments.
Points forts spécifiques à la tâche
GPT-4o a dominé la détection de l'ironie et a obtenu des résultats constamment bons dans toutes les tâches. Claude 3.5, bien que légèrement moins constant, a excellé dans des tâches comme la détection des émotions, en particulier avec des volumes d'entrée plus importants.
Implications plus larges
Ces résultats expérimentaux valident l'efficacité de l'utilisation de jeux de données de référence comme TweetEval pour la recherche en classification de texte. Ces résultats peuvent guider la communauté de recherche dans le choix du modèle le plus adapté à son cas d'utilisation spécifique, qu'il s'agisse de détecter des nuances d'intensité des sentiments ou d'analyser la polarité négative des messages Twitter.
Ensemble de données de référence et méthodologie
Ensemble de données d'analyse
L' ensemble de données TweetEval a été sélectionné en raison de sa pertinence pour les techniques d'analyse des sentiments appliquées aux messages Twitter réels. 1 Cet ensemble de données fait partie de l'initiative de l'Association pour la linguistique computationnelle (ACL) et est largement utilisé dans les tâches d'évaluation sémantique et de classification de textes. Il se compose de données d'entraînement pré-étiquetées et d'ensembles de test couvrant plusieurs dimensions de la compréhension des sentiments et du contexte :
- Détection des émotions : Identification des tonalités émotionnelles telles que la colère, la joie, l'optimisme ou la tristesse dans les tweets.
Exemple de tweet et d'étiquette : Le tweet « #La dépression est réelle. Les partenaires de personnes #dépressives ne comprennent pas vraiment à quel point elles nous affectent. Ajoutez à cela #l'anxiété et c'est encore pire » est étiqueté comme triste. 2
- Détection de la haine : Évaluation de la présence de discours haineux dans des tweets donnés.
Exemple de tweet et d'étiquette : Le tweet « Trump veut expulser les étrangers illégaux sans juges ni procès #MeToo Je soutiens pleinement cette action. L'idée que quelqu'un entrant illégalement dans un pays et ne respectant pas ses lois devrait être protégé par les mêmes lois est absurde ! #DeportThemAll » est qualifié de haineux. 3
- Détection de l'ironie : Reconnaître l'intention ironique dans un contenu textuel.
Exemple de tweet et d'étiquette : Le tweet « Les gens qui disent aux personnes anxieuses d’“arrêter de s’inquiéter” sont mon genre de personnes préféré #pas #se renseigner » est étiqueté comme ironique. 4
- Détection du caractère offensant : Classification des tweets contenant un langage offensant.
Exemple de tweet et d'étiquette : Le tweet « #ConstitutionDay Il est très étrange que les conservateurs d'extrême droite disent que nous ruinons la constitution simplement parce que nous voulons #GunControlNow, mais ce sont eux qui ruinent la constitution en s'énervant parce que des étrangers non blancs viennent sur ce pays et veulent y vivre » est qualifié d'offensant. 5
- Classification des sentiments : Attribuer des étiquettes positives, négatives ou neutres aux tweets.
Exemple de tweet et d'étiquette : Le tweet « J'ai hâte d'essayer ça – Google Earth VR – c'est vraiment l'avenir de l'exploration… » est étiqueté comme positif. 6
Ces tâches correspondent aux approches d'apprentissage automatique du monde réel, ce qui les rend idéales pour évaluer les résultats expérimentaux des deux modèles.
Méthodologie d'analyse
Ce benchmark compare huit grands modèles de langage (LLM) de pointe : Claude 3.5, Claude 3.7, Claude 4.5, ChatGPT 4.0, ChatGPT 4.5, ChatGPT 5.0, DeepSeek V3 et Grok 4.
Dispositif expérimental
Afin de garantir la cohérence et la fiabilité des expériences, la méthodologie suivante a été employée :
Volume d'entrée
- Deux volumes d'entrée ont été testés : 50 tweets et 10 tweets par tâche.
- Cette variante visait à déterminer comment la taille des données d'entrée influe sur les performances du modèle, notamment dans des tâches comme l'analyse des sentiments et la détection de la haine, où le volume de données peut influencer la précision.
Évaluation spécifique à la tâche
Chaque tâche du jeu de données TweetEval a été testée séparément. Les tâches et leurs résultats ont été analysés à l'aide des modèles d'analyse de sentiments, et les scores de précision ont été enregistrés.
Métriques utilisées
Des scores de précision ont été calculés pour chaque tâche afin de garantir des résultats expérimentaux fiables.
Limitations de configuration
Nous avons utilisé des jeux de données dont les données de référence étaient publiques. Cela pourrait avoir entraîné un biais de données (c'est-à-dire un entraînement des modèles linéaires à longue portée sur les données de référence). Cependant, nous avons supposé que ce n'était pas le cas, car les précisions obtenues étaient loin d'être parfaites. Pour la prochaine version, nous pourrions envisager d'utiliser des tweets dont les données de référence n'ont pas été publiées.
Aperçu détaillé des LLM
Les outils ChatGPT 4.0, 4.5, Claude 3.5, 3.7 et DeepSeek V3 représentent des avancées significatives dans le domaine du traitement automatique du langage naturel (TALN), avec des applications allant de l'analyse des sentiments à l'intelligence artificielle conversationnelle. Ces modèles sont parmi les plus reconnus pour leur capacité à interpréter, traiter et générer un texte d'une grande fluidité. Vous trouverez ci-dessous une description détaillée de chaque modèle, mettant en lumière leurs fonctionnalités uniques et leur pertinence pour la classification des sentiments et les tâches d'apprentissage automatique connexes.
ChatGPT 4.0
ChatGPT 4.0, développé par OpenAI, est une version améliorée de son prédécesseur, GPT-3.5, et présente des améliorations significatives au niveau de l'architecture d'apprentissage profond et de la compréhension du langage. Ce modèle est optimisé pour un large éventail de tâches de traitement automatique du langage naturel (TALN), notamment les modèles d'analyse des sentiments et l'analyse des sentiments basée sur les aspects.
Applications en analyse des sentiments
ChatGPT 4.0 est fréquemment utilisé dans la communauté de recherche et l'industrie pour des tâches telles que :
- Analyse des sentiments des messages Twitter pour la surveillance des médias sociaux.
- Classification des sentiments exprimés dans les commentaires clients en e-commerce.
- Détection des émotions dans les applications de santé mentale.
- Analyse des sentiments basée sur les aspects pour les avis et les enquêtes sur les produits.
Limites
Malgré ses atouts, ChatGPT 4.0 peut parfois surapprendre des schémas de sentiments spécifiques, ce qui entraîne une précision réduite dans des contextes très spécifiques à un domaine.
ChatGPT 4.5
ChatGPT 4.5, une évolution de la série GPT de OpenAI, offre de solides performances pour diverses tâches d'analyse des sentiments. Il maîtrise bien la catégorisation des émotions, mais ses performances en matière de détection de la haine et de classification des sentiments sont relativement faibles, ce qui peut limiter son application dans certains contextes très sensibles.
Applications en analyse des sentiments
ChatGPT 4.5 est souvent utilisé dans :
- Outils de modération pour la détection des propos offensants et des discours haineux.
- Détection de l'ironie dans les discussions en ligne et les commentaires d'actualité.
- Analyse des sentiments exprimés sur les réseaux sociaux pour évaluer l'opinion publique sur divers sujets.
- Analyse des retours clients pour les plateformes de commerce électronique, avec un accent particulier sur les émotions.
Limites
Les performances de ChatGPT 4.5 en matière d'analyse des sentiments sont limitées par sa précision relativement faible dans la classification des sentiments et la détection de la haine.
ChatGPT 5.0
ChatGPT 5.0 représente la toute dernière génération de modèles de OpenAI, avec des améliorations au niveau du raisonnement contextuel, de la détection des nuances et de la modération de contenu. Bien que sa précision moyenne soit équivalente à celle de Claude 4.5 (75 %), ce modèle se distingue par ses performances exceptionnelles en matière de détection des propos offensants (82 %) et de l'ironie (93 %).
Applications en analyse des sentiments
ChatGPT 5.0 est particulièrement efficace pour :
- Détection des contenus offensants sur les forums en ligne et les plateformes de médias sociaux, où sa précision surpasse tous les autres outils.
- Analyse de l'ironie et du sarcasme , aidant les chercheurs et les entreprises à comprendre les contenus complexes générés par les utilisateurs.
- Reconnaissance des émotions dans les commentaires du service client, surveillance de la santé mentale et suivi des sentiments sur les réseaux sociaux.
- Classification générale des sentiments dans les données d'enquêtes à grande échelle, où une performance équilibrée entre les catégories est préférable.
Limites
Malgré ses atouts, les résultats plus faibles de ChatGPT 5.0 en matière de détection de la haine (54 %) réduisent son adéquation à la modération à enjeux élevés impliquant un langage toxique ou discriminatoire.
Claude 3.7
Claude 3.7 s'appuie sur les atouts de son prédécesseur, Claude 3.5, en améliorant la compréhension du contexte et la précision de l'analyse des sentiments. Fortement axé sur des pratiques d'IA sûres et éthiques, Claude 3.7 excelle dans la détection des sentiments complexes, notamment les émotions, l'ironie et les discours haineux, ce qui en fait un choix idéal pour les applications exigeant un haut niveau de sensibilité et de contexte.
Applications en analyse des sentiments
Claude Sonnet 3.7 est très efficace pour des tâches telles que :
- Détection des émotions dans les applications de retour client et de santé mentale.
- Détection des contenus haineux et offensants pour la modération des contenus en ligne, afin de garantir des espaces sûrs sur les plateformes numériques.
- Classification des sentiments dans les études de marché et l'intelligence économique.
Limites
Bien que Claude 3.7 surpasse tous les autres modèles dans les principaux domaines d'analyse des sentiments, ses performances dans des scénarios très spécifiques à un domaine peuvent encore présenter des difficultés, notamment face à des sentiments subtils. De plus, sa précision dans la détection des sentiments liés à des indices contextuels plus nuancés ou mineurs pourrait nécessiter des améliorations.
Claude 3.5
Claude 3.5, créé par Anthropic, est un modèle de traitement automatique du langage naturel (TALN) conçu pour garantir la sécurité, le respect de l'éthique et la précision de la génération de texte. Il est particulièrement adapté aux tâches exigeant une prise en compte du contexte et des techniques d'analyse des sentiments nuancées.
Applications en analyse des sentiments
Claude 3.5 pour travailler sur des scénarios tels que :
- Détection des contenus haineux pour la surveillance des médias sociaux et des plateformes en ligne.
- Détection du caractère offensant dans les systèmes de modération de contenu.
- Interactions avec le service client , en mettant l'accent sur la classification des sentiments afin d'améliorer l'expérience utilisateur.
- Analyse des sentiments basée sur les aspects pour identifier les tendances en matière de veille stratégique.
Limites
Bien que Claude 3.5 excelle dans la compréhension éthique et contextuelle, ses performances sont parfois inférieures à celles de ses concurrents pour la détection de sentiments très subtils ou implicites. De plus, son ensemble de données d'entraînement est moins diversifié que celui de ChatGPT 4.0, ce qui peut entraîner une robustesse moindre sur certains ensembles de données de référence.
Claude 4.5
Claude 4.5 s'appuie sur la série Claude de Anthropic en améliorant la sensibilité contextuelle et l'interprétabilité. Avec une moyenne de 75 % sur l'ensemble des tâches d'analyse des sentiments, Claude 4.5 a obtenu la meilleure précision en détection des émotions (82 %), de bonnes performances en détection de l'ironie (95 %) et du caractère offensant (81 %), mais a obtenu des résultats inférieurs en détection de la haine (50 %), le plus faible parmi tous les modèles testés.
Applications en analyse des sentiments
Claude 4.5 est bien adapté à :
- Détection des émotions dans les applications où des signaux subtils sont essentiels, comme les applications de retour d'information en matière de santé ou de bien-être.
- Identification de l'ironie et du sarcasme dans la surveillance des médias sociaux et l'analyse des opinions, où une interprétation nuancée est essentielle.
- Détection des contenus offensants dans la modération de contenu, offrant des résultats compétitifs pour la construction d'espaces en ligne plus sûrs.
- Classification des sentiments dans les études de marché et l'analyse de marque, bénéficiant de sa détection de polarité équilibrée mais légèrement plus forte (69%).
Limites
La faible précision de Claude 4.5 en matière de détection des propos haineux (50 %) limite considérablement son utilité dans les situations impliquant des discours nuisibles ou toxiques. De plus, bien qu'il excelle dans certaines catégories, ses performances sont inégales selon les tâches, ce qui le rend moins fiable pour les projets exigeant une précision uniforme sur l'ensemble des dimensions de l'analyse des sentiments.
DeepSeek V3
DeepSeek V3 offre des résultats solides sur un large éventail de tâches d'analyse des sentiments, mais sa précision globale est inférieure à celle d'autres modèles, notamment en matière de détection de la haine.
Applications en analyse des sentiments
DeepSeek V3 est largement utilisé pour :
- Détection des émotions dans les applications de santé mentale et suivi du ressenti des clients.
- Détection de l'ironie dans les conversations informelles, y compris sur les plateformes de médias sociaux et dans le contenu généré par les utilisateurs.
- Classification de base des sentiments pour les enquêtes d'études de marché et les formulaires de commentaires.
- Modération de contenu pour filtrer les propos offensants sur les forums en ligne.
Limites
Les performances inférieures de DeepSeek V3 en matière de détection de contenu haineux et ses capacités globales de classification des sentiments relativement plus faibles le rendent moins adapté aux applications à enjeux élevés telles que la modération de contenu sur des plateformes sensibles.
Grok 4
Grok est un modèle d'IA conversationnelle axé sur l'humour, l'interaction sociale et l'engagement dynamique. Lors de tests d'analyse des sentiments, Grok a obtenu une précision moyenne de 71 %, se classant ainsi dernier parmi tous les modèles testés.
Applications en analyse des sentiments
Grok peut être appliqué à :
- La détection des émotions dans les applications interactives, où l'identification du ton et de l'humeur améliore l'engagement de l'utilisateur.
- Outils de modération , notamment pour détecter les contenus haineux avec un niveau de précision modéré (65 %).
- Détection légère de l'ironie dans les discours en ligne, bien que présentant des limitations par rapport aux modèles plus avancés.
- Analyse exploratoire des sentiments dans des contextes créatifs ou informels, où la fluidité de la conversation prime sur la précision.
Limites
Les faiblesses de Grok en matière de classification des sentiments (60 %) et sa faible précision dans la détection de l'ironie (83 %) limitent son utilisation dans la recherche de haute précision ou l'analyse commerciale. Son approche, privilégiant la réactivité conversationnelle à la précision de référence, le rend moins adapté aux tâches exigeant une fiabilité constante dans la catégorisation des sentiments.
Pour en savoir plus
- Analyse des sentiments
- Analyse des sentiments ChatGPT
- Services d'analyse des sentiments
- Détection de faux avis
Soyez le premier à commenter
Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.