Les grands modèles de langage et l'IA émotionnelle peuvent détecter les émotions à partir de la voix, du visage et de données, et générer des séquences audio ou vidéo à partir d'instructions. Nous avons évalué les capacités de détection des émotions de deux logiciels de détection des émotions et de sept grands modèles de langage à l'aide de 70 images de visages. Dans ce test , GPT o4 Mini High s'est distingué en identifiant correctement les émotions dans 69 % des images.
De plus, nous explorons dix outils d'IA émotionnelle de pointe et partageons nos observations pratiques .
Évaluation comparative de la reconnaissance des émotions
Résultats de référence en matière de reconnaissance des émotions
- GPT o4 Mini High a atteint la plus grande précision, identifiant correctement les émotions dans 69% des images.
- Viennent ensuite GPT 5.2 (67 %), GPT 5 Mini (66 %) et GPT o4 Mini (66 %). GPT 5 Nano (61 %) est moins performant que les autres modèles GPT utilisés dans l'analyse.
- En général, les modèles des familles Gemini , Grok et Claude ont été moins performants, avec Gemini 3 Flash Preview obtenant un score de 63 %, Claude Opus 4.5 à 60 %, Gemini 3 Pro Preview à 59 %, Grok 4 à 54 % , Claude Sonnet 4.5 à 50 % (identique à Grok 4.1 Fast ) et Claude Haiku 4.5 à 49 % .
Parmi les outils d'IA émotionnelle,
- Imertiv AI a atteint un taux de réussite de 40 % , tandis que Hume a suivi avec 36 % .
Dans l'ensemble, les résultats montrent que les LLM actuels, en particulier GPT-4.1 Mini , peuvent détecter les émotions à partir d'images avec un succès modéré, surpassant la plupart des outils d'IA émotionnelle dédiés dans ce test.
Consultez la section relative aux critères d'évaluation pour plus de détails sur l'évaluation comparative.
Méthodologie d'évaluation comparative des logiciels de reconnaissance des émotions et des LLM
Ce test de référence a permis d'évaluer la capacité des grands modèles de langage (LLM) et des logiciels de détection des émotions à reconnaître les émotions dans les images.
Les outils émotionnels dédiés ont été testés dans leurs interfaces utilisateur spécifiques, et les LLM ont été testés en utilisant leurs clés API respectives ou les clés API universelles de OpenRouter, selon leur disponibilité.
Ensemble de données
Nous utilisons une partie de l'ensemble de données Facial Emotion Detection, qui comprend un ensemble d'images étiquetées montrant différentes émotions humaines. 1 Chaque image contenait des expressions faciales représentant des états émotionnels courants tels que le bonheur, la tristesse, la colère, la peur et la surprise.
Neuf outils ont été testés :
- Sept grands modèles de langage (LLM) : GPT o4 Mini High , GPT o4 Mini , GPT 5 Mini , GPT 5.2 , GPT 5 Nano , Claude Opus 4.5 , Claude Sonnet 4.5 , Claude Haiku 4.5 , Gemini 3 Pro Preview , Gemini 3 Flash Preview , Grok 4 et Grok 4.1 Fast
- deux outils d'IA émotionnelle dédiés : Hume et Imertiv AI .
Chaque outil a reçu le même ensemble d'images et a été invité à identifier l'émotion dominante. Les réponses ont été comparées aux étiquettes émotionnelles correspondantes. Le taux de réussite représente le pourcentage d'images pour lesquelles l'outil a correctement identifié l'émotion étiquetée.
Comparaison des outils d'informatique affective
Mesure de l'expression de Hume
Hume Expression Measurement est un outil d'intelligence artificielle émotionnelle qui permet d'identifier et de mesurer les émotions humaines. Accessible via une application unique, il utilise quatre types de données : la voix, les images, la vidéo et les expressions faciales. L'ensemble de ces données offre une analyse plus fine et détaillée de la façon dont les individus expriment leurs émotions.
Expérience réelle
Ce logiciel de reconnaissance des émotions n'est peut-être pas toujours précis à 100 %, mais il saisit efficacement les nuances émotionnelles, notamment à travers les intonations. Il n'est cependant pas parfait. Il peut parfois ne pas détecter les émotions de base lors de variations vocales. Malgré cela, les résultats émotionnels sont souvent réalistes et nuancés.
Hume est idéal pour les utilisateurs qui souhaitent une analyse détaillée et réactive du comportement émotionnel, et non de simples étiquettes comme « heureux » ou « triste ». L'application web du logiciel de reconnaissance des émotions est extrêmement conviviale.
Caractéristiques principales
- Le logiciel fournit une analyse en temps réel des émotions, des sentiments et de la toxicité d'un texte donné.
Figure 1. Analyse textuelle des émotions selon la mesure de l'expression de Hume
Figure 2. Analyse textuelle du sentiment selon l'échelle de Hume (mesure des expressions de Hume).
Pour plus d'informations sur l'analyse des sentiments, consultez nos articles sur le sujet .
- Ce logiciel de reconnaissance des émotions détecte également les émotions à partir de vidéos, d'images et de documents audio. Les utilisateurs peuvent importer des documents ou utiliser leur propre caméra et leurs haut-parleurs pour la détection des émotions.
Hume analyse la parole, les images et les vidéos à l'aide de plusieurs fonctionnalités :
- Expression faciale : Détecte les mouvements du visage pour comprendre les émotions faciales comme la joie, la colère ou la tristesse.
- Explosion vocale : Mesure la façon dont une personne sonne, si elle est calme, excitée, stressée, etc.
- La prosodie de la parole : elle permet de suivre les variations de ton, de hauteur et de rythme. Elle contribue à identifier la tonalité émotionnelle des propos d'une personne.
Figure 3. Analyse vidéo de la prosodie de la parole selon la mesure de l'expression de Hume
Studio d'observation Mangold
Mangold Observation Studio est une plateforme complète conçue pour la recherche avancée basée sur les capteurs. Elle rassemble de nombreuses sources de données (vidéo, audio, expressions faciales, signaux physiologiques, etc.) au sein d'un système synchronisé.
Caractéristiques principales
- Enregistrement vidéo et d'écran : Capture le comportement des participants et l'activité de l'écran pour un contexte complet.
- Intégration des capteurs : Prend en charge l'EEG, le suivi oculaire, la fréquence cardiaque, la réponse cutanée et l'activité musculaire.
- Analyse vocale : Convertit automatiquement les mots prononcés en texte.
- Sondages et annotations : Ajoutez les commentaires des participants ou signalez les moments clés des sessions.
- Conception multimodale : contrairement aux outils qui se concentrent uniquement sur un seul type de données (comme l’expression faciale), Mangold combine plus de 120 types de capteurs sur une seule plateforme.
- Configuration évolutive : Prend en charge un nombre illimité de participants et d'appareils simultanément, avec des enregistrements synchronisés.
- Contrôle total du réseau : Tous les appareils peuvent être gérés depuis un poste central.
- Modulaire et personnalisable : les chercheurs peuvent créer leur propre configuration et l'intégrer à des outils externes via une API.
SDK Visage
Visage SDK est un logiciel de reconnaissance des émotions faciales qui aide les entreprises à suivre et analyser les visages en temps réel. Il utilise des technologies de vision par ordinateur avancées pour comprendre les émotions, l'âge, le sexe et l'identité des personnes.
Caractéristiques principales
- Assistance en ligne et hors ligne : Fonctionne à la fois en ligne (dans le cloud) et hors ligne (sur votre appareil), vous n'êtes donc pas toujours dépendant d'une connexion Internet.
- Priorité à la confidentialité : Garantit qu'aucune donnée personnelle, comme les noms ou les photos, n'est stockée ou traitée sans votre consentement.
- Intégration Unity : S’intègre à Unity pour créer des filtres faciaux ou des expériences interactives dans les jeux.
Applications
- Essayages virtuels : Utilisez la reconnaissance faciale pour permettre aux clients d’essayer virtuellement des lunettes, du maquillage ou d’autres produits.
- Surveillance du conducteur : Détecter les comportements de conduite dangereux, tels que la somnolence ou la distraction, afin d'améliorer la sécurité routière.
- Surveillance des passagers : Suivez le bien-être des passagers dans les voitures ou les transports en commun afin d'améliorer la sécurité et le confort.
- Réalité augmentée (RA) : Créez des expériences amusantes et engageantes comme des filtres d'embellissement ou des masques faciaux réalistes pour les médias sociaux ou les applications.
Imentiv IA
Imentiv AI est un logiciel de détection des émotions qui aide les utilisateurs à comprendre les sentiments, les paroles et les comportements des personnes dans les contenus vidéo, audio et textuels. Il combine intelligence artificielle et expertise psychologique pour analyser les émotions et la personnalité humaines en temps réel.
Expérience concrète :
Imentiv AI aide les utilisateurs à analyser les émotions dans les vidéos. Vous pouvez importer une vidéo complète ou vous concentrer sur une image précise. L'outil analyse les expressions faciales, le ton de la voix et la transcription pour en déduire les indices émotionnels.
L'analyse semble précise et couvre un large éventail de signaux émotionnels. Outre des informations de base, la plateforme propose également des évaluations psychologiques, qui peuvent être programmées via un système de rendez-vous.
Figure 4. Analyse des traits de personnalité de l'IA Imentiv
Caractéristiques principales
- Analyse multimodale : Elle analyse simultanément la vidéo, l’audio et le texte. Cela permet d’obtenir une image plus complète des réactions émotionnelles.
- Suivi du visage et de la voix : détecte plusieurs visages dans chaque image vidéo. Associe les voix aux visages ou les analyse séparément. Indique qui parle et à quel moment.
- Graphique des émotions : Affiche les émotions faciales en temps réel sur un graphique circulaire dynamique. La roue des émotions offre une visualisation claire de l’évolution des émotions au fil du temps.
- Analyse des traits de personnalité : Utilise le modèle OCEAN (Ouverture, Conscience professionnelle, Extraversion, Agréabilité, Névrosisme) pour résumer les traits de personnalité des personnes présentes dans la vidéo. Les résultats sont présentés sous forme d’un graphique à barres simple avec un code couleur.
- Examen par des psychologues : Des psychologues qualifiés examinent les résultats de l’IA afin de déceler les biais cachés et les déclencheurs émotionnels. Cela apporte un éclairage précieux à l’analyse de l’IA.
RightFlow
RightFlow est un outil d'intelligence artificielle émotionnelle qui analyse les expressions faciales pour comprendre ce que ressentent les consommateurs lors de leur interaction avec une marque. Il aide les entreprises à identifier des émotions telles que la joie, la colère, la peur ou la surprise afin d'améliorer leur marketing, leur service client et la conception de leurs produits.
Caractéristiques principales
- Détection des zones d'intérêt : Identifie les endroits où les gens passent du temps et ce qui attire leur attention.
- Comptage de personnes : Permet de suivre le nombre de personnes interagissant avec un espace ou un produit.
- Analyse démographique : Recueil des données sur l'âge et le sexe afin de comprendre les différences entre les publics.
- Analyse de l'attention : Mesure les mouvements de la tête et des yeux pour comprendre sur quoi se concentrent les clients.
Contrairement aux outils qui se concentrent uniquement sur la détection des émotions, RightFlow combine les données émotionnelles avec le comptage des clients, le suivi démographique et les mesures de sécurité physique. Il est conçu pour les espaces publics, les magasins ou les événements où une analyse en temps réel et sans contact est essentielle.
Moteur de détection des émotions par IA faciale MoodMe
Le moteur d'IA faciale de MoodMe est un outil qui analyse les expressions faciales pour détecter les émotions en temps réel. Il fonctionne directement sur l'appareil de l'utilisateur, sans connexion internet ni traitement dans le cloud.
Caractéristiques principales
- Détection démographique : le moteur peut estimer le sexe, l’âge, l’origine ethnique et le type de cheveux. Cela permet aux applications de mieux comprendre qui interagit avec elles.
- Reconnaissance faciale : MoodMe intègre un outil d’identification faciale. Il peut comparer un visage à des modèles enregistrés localement pour des vérifications d’identité sécurisées.
- Impartiale et inclusive : l’IA est entraînée sur des données diversifiées afin d’éviter de privilégier un groupe quelconque. Cela garantit des résultats plus justes, quelles que soient les expressions faciales.
- Respect de la vie privée avant tout : tout traitement s’effectue sur l’appareil de l’utilisateur. Les visages ne sont jamais stockés ni envoyés sur le cloud. Ceci garantit la confidentialité et respecte les réglementations strictes en matière de protection des données.
MorphCast MyMoodScan
MyMoodScan est une application web gratuite de détection des émotions développée par MorphCast. Elle analyse les expressions faciales pour révéler les émotions cachées . Vous pouvez importer une photo ou utiliser l'appareil photo de votre téléphone pour obtenir un retour émotionnel en temps réel.
Expérience concrète :
L'application est amusante, mais pas toujours fiable. Il arrive qu'elle interprète mal les émotions : un visage joyeux peut être perçu comme apathique ou mélancolique, et une expression de dégoût comme de la surprise. Malgré tout, c'est une manière ludique d'aborder la complexité des émotions humaines.
En résumé, MyMoodScan se distingue par son approche en temps réel et conviviale de la détection des émotions, même si les résultats peuvent parfois être un peu ludiques plutôt que précis.
Figure 5. Analyse émotionnelle d'une image par MorphCast MyMoodScan
Caractéristiques principales
- Gratuit et facile à utiliser : pas de publicité, pas de frais, juste des éclairages émotionnels instantanés.
- Ludique et social : Conçu pour partager des émotions sur les réseaux sociaux et susciter des conversations.
Interface vocale empathique Hume (EVI)
L'interface vocale empathique (EVI) de Hume est un système d'IA de synthèse vocale qui rend les conversations plus naturelles. Elle permet aux utilisateurs de créer, de cloner et de contrôler des voix qui réagissent en temps réel avec émotion et personnalité.
Expérience réelle
Lors des tests, les conversations avec EVI se sont révélées réalistes et captivantes. La détection des émotions était performante. Les utilisateurs pouvaient moduler le ton et l'ambiance, même si cette fonctionnalité n'était pas toujours irréprochable.
En résumé, l'interface vocale empathique de Hume allie rapidité de réponse, profondeur émotionnelle et grande précision, rendant les conversations avec l'IA plus naturelles. L'interface web de la plateforme de conversation est simple et intuitive.
Figure 6. Analyse Hume EVI de la conversation avec l'IA
Caractéristiques principales
- Voix personnalisées : Plus de 100 000 voix personnalisées sont disponibles, chacune avec ses propres caractéristiques. Vous pouvez même créer des voix comme celle d’une « matriarche britannique apaisante » ou d’un « musicien caribéen enthousiaste » simplement en saisissant une commande.
- Cloner une voix : Téléchargez un échantillon audio pour créer une version numérique de votre propre voix.
- Conversations en temps réel : Répond en environ 300 millisecondes, soit à peu près aussi vite qu'un humain.
Octave de Hume
Hume Octave est un modèle de langage vocal qui comprend le sens caché des mots. L'entreprise affirme qu'il permet de créer des conversations plus expressives, rythmées et intonées.
Expérience réelle
Octave trouvait souvent la voix idéale pour une invite vocale. L'outil a permis d'améliorer les descriptions vocales et de bien harmoniser les intonations. Cependant, la voix finale sonnait parfois plate ou artificielle, comme une interprétation peu convaincante. Malgré cela, l'outil a démontré un fort potentiel pour restituer différents styles de parole.
En résumé, Hume Octave donne du sens à la voix. Il aide les utilisateurs à créer une parole plus naturelle et expressive, adaptée aux mots et au contexte, et il est très facile à utiliser.
Caractéristiques principales
- Faible latence : Démarre à parler en seulement 200 millisecondes avec le mode instantané.
- Voix personnalisées : Créez des voix à partir de zéro, utilisez votre propre voix ou choisissez parmi de nombreuses options prédéfinies.
- Contrôle de l'expression : Ajoutez des instructions de style d'interprétation pour modeler la façon dont la voix prononce chaque réplique.
- Voix uniques : À partir d'une simple consigne, créez des voix comme celle d'un « paysan médiéval sarcastique » ou d'un « professeur de sciences calme ».
Revoice
Revoicer est un logiciel de synthèse vocale basé sur l'IA et doté d'une technologie de reconnaissance des émotions qui transforme les textes écrits en voix off réalistes. Il prétend créer du contenu audio aux intonations émotionnelles plus naturelles, moins artificielles.
Caractéristiques principales
- Voix émotionnelles : Revoicer peut parler sur des tons joyeux, tristes, en colère, amicaux, chuchotants ou excités.
- Large compatibilité linguistique : Il fonctionne en anglais et dans plus de 40 autres langues, dont le français, l'allemand, l'arabe et le mandarin.
- Options personnalisées : Les utilisateurs peuvent modifier la hauteur, le débit et le ton de la voix. Ils peuvent également ajouter des pauses ou accentuer certains mots.
- Nombreuses voix : L’outil propose plus de 80 voix, incluant des voix masculines, féminines et d’enfants. Les utilisateurs peuvent également choisir parmi différents accents anglais, tels que l’américain, le britannique, l’australien ou l’indien.
Critères d'évaluation
Pour évaluer équitablement chaque outil d'IA émotionnelle, nous avons utilisé le même ensemble de critères sur toutes les plateformes. Ces critères incluent :
- Précision de la détection des émotions : capacité de l’outil à identifier des émotions telles que la joie, la colère ou la surprise à partir d’expressions faciales, de la voix ou de texte.
- Capacités multimodales : Indique si l'outil peut analyser plusieurs types d'entrées (par exemple, vidéo, audio, texte) ensemble ou séparément.
- Facilité d'utilisation : Dans quelle mesure l'interface est intuitive pour les utilisateurs non techniques, y compris lors de la configuration et de l'utilisation quotidienne.
- Retour d'information en temps réel : La plateforme peut-elle fournir des informations instantanées lors d'interactions en direct ou d'enregistrements ?
- Approfondissement des analyses : Qualité et niveau de détail de l'analyse des émotions, y compris les schémas comportementaux, le suivi de l'attention et les ventilations démographiques.
Lectures complémentaires
- Informatique affective : Guide approfondi de l’IA émotionnelle
- Applications de l'informatique affective : cas d'utilisation de l'IA émotionnelle
- Exemples et cas d'utilisation de l'IA émotionnelle
Soyez le premier à commenter
Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.