Analyse

Top 7 des méthodes d'analyse de sentiment audio

mis à jour le 3 juil. 2026

À mesure que le nombre de consommateurs augmente et que les données des utilisateurs s’accumulent quotidiennement, une explosion des données n’est pas une surprise. Les entreprises utilisent la collecte de données et l’analyse pour améliorer les ventes, la connaissance des clients ou la réputation de la marque. Même si les données vocales sont le retour le plus direct que les entreprises reçoivent de leurs clients, elles en négligent souvent l’importance.

Pour mieux comprendre comment les clients évaluent les produits & services, découvrez comment analyser le sentiment dans les fichiers audio et les huit principales méthodes que les entreprises peuvent mettre en œuvre :

Qu’est-ce que l’analyse de sentiment audio ?

Les méthodes traditionnelles d’analyse de sentiment reposent principalement sur des textes écrits tels que des avis, des retours, des enquêtes, etc. Cependant, comme le langage humain est complexe, des nuances telles que l’ironie, le sarcasme ou les intentions ne sont pas toujours facilement comprises dans le contenu écrit.

Le ton acoustique des fichiers audio véhicule des informations plus riches et donne une meilleure compréhension des sentiments.¹ Les informations sur le sentiment peuvent être recueillies à partir de diverses caractéristiques vocales, telles que²

la hauteur
l’intensité sonore
le ton de la voix
d’autres mesures liées à la fréquence

Ainsi, les émotions peuvent être mieux reconnues en combinant l’analyse du ton de la parole et du contenu écrit plutôt qu’en ne considérant que les retours écrits.

Ces dernières années, les entreprises ont commencé à mettre en œuvre des méthodes d’analyse de sentiment audio pour mieux comprendre les sentiments de leurs clients et leur offrir une meilleure expérience.

Comment fonctionne l’analyse de sentiment audio ?

Figure 1. Une comparaison simplifiée de l’analyse de sentiment du contenu écrit et multimodale (texte + audio)

Ici, vous pouvez voir l’importance de prendre en compte les sources audio lors de l’analyse du sentiment. Quand la voix est prise en compte, le sentiment global change dans l’analyse de sentiment audio.

Source : CM-BERT: Cross-Modal BERT pour l’analyse de sentiment texte-audio.³

Les étapes de l’analyse de sentiment audio sont :

1. Collecte de l’audio

Collecte de l’audio

Commencez par collecter l’audio. Vous pouvez utiliser des enregistrements en direct, des fichiers pré-enregistrés ou de l’audio provenant de plateformes en ligne.

Assurance qualité

Un audio clair est essentiel. Essayez de réduire le bruit de fond et de garder le son net. Assurez-vous également que vos données sont diversifiées, différentes voix, tons et émotions aideront votre modèle à mieux apprendre.

Prétraitement

Une fois collecté, nettoyez l’audio. Cela inclut la suppression du bruit, l’ajustement du volume et la suppression des silences. Ces étapes préparent l’audio pour les phases suivantes.

2. Transcription en texte

Conversion de l’audio en texte

Les outils de reconnaissance vocale transforment les mots parlés en texte. Le Whisper d’OpenAI reste un choix courant, mais les versions actuelles, telles que large-v3 et le plus rapide large-v3-turbo, ont remplacé la version de 2022 que la plupart des guides citent encore. De nouvelles options, y compris les modèles de transcription GPT-4o d’OpenAI, ajoutent un étiquetage de locuteur intégré. Cela élimine le besoin d’un outil séparé pour distinguer la voix d’un agent de celle d’un client dans un appel enregistré.

Nettoyage du texte

Le texte transcrit peut nécessiter un formatage. Vous pouvez supprimer la ponctuation superflue, mettre tous les mots en minuscules ou nettoyer les caractères spéciaux.

3. Choix du modèle

Choisissez un modèle qui fonctionne bien avec l’audio et le texte. Certains modèles sont entraînés sur le langage émotionnel ou parlé. Choisissez-en un avec une bonne précision et une bonne flexibilité.

4. Interprétation et utilisation des résultats

Compréhension des résultats

Utilisez les données pour apprendre ce que ressentent les gens. C’est utile dans des domaines tels que le service client, le marketing et les retours publics.

Visualisation des résultats

Affichez les scores de sentiment dans des graphiques, des tableaux ou des tableaux de bord. Cela aide les gens à voir rapidement le ton émotionnel de l’audio.

7 méthodes pour réaliser une analyse de sentiment audio

Il existe sept méthodes principales pour réaliser une analyse de sentiment audio.

1- Reconnaissance automatique de la parole (ASR)

Figure 2. Un exemple de fonctionnement de l’ASR

Voici une image montrant comment fonctionne la reconnaissance automatique de la parole et comment elle contribue à l’analyse de sentiment audio.

Source : Extraction de sentiment à partir de flux audio naturels⁴

Processus : L’ASR transcrit les phrases parlées en texte à l’aide de la reconnaissance vocale. Le texte transcrit est ensuite analysé pour le sentiment en utilisant des techniques de traitement du langage naturel (NLP).

Exemple : Dans les centres d’appels, l’ASR peut transcrire les conversations des clients, permettant aux modèles d’analyse de sentiment de déterminer le sentiment global de l’interaction.

2- WaveNet (Analyse de la forme d’onde audio brute)

Processus : WaveNet analyse directement les formes d’onde audio brutes pour extraire des caractéristiques audio à l’aide de réseaux de neurones profonds. Cette méthode ne nécessite pas de transcription audio et peut capturer des détails complexes dans le signal audio. C’est une méthode probabiliste qui offre des résultats de pointe avec un jeu de données multimodal (texte+audio).

Exemple : WaveNet peut détecter différentes émotions à partir du ton et de la hauteur de l’audio, fournissant une bonne représentation de l’état émotionnel du locuteur.

WaveNet a été principalement conçu pour générer de la parole, pas pour évaluer le sentiment. Les équipes qui font aujourd’hui de l’analyse de sentiment sur onde brute se tournent plus souvent vers des encodeurs auto-supervisés tels que Wav2Vec 2.0 ou HuBERT, entraînés spécifiquement pour représenter à la fois le contenu de la parole et les indices vocaux comme le ton.⁵ L’idée centrale de WaveNet, apprendre directement à partir de la forme d’onde au lieu de caractéristiques artisanales, reste valable. Le modèle spécifique a surtout été remplacé par ces nouveaux encodeurs.

3- Représentations d’encodeurs bidirectionnels crossmodaux issues de transformeurs (CM-BERT)

Figure 3. L’architecture du réseau CM-BERT

La figure montre comment fonctionnent les représentations d’encodeurs bidirectionnels crossmodaux issues de transformeurs. Comme il s’agit d’un framework crossmodal, il peut comparer les informations provenant de différentes modalités telles que l’analyse de sentiment texte et audio.

Source : CM-BERT: Cross-Modal BERT pour l’analyse de sentiment texte-audio.⁶

Processus : L’approche CM-BERT repose sur l’interaction entre le texte et l’audio et ajuste dynamiquement le poids des mots en comparant les informations provenant de différentes modalités. Elle utilise des modèles d’apprentissage automatique pour analyser à la fois le signal audio et sa transcription, en tirant parti des forces des deux modalités.

Exemple : Dans un projet analysant des enregistrements audio de podcasts, CM-BERT peut fournir des informations sur le sentiment exprimé à la fois dans les mots parlés et les caractéristiques audio.

4- Coefficients cepstraux en fréquence Mel (MFCCs)

Processus : Les MFCCs sont utilisés pour représenter le spectre de puissance à court terme du son. Ils sont extraits d’enregistrements audio et utilisés comme caractéristiques pour les modèles d’analyse de sentiment.

Exemple : En analysant les MFCCs, les modèles d’apprentissage automatique peuvent reconnaître différents états émotionnels dans les fichiers audio, tels que la joie, la tristesse ou la colère.

Les MFCCs restent une caractéristique légère et rapide, et demeurent un choix par défaut raisonnable pour les équipes avec des budgets de calcul limités. De nouveaux modèles auto-supervisés, tels que Wav2Vec 2.0, HuBERT, et emotion2vec, surpassent désormais les systèmes basés sur les MFCCs sur la plupart des benchmarks publiés, car ils apprennent les caractéristiques directement à partir de l’audio brut plutôt que de s’appuyer sur une formule fixe.⁷ Les équipes cherchant la meilleure précision ont tendance à choisir l’un de ceux-ci à la place.

5- Analyse des caractéristiques prosodiques

Processus : Cette méthode analyse les caractéristiques prosodiques comme l’intonation, l’accentuation et le rythme dans la parole. Ces caractéristiques sont cruciales pour comprendre le ton émotionnel dans les enregistrements audio.

Exemple : L’analyse des caractéristiques prosodiques peut être utilisée dans les interactions de service client pour identifier le stress ou la frustration dans la voix d’un client, aidant à améliorer l’interface utilisateur et les stratégies de réponse.

6- Réseaux de neurones profonds (DNNs)

Processus : Les DNNs peuvent être entraînés sur de grands ensembles de données d’enregistrements audio pour reconnaître des motifs et classer les sentiments. Ils sont capables d’apprendre des représentations complexes des données audio.

Exemple : Les DNNs peuvent être employés dans des projets d’analyse de sentiment où une haute précision est requise, comme dans les publications audio sur les médias sociaux pour évaluer l’opinion publique.

emotion2vec, publié en 2024 et activement maintenu jusqu’en 2026, est un modèle open-source entraîné spécifiquement pour extraire les signaux émotionnels de l’audio brut.⁸ Il fonctionne sur un seul GPU, est gratuit d’utilisation, et est devenu une référence courante dans la recherche sur les émotions vocales : le rôle que joue Whisper pour la transcription.

7- Réseaux de neurones récurrents (RNNs) et réseaux à mémoire à long et court terme (LSTMs)

Figure 4. Réseaux de neurones récurrents avec deux couches cachées

Réseaux de neurones récurrents avec deux couches cachées dans l’analyse de sentiment audio

Source : Classification et prédiction de systèmes chaotiques d’ondes avec des techniques d’apprentissage automatique.⁹

Processus : Les RNNs et les LSTMs sont conçus pour traiter des données séquentielles, ce qui les rend adaptés à l’analyse des dépendances temporelles dans les signaux audio. Ils peuvent capturer la progression des émotions.

Exemple : Dans l’analyse de longs enregistrements audio comme des interviews ou des discours, les RNNs et les LSTMs peuvent suivre les changements de sentiment tout au long du fichier audio.

8- Grands modèles audio-langage (LALMs)

Processus : Un grand modèle audio-langage lit l’audio et le texte en une seule passe, au sein d’un modèle unique. Les anciennes méthodes divisent le travail en deux : un modèle transforme la parole en texte, et un autre modèle lit ce texte pour le sentiment. La division du travail perd des informations ; un « C’est super » plat et impassible peut être interprété comme positif lorsque seuls les mots sont notés. Un grand modèle audio-langage garde le ton, le rythme et le choix des mots ensemble, donc il détecte cette inadéquation.

Des exemples en production en 2026 incluent OpenAI’s GPT-4o Audio, Google’s Gemini 2.5, et Alibaba’s Qwen2.5-Omni. Chacun accepte un clip audio directement et renvoie une transcription, une étiquette d’émotion, ou les deux, sans exposer d’étape de transcription séparée.

Exemple : Une plateforme d’assistance achemine un appel client directement vers l’un de ces modèles. Elle renvoie une transcription, un score de sentiment, et une note sur l’endroit où le ton a changé pendant l’appel, le tout en une seule passe sur l’audio.

Compromis : Ces modèles coûtent plus cher à exécuter par minute d’audio que les modèles plus petits et spécialisés. Les équipes gérant de gros volumes d’appels exécutent souvent d’abord un modèle open-source léger, tel qu’emotion2vec, puis envoient les appels signalés à un modèle plus grand pour une lecture approfondie.¹⁰

Laissez notre équipe automatiser l'un de vos processus métier avec des agents IA, gratuitement.

Automatiser un processus

Top 8 des applications de l’analyse de sentiment audio

L’analyse de sentiment audio a un large éventail d’applications dans divers domaines, améliorant les processus et fournissant des informations précieuses dans tous les secteurs.

1- Centres d’appels

Dans les centres d’appels, l’analyse de sentiment audio est utilisée pour analyser les interactions avec les clients. En effectuant une analyse de sentiment sur les enregistrements audio, les entreprises peuvent déterminer le sentiment exprimé pendant les appels, qu’il soit positif, négatif ou neutre. Cette information peut aider à améliorer le service client en :

Identifiant les problèmes : La détection précoce des sentiments négatifs permet aux agents du centre d’appels de répondre plus efficacement aux préoccupations des clients.
Fins de formation : Comprendre les états émotionnels des clients pendant les appels peut être utilisé pour former les agents, améliorant leur capacité à gérer différentes émotions.
Assurance qualité : Les résultats de l’analyse de sentiment peuvent être utilisés pour surveiller et maintenir la qualité du service, garantissant une satisfaction client constante.

2- Reconnaissance des émotions

Détecter différentes émotions dans les enregistrements audio peut améliorer considérablement les interfaces utilisateur et créer des systèmes d’IA plus empathiques. La reconnaissance des émotions par l’analyse de sentiment audio implique :

Expériences personnalisées : Adapter les réponses en fonction des émotions détectées pour offrir une expérience utilisateur plus personnalisée et engageante.
Applications de santé mentale : La surveillance des états émotionnels peut aider dans les applications de santé mentale en reconnaissant les signes de stress, d’anxiété ou de dépression dans les enregistrements audio.
Assistants virtuels : Améliorer les interactions des assistants virtuels en leur permettant de répondre de manière plus appropriée au ton émotionnel de l’utilisateur.

3- Études de marché

Dans les études de marché, l’analyse de sentiment audio des fichiers audio provenant de groupes de discussion ou de retours clients peut fournir des informations précieuses. En analysant les sentiments dans les réponses orales, les entreprises peuvent :

Comprendre les préférences des consommateurs : Obtenir des informations sur les opinions des clients concernant les produits ou services, aidant les entreprises à prendre des décisions éclairées.
Développement de produits : Utiliser les données de sentiment pour guider le développement et l’amélioration des produits en fonction des retours clients.
Perception de la marque : Surveiller et analyser le sentiment du public envers une marque, permettant aux entreprises d’ajuster leurs stratégies en conséquence.

L’analyse de sentiment audio peut également être appliquée aux fichiers audio de podcasts ou de contenu vidéo partagé sur les plateformes de médias sociaux. Cette application aide à :

Analyse de l’opinion publique : Analyser les sentiments dans le contenu parlé pour évaluer l’opinion publique sur divers sujets.
Stratégie de contenu : Influencer les stratégies de création de contenu en comprenant les réactions émotionnelles de l’audience à différents types de contenu.
Analyse des tendances : Identifier les tendances et les sentiments émergents dans les conversations sur les médias sociaux, permettant aux entreprises de garder une longueur d’avance dans leurs efforts marketing.

5- Santé

Dans le secteur de la santé, l’analyse de sentiment audio peut être appliquée aux interactions patient-médecin, aux consultations de télémédecine et aux retours des patients. Cela peut conduire à :

Amélioration des soins aux patients : Comprendre les émotions des patients peut aider les prestataires de soins à fournir des soins plus empathiques et adaptés.
Détection précoce de conditions : Reconnaître les changements dans l’état émotionnel d’un patient peut aider à la détection précoce de problèmes de santé mentale ou d’autres conditions.
Satisfaction des patients : Analyser les retours des patients pour améliorer la qualité des services de santé et garantir la satisfaction des patients.

6- Éducation

Dans les milieux éducatifs, l’analyse de sentiment audio peut être utilisée pour analyser les interactions des étudiants, les retours des enseignants et les discussions en classe. Cela peut soutenir :

Engagement des étudiants : Comprendre les réponses émotionnelles des étudiants peut aider les éducateurs à ajuster leurs méthodes d’enseignement pour maintenir l’engagement des étudiants.
Suivi des performances : Surveiller le sentiment dans les retours des étudiants peut fournir des informations sur l’efficacité des programmes éducatifs et des stratégies d’enseignement.
Soutien émotionnel : Identifier les étudiants qui peuvent avoir besoin d’un soutien émotionnel supplémentaire, permettant une intervention rapide.

7- Industrie du divertissement

L’industrie du divertissement peut tirer parti de l’analyse de sentiment audio pour analyser les réactions du public aux films, à la musique et à d’autres contenus médiatiques. Cela peut conduire à :

Amélioration du contenu : Utiliser les résultats de l’analyse de sentiment pour améliorer les scripts, les dialogues et le contenu global en fonction des réactions du public.
Stratégies marketing : Adapter les campagnes marketing pour mieux résonner avec les réponses émotionnelles du public.
Engagement du public : Créer un contenu plus engageant et émotionnellement résonnant en comprenant les sentiments du public.

8- Ressources humaines

Dans les ressources humaines, l’analyse de sentiment audio peut être appliquée aux retours des employés, aux entretiens et aux évaluations de performance. Cela peut améliorer :

Satisfaction des employés : Analyser les sentiments dans les retours des employés pour améliorer les conditions de travail et répondre aux préoccupations.
Processus de recrutement : Comprendre les réponses émotionnelles des candidats pendant les entretiens pour prendre de meilleures décisions d’embauche.
Gestion de la performance : Utiliser les données de sentiment pour soutenir les évaluations de performance et fournir des retours constructifs.

Règles à connaître avant de déployer l’analyse de sentiment audio dans l’UE

L’EU IA Act interdit une utilisation spécifique de cette technologie : déduire les émotions d’un employé à partir de sa voix au travail. Cette interdiction, en vertu de l’article 5(1)(f), est l’une des dispositions relatives aux pratiques interdites de la loi, et elle s’applique depuis le 2 février 2025.¹¹ Les régulateurs nationaux, y compris la CNIL française, ont publié des orientations sur la préparation à l’application à mesure que le reste de la loi entre en vigueur : les règles sur l’IA à usage général sont arrivées en août 2025, et la plupart des dispositions restantes atteignent leur pleine application le 2 août 2026.

Ce qui est interdit

Lire les émotions à partir de la voix, du visage ou d’un autre signal biométrique d’un employé pendant les tâches professionnelles, les entretiens ou les évaluations de performance.

Ce qui n’est pas couvert par l’interdiction

Les systèmes qui transcrivent une réunion en texte.
Les systèmes axés sur la sécurité, tels que les outils qui détectent la fatigue du conducteur.

Les deux exceptions

Usage médical.
Usage de sécurité.
Évaluer le niveau de stress d’un agent du service client à des fins de coaching ne relève d’aucune de ces exceptions.

L’utilisation orientée client est traitée différemment : Lire l’humeur d’un client lors d’un appel d’assistance n’est pas interdit par la législation de l’UE. En dehors de l’interdiction sur le lieu de travail et dans l’éducation, cependant, certains déploiements de reconnaissance des émotions peuvent encore être qualifiés de haut risque en vertu d’une partie distincte de la loi (Annexe III) et peuvent déclencher des obligations de transparence supplémentaires en vertu de l’article 50. La classification dépend du déploiement spécifique, pas du cas d’utilisation dans son ensemble.¹²

Sanctions : Les amendes pour violation de l’interdiction sur le lieu de travail atteignent 35 millions d’euros 35 ou 7% du chiffre d’affaires annuel mondial de l’entreprise, le montant le plus élevé étant retenu.¹³ Même avant que cette interdiction n’existe, l’autorité hongroise de protection des données a ordonné à une banque de cesser d’analyser le ton de la voix des employés en vertu des règles distinctes du RGPD, dans ce qui est désormais connu sous le nom de l’affaire Budapest Bank : un signe que les régulateurs traitaient cela comme un problème en vertu de l’ancienne loi sur la vie privée.¹⁴

Ce que cela signifie pour les méthodes ci-dessus

Évaluer le sentiment des clients dans un centre d’appels reste faisable dans toute l’UE, sous réserve des vérifications de haut risque et de transparence mentionnées ci-dessus.
Appliquer la même évaluation à la voix d’un agent, pour suivre l’humeur ou le stress pendant un service, est interdit en vertu de l’article 5(1)(f), sauf si l’exception médicale ou de sécurité s’applique.
Les cas d’utilisation des entretiens et des évaluations de performance, mentionnés ci-dessus dans la section des ressources humaines, sont généralement interdits purement et simplement plutôt que simplement à haut risque. Traitez-les comme interdits dans les déploiements dans l’UE sans justification médicale ou de sécurité confirmée, et non comme un « examen avant lancement ».

Découvrez davantage de nos benchmarks et analyses basées sur les données dans la recherche Google.

Ajouter comme source préférée

Quel est le succès des outils d’analyse de sentiment audio ?

Un benchmark de 2025, AHELM, a testé la manière dont les grands modèles audio-langage gèrent la détection des émotions spécifiquement, parmi neuf autres tâches de compréhension audio.¹⁵ Le Gemini 2.5 Pro de Google a mené le groupe dans l’ensemble, en tête de cinq des dix catégories, y compris la détection des émotions. Aucun modèle n’a dominé toutes les catégories. Le choix d’un modèle dépend toujours du cas d’utilisation spécifique, pas d’un seul classement.

Une expérience de benchmarking de 2026 a évalué dans quelle mesure les modèles modernes détectent le sentiment directement à partir des signaux vocaux.¹⁶ Les résultats montrent que l’analyse de sentiment basée sur l’audio peut capturer des indices émotionnels tels que le ton, la hauteur et la vitesse d’élocution. Ces indices sont souvent perdus lorsque la parole est convertie en texte.

L’étude a testé plusieurs modèles de parole bien connus, notamment HuBERT,¹⁷ Wav2Vec,¹⁸ et Whisper.¹⁹ Lorsque les modèles analysaient des phrases courtes prononcées avec différents tons émotionnels, la performance était relativement bonne. La précision allait de 78–91%, indiquant que ces modèles peuvent détecter des signaux émotionnels clairs dans une parole contrôlée.

Cependant, la performance a chuté lorsque les modèles ont été testés sur des phrases plus complexes et variées. Dans ces cas, la précision est tombée à environ 54–60%. Les modèles ont eu des difficultés parce que le sens de la phrase, le style du locuteur et le contexte variaient plus largement.

Dans l’ensemble, les résultats suggèrent que les outils d’analyse de sentiment audio peuvent bien fonctionner lorsque les indices émotionnels sont clairs. Cependant, leurs performances diminuent dans les conversations réalistes. Pour cette raison, de nombreux systèmes combinent les signaux audio et l’analyse de texte pour améliorer la fiabilité.

Lectures complémentaires

Citer cette recherche

Choisissez le format qui correspond à votre lieu de publication. Coller la version avec lien dans votre CMS préserve le lien retour.

Ezgi Arslan, PhD. (2026) - "Top 7 des méthodes d'analyse de sentiment audio". Publié en ligne sur AIMultiple.com. Consulté le 3 Juillet 2026, à : https://aimultiple.com/audio-sentiment-analysis [Ressource en ligne]

PhD., E. A. (2026, 3 Juillet). Top 7 des méthodes d'analyse de sentiment audio. AIMultiple. https://aimultiple.com/audio-sentiment-analysis

@misc{phd2026,
  author = {PhD., Ezgi Arslan,},
  title  = {{Top 7 des méthodes d'analyse de sentiment audio}},
  year   = {2026},
  month  = jul,
  howpublished    = {\url{https://aimultiple.com/audio-sentiment-analysis}},
  note   = {AIMultiple. Consulté le 3 Juillet 2026}
}

Liens de référence

APA PsycNet

Towards Discriminative Representation Learning for Speech Emotion Recognition | IJCAI

CM-BERT | Proceedings of the 28th ACM International Conference on Multimedia

Cerrar este diálogo

Speaker Emotion Recognition: Leveraging Self-Supervised Models for Feature Extraction Using Wav2Vec2 and HuBERT

CM-BERT | Proceedings of the 28th ACM International Conference on Multimedia

https://www.isca-archive.org/interspeech_2025/uniyal25_interspeech.pdf

Speech emotion recognition using fine-tuned Wav2vec2.0 and neural controlled differential equations classifier - PMC

[1908.04716] Classification and prediction of wave chaotic systems with machine learning techniques

arXiv preprint arXiv:1908.04716

10.

emotion2vec (emotion2vec)

11.

EU AI Act Article 5: The Complete Guide to Prohibited AI Practices – eyreACT: AI Compliance Automation Platform

12.

Article 5: Prohibited AI Practices | EU Artificial Intelligence Act

13.

Article 99: Penalties | AI Act Service Desk

14.

https://cjc.eui.eu/data/data/data?idPermanent=858&triial=1

15.

AHELM: A Holistic Evaluation of Audio-Language Models

16.

Sentiment Analysis with Text and Audio Using AWS Generative AI Services: Approaches, Challenges, and Solutions | Artificial Intelligence

17.

[2106.07447] HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units

18.

[2006.11477] wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations

19.

GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision · GitHub

Ezgi Arslan, PhD.

Analyste sectorielle

Suivre

Ezgi est titulaire d'un doctorat en administration des affaires avec une spécialisation en finance et travaille comme analyste sectorielle chez AIMultiple. Elle pilote la recherche et les analyses à l'intersection de la technologie et des affaires, avec une expertise couvrant la durabilité, l'analyse des enquêtes et des sentiments, les applications des agents IA en finance, l'optimisation pour les moteurs de réponse, la gestion des pare-feux et les technologies d'approvisionnement.

Voir le profil complet