Contactez-nous
Aucun résultat trouvé.

Comparatif de conversion de la parole en texte : Deepgram vs. Whisper

Cem Dilmegani
Cem Dilmegani
mis à jour le Jan 22, 2026
Consultez notre normes éthiques

Nous avons comparé les principaux fournisseurs de solutions de transcription vocale (STT), en nous concentrant plus particulièrement sur les applications de santé. Notre analyse comparative s'est appuyée sur des exemples concrets pour évaluer la précision de la transcription dans des contextes médicaux où la précision est cruciale.

Résultats de référence de la transcription vocale

D'après les résultats des taux d'erreur sur les mots (WER) et sur les caractères (CER), GPT-4o-transcribe affiche la meilleure précision de transcription parmi tous les systèmes de reconnaissance vocale évalués. Deepgram Nova-v3 et Gladia obtiennent également d'excellents résultats, avec des taux d'erreur faibles pour les deux indicateurs.

Loading Chart

Méthodologie

Ensemble de données

Nous souhaitions évaluer les performances des modèles sur des échantillons de petite taille et variés, ainsi que sur un échantillon long ; nous avons donc réalisé deux tâches :

Tâche 1 : Données vocales du secteur de la santé

  • Nombre total d'échantillons : 100
  • Durée totale : 9 minutes et 25 secondes
  • Durée moyenne par échantillon : 5,65 secondes
  • Contenu : Données vocales du secteur de la santé, incluant la terminologie médicale, les interactions avec les patients et les discussions cliniques.
  • Diversité : Différents intervenants, qualité audio variable et contextes médicaux variés, le tout en anglais.

Spécifications audio :

  • Format : WAV
  • Canaux : 1 (Mono)
  • Largeur d'échantillon : 16 bits
  • Fréquence d'échantillonnage : 16 kHz
  • Débit binaire constant : 256 kbps
  • Durée : environ 4,5 à 11,5 secondes par fichier

Tâche 2 : Un cours d'anatomie

  • Nombre total d'échantillons : 1
  • Durée totale : 8 minutes et 35 secondes
  • Contenu : Un cours d'anatomie donné par un médecin, incluant la terminologie médicale.
  • Variété : Dans la première moitié de la vidéo, un intervenant s'exprime en anglais ; une musique est diffusée en fond sonore.

Spécifications audio :

  • Format : WAV
  • Canaux : 2 (Stéréo)
  • Largeur d'échantillon : 16 bits
  • Fréquence d'échantillonnage : 48 kHz
  • Débit binaire constant : 1536 kbps

Métriques d'évaluation

Nous avons utilisé le taux d'erreur sur les mots (WER) et le taux d'erreur sur les caractères (CER) comme indicateurs d'évaluation de la précision de la transcription. Le taux d'erreur sur les mots est calculé comme suit :

WER = (S + D + I) / N

Où:

  • S = Nombre de substitutions
  • D = Nombre de suppressions
  • I = Nombre d'insertions
  • N = Nombre total de mots dans la vérité terrain

La formule calcule le nombre minimal d'opérations au niveau des mots nécessaires pour transformer l'hypothèse en référence, divisé par le nombre de mots de la référence. Un WER plus faible indique une meilleure précision, 0 % correspondant à une correspondance parfaite.

Le taux d’erreur de caractères (CER) est calculé en divisant le nombre total d’erreurs au niveau des caractères (y compris les insertions, les suppressions et les substitutions) par le nombre total de caractères dans le texte de référence.

Nous avons utilisé des API de conversion vocale en texte pour transcrire les fichiers audio.

Le tableau indique la taille maximale des fichiers pouvant être saisis simultanément par les fournisseurs :

Vosk fonctionnant en local, la taille des fichiers d'entrée n'est pas limitée. Cependant, les fichiers audio longs peuvent dépasser la limite du faisceau, entraînant une perte de certaines probabilités. Il est donc recommandé de les découper en segments de 1 à 2 minutes.

MedASR (Google) fonctionne également en local et n'impose aucune limite de taille de fichier. Pour des performances optimales et une gestion efficace des ressources, il est recommandé de traiter les fichiers longs par segments plus petits.

Remarque : Pour les fournisseurs dont la limite de taille des fichiers est plus basse (comme Google et OpenAI), les fichiers audio volumineux doivent être divisés en segments plus petits avant traitement. Nous avons effectué cette opération dans la tâche 2.

Reconnaissance vocale

La reconnaissance vocale permet aux ordinateurs de transcrire des fichiers audio en texte grâce àdes algorithmes d'apprentissage automatique . L'API d'un service de transcription peut être utilisée avec différents langages de programmation pour la transcription par lots. Ces plateformes prennent en charge la transcription en temps réel et asynchrone.

La technologie de reconnaissance vocale a de nombreuses applications, notamment la transcription, les assistants vocaux et la traduction automatique.

Avantages de l'utilisation de la reconnaissance vocale pour la transcription

  • Transcription rapide des fichiers audio
  • Gain de temps et d'efforts
  • Transcription et traduction en temps réel
  • Accessibilité pour les personnes handicapées

Comment fonctionnent les outils d'IA de conversion de la parole en texte ?

Le processus de transcription comprend :

  • Les données audio sont téléchargées ou diffusées en continu vers l'outil de conversion de la parole en texte
  • Utilisation d'algorithmes d'apprentissage automatique pour analyser les données audio et identifier les schémas dans la parole
  • L'outil convertit la parole en texte à l'aide d'un moteur de reconnaissance vocale.
  • Le texte transcrit est ensuite affiché à l'utilisateur.

FAQ

La transcription d'enregistrements audio et vidéo peut être utilisée dans :
Assistants vocaux et assistants virtuels
Traduction et interprétation linguistiques
Systèmes de transcription vocale (ASR) pour les personnes handicapées

Leurs modèles pré-entraînés permettent la reconnaissance vocale automatique (ASR) pour les fichiers audio et vidéo enregistrés. Les transcriptions audio de haute précision incluent la ponctuation automatique et la détection thématique.
Vous pouvez opter pour un moteur open source ou un fournisseur de reconnaissance vocale proposé par un service que votre entreprise utilise déjà (par exemple, AWS Transcribe). Certains de ces services offrent des crédits gratuits, mais nous vous recommandons d'être vigilant quant à la sécurité des données.

Une API de transcription vocale peut faciliter la conversion de fichiers audio en texte. Traitement et analyse des données audio :
Les données audio sont traitées à l'aide de techniques telles que la réduction du bruit et l'annulation d'écho.
Les données audio sont ensuite analysées à l'aide d'algorithmes d'apprentissage automatique afin d'identifier des schémas dans la parole.
Les algorithmes utilisent des modèles acoustiques et des modèles de langage pour reconnaître les mots et les phrases prononcés.
Conversion de la parole en texte à l'aide d'algorithmes d'apprentissage automatique :
Les algorithmes d'apprentissage automatique sont entraînés sur de vastes ensembles de données audio et textuelles.
Les algorithmes apprennent à reconnaître les schémas de la parole et à les convertir en texte.
Les algorithmes peuvent être affinés et personnalisés pour des cas d'utilisation et des langues spécifiques.

Pour en savoir plus

Cem Dilmegani
Cem Dilmegani
Analyste principal
Cem est analyste principal chez AIMultiple depuis 2017. AIMultiple informe chaque mois des centaines de milliers d'entreprises (selon similarWeb), dont 55 % des entreprises du classement Fortune 500. Les travaux de Cem ont été cités par des publications internationales de premier plan telles que Business Insider, Forbes et le Washington Post, ainsi que par des entreprises mondiales comme Deloitte et HPE, des ONG comme le Forum économique mondial et des organisations supranationales comme la Commission européenne. Vous trouverez d'autres entreprises et ressources réputées ayant fait référence à AIMultiple. Tout au long de sa carrière, Cem a exercé les fonctions de consultant, d'acheteur et d'entrepreneur dans le secteur des technologies. Il a conseillé des entreprises sur leurs décisions technologiques chez McKinsey & Company et Altman Solon pendant plus de dix ans. Il a également publié un rapport McKinsey sur la numérisation. Il a dirigé la stratégie technologique et les achats d'un opérateur télécom, sous la responsabilité directe du PDG. Il a également piloté la croissance commerciale de la société de deep tech Hypatos, qui a atteint un chiffre d'affaires annuel récurrent à sept chiffres et une valorisation à neuf chiffres en seulement deux ans. Les travaux de Cem chez Hypatos ont été présentés dans des publications technologiques de référence telles que TechCrunch et Business Insider. Cem intervient régulièrement lors de conférences internationales sur les technologies. Diplômé en génie informatique de l'université de Bogazici, il est également titulaire d'un MBA de la Columbia Business School.
Voir le profil complet
Recherche effectuée par
Şevval Alper
Şevval Alper
Chercheur en IA
Şevval est analyste chez AIMultiple, spécialisé dans les outils de codage IA, les agents IA et les technologies quantiques.
Voir le profil complet

Soyez le premier à commenter

Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.

0/450