Comparatif de conversion de la parole en texte : Deepgram vs. Whisper
Nous avons comparé les principaux fournisseurs de solutions de transcription vocale (STT), en nous concentrant plus particulièrement sur les applications de santé. Notre analyse comparative s'est appuyée sur des exemples concrets pour évaluer la précision de la transcription dans des contextes médicaux où la précision est cruciale.
Résultats de référence de la transcription vocale
D'après les résultats des taux d'erreur sur les mots (WER) et sur les caractères (CER), GPT-4o-transcribe affiche la meilleure précision de transcription parmi tous les systèmes de reconnaissance vocale évalués. Deepgram Nova-v3 et Gladia obtiennent également d'excellents résultats, avec des taux d'erreur faibles pour les deux indicateurs.
Méthodologie
Ensemble de données
Nous souhaitions évaluer les performances des modèles sur des échantillons de petite taille et variés, ainsi que sur un échantillon long ; nous avons donc réalisé deux tâches :
Tâche 1 : Données vocales du secteur de la santé
- Nombre total d'échantillons : 100
- Durée totale : 9 minutes et 25 secondes
- Durée moyenne par échantillon : 5,65 secondes
- Contenu : Données vocales du secteur de la santé, incluant la terminologie médicale, les interactions avec les patients et les discussions cliniques.
- Diversité : Différents intervenants, qualité audio variable et contextes médicaux variés, le tout en anglais.
Spécifications audio :
- Format : WAV
- Canaux : 1 (Mono)
- Largeur d'échantillon : 16 bits
- Fréquence d'échantillonnage : 16 kHz
- Débit binaire constant : 256 kbps
- Durée : environ 4,5 à 11,5 secondes par fichier
Tâche 2 : Un cours d'anatomie
- Nombre total d'échantillons : 1
- Durée totale : 8 minutes et 35 secondes
- Contenu : Un cours d'anatomie donné par un médecin, incluant la terminologie médicale.
- Variété : Dans la première moitié de la vidéo, un intervenant s'exprime en anglais ; une musique est diffusée en fond sonore.
Spécifications audio :
- Format : WAV
- Canaux : 2 (Stéréo)
- Largeur d'échantillon : 16 bits
- Fréquence d'échantillonnage : 48 kHz
- Débit binaire constant : 1536 kbps
Métriques d'évaluation
Nous avons utilisé le taux d'erreur sur les mots (WER) et le taux d'erreur sur les caractères (CER) comme indicateurs d'évaluation de la précision de la transcription. Le taux d'erreur sur les mots est calculé comme suit :
WER = (S + D + I) / N
Où:
- S = Nombre de substitutions
- D = Nombre de suppressions
- I = Nombre d'insertions
- N = Nombre total de mots dans la vérité terrain
La formule calcule le nombre minimal d'opérations au niveau des mots nécessaires pour transformer l'hypothèse en référence, divisé par le nombre de mots de la référence. Un WER plus faible indique une meilleure précision, 0 % correspondant à une correspondance parfaite.
Le taux d’erreur de caractères (CER) est calculé en divisant le nombre total d’erreurs au niveau des caractères (y compris les insertions, les suppressions et les substitutions) par le nombre total de caractères dans le texte de référence.
Nous avons utilisé des API de conversion vocale en texte pour transcrire les fichiers audio.
Le tableau indique la taille maximale des fichiers pouvant être saisis simultanément par les fournisseurs :
Vosk fonctionnant en local, la taille des fichiers d'entrée n'est pas limitée. Cependant, les fichiers audio longs peuvent dépasser la limite du faisceau, entraînant une perte de certaines probabilités. Il est donc recommandé de les découper en segments de 1 à 2 minutes.
MedASR (Google) fonctionne également en local et n'impose aucune limite de taille de fichier. Pour des performances optimales et une gestion efficace des ressources, il est recommandé de traiter les fichiers longs par segments plus petits.
Remarque : Pour les fournisseurs dont la limite de taille des fichiers est plus basse (comme Google et OpenAI), les fichiers audio volumineux doivent être divisés en segments plus petits avant traitement. Nous avons effectué cette opération dans la tâche 2.
Reconnaissance vocale
La reconnaissance vocale permet aux ordinateurs de transcrire des fichiers audio en texte grâce àdes algorithmes d'apprentissage automatique . L'API d'un service de transcription peut être utilisée avec différents langages de programmation pour la transcription par lots. Ces plateformes prennent en charge la transcription en temps réel et asynchrone.
La technologie de reconnaissance vocale a de nombreuses applications, notamment la transcription, les assistants vocaux et la traduction automatique.
Avantages de l'utilisation de la reconnaissance vocale pour la transcription
- Transcription rapide des fichiers audio
- Gain de temps et d'efforts
- Transcription et traduction en temps réel
- Accessibilité pour les personnes handicapées
Comment fonctionnent les outils d'IA de conversion de la parole en texte ?
Le processus de transcription comprend :
- Les données audio sont téléchargées ou diffusées en continu vers l'outil de conversion de la parole en texte
- Utilisation d'algorithmes d'apprentissage automatique pour analyser les données audio et identifier les schémas dans la parole
- L'outil convertit la parole en texte à l'aide d'un moteur de reconnaissance vocale.
- Le texte transcrit est ensuite affiché à l'utilisateur.
FAQ
La transcription d'enregistrements audio et vidéo peut être utilisée dans :
Assistants vocaux et assistants virtuels
Traduction et interprétation linguistiques
Systèmes de transcription vocale (ASR) pour les personnes handicapées
Leurs modèles pré-entraînés permettent la reconnaissance vocale automatique (ASR) pour les fichiers audio et vidéo enregistrés. Les transcriptions audio de haute précision incluent la ponctuation automatique et la détection thématique.
Vous pouvez opter pour un moteur open source ou un fournisseur de reconnaissance vocale proposé par un service que votre entreprise utilise déjà (par exemple, AWS Transcribe). Certains de ces services offrent des crédits gratuits, mais nous vous recommandons d'être vigilant quant à la sécurité des données.
Une API de transcription vocale peut faciliter la conversion de fichiers audio en texte. Traitement et analyse des données audio :
Les données audio sont traitées à l'aide de techniques telles que la réduction du bruit et l'annulation d'écho.
Les données audio sont ensuite analysées à l'aide d'algorithmes d'apprentissage automatique afin d'identifier des schémas dans la parole.
Les algorithmes utilisent des modèles acoustiques et des modèles de langage pour reconnaître les mots et les phrases prononcés.
Conversion de la parole en texte à l'aide d'algorithmes d'apprentissage automatique :
Les algorithmes d'apprentissage automatique sont entraînés sur de vastes ensembles de données audio et textuelles.
Les algorithmes apprennent à reconnaître les schémas de la parole et à les convertir en texte.
Les algorithmes peuvent être affinés et personnalisés pour des cas d'utilisation et des langues spécifiques.
Pour en savoir plus
- Comparatif des 10 meilleurs logiciels de synthèse vocale
- Plus de 10 services de collecte de données vocales
Soyez le premier à commenter
Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.