Realizamos una evaluación comparativa de los principales proveedores de conversión de voz a texto (STT), centrándonos específicamente en aplicaciones para el sector sanitario. Nuestra evaluación comparativa utilizó ejemplos reales para valorar la precisión de la transcripción en contextos médicos, donde la exactitud es fundamental.
Resultados de referencia de la conversión de voz a texto
Según los resultados de la tasa de error de palabras (WER) y la tasa de error de caracteres (CER), GPT-4o-transcribe demuestra la mayor precisión de transcripción entre todos los sistemas de conversión de voz a texto evaluados. Deepgram Nova-v3 y Gladia también obtienen buenos resultados, manteniendo bajas tasas de error en ambas métricas.
Metodología
Conjunto de datos
Queríamos evaluar el rendimiento de los modelos tanto en muestras pequeñas y variadas como en una muestra larga, por lo que realizamos dos tareas:
Tarea 1: Datos de voz en el sector sanitario
- Número total de muestras: 100
- Duración total: 9 minutos y 25 segundos
- Duración media por muestra: 5,65 segundos
- Contenido: Datos de voz del sector sanitario, incluyendo terminología médica, interacciones con pacientes y conversaciones clínicas.
- Variedad: Diferentes hablantes, calidad de audio variable y diversos contextos médicos hablados en inglés.
Especificaciones de audio:
- Formato: WAV
- Canales: 1 (Mono)
- Ancho de muestra: 16 bits
- Frecuencia de muestreo: 16 kHz
- Tasa de bits constante: 256 kbps
- Rango de duración: ~4,5 a 11,5 segundos por archivo
Tarea 2: Una clase de anatomía
- Número total de muestras: 1
- Duración total: 8 minutos y 35 segundos
- Contenido: Una clase de anatomía impartida por un médico, que incluye terminología médica.
- Variedad: En la primera mitad del vídeo, una persona habla en inglés; de fondo suena música.
Especificaciones de audio:
- Formato: WAV
- Canales: 2 (Estéreo)
- Ancho de muestra: 16 bits
- Frecuencia de muestreo: 48 kHz
- Tasa de bits constante: 1536 kbps
Métricas de evaluación
Utilizamos la tasa de error de palabras (WER) y la tasa de error de caracteres (CER) como métricas de evaluación para la precisión de la transcripción. La tasa de error de palabras se calcula de la siguiente manera:
WER = (S + D + I) / N
Dónde:
- S = Número de sustituciones
- D = Número de eliminaciones
- I = Número de inserciones
- N = Número total de palabras en la verdad fundamental
La fórmula calcula el número mínimo de operaciones a nivel de palabra necesarias para transformar la hipótesis en la referencia, dividido por el número de palabras de la referencia. Un WER más bajo indica una mayor precisión, siendo el 0% una coincidencia perfecta.
La tasa de error de caracteres (CER, por sus siglas en inglés) se calcula dividiendo el número total de errores a nivel de caracteres (incluidas inserciones, eliminaciones y sustituciones) entre el número total de caracteres del texto de referencia.
Utilizamos API de conversión de voz a texto para transcribir archivos de audio a texto.
El tamaño máximo de archivo que los proveedores pueden ingresar a la vez se muestra en la tabla:
Dado que Vosk se ejecuta localmente, no hay límite en el tamaño del archivo de entrada. Sin embargo, los archivos de audio largos pueden exceder el límite del haz, lo que puede provocar la pérdida de algunas probabilidades. Por lo tanto, se recomienda dividir los archivos en segmentos de 1 a 2 minutos.
Google MedASR también funciona localmente y no impone un límite máximo de tamaño de archivo. Para un rendimiento y una gestión de recursos óptimos, se recomienda procesar archivos largos en segmentos más pequeños.
Nota: Para proveedores con límites de tamaño de archivo más pequeños (como Google y OpenAI), los archivos de audio más grandes deben dividirse en fragmentos más pequeños antes de su procesamiento. Realizamos esto en la Tarea 2.
Reconocimiento de voz
El reconocimiento de voz permite a las computadoras transcribir archivos de audio a texto mediantealgoritmos de aprendizaje automático . La API de un servicio de transcripción se puede utilizar con diversos lenguajes de programación para la transcripción por lotes. Estas plataformas admiten transcripción tanto en tiempo real como asíncrona.
La tecnología de reconocimiento de voz tiene numerosas aplicaciones, entre ellas la transcripción, los asistentes de voz y la traducción de idiomas.
Ventajas de utilizar el reconocimiento de voz para la transcripción
- Transcripción rápida de archivos de audio
- Ahorro de tiempo y esfuerzo
- Transcripción y traducción en tiempo real
- Accesibilidad para personas con discapacidad
¿Cómo funcionan las herramientas de IA de conversión de voz a texto?
El proceso de transcripción incluye:
- Los datos de audio se cargan o se transmiten a la herramienta de conversión de voz a texto.
- Uso de algoritmos de aprendizaje automático para analizar los datos de audio e identificar patrones en el habla.
- La herramienta convierte el habla a texto utilizando un motor de conversión de voz a texto.
- A continuación, se muestra al usuario el texto transcrito.
Preguntas frecuentes
La transcripción de grabaciones de audio y vídeo se puede utilizar en:
Asistentes de voz y asistentes virtuales
Traducción e interpretación de idiomas
Sistemas de reconocimiento de voz a texto (ASR) para personas con discapacidad
Sus modelos preentrenados permiten el reconocimiento automático del habla (ASR) para archivos de audio y vídeo grabados. Las transcripciones de audio de alta precisión incluyen la detección automática de puntuación y temas.
Puede elegir un motor de código abierto o un proveedor de reconocimiento de voz de un servicio con el que su empresa ya trabaje (por ejemplo, Google Cloud, AWS transcribe) como solución de transcripción para las necesidades de su empresa. Algunos también ofrecen créditos gratuitos, pero recomendamos precaución con respecto a la seguridad de los datos.
Una API de conversión de voz a texto puede ayudar a transcribir archivos de audio a texto. Procesamiento y análisis de datos de audio:
Los datos de audio se procesan utilizando técnicas como la reducción de ruido y la cancelación de eco.
Los datos de audio se analizan posteriormente utilizando algoritmos de aprendizaje automático para identificar patrones en el habla.
Los algoritmos utilizan modelos acústicos y modelos de lenguaje para reconocer palabras y frases habladas.
Conversión de voz a texto mediante algoritmos de aprendizaje automático:
Los algoritmos de aprendizaje automático se entrenan con grandes conjuntos de datos de audio y texto.
Los algoritmos aprenden a reconocer patrones en el habla y a convertirlos en texto.
Los algoritmos se pueden ajustar y personalizar para casos de uso y lenguajes específicos.
Lecturas adicionales
- Comparativa de los 10 mejores programas de conversión de texto a voz
- Más de 10 servicios de recopilación de datos de voz
Sé el primero en comentar
Tu dirección de correo electrónico no será publicada. Todos los campos son obligatorios.