Contáctanos
No se encontraron resultados.

Comparativa de conversión de voz a texto: Deepgram frente a Whisper

Cem Dilmegani
Cem Dilmegani
actualizado el Ene 22, 2026
Vea nuestra normas éticas

Realizamos una evaluación comparativa de los principales proveedores de conversión de voz a texto (STT), centrándonos específicamente en aplicaciones para el sector sanitario. Nuestra evaluación comparativa utilizó ejemplos reales para valorar la precisión de la transcripción en contextos médicos, donde la exactitud es fundamental.

Resultados de referencia de la conversión de voz a texto

Según los resultados de la tasa de error de palabras (WER) y la tasa de error de caracteres (CER), GPT-4o-transcribe demuestra la mayor precisión de transcripción entre todos los sistemas de conversión de voz a texto evaluados. Deepgram Nova-v3 y Gladia también obtienen buenos resultados, manteniendo bajas tasas de error en ambas métricas.

Loading Chart

Metodología

Conjunto de datos

Queríamos evaluar el rendimiento de los modelos tanto en muestras pequeñas y variadas como en una muestra larga, por lo que realizamos dos tareas:

Tarea 1: Datos de voz en el sector sanitario

  • Número total de muestras: 100
  • Duración total: 9 minutos y 25 segundos
  • Duración media por muestra: 5,65 segundos
  • Contenido: Datos de voz del sector sanitario, incluyendo terminología médica, interacciones con pacientes y conversaciones clínicas.
  • Variedad: Diferentes hablantes, calidad de audio variable y diversos contextos médicos hablados en inglés.

Especificaciones de audio:

  • Formato: WAV
  • Canales: 1 (Mono)
  • Ancho de muestra: 16 bits
  • Frecuencia de muestreo: 16 kHz
  • Tasa de bits constante: 256 kbps
  • Rango de duración: ~4,5 a 11,5 segundos por archivo

Tarea 2: Una clase de anatomía

  • Número total de muestras: 1
  • Duración total: 8 minutos y 35 segundos
  • Contenido: Una clase de anatomía impartida por un médico, que incluye terminología médica.
  • Variedad: En la primera mitad del vídeo, una persona habla en inglés; de fondo suena música.

Especificaciones de audio:

  • Formato: WAV
  • Canales: 2 (Estéreo)
  • Ancho de muestra: 16 bits
  • Frecuencia de muestreo: 48 kHz
  • Tasa de bits constante: 1536 kbps

Métricas de evaluación

Utilizamos la tasa de error de palabras (WER) y la tasa de error de caracteres (CER) como métricas de evaluación para la precisión de la transcripción. La tasa de error de palabras se calcula de la siguiente manera:

WER = (S + D + I) / N

Dónde:

  • S = Número de sustituciones
  • D = Número de eliminaciones
  • I = Número de inserciones
  • N = Número total de palabras en la verdad fundamental

La fórmula calcula el número mínimo de operaciones a nivel de palabra necesarias para transformar la hipótesis en la referencia, dividido por el número de palabras de la referencia. Un WER más bajo indica una mayor precisión, siendo el 0% una coincidencia perfecta.

La tasa de error de caracteres (CER, por sus siglas en inglés) se calcula dividiendo el número total de errores a nivel de caracteres (incluidas inserciones, eliminaciones y sustituciones) entre el número total de caracteres del texto de referencia.

Utilizamos API de conversión de voz a texto para transcribir archivos de audio a texto.

El tamaño máximo de archivo que los proveedores pueden ingresar a la vez se muestra en la tabla:

Dado que Vosk se ejecuta localmente, no hay límite en el tamaño del archivo de entrada. Sin embargo, los archivos de audio largos pueden exceder el límite del haz, lo que puede provocar la pérdida de algunas probabilidades. Por lo tanto, se recomienda dividir los archivos en segmentos de 1 a 2 minutos.

Google MedASR también funciona localmente y no impone un límite máximo de tamaño de archivo. Para un rendimiento y una gestión de recursos óptimos, se recomienda procesar archivos largos en segmentos más pequeños.

Nota: Para proveedores con límites de tamaño de archivo más pequeños (como Google y OpenAI), los archivos de audio más grandes deben dividirse en fragmentos más pequeños antes de su procesamiento. Realizamos esto en la Tarea 2.

Reconocimiento de voz

El reconocimiento de voz permite a las computadoras transcribir archivos de audio a texto mediantealgoritmos de aprendizaje automático . La API de un servicio de transcripción se puede utilizar con diversos lenguajes de programación para la transcripción por lotes. Estas plataformas admiten transcripción tanto en tiempo real como asíncrona.

La tecnología de reconocimiento de voz tiene numerosas aplicaciones, entre ellas la transcripción, los asistentes de voz y la traducción de idiomas.

Ventajas de utilizar el reconocimiento de voz para la transcripción

  • Transcripción rápida de archivos de audio
  • Ahorro de tiempo y esfuerzo
  • Transcripción y traducción en tiempo real
  • Accesibilidad para personas con discapacidad

¿Cómo funcionan las herramientas de IA de conversión de voz a texto?

El proceso de transcripción incluye:

  • Los datos de audio se cargan o se transmiten a la herramienta de conversión de voz a texto.
  • Uso de algoritmos de aprendizaje automático para analizar los datos de audio e identificar patrones en el habla.
  • La herramienta convierte el habla a texto utilizando un motor de conversión de voz a texto.
  • A continuación, se muestra al usuario el texto transcrito.

Preguntas frecuentes

La transcripción de grabaciones de audio y vídeo se puede utilizar en:
Asistentes de voz y asistentes virtuales
Traducción e interpretación de idiomas
Sistemas de reconocimiento de voz a texto (ASR) para personas con discapacidad

Sus modelos preentrenados permiten el reconocimiento automático del habla (ASR) para archivos de audio y vídeo grabados. Las transcripciones de audio de alta precisión incluyen la detección automática de puntuación y temas.
Puede elegir un motor de código abierto o un proveedor de reconocimiento de voz de un servicio con el que su empresa ya trabaje (por ejemplo, Google Cloud, AWS transcribe) como solución de transcripción para las necesidades de su empresa. Algunos también ofrecen créditos gratuitos, pero recomendamos precaución con respecto a la seguridad de los datos.

Una API de conversión de voz a texto puede ayudar a transcribir archivos de audio a texto. Procesamiento y análisis de datos de audio:
Los datos de audio se procesan utilizando técnicas como la reducción de ruido y la cancelación de eco.
Los datos de audio se analizan posteriormente utilizando algoritmos de aprendizaje automático para identificar patrones en el habla.
Los algoritmos utilizan modelos acústicos y modelos de lenguaje para reconocer palabras y frases habladas.
Conversión de voz a texto mediante algoritmos de aprendizaje automático:
Los algoritmos de aprendizaje automático se entrenan con grandes conjuntos de datos de audio y texto.
Los algoritmos aprenden a reconocer patrones en el habla y a convertirlos en texto.
Los algoritmos se pueden ajustar y personalizar para casos de uso y lenguajes específicos.

Lecturas adicionales

Cem Dilmegani
Cem Dilmegani
Analista principal
Cem ha sido el analista principal de AIMultiple desde 2017. AIMultiple informa a cientos de miles de empresas (según similarWeb), incluyendo el 55% de las empresas Fortune 500 cada mes. El trabajo de Cem ha sido citado por importantes publicaciones globales como Business Insider, Forbes, Washington Post, firmas globales como Deloitte, HPE y ONG como el Foro Económico Mundial y organizaciones supranacionales como la Comisión Europea. Puede consultar más empresas y recursos de renombre que citan a AIMultiple. A lo largo de su carrera, Cem se desempeñó como consultor, comprador y emprendedor tecnológico. Asesoró a empresas en sus decisiones tecnológicas en McKinsey & Company y Altman Solon durante más de una década. También publicó un informe de McKinsey sobre digitalización. Lideró la estrategia y adquisición de tecnología de una empresa de telecomunicaciones, reportando directamente al CEO. Asimismo, lideró el crecimiento comercial de la empresa de tecnología avanzada Hypatos, que alcanzó ingresos recurrentes anuales de siete cifras y una valoración de nueve cifras partiendo de cero en tan solo dos años. El trabajo de Cem en Hypatos fue reseñado por importantes publicaciones tecnológicas como TechCrunch y Business Insider. Cem participa regularmente como ponente en conferencias internacionales de tecnología. Se graduó en ingeniería informática por la Universidad de Bogazici y posee un MBA de la Columbia Business School.
Ver perfil completo
Investigado por
Şevval Alper
Şevval Alper
Investigador de IA
Şevval es analista del sector en AIMultiple, especializado en herramientas de codificación de IA, agentes de IA y tecnologías cuánticas.
Ver perfil completo

Sé el primero en comentar

Tu dirección de correo electrónico no será publicada. Todos los campos son obligatorios.

0/450