Benchmark

Comparativa de Speech-to-Text: Deepgram vs. Whisper

con

actualizado el 22 de ene. de 2026

Evaluamos a los principales proveedores de speech-to-text (STT), centrándonos específicamente en aplicaciones de atención médica. Nuestro análisis utilizó ejemplos del mundo real para evaluar la precisión de transcripción en contextos médicos, donde la precisión es crucial.

Resultados de la comparativa de speech-to-text

Según los resultados de tasa de error de palabras (WER) y tasa de error de caracteres (CER), GPT-4o-transcribe demuestra la mayor precisión de transcripción entre todos los sistemas de speech-to-text evaluados. Deepgram Nova-v3 y Gladia también obtuvieron un rendimiento sólido, manteniendo bajas tasas de error en ambas métricas.

Loading Chart

Metodología

Conjunto de datos

Quisimos evaluar el rendimiento de los modelos tanto en muestras pequeñas y variadas como en una muestra larga, por lo que realizamos dos tareas:

Tarea 1: Datos de voz del ámbito sanitario

Número total de muestras: 100
Duración total: 9 minutos y 25 segundos
Duración media por muestra: 5.65 segundos
Contenido: datos de voz del ámbito sanitario, que incluyen terminología médica, interacciones con pacientes y discusiones clínicas
Variedad: diferentes locutores, calidad de audio variable y diversos contextos médicos hablados en inglés

Especificaciones de audio:

Formato: WAV
Canales: 1 (Mono)
Ancho de muestra: 16 bits
Frecuencia de muestreo: 16 kHz
Tasa de bits constante: 256 kbps
Rango de duración: ~4.5 a 11.5 segundos por archivo

Tarea 2: Una clase de anatomía

Número total de muestras: 1
Duración total: 8 minutos y 35 segundos
Contenido: clase de anatomía impartida por un médico, que incluye terminología médica
Variedad: un único locutor habla en inglés en la primera mitad del vídeo; de fondo suena música.

Especificaciones de audio:

Formato: WAV
Canales: 2 (Estéreo)
Ancho de muestra: 16 bits
Frecuencia de muestreo: 48 kHz
Tasa de bits constante: 1536 kbps

Métricas de evaluación

Utilizamos la tasa de error de palabras (WER) y la tasa de error de caracteres (CER) como métricas de evaluación de la precisión de la transcripción. La tasa de error de palabras se calcula de la siguiente manera:

WER = (S + D + I) / N

Donde:

S = Número de sustituciones
D = Número de eliminaciones
I = Número de inserciones
N = Número total de palabras en la referencia real

La fórmula calcula el número mínimo de operaciones a nivel de palabra necesarias para transformar la hipótesis en la referencia, dividido por el número de palabras de la referencia. Un WER más bajo indica mayor precisión; un 0% sería una correspondencia perfecta.

La tasa de error de caracteres (CER) se calcula dividiendo el número total de errores a nivel de carácter (lo que incluye inserciones, eliminaciones y sustituciones) por el número total de caracteres del texto de referencia.

Utilizamos las APIs de speech-to-text para transcribir archivos de audio a texto.

El tamaño máximo de archivo que los proveedores pueden recibir de una sola vez se muestra en la tabla:

Proveedor	Tamaño máximo de archivo
AssemblyAI-slam-1	5GB
Deepgram-nova-3	2GB
Gladia	500MB
GPT-4o-transcribe	25MB
IBM Watson Speech-to-Text	100MB
Whisper-v3-large	25MB
Speechmatics	1GB
Rev.ai	1GB
Microsoft Azure Speech	1GB
Google Cloud Speech-to-Text	10MB

*Dado que Vosk se ejecuta localmente, no hay límite en el tamaño del archivo de entrada. Sin embargo, los archivos de audio largos pueden superar el límite del haz, lo que provoca la pérdida de algunas probabilidades. Por ello, se recomienda dividir los archivos en segmentos de 1 a 2 minutos.

Google MedASR también funciona localmente y no impone un límite máximo al tamaño del archivo. Para un rendimiento óptimo y una gestión adecuada de los recursos, se recomienda procesar los archivos largos en segmentos más pequeños.

Nota: En el caso de los proveedores con límites de tamaño de archivo más reducidos (como Google y OpenAI), los archivos de audio de mayor tamaño deben dividirse en fragmentos más pequeños antes de procesarlos. Esto es lo que hicimos en la Tarea 2.

Reconocimiento de voz

El reconocimiento de voz permite a las computadoras transcribir archivos de audio a texto mediante algoritmos de aprendizaje automático. La API de un servicio de transcripción se puede utilizar con varios lenguajes de programación para la transcripción por lotes. Estas plataformas admiten tanto la transcripción en tiempo real como la asíncrona.

La tecnología de reconocimiento de voz tiene numerosas aplicaciones, como la transcripción, los asistentes de voz y la traducción de idiomas.

Beneficios de utilizar el reconocimiento de voz para la transcripción

Transcripción rápida de archivos de audio
Ahorro de tiempo y esfuerzo
Transcripción y traducción en tiempo real
Accesibilidad para personas con discapacidad

Deja que nuestro equipo automatice uno de tus procesos de negocio con agentes de IA, sin coste alguno.

Automatizar un proceso

¿Cómo funcionan las herramientas de IA de speech-to-text?

El proceso de transcripción incluye:

Los datos de audio se cargan o transmiten a la herramienta de speech-to-text
Uso de algoritmos de aprendizaje automático para analizar los datos de audio e identificar patrones en el habla
La herramienta convierte el habla en texto mediante un motor de speech-to-text
El texto transcrito se muestra entonces al usuario.

Preguntas frecuentes

La transcripción de grabaciones de audio y vídeo se puede emplear en:
Los asistentes de voz y los asistentes virtuales
La traducción e interpretación de idiomas
Los sistemas de conversión de voz a texto (ASR) para personas con discapacidad

Sus modelos preentrenados permiten el reconocimiento automático del habla (ASR) para archivos de audio y vídeo grabados. Las transcripciones de audio de alta precisión incluyen puntuación automática y detección de temas.
Se puede elegir un motor de código abierto o un proveedor de reconocimiento de voz de un servicio con el que su empresa ya trabaje (por ejemplo, Google Cloud, AWS Transcribe) como la solución de transcripción para las necesidades de su empresa. Algunos de ellos también ofrecen créditos gratuitos, pero recomendamos precaución en cuanto a la seguridad de los datos.

Una API de speech-to-text puede ayudar a transcribir archivos de audio a texto. Procesamiento y análisis de los datos de audio:
Los datos de audio se procesan mediante técnicas como la reducción de ruido y la cancelación de eco
A continuación, los datos de audio se analizan mediante algoritmos de aprendizaje automático para identificar patrones en el habla
Los algoritmos utilizan modelos acústicos y modelos del lenguaje para reconocer palabras y frases habladas
Conversión del habla a texto mediante algoritmos de aprendizaje automático:
Los algoritmos de aprendizaje automático se entrenan con grandes conjuntos de datos de audio y texto
Los algoritmos aprenden a reconocer patrones en el habla y a convertirlos en texto
Los algoritmos se pueden ajustar y personalizar para casos de uso e idiomas específicos

Descubre más de nuestros análisis comparativos e insights basados en datos en la Búsqueda de Google.

Añadir como fuente preferida

Lecturas adicionales

Cita este benchmark

Elige el formato que se ajuste al lugar donde vas a publicar. Pegar la versión con enlace en tu CMS conserva el enlace de retroceso.

Cem Dilmegani and Şevval Alper (2026) - "Comparativa de Speech-to-Text: Deepgram vs. Whisper". Publicado en línea en AIMultiple.com. Recuperado el 22 de Enero de 2026, de: https://aimultiple.com/speech-to-text [Recurso en línea]

Dilmegani, C., & Alper, Ş. (2026, 22 de Enero). Comparativa de Speech-to-Text: Deepgram vs. Whisper. AIMultiple. https://aimultiple.com/speech-to-text

@misc{dilmegani2026,
  author = {Dilmegani, Cem and Alper, Şevval},
  title  = {{Comparativa de Speech-to-Text: Deepgram vs. Whisper}},
  year   = {2026},
  month  = jan,
  howpublished    = {\url{https://aimultiple.com/speech-to-text}},
  note   = {AIMultiple. Recuperado el 22 de Enero de 2026}
}

Cem Dilmegani

Analista Principal

Cem ha sido el analista principal en AIMultiple desde 2017. AIMultiple informa a cientos de miles de empresas (según similarWeb), incluido el 60% de Fortune 500 cada mes. El trabajo de Cem ha sido citado por publicaciones globales líderes como Business Insider, Forbes, Washington Post, firmas globales como Deloitte, HPE y ONG como el Foro Económico Mundial y organizaciones supranacionales como la Comisión Europea. A lo largo de su carrera, Cem se ha desempeñado como consultor tecnológico, comprador de tecnología y emprendedor tecnológico. Asesoró a empresas en sus decisiones tecnológicas en McKinsey & Company y Altman Solon durante más de una década. También publicó un informe de McKinsey sobre digitalización. Lideró la estrategia tecnológica y las adquisiciones de una empresa de telecomunicaciones reportando directamente al CEO. También lideró el crecimiento comercial de la empresa de tecnología profunda Hypatos, que alcanzó ingresos recurrentes anuales de 7 dígitos y una valoración de 9 dígitos desde 0 en 2 años. El trabajo de Cem en Hypatos fue cubierto por publicaciones tecnológicas líderes como TechCrunch y Business Insider. Cem habla regularmente en conferencias internacionales de tecnología. Se graduó de la Universidad de Bogazici como ingeniero informático y tiene un MBA de Columbia Business School.

Ver perfil completo

Investigado por