Benchmark

Benchmark de Fala para Texto: Deepgram vs. Whisper

com

atualizado em 22 jan. 2026

Nós realizamos um benchmark dos principais provedores de fala para texto (STT), com foco específico em aplicações de saúde. Nosso benchmark utilizou exemplos reais para avaliar a precisão da transcrição em contextos médicos, onde a exatidão é crucial.

Resultados do benchmark de fala para texto

Com base nos resultados da taxa de erro de palavra (WER) e da taxa de erro de caractere (CER), o GPT-4o-transcribe demonstra a maior precisão de transcrição entre todos os sistemas de fala para texto avaliados. O Deepgram Nova-v3 e o Gladia também apresentam bom desempenho, mantendo baixas taxas de erro em ambas as métricas.

Loading Chart

Metodologia

Dataset

Queríamos avaliar o desempenho dos modelos em amostras pequenas e variadas, bem como em uma amostra longa, por isso realizamos duas tarefas:

Tarefa 1: Dados de voz da área da saúde

Número total de amostras: 100
Duração total: 9 minutos e 25 segundos
Duração média por amostra: 5.65 segundos
Conteúdo: Dados de voz da área da saúde, incluindo terminologia médica, interações com pacientes e discussões clínicas
Variedade: Diferentes locutores, qualidade de áudio variável e diversos contextos médicos falados em inglês

Especificações de áudio:

Formato: WAV
Canais: 1 (Mono)
Largura da amostra: 16-bit
Taxa de amostragem: 16 kHz
Bitrate constante: 256 kbps
Faixa de duração: ~4.5 a 11.5 segundos por arquivo

Tarefa 2: Uma aula de anatomia

Número total de amostras: 1
Duração total: 8 minutos e 35 segundos
Conteúdo: Uma aula de anatomia ministrada por um médico, incluindo terminologia médica
Variedade: Um locutor fala em inglês na primeira metade do vídeo; há música de fundo.

Especificações de áudio:

Formato: WAV
Canais: 2 (Stereo)
Largura da amostra: 16-bit
Taxa de amostragem: 48 kHz
Bitrate constante: 1536 kbps

Métricas de avaliação

Utilizamos a taxa de erro de palavra (WER) e a taxa de erro de caractere (CER) como métricas de avaliação para a precisão da transcrição. A taxa de erro de palavra é calculada como:

WER = (S + D + I) / N

Onde:

S = Número de substituições
D = Número de exclusões
I = Número de inserções
N = Número total de palavras na referência

A fórmula calcula o número mínimo de operações em nível de palavra necessárias para transformar a hipótese na referência, dividido pelo número de palavras na referência. Quanto menor o WER, melhor a precisão, sendo 0% uma correspondência perfeita.

A taxa de erro de caractere (CER) é calculada dividindo o número total de erros em nível de caractere (incluindo inserções, exclusões e substituições) pelo número total de caracteres no texto de referência.

Utilizamos APIs de fala para texto para transcrever arquivos de áudio em texto.

O tamanho máximo de arquivo de entrada de cada vez para cada provedor é mostrado na tabela:

Provedor	Tamanho máximo de arquivo
AssemblyAI-slam-1	5GB
Deepgram-nova-3	2GB
Gladia	500MB
GPT-4o-transcribe	25MB
IBM Watson Speech-to-Text	100MB
Whisper-v3-large	25MB
Speechmatics	1GB
Rev.ai	1GB
Microsoft Azure Speech	1GB
Google Cloud Speech-to-Text	10MB

*Como o Vosk é executado localmente, não há limite no tamanho do arquivo de entrada. No entanto, arquivos de áudio longos podem exceder o limite do feixe, causando a perda de algumas probabilidades. Portanto, recomenda-se dividir os arquivos em segmentos de 1 a 2 minutos.

O Google MedASR também opera localmente e não impõe um limite máximo de tamanho de arquivo. Para desempenho ideal e gerenciamento de recursos, recomenda-se processar arquivos longos em segmentos menores.

Nota: Para provedores com limites de tamanho de arquivo menores (como Google e OpenAI), arquivos de áudio maiores devem ser divididos em pedaços menores antes do processamento. Realizamos isso na Tarefa 2.

Reconhecimento de fala

O reconhecimento de fala permite que os computadores transcrevam arquivos de áudio em texto usando algoritmos de aprendizado de máquina. A API de um serviço de transcrição pode ser utilizada com várias linguagens de programação para transcrição em lote. Essas plataformas oferecem suporte à transcrição em tempo real e assíncrona.

A tecnologia de reconhecimento de fala tem inúmeras aplicações, incluindo transcrição, assistentes de voz e tradução de idiomas.

Benefícios do uso do reconhecimento de fala para transcrição

Transcrição rápida de arquivos de áudio
Economia de tempo e esforço
Transcrição e tradução em tempo real
Acessibilidade para pessoas com deficiência

Deixe nossa equipe automatizar um dos seus processos de negócio com agentes de IA, gratuitamente.

Automatizar um processo

Como funcionam as ferramentas de IA de fala para texto?

O processo de transcrição inclui:

Os dados de áudio são carregados ou transmitidos para a ferramenta de fala para texto
Uso de algoritmos de aprendizado de máquina para analisar os dados de áudio e identificar padrões na fala
A ferramenta converte a fala em texto usando um mecanismo de fala para texto
O texto transcrito é então exibido para o usuário.

Perguntas frequentes

A transcrição de áudio e gravações de vídeo pode ser usada em:
Assistentes de voz e assistentes virtuais
Tradução e interpretação de idiomas
Sistemas de fala para texto (ASR) para pessoas com deficiência

Seus modelos pré-treinados permitem o reconhecimento automático de fala (ASR) para arquivos de áudio e vídeo gravados. As transcrições de áudio de alta precisão incluem pontuação automática e detecção de tópicos.
Um mecanismo de código aberto ou um provedor de reconhecimento de fala de um serviço com o qual sua empresa já trabalha (ou seja, Google Cloud, AWS transcribe) pode ser escolhido como a solução de transcrição para as necessidades da sua empresa. Alguns deles também oferecem créditos gratuito, mas recomendamos cautela em relação à segurança dos dados.

Uma API de fala para texto pode ajudar a transcrever arquivos de áudio em texto. Processamento e análise de dados de áudio:
Os dados de áudio são processados usando técnicas como redução de ruído e cancelamento de eco
Em seguida, os dados de áudio são analisados usando algoritmos de aprendizado de máquina para identificar padrões na fala
Os algoritmos usam modelos acústicos e modelos de linguagem para reconhecer palavras e frases faladas
Conversão de fala em texto usando algoritmos de aprendizado de máquina:
Os algoritmos de aprendizado de máquina são treinados em grandes datasets de áudio e texto
Os algoritmos aprendem a reconhecer padrões na fala e convertê-los em texto
Os algoritmos podem ser fine-tuned e personalizados para casos de uso e idiomas específicos

Não perca os nossos benchmarks e insights baseados em dados. O botão abre o Google; selecionar a AIMultiple confirma que deseja ver a AIMultiple com mais frequência nos resultados de pesquisa do Google.

Adicionar como fonte preferencial

Leitura adicional

Cite este benchmark

Escolha o formato adequado ao local onde você vai publicar. Colar a versão com link no seu CMS preserva o backlink.

Cem Dilmegani and Şevval Alper (2026) - "Benchmark de Fala para Texto: Deepgram vs. Whisper". Publicado on-line em AIMultiple.com. Acessado em 22 Janeiro 2026, em: https://aimultiple.com/speech-to-text [Recurso on-line]

Dilmegani, C., & Alper, Ş. (2026, 22 Janeiro). Benchmark de Fala para Texto: Deepgram vs. Whisper. AIMultiple. https://aimultiple.com/speech-to-text

@misc{dilmegani2026,
  author = {Dilmegani, Cem and Alper, Şevval},
  title  = {{Benchmark de Fala para Texto: Deepgram vs. Whisper}},
  year   = {2026},
  month  = jan,
  howpublished    = {\url{https://aimultiple.com/speech-to-text}},
  note   = {AIMultiple. Acessado em 22 Janeiro 2026}
}

Cem Dilmegani

Analista Principal

Cem tem sido o analista principal do AIMultiple desde 2017. O AIMultiple informa centenas de milhares de empresas (de acordo com o similarWeb), incluindo 60% das empresas da Fortune 500 todos os meses.

O trabalho de Cem foi citado por publicações globais de destaque, incluindo Business Insider, Forbes, Washington Post, empresas globais como Deloitte, HPE e ONGs como o Fórum Econômico Mundial e organizações supranacionais como a Comissão Europeia.

Ao longo de sua carreira, Cem atuou como consultor de tecnologia, comprador de tecnologia e empreendedor de tecnologia. Ele aconselhou empresas em suas decisões de tecnologia na McKinsey & Company e na Altman Solon por mais de uma década. Ele também publicou um relatório da McKinsey sobre digitalização.

Ele liderou a estratégia de tecnologia e aquisições de uma empresa de telecomunicações, reportando-se ao CEO. Ele também liderou o crescimento comercial da empresa de tecnologia profunda Hypatos, que alcançou uma receita recorrente anual de 7 dígitos e uma avaliação de 9 dígitos partindo do zero em 2 anos. O trabalho de Cem na Hypatos foi coberto por publicações de tecnologia de destaque como TechCrunch e Business Insider.

Cem fala regularmente em conferências internacionais de tecnologia. Ele se formou na Universidade Bogazici como engenheiro de computação e possui um MBA pela Columbia Business School.

Ver perfil completo

Pesquisado por