Contate-nos
Nenhum resultado encontrado.

Comparativo de reconhecimento de voz: Deepgram vs. Whisper

Cem Dilmegani
Cem Dilmegani
atualizado em Jan 22, 2026
Veja o nosso normas éticas

Avaliamos os principais fornecedores de transcrição de fala em texto (STT), com foco específico em aplicações para a área da saúde. Nossa avaliação comparativa utilizou exemplos do mundo real para analisar a precisão da transcrição em contextos médicos, onde a exatidão é crucial.

Resultados de referência de conversão de fala em texto

Com base nos resultados das taxas de erro de palavras (WER) e de caracteres (CER), o sistema GPT-4o-transcribe demonstra a maior precisão de transcrição entre todos os sistemas de fala para texto avaliados. O Deepgram Nova-v3 e o Gladia também apresentam um desempenho sólido, mantendo baixas taxas de erro em ambas as métricas.

Loading Chart

Metodologia

Conjunto de dados

Queríamos avaliar o desempenho dos modelos tanto em amostras pequenas e variadas quanto em uma amostra longa, então realizamos duas tarefas:

Tarefa 1: Dados de voz na área da saúde

  • Número total de amostras: 100
  • Duração total: 9 minutos e 25 segundos
  • Duração média por amostra: 5,65 segundos
  • Conteúdo: Dados de voz da área da saúde, incluindo terminologia médica, interações com pacientes e discussões clínicas.
  • Variedade: diferentes oradores, qualidade de áudio variável e diversos contextos médicos abordados em inglês.

Especificações de áudio:

  • Formato: WAV
  • Canais: 1 (Mono)
  • Largura da amostra: 16 bits
  • Taxa de amostragem: 16 kHz
  • Taxa de bits constante: 256 kbps
  • Intervalo de duração: aproximadamente 4,5 a 11,5 segundos por arquivo

Tarefa 2: Uma aula de anatomia

  • Número total de amostras: 1
  • Duração total: 8 minutos e 35 segundos
  • Conteúdo: Uma aula de anatomia ministrada por um médico, incluindo terminologia médica.
  • Variedade: Na primeira metade do vídeo, um dos interlocutores fala em inglês; uma música toca ao fundo.

Especificações de áudio:

  • Formato: WAV
  • Canais: 2 (Estéreo)
  • Largura da amostra: 16 bits
  • Taxa de amostragem: 48 kHz
  • Taxa de bits constante: 1536 kbps

Métricas de avaliação

Utilizamos a taxa de erro de palavras (WER) e a taxa de erro de caracteres (CER) como métricas de avaliação da precisão da transcrição. A taxa de erro de palavras é calculada da seguinte forma:

WER = (S + D + I) / N

Onde:

  • S = Número de substituições
  • D = Número de exclusões
  • I = Número de inserções
  • N = Número total de palavras na verdade fundamental

A fórmula calcula o número mínimo de operações em nível de palavra necessárias para transformar a hipótese na referência, dividido pelo número de palavras na referência. Um WER menor indica maior precisão, sendo 0% uma correspondência perfeita.

A taxa de erro de caracteres (CER, na sigla em inglês) é calculada dividindo-se o número total de erros em nível de caractere (incluindo inserções, exclusões e substituições) pelo número total de caracteres no texto de referência.

Utilizamos APIs de conversão de fala em texto para transcrever arquivos de áudio em texto.

A tabela mostra o tamanho máximo de arquivo que os provedores podem inserir de uma só vez:

*Como o Vosk é executado localmente, não há limite para o tamanho do arquivo de entrada. No entanto, arquivos de áudio longos podem exceder o limite do feixe, causando alguma perda de dados. Portanto, recomenda-se dividir os arquivos em segmentos de 1 a 2 minutos.

O MedASR também opera localmente e não impõe um limite máximo de tamanho de arquivo. Para um desempenho e gerenciamento de recursos ideais, recomenda-se processar arquivos longos em segmentos menores.

Observação: Para provedores com limites de tamanho de arquivo menores (como Google e OpenAI), arquivos de áudio maiores devem ser divididos em partes menores antes do processamento. Fizemos isso na Tarefa 2.

reconhecimento de fala

O reconhecimento de voz permite que computadores transcrevam arquivos de áudio em texto usandoalgoritmos de aprendizado de máquina . A API de um serviço de transcrição pode ser usada com diversas linguagens de programação para transcrição em lote. Essas plataformas suportam transcrição tanto em tempo real quanto assíncrona.

A tecnologia de reconhecimento de fala tem inúmeras aplicações, incluindo transcrição, assistentes de voz e tradução de idiomas.

Benefícios do uso do reconhecimento de voz para transcrição

  • Transcrição rápida de arquivos de áudio
  • Economia de tempo e esforço
  • Transcrição e tradução em tempo real
  • Acessibilidade para pessoas com deficiência

Como funcionam as ferramentas de IA de conversão de fala em texto?

O processo de transcrição inclui:

  • Os dados de áudio são carregados ou transmitidos para a ferramenta de conversão de fala em texto.
  • Utilização de algoritmos de aprendizado de máquina para analisar dados de áudio e identificar padrões na fala.
  • A ferramenta converte a fala em texto usando um mecanismo de conversão de fala em texto.
  • O texto transcrito é então exibido ao usuário.

Perguntas frequentes

A transcrição de gravações de áudio e vídeo pode ser usada em:
Assistentes de voz e assistentes virtuais
Tradução e interpretação de idiomas
Sistemas de reconhecimento de fala (ASR) para pessoas com deficiência

Seus modelos pré-treinados permitem o reconhecimento automático de fala (ASR) para arquivos de áudio e vídeo gravados. As transcrições de áudio de alta precisão incluem pontuação automática e detecção de tópicos.
Uma plataforma de código aberto ou um provedor de reconhecimento de voz de um serviço que sua empresa já utiliza (por exemplo, AWS Cloud, AWS Transcreve) pode ser escolhido como solução de transcrição para as necessidades da sua empresa. Alguns deles também oferecem créditos gratuitos, mas recomendamos cautela em relação à segurança dos dados.

Uma API de conversão de fala em texto pode ajudar a transcrever arquivos de áudio em texto. Processamento e análise de dados de áudio:
Os dados de áudio são processados utilizando técnicas como redução de ruído e cancelamento de eco.
Os dados de áudio são então analisados usando algoritmos de aprendizado de máquina para identificar padrões na fala.
Os algoritmos utilizam modelos acústicos e modelos de linguagem para reconhecer palavras e frases faladas.
Conversão de fala em texto usando algoritmos de aprendizado de máquina:
Os algoritmos de aprendizado de máquina são treinados em grandes conjuntos de dados de áudio e texto.
Os algoritmos aprendem a reconhecer padrões na fala e a convertê-los em texto.
Os algoritmos podem ser ajustados e personalizados para casos de uso e linguagens específicos.

Leitura complementar

Cem Dilmegani
Cem Dilmegani
Analista Principal
Cem é o analista principal da AIMultiple desde 2017. A AIMultiple fornece informações para centenas de milhares de empresas (segundo o SimilarWeb), incluindo 55% das empresas da Fortune 500, todos os meses. O trabalho de Cem foi citado por importantes publicações globais, como Business Insider, Forbes e Washington Post, além de empresas globais como Deloitte e HPE, ONGs como o Fórum Econômico Mundial e organizações supranacionais como a Comissão Europeia. Você pode ver mais empresas e recursos renomados que mencionaram a AIMultiple. Ao longo de sua carreira, Cem atuou como consultor de tecnologia, comprador de tecnologia e empreendedor na área. Ele assessorou empresas em suas decisões tecnológicas na McKinsey & Company e na Altman Solon por mais de uma década. Também publicou um relatório da McKinsey sobre digitalização. Liderou a estratégia de tecnologia e a área de compras de uma empresa de telecomunicações, reportando-se diretamente ao CEO. Além disso, liderou o crescimento comercial da empresa de tecnologia avançada Hypatos, que atingiu uma receita recorrente anual de sete dígitos e uma avaliação de nove dígitos, partindo de zero, em apenas dois anos. O trabalho de Cem no Hypatos foi noticiado por importantes publicações de tecnologia, como TechCrunch e Business Insider. Cem participa regularmente como palestrante em conferências internacionais de tecnologia. Ele se formou em engenharia da computação pela Universidade Bogazici e possui um MBA pela Columbia Business School.
Ver perfil completo
Pesquisado por
Şevval Alper
Şevval Alper
Pesquisador de IA
Şevval é analista da AIMultiple, especializada em ferramentas de codificação de IA, agentes de IA e tecnologias quânticas.
Ver perfil completo

Seja o primeiro a comentar

Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios.

0/450