Avaliamos os principais fornecedores de transcrição de fala em texto (STT), com foco específico em aplicações para a área da saúde. Nossa avaliação comparativa utilizou exemplos do mundo real para analisar a precisão da transcrição em contextos médicos, onde a exatidão é crucial.
Resultados de referência de conversão de fala em texto
Com base nos resultados das taxas de erro de palavras (WER) e de caracteres (CER), o sistema GPT-4o-transcribe demonstra a maior precisão de transcrição entre todos os sistemas de fala para texto avaliados. O Deepgram Nova-v3 e o Gladia também apresentam um desempenho sólido, mantendo baixas taxas de erro em ambas as métricas.
Metodologia
Conjunto de dados
Queríamos avaliar o desempenho dos modelos tanto em amostras pequenas e variadas quanto em uma amostra longa, então realizamos duas tarefas:
Tarefa 1: Dados de voz na área da saúde
- Número total de amostras: 100
- Duração total: 9 minutos e 25 segundos
- Duração média por amostra: 5,65 segundos
- Conteúdo: Dados de voz da área da saúde, incluindo terminologia médica, interações com pacientes e discussões clínicas.
- Variedade: diferentes oradores, qualidade de áudio variável e diversos contextos médicos abordados em inglês.
Especificações de áudio:
- Formato: WAV
- Canais: 1 (Mono)
- Largura da amostra: 16 bits
- Taxa de amostragem: 16 kHz
- Taxa de bits constante: 256 kbps
- Intervalo de duração: aproximadamente 4,5 a 11,5 segundos por arquivo
Tarefa 2: Uma aula de anatomia
- Número total de amostras: 1
- Duração total: 8 minutos e 35 segundos
- Conteúdo: Uma aula de anatomia ministrada por um médico, incluindo terminologia médica.
- Variedade: Na primeira metade do vídeo, um dos interlocutores fala em inglês; uma música toca ao fundo.
Especificações de áudio:
- Formato: WAV
- Canais: 2 (Estéreo)
- Largura da amostra: 16 bits
- Taxa de amostragem: 48 kHz
- Taxa de bits constante: 1536 kbps
Métricas de avaliação
Utilizamos a taxa de erro de palavras (WER) e a taxa de erro de caracteres (CER) como métricas de avaliação da precisão da transcrição. A taxa de erro de palavras é calculada da seguinte forma:
WER = (S + D + I) / N
Onde:
- S = Número de substituições
- D = Número de exclusões
- I = Número de inserções
- N = Número total de palavras na verdade fundamental
A fórmula calcula o número mínimo de operações em nível de palavra necessárias para transformar a hipótese na referência, dividido pelo número de palavras na referência. Um WER menor indica maior precisão, sendo 0% uma correspondência perfeita.
A taxa de erro de caracteres (CER, na sigla em inglês) é calculada dividindo-se o número total de erros em nível de caractere (incluindo inserções, exclusões e substituições) pelo número total de caracteres no texto de referência.
Utilizamos APIs de conversão de fala em texto para transcrever arquivos de áudio em texto.
A tabela mostra o tamanho máximo de arquivo que os provedores podem inserir de uma só vez:
*Como o Vosk é executado localmente, não há limite para o tamanho do arquivo de entrada. No entanto, arquivos de áudio longos podem exceder o limite do feixe, causando alguma perda de dados. Portanto, recomenda-se dividir os arquivos em segmentos de 1 a 2 minutos.
O MedASR também opera localmente e não impõe um limite máximo de tamanho de arquivo. Para um desempenho e gerenciamento de recursos ideais, recomenda-se processar arquivos longos em segmentos menores.
Observação: Para provedores com limites de tamanho de arquivo menores (como Google e OpenAI), arquivos de áudio maiores devem ser divididos em partes menores antes do processamento. Fizemos isso na Tarefa 2.
reconhecimento de fala
O reconhecimento de voz permite que computadores transcrevam arquivos de áudio em texto usandoalgoritmos de aprendizado de máquina . A API de um serviço de transcrição pode ser usada com diversas linguagens de programação para transcrição em lote. Essas plataformas suportam transcrição tanto em tempo real quanto assíncrona.
A tecnologia de reconhecimento de fala tem inúmeras aplicações, incluindo transcrição, assistentes de voz e tradução de idiomas.
Benefícios do uso do reconhecimento de voz para transcrição
- Transcrição rápida de arquivos de áudio
- Economia de tempo e esforço
- Transcrição e tradução em tempo real
- Acessibilidade para pessoas com deficiência
Como funcionam as ferramentas de IA de conversão de fala em texto?
O processo de transcrição inclui:
- Os dados de áudio são carregados ou transmitidos para a ferramenta de conversão de fala em texto.
- Utilização de algoritmos de aprendizado de máquina para analisar dados de áudio e identificar padrões na fala.
- A ferramenta converte a fala em texto usando um mecanismo de conversão de fala em texto.
- O texto transcrito é então exibido ao usuário.
Perguntas frequentes
A transcrição de gravações de áudio e vídeo pode ser usada em:
Assistentes de voz e assistentes virtuais
Tradução e interpretação de idiomas
Sistemas de reconhecimento de fala (ASR) para pessoas com deficiência
Seus modelos pré-treinados permitem o reconhecimento automático de fala (ASR) para arquivos de áudio e vídeo gravados. As transcrições de áudio de alta precisão incluem pontuação automática e detecção de tópicos.
Uma plataforma de código aberto ou um provedor de reconhecimento de voz de um serviço que sua empresa já utiliza (por exemplo, AWS Cloud, AWS Transcreve) pode ser escolhido como solução de transcrição para as necessidades da sua empresa. Alguns deles também oferecem créditos gratuitos, mas recomendamos cautela em relação à segurança dos dados.
Uma API de conversão de fala em texto pode ajudar a transcrever arquivos de áudio em texto. Processamento e análise de dados de áudio:
Os dados de áudio são processados utilizando técnicas como redução de ruído e cancelamento de eco.
Os dados de áudio são então analisados usando algoritmos de aprendizado de máquina para identificar padrões na fala.
Os algoritmos utilizam modelos acústicos e modelos de linguagem para reconhecer palavras e frases faladas.
Conversão de fala em texto usando algoritmos de aprendizado de máquina:
Os algoritmos de aprendizado de máquina são treinados em grandes conjuntos de dados de áudio e texto.
Os algoritmos aprendem a reconhecer padrões na fala e a convertê-los em texto.
Os algoritmos podem ser ajustados e personalizados para casos de uso e linguagens específicos.
Leitura complementar
- Comparativo dos 10 melhores softwares de conversão de texto em fala
- Mais de 10 serviços de coleta de dados de fala
Seja o primeiro a comentar
Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios.