Contattaci
Nessun risultato trovato.

Confronto tra la sintesi vocale e il testo: Deepgram vs. Whisper

Cem Dilmegani
Cem Dilmegani
aggiornato il Gen 22, 2026
Guarda il nostro norme etiche

Abbiamo effettuato un'analisi comparativa dei principali fornitori di servizi di riconoscimento vocale (STT), concentrandoci in particolare sulle applicazioni sanitarie. La nostra analisi comparativa si è basata su esempi reali per valutare l'accuratezza della trascrizione in contesti medici, dove la precisione è fondamentale.

Risultati del benchmark di conversione da parlato a testo

In base ai risultati relativi al tasso di errore di parola (WER) e al tasso di errore di carattere (CER), GPT-4o-transcribe dimostra la massima accuratezza di trascrizione tra tutti i sistemi di conversione da parlato a testo valutati. Anche Deepgram Nova-v3 e Gladia offrono prestazioni elevate, mantenendo bassi tassi di errore in entrambe le metriche.

Loading Chart

Metodologia

Set di dati

Volevamo valutare le prestazioni dei modelli sia su campioni piccoli e diversificati che su un campione lungo, quindi abbiamo svolto due compiti:

Attività 1: Dati vocali in ambito sanitario

  • Numero totale di campioni: 100
  • Durata totale: 9 minuti e 25 secondi
  • Durata media per campione: 5,65 secondi
  • Contenuto: Dati vocali relativi al settore sanitario, tra cui terminologia medica, interazioni con i pazienti e discussioni cliniche.
  • Varietà: diversi oratori, qualità audio variabile e diversi contesti medici trattati in inglese.

Specifiche audio:

  • Formato: WAV
  • Canali: 1 (Mono)
  • Larghezza del campione: 16 bit
  • Frequenza di campionamento: 16 kHz
  • Bitrate costante: 256 kbps
  • Intervallo di durata: da circa 4,5 a 11,5 secondi per file

Compito 2: Una lezione di anatomia

  • Numero totale di campioni: 1
  • Durata totale: 8 minuti e 35 secondi
  • Contenuto: Una lezione di anatomia tenuta da un medico, comprensiva di terminologia medica.
  • Varietà: nella prima metà del video, un oratore parla in inglese; in sottofondo si sente della musica.

Specifiche audio:

  • Formato: WAV
  • Canali: 2 (Stereo)
  • Larghezza del campione: 16 bit
  • Frequenza di campionamento: 48 kHz
  • Bitrate costante: 1536 kbps

metriche di valutazione

Abbiamo utilizzato il tasso di errore di parola (WER) e il tasso di errore di carattere (CER) come metriche di valutazione per l'accuratezza della trascrizione. Il tasso di errore di parola viene calcolato come segue:

WER = (S + D + I) / N

Dove:

  • S = Numero di sostituzioni
  • D = Numero di cancellazioni
  • I = Numero di inserimenti
  • N = Numero totale di parole nella verità di base

La formula calcola il numero minimo di operazioni a livello di parola necessarie per trasformare l'ipotesi nel riferimento, diviso per il numero di parole nel riferimento. Un WER inferiore indica una maggiore accuratezza, con lo 0% che rappresenta una corrispondenza perfetta.

Il tasso di errore sui caratteri (CER) si calcola dividendo il numero totale di errori a livello di carattere (incluse inserzioni, cancellazioni e sostituzioni) per il numero totale di caratteri presenti nel testo di riferimento.

Abbiamo utilizzato API di riconoscimento vocale per trascrivere i file audio in testo.

Nella tabella è riportata la dimensione massima dei file che i provider possono inserire contemporaneamente:

*Poiché Vosk viene eseguito localmente, non vi è alcun limite alla dimensione del file di input. Tuttavia, i file audio lunghi potrebbero superare il limite del fascio, causando la perdita di alcune probabilità. Pertanto, si consiglia di suddividere i file in segmenti di 1-2 minuti.

MedASR funziona anche localmente e non impone un limite massimo di dimensione dei file. Per prestazioni e gestione delle risorse ottimali, si consiglia di suddividere i file di grandi dimensioni in segmenti più piccoli.

Nota: per i provider con limiti di dimensione dei file inferiori (come Google e OpenAI), i file audio più grandi devono essere suddivisi in parti più piccole prima dell'elaborazione. Abbiamo eseguito questa operazione nell'Attività 2.

Riconoscimento vocale

Il riconoscimento vocale consente ai computer di trascrivere file audio in testo utilizzandoalgoritmi di apprendimento automatico . L'API di un servizio di trascrizione può essere utilizzata con diversi linguaggi di programmazione per la trascrizione in batch. Queste piattaforme supportano sia la trascrizione in tempo reale che quella asincrona.

La tecnologia di riconoscimento vocale ha numerose applicazioni, tra cui la trascrizione, gli assistenti vocali e la traduzione linguistica.

Vantaggi dell'utilizzo del riconoscimento vocale per la trascrizione

  • Trascrizione rapida di file audio
  • Risparmio di tempo e fatica
  • Trascrizione e traduzione in tempo reale
  • Accessibilità per le persone con disabilità

Come funzionano gli strumenti di intelligenza artificiale per la conversione del parlato in testo?

Il processo di trascrizione comprende:

  • I dati audio vengono caricati o trasmessi in streaming allo strumento di riconoscimento vocale.
  • Utilizzo di algoritmi di apprendimento automatico per analizzare i dati audio e identificare modelli nel parlato
  • Lo strumento converte il parlato in testo utilizzando un motore di riconoscimento vocale.
  • Il testo trascritto viene quindi visualizzato all'utente.

FAQ

La trascrizione di registrazioni audio e video può essere utilizzata in:
Assistenti vocali e assistenti virtuali
Traduzione e interpretazione linguistica
Sistemi di riconoscimento vocale (ASR) per persone con disabilità

I loro modelli pre-addestrati consentono il riconoscimento automatico del parlato (ASR) per file audio e video registrati. Le trascrizioni audio ad alta precisione includono la punteggiatura automatica e il rilevamento dell'argomento.
Per le esigenze della tua azienda, puoi scegliere un motore open source o un fornitore di riconoscimento vocale di un servizio che la tua azienda già utilizza (ad esempio, Cloud, AWS Transcribe). Alcuni di questi offrono anche crediti gratuiti, ma raccomandiamo cautela in materia di sicurezza dei dati.

Un'API di riconoscimento vocale può aiutare a trascrivere file audio in testo. Elaborazione e analisi dei dati audio:
I dati audio vengono elaborati utilizzando tecniche come la riduzione del rumore e la cancellazione dell'eco.
I dati audio vengono quindi analizzati utilizzando algoritmi di apprendimento automatico per identificare modelli nel parlato
Gli algoritmi utilizzano modelli acustici e modelli linguistici per riconoscere parole e frasi pronunciate.
Conversione del parlato in testo tramite algoritmi di apprendimento automatico:
Gli algoritmi di apprendimento automatico vengono addestrati su grandi insiemi di dati audio e testuali.
Gli algoritmi imparano a riconoscere gli schemi nel parlato e a convertirli in testo.
Gli algoritmi possono essere ottimizzati e personalizzati per casi d'uso e lingue specifici.

Per approfondire

Cem Dilmegani
Cem Dilmegani
Analista principale
Cem è analista principale presso AIMultiple dal 2017. AIMultiple fornisce informazioni a centinaia di migliaia di aziende (secondo SimilarWeb), tra cui il 55% delle aziende Fortune 500, ogni mese. Il lavoro di Cem è stato citato da importanti pubblicazioni globali come Business Insider, Forbes, Washington Post, società globali come Deloitte e HPE, ONG come il World Economic Forum e organizzazioni sovranazionali come la Commissione Europea. È possibile consultare l'elenco di altre aziende e risorse autorevoli che hanno citato AIMultiple. Nel corso della sua carriera, Cem ha lavorato come consulente tecnologico, responsabile acquisti tecnologici e imprenditore nel settore tecnologico. Ha fornito consulenza alle aziende sulle loro decisioni tecnologiche presso McKinsey & Company e Altman Solon per oltre un decennio. Ha anche pubblicato un report di McKinsey sulla digitalizzazione. Ha guidato la strategia tecnologica e gli acquisti di un'azienda di telecomunicazioni, riportando direttamente al CEO. Ha inoltre guidato la crescita commerciale dell'azienda deep tech Hypatos, che ha raggiunto un fatturato annuo ricorrente a 7 cifre e una valutazione a 9 cifre partendo da zero in soli 2 anni. Il lavoro di Cem in Hypatos è stato oggetto di articoli su importanti pubblicazioni tecnologiche come TechCrunch e Business Insider. Cem partecipa regolarmente come relatore a conferenze internazionali di settore. Si è laureato in ingegneria informatica presso l'Università di Bogazici e ha conseguito un MBA presso la Columbia Business School.
Visualizza il profilo completo
Ricercato da
Şevval Alper
Şevval Alper
Ricercatore di intelligenza artificiale
Şevval è un analista di settore di AIMultiple specializzato in strumenti di programmazione per l'IA, agenti di IA e tecnologie quantistiche.
Visualizza il profilo completo

Sii il primo a commentare

Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori.

0/450