Wir haben die führenden Anbieter von Spracherkennungssystemen (STT) verglichen und uns dabei insbesondere auf Anwendungen im Gesundheitswesen konzentriert. Unser Vergleich nutzte Beispiele aus der Praxis, um die Transkriptionsgenauigkeit in medizinischen Kontexten zu bewerten, in denen Präzision von entscheidender Bedeutung ist.
Ergebnisse des Spracherkennungs-Benchmarks
Basierend auf den Ergebnissen der Wortfehlerrate (WER) und der Zeichenfehlerrate (CER) weist GPT-4o-transcribe die höchste Transkriptionsgenauigkeit aller evaluierten Spracherkennungssysteme auf. Deepgram Nova-v3 und Gladia erzielen ebenfalls gute Ergebnisse und weisen in beiden Metriken niedrige Fehlerraten auf.
Methodik
Datensatz
Wir wollten die Leistungsfähigkeit der Modelle sowohl in kleinen und verschiedenen Stichproben als auch in einer großen Stichprobe bewerten und haben daher zwei Aufgaben durchgeführt:
Aufgabe 1: Sprachdaten im Gesundheitswesen
- Gesamtzahl der Proben: 100
- Gesamtdauer: 9 Minuten und 25 Sekunden
- Durchschnittliche Dauer pro Abtastung: 5,65 Sekunden
- Inhalte: Sprachdaten aus dem Gesundheitswesen, einschließlich medizinischer Terminologie, Patienteninteraktionen und klinischer Gespräche
- Vielfalt: Unterschiedliche Sprecher, variierende Audioqualität und diverse medizinische Kontexte in englischer Sprache.
Audiospezifikationen:
- Format: WAV
- Kanäle: 1 (Mono)
- Abtastbreite: 16 Bit
- Abtastrate: 16 kHz
- Konstante Bitrate: 256 kbps
- Dauerbereich: ca. 4,5 bis 11,5 Sekunden pro Datei
Aufgabe 2: Eine Anatomievorlesung
- Gesamtzahl der Proben: 1
- Gesamtdauer: 8 Minuten und 35 Sekunden
- Inhalt: Eine Anatomievorlesung, gehalten von einem Arzt, einschließlich medizinischer Terminologie
- Abwechslung: In der ersten Hälfte des Videos spricht ein Sprecher Englisch; im Hintergrund läuft Musik.
Audiospezifikationen:
- Format: WAV
- Kanäle: 2 (Stereo)
- Abtastbreite: 16 Bit
- Abtastrate: 48 kHz
- Konstante Bitrate: 1536 kbps
Bewertungskriterien
Wir verwendeten die Wortfehlerrate (WER) und die Zeichenfehlerrate (CER) als Bewertungsmetriken für die Transkriptionsgenauigkeit. Die Wortfehlerrate wird wie folgt berechnet:
WER = (S + D + I) / N
Wo:
- S = Anzahl der Substitutionen
- D = Anzahl der Löschungen
- I = Anzahl der Einfügungen
- N = Gesamtzahl der Wörter in der Wahrheit
Die Formel berechnet die minimale Anzahl an Wortoperationen, die nötig sind, um die Hypothese in den Referenztext zu transformieren, dividiert durch die Anzahl der Wörter im Referenztext. Ein niedrigerer WER-Wert deutet auf eine höhere Genauigkeit hin, wobei 0 % einer perfekten Übereinstimmung entspricht.
Die Zeichenfehlerrate (CER) wird berechnet, indem die Gesamtzahl der Fehler auf Zeichenebene (einschließlich Einfügungen, Löschungen und Ersetzungen) durch die Gesamtzahl der Zeichen im Referenztext geteilt wird.
Wir verwendeten Speech-to-Text-APIs, um Audiodateien in Text umzuwandeln.
Die maximale Dateigröße, die von den Anbietern jeweils eingegeben werden kann, ist in der Tabelle aufgeführt:
Da Vosk lokal ausgeführt wird, gibt es keine Beschränkung der Eingabedateigröße. Lange Audiodateien können jedoch die Beam-Grenze überschreiten, wodurch einige Wahrscheinlichkeiten verloren gehen können. Daher wird empfohlen, die Dateien in 1- bis 2-minütige Segmente aufzuteilen.
Google MedASR arbeitet auch lokal und hat keine maximale Dateigrößenbeschränkung. Für optimale Leistung und Ressourcenverwaltung wird die Verarbeitung langer Dateien in kleineren Segmenten empfohlen.
Hinweis: Bei Anbietern mit kleineren Dateigrößenbeschränkungen (wie z. B. Google und OpenAI) müssen größere Audiodateien vor der Verarbeitung in kleinere Teile aufgeteilt werden. Dies haben wir in Aufgabe 2 durchgeführt.
Spracherkennung
Spracherkennung ermöglicht es Computern, Audiodateien mithilfe vonAlgorithmen des maschinellen Lernens in Text umzuwandeln. Die API eines Transkriptionsdienstes kann mit verschiedenen Programmiersprachen für die Stapelverarbeitung genutzt werden. Diese Plattformen unterstützen sowohl Echtzeit- als auch asynchrone Transkription.
Die Spracherkennungstechnologie hat zahlreiche Anwendungsgebiete, darunter Transkription, Sprachassistenten und Sprachübersetzung.
Vorteile der Spracherkennung für die Transkription
- Schnelle Transkription von Audiodateien
- Zeit- und Aufwandsersparnis
- Echtzeit-Transkription und -Übersetzung
- Barrierefreiheit für Menschen mit Behinderungen
Wie funktionieren KI-gestützte Spracherkennungstools?
Der Transkriptionsprozess umfasst:
- Audiodaten werden in das Spracherkennungstool hochgeladen oder gestreamt.
- Einsatz von Algorithmen des maschinellen Lernens zur Analyse der Audiodaten und zur Identifizierung von Sprachmustern
- Das Tool wandelt Sprache mithilfe einer Spracherkennungs-Engine in Text um.
- Der transkribierte Text wird dem Benutzer anschließend angezeigt.
FAQs
Die Transkription von Audio- und Videoaufnahmen kann in folgenden Bereichen verwendet werden:
Sprachassistenten und virtuelle Assistenten
Sprachübersetzung und Dolmetschen
Spracherkennungssysteme (ASR) für Menschen mit Behinderungen
Ihre vortrainierten Modelle ermöglichen die automatische Spracherkennung (ASR) von aufgezeichneten Audio- und Videodateien. Hochpräzise Audiotranskriptionen beinhalten automatische Interpunktion und Themenerkennung.
Für die Transkriptionsanforderungen Ihres Unternehmens können Sie eine Open-Source-Engine oder einen Spracherkennungsanbieter eines Dienstes wählen, den Ihr Unternehmen bereits nutzt (z. B. Google Cloud, AWS Transcribe). Einige bieten auch kostenlose Guthaben an, wir raten jedoch zu besonderer Vorsicht im Hinblick auf die Datensicherheit.
Eine Spracherkennungs-API kann dabei helfen, Audiodateien in Text umzuwandeln. Verarbeitung und Analyse von Audiodaten:
Die Audiodaten werden mithilfe von Techniken wie Rauschunterdrückung und Echokompensation verarbeitet.
Die Audiodaten werden anschließend mithilfe von Algorithmen des maschinellen Lernens analysiert, um Sprachmuster zu identifizieren.
Die Algorithmen verwenden akustische Modelle und Sprachmodelle, um gesprochene Wörter und Sätze zu erkennen.
Umwandlung von Sprache in Text mithilfe von Algorithmen des maschinellen Lernens:
Maschinelle Lernalgorithmen werden anhand großer Datensätze von Audio- und Textdaten trainiert.
Die Algorithmen lernen, Muster in der Sprache zu erkennen und sie in Text umzuwandeln.
Die Algorithmen können für spezifische Anwendungsfälle und Sprachen feinabgestimmt und angepasst werden.
Seien Sie der Erste, der kommentiert
Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.