Kontaktieren Sie uns
Keine Ergebnisse gefunden.

Spracherkennungs-Vergleichstest: Deepgram vs. Whisper

Cem Dilmegani
Cem Dilmegani
aktualisiert am Jan 22, 2026
Siehe unsere ethischen Normen

Wir haben die führenden Anbieter von Spracherkennungssystemen (STT) verglichen und uns dabei insbesondere auf Anwendungen im Gesundheitswesen konzentriert. Unser Vergleich nutzte Beispiele aus der Praxis, um die Transkriptionsgenauigkeit in medizinischen Kontexten zu bewerten, in denen Präzision von entscheidender Bedeutung ist.

Ergebnisse des Spracherkennungs-Benchmarks

Basierend auf den Ergebnissen der Wortfehlerrate (WER) und der Zeichenfehlerrate (CER) weist GPT-4o-transcribe die höchste Transkriptionsgenauigkeit aller evaluierten Spracherkennungssysteme auf. Deepgram Nova-v3 und Gladia erzielen ebenfalls gute Ergebnisse und weisen in beiden Metriken niedrige Fehlerraten auf.

Loading Chart

Methodik

Datensatz

Wir wollten die Leistungsfähigkeit der Modelle sowohl in kleinen und verschiedenen Stichproben als auch in einer großen Stichprobe bewerten und haben daher zwei Aufgaben durchgeführt:

Aufgabe 1: Sprachdaten im Gesundheitswesen

  • Gesamtzahl der Proben: 100
  • Gesamtdauer: 9 Minuten und 25 Sekunden
  • Durchschnittliche Dauer pro Abtastung: 5,65 Sekunden
  • Inhalte: Sprachdaten aus dem Gesundheitswesen, einschließlich medizinischer Terminologie, Patienteninteraktionen und klinischer Gespräche
  • Vielfalt: Unterschiedliche Sprecher, variierende Audioqualität und diverse medizinische Kontexte in englischer Sprache.

Audiospezifikationen:

  • Format: WAV
  • Kanäle: 1 (Mono)
  • Abtastbreite: 16 Bit
  • Abtastrate: 16 kHz
  • Konstante Bitrate: 256 kbps
  • Dauerbereich: ca. 4,5 bis 11,5 Sekunden pro Datei

Aufgabe 2: Eine Anatomievorlesung

  • Gesamtzahl der Proben: 1
  • Gesamtdauer: 8 Minuten und 35 Sekunden
  • Inhalt: Eine Anatomievorlesung, gehalten von einem Arzt, einschließlich medizinischer Terminologie
  • Abwechslung: In der ersten Hälfte des Videos spricht ein Sprecher Englisch; im Hintergrund läuft Musik.

Audiospezifikationen:

  • Format: WAV
  • Kanäle: 2 (Stereo)
  • Abtastbreite: 16 Bit
  • Abtastrate: 48 kHz
  • Konstante Bitrate: 1536 kbps

Bewertungskriterien

Wir verwendeten die Wortfehlerrate (WER) und die Zeichenfehlerrate (CER) als Bewertungsmetriken für die Transkriptionsgenauigkeit. Die Wortfehlerrate wird wie folgt berechnet:

WER = (S + D + I) / N

Wo:

  • S = Anzahl der Substitutionen
  • D = Anzahl der Löschungen
  • I = Anzahl der Einfügungen
  • N = Gesamtzahl der Wörter in der Wahrheit

Die Formel berechnet die minimale Anzahl an Wortoperationen, die nötig sind, um die Hypothese in den Referenztext zu transformieren, dividiert durch die Anzahl der Wörter im Referenztext. Ein niedrigerer WER-Wert deutet auf eine höhere Genauigkeit hin, wobei 0 % einer perfekten Übereinstimmung entspricht.

Die Zeichenfehlerrate (CER) wird berechnet, indem die Gesamtzahl der Fehler auf Zeichenebene (einschließlich Einfügungen, Löschungen und Ersetzungen) durch die Gesamtzahl der Zeichen im Referenztext geteilt wird.

Wir verwendeten Speech-to-Text-APIs, um Audiodateien in Text umzuwandeln.

Die maximale Dateigröße, die von den Anbietern jeweils eingegeben werden kann, ist in der Tabelle aufgeführt:

Da Vosk lokal ausgeführt wird, gibt es keine Beschränkung der Eingabedateigröße. Lange Audiodateien können jedoch die Beam-Grenze überschreiten, wodurch einige Wahrscheinlichkeiten verloren gehen können. Daher wird empfohlen, die Dateien in 1- bis 2-minütige Segmente aufzuteilen.

Google MedASR arbeitet auch lokal und hat keine maximale Dateigrößenbeschränkung. Für optimale Leistung und Ressourcenverwaltung wird die Verarbeitung langer Dateien in kleineren Segmenten empfohlen.

Hinweis: Bei Anbietern mit kleineren Dateigrößenbeschränkungen (wie z. B. Google und OpenAI) müssen größere Audiodateien vor der Verarbeitung in kleinere Teile aufgeteilt werden. Dies haben wir in Aufgabe 2 durchgeführt.

Spracherkennung

Spracherkennung ermöglicht es Computern, Audiodateien mithilfe vonAlgorithmen des maschinellen Lernens in Text umzuwandeln. Die API eines Transkriptionsdienstes kann mit verschiedenen Programmiersprachen für die Stapelverarbeitung genutzt werden. Diese Plattformen unterstützen sowohl Echtzeit- als auch asynchrone Transkription.

Die Spracherkennungstechnologie hat zahlreiche Anwendungsgebiete, darunter Transkription, Sprachassistenten und Sprachübersetzung.

Vorteile der Spracherkennung für die Transkription

  • Schnelle Transkription von Audiodateien
  • Zeit- und Aufwandsersparnis
  • Echtzeit-Transkription und -Übersetzung
  • Barrierefreiheit für Menschen mit Behinderungen

Wie funktionieren KI-gestützte Spracherkennungstools?

Der Transkriptionsprozess umfasst:

  • Audiodaten werden in das Spracherkennungstool hochgeladen oder gestreamt.
  • Einsatz von Algorithmen des maschinellen Lernens zur Analyse der Audiodaten und zur Identifizierung von Sprachmustern
  • Das Tool wandelt Sprache mithilfe einer Spracherkennungs-Engine in Text um.
  • Der transkribierte Text wird dem Benutzer anschließend angezeigt.

FAQs

Die Transkription von Audio- und Videoaufnahmen kann in folgenden Bereichen verwendet werden:
Sprachassistenten und virtuelle Assistenten
Sprachübersetzung und Dolmetschen
Spracherkennungssysteme (ASR) für Menschen mit Behinderungen

Ihre vortrainierten Modelle ermöglichen die automatische Spracherkennung (ASR) von aufgezeichneten Audio- und Videodateien. Hochpräzise Audiotranskriptionen beinhalten automatische Interpunktion und Themenerkennung.
Für die Transkriptionsanforderungen Ihres Unternehmens können Sie eine Open-Source-Engine oder einen Spracherkennungsanbieter eines Dienstes wählen, den Ihr Unternehmen bereits nutzt (z. B. Google Cloud, AWS Transcribe). Einige bieten auch kostenlose Guthaben an, wir raten jedoch zu besonderer Vorsicht im Hinblick auf die Datensicherheit.

Eine Spracherkennungs-API kann dabei helfen, Audiodateien in Text umzuwandeln. Verarbeitung und Analyse von Audiodaten:
Die Audiodaten werden mithilfe von Techniken wie Rauschunterdrückung und Echokompensation verarbeitet.
Die Audiodaten werden anschließend mithilfe von Algorithmen des maschinellen Lernens analysiert, um Sprachmuster zu identifizieren.
Die Algorithmen verwenden akustische Modelle und Sprachmodelle, um gesprochene Wörter und Sätze zu erkennen.
Umwandlung von Sprache in Text mithilfe von Algorithmen des maschinellen Lernens:
Maschinelle Lernalgorithmen werden anhand großer Datensätze von Audio- und Textdaten trainiert.
Die Algorithmen lernen, Muster in der Sprache zu erkennen und sie in Text umzuwandeln.
Die Algorithmen können für spezifische Anwendungsfälle und Sprachen feinabgestimmt und angepasst werden.

Weiterführende Literatur

Cem Dilmegani
Cem Dilmegani
Leitender Analyst
Cem ist seit 2017 leitender Analyst bei AIMultiple. AIMultiple informiert monatlich Hunderttausende von Unternehmen (laut similarWeb), darunter 55 % der Fortune 500. Cems Arbeit wurde von führenden globalen Publikationen wie Business Insider, Forbes und der Washington Post, von globalen Unternehmen wie Deloitte und HPE sowie von NGOs wie dem Weltwirtschaftsforum und supranationalen Organisationen wie der Europäischen Kommission zitiert. Weitere namhafte Unternehmen und Ressourcen, die AIMultiple referenziert haben, finden Sie hier. Im Laufe seiner Karriere war Cem als Technologieberater, Technologieeinkäufer und Technologieunternehmer tätig. Über ein Jahrzehnt lang beriet er Unternehmen bei McKinsey & Company und Altman Solon in ihren Technologieentscheidungen. Er veröffentlichte außerdem einen McKinsey-Bericht zur Digitalisierung. Bei einem Telekommunikationsunternehmen leitete er die Technologiestrategie und -beschaffung und berichtete direkt an den CEO. Darüber hinaus verantwortete er das kommerzielle Wachstum des Deep-Tech-Unternehmens Hypatos, das innerhalb von zwei Jahren von null auf einen siebenstelligen jährlichen wiederkehrenden Umsatz und eine neunstellige Unternehmensbewertung kam. Cems Arbeit bei Hypatos wurde von führenden Technologiepublikationen wie TechCrunch und Business Insider gewürdigt. Er ist ein gefragter Redner auf internationalen Technologiekonferenzen. Cem absolvierte sein Studium der Informatik an der Bogazici-Universität und besitzt einen MBA der Columbia Business School.
Vollständiges Profil anzeigen
Recherchiert von
Şevval Alper
Şevval Alper
KI-Forscher
Şevval ist Branchenanalystin bei AIMultiple und spezialisiert auf KI-Codierungswerkzeuge, KI-Agenten und Quantentechnologien.
Vollständiges Profil anzeigen

Seien Sie der Erste, der kommentiert

Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.

0/450