Kıyaslama

Konuşmadan Metne Karşılaştırması: Deepgram vs. Whisper

ile

Güncellenme tarihi: 22 Oca 2026

Önde gelen konuşmadan metne (STT) sağlayıcılarını, özellikle sağlık hizmetleri uygulamalarına odaklanarak karşılaştırdık. Karşılaştırmamız, tıbbi bağlamlarda transkripsiyon doğruluğunu değerlendirmek için gerçek dünya örnekleri kullandı; bu bağlamlarda hassasiyet kritik önem taşır.

Konuşmadan metne karşılaştırma sonuçları

Kelime hata oranı (WER) ve karakter hata oranı (CER) sonuçlarına dayanarak, GPT-4o-transcribe, değerlendirilen tüm konuşmadan metne sistemleri arasında en yüksek transkripsiyon doğruluğunu göstermektedir. Deepgram Nova-v3 ve Gladia da her iki metrikte düşük hata oranlarını koruyarak güçlü bir performans sergilemektedir.

Loading Chart

Metodoloji

Veri seti

Modellerin hem küçük ve çeşitli örneklerde hem de uzun bir örnekteki performanslarını değerlendirmek istedik, bu yüzden iki görev yürüttük:

Görev 1: Sağlık hizmetleri ses verileri

Toplam örnek sayısı: 100
Toplam süre: 9 dakika ve 25 saniye
Örnek başına ortalama süre: 5.65 saniye
İçerik: Tıbbi terminoloji, hasta etkileşimleri ve klinik tartışmalar dahil sağlık hizmetleri ses verileri
Çeşitlilik: Farklı konuşmacılar, değişen ses kalitesi ve İngilizce konuşulan çeşitli tıbbi bağlamlar

Ses özellikleri:

Format: WAV
Kanallar: 1 (Mono)
Örnek genişliği: 16-bit
Örnekleme hızı: 16 kHz
Sabit bit hızı: 256 kbps
Süre aralığı: dosya başına ~4.5 ila 11.5 saniye

Görev 2: Bir anatomi dersi

Toplam örnek sayısı: 1
Toplam süre: 8 dakika ve 35 saniye
İçerik: Bir doktor tarafından verilen, tıbbi terminoloji içeren bir anatomi dersi
Çeşitlilik: Videoda bir konuşmacı ilk yarıda İngilizce konuşur; arka planda müzik çalar.

Ses özellikleri:

Format: WAV
Kanallar: 2 (Stereo)
Örnek genişliği: 16-bit
Örnekleme hızı: 48 kHz
Sabit bit hızı: 1536 kbps

Değerlendirme metrikleri

Transkripsiyon doğruluğu için kelime hata oranı (WER) ve karakter hata oranı (CER) değerlendirme metriği olarak kullandık. Kelime hata oranı şu şekilde hesaplanır:

WER = (S + D + I) / N

Burada:

S = Yer değiştirme sayısı
D = Silme sayısı
I = Ekleme sayısı
N = Gerçek referanstaki toplam kelime sayısı

Formül, hipotezi referansa dönüştürmek için gereken minimum kelime düzeyindeki işlem sayısını, referanstaki kelime sayısına böler. Daha düşük WER daha iyi doğruluğu gösterir; 0% mükemmel eşleşme anlamına gelir.

Karakter hata oranı (CER), toplam karakter düzeyindeki hata sayısının (ekleme, silme ve yer değiştirme dahil) referans metindeki toplam karakter sayısına bölünmesiyle hesaplanır.

Ses dosyalarını metne dönüştürmek için konuşmadan metne API'leri kullandık.

Sağlayıcıların tek seferde kabul ettiği maksimum dosya boyutu tabloda gösterilmiştir:

Sağlayıcı	Maksimum dosya boyutu
AssemblyAI-slam-1	5GB
Deepgram-nova-3	2GB
Gladia	500MB
GPT-4o-transcribe	25MB
IBM Watson Speech-to-Text	100MB
Whisper-v3-large	25MB
Speechmatics	1GB
Rev.ai	1GB
Microsoft Azure Speech	1GB
Google Cloud Speech-to-Text	10MB

*Vosk yerel olarak çalıştığı için girdi dosya boyutunda bir sınır yoktur. Ancak, uzun ses dosyaları ışın sınırını aşarak bazı olasılıkların kaybolmasına neden olabilir. Bu nedenle dosyaların 1–2 dakikalık segmentlere bölünmesi önerilir.

Google MedASR da yerel olarak çalışır ve maksimum dosya boyutu sınırı koymaz. Optimum performans ve kaynak yönetimi için uzun dosyaların daha küçük segmentler halinde işlenmesi önerilir.

Not: Daha küçük dosya boyutu sınırları olan sağlayıcılar için (Google ve OpenAI gibi), daha büyük ses dosyaları işlenmeden önce daha küçük parçalara bölünmelidir. Bunu Görev 2'de gerçekleştirdik.

Konuşma tanıma

Konuşma tanıma, bilgisayarların ses dosyalarını metne dönüştürmesini sağlar; bunun için makine öğrenimi algoritmaları kullanılır. Bir transkripsiyon hizmetinin API'si, toplu transkripsiyon için çeşitli programlama dilleriyle kullanılabilir. Bu platformlar hem gerçek zamanlı hem de eşzamansız transkripsiyonu destekler.

Konuşma tanıma teknolojisinin transkripsiyon, sesli asistanlar ve dil çevirisi gibi çok sayıda uygulaması vardır.

Konuşma tanımayı transkripsiyon için kullanmanın faydaları

Ses dosyalarının hızlı transkripsiyonu
Zaman ve emek tasarrufu
Gerçek zamanlı transkripsiyon ve çeviri
Engelli bireyler için erişilebilirlik

Ekibimiz, iş süreçlerinizden birini yapay zeka ajanlarıyla ücretsiz olarak otomatikleştirsin.

Bir süreci otomatikleştir

Konuşmadan metne yapay zeka araçları nasıl çalışır?

Transkripsiyon süreci şunları içerir:

Ses verileri konuşmadan metne aracına yüklenir veya akış olarak gönderilir
Ses verilerini analiz etmek ve konuşmadaki kalıpları belirlemek için makine öğrenimi algoritmalarının kullanılması
Araç, konuşmadan metne motoru kullanarak konuşmayı metne dönüştürür
Ardından transkribe edilmiş metin kullanıcıya gösterilir.

SSS'ler

Ses transkripsiyonu ve video kayıtları şu alanlarda kullanılabilir:
Sesli asistanlar ve sanal asistanlar
Dil çevirisi ve tercüme
Engelli bireyler için konuşmadan metne (ASR) sistemleri

Önceden eğitilmiş modelleri, kaydedilmiş ses ve video dosyaları için otomatik konuşma tanıma (ASR) sağlar. Yüksek doğruluklu ses transkripsiyonları, otomatik noktalama ve konu tespiti içerir.
Şirketinizin halihazırda çalıştığı bir hizmetten açık kaynaklı bir motor veya bir konuşma tanıma sağlayıcısı (ör. Google Cloud, AWS transcribe) transkripsiyon çözümü olarak seçilebilir. Bazıları ayrıca ücretsiz kredi sunar, ancak veri güvenliği konusunda dikkatli olunmasını öneririz.

Bir konuşmadan metne API'si, ses dosyalarını metne dönüştürmeye yardımcı olabilir. Ses verilerinin işlenmesi ve analizi:
Ses verileri, gürültü azaltma ve yankı iptali gibi teknikler kullanılarak işlenir
Ardından ses verileri, konuşmadaki kalıpları belirlemek için makine öğrenimi algoritmaları kullanılarak analiz edilir
Algoritmalar, konuşulan kelimeleri ve ifadeleri tanımak için akustik modeller ve dil modelleri kullanır
Makine öğrenimi algoritmalarını kullanarak konuşmayı metne dönüştürme:
Makine öğrenimi algoritmaları, büyük ses ve metin veri kümeleri üzerinde eğitilir
Algoritmalar, konuşmadaki kalıpları tanımayı ve bunları metne dönüştürmeyi öğrenir
Algoritmalar, belirli kullanım durumları ve diller için ince ayar yapılabilir ve özelleştirilebilir

Google Arama'da daha fazla kıyaslamamızı ve veri odaklı içgörülerimizi görün.

Tercih edilen kaynak olarak ekle

Daha fazla bilgi

Bu benchmarkı kaynak gösterin

Yayınlayacağınız yere uygun formatı seçin. Bağlantılı sürümü CMS'inize yapıştırmak, geri bağlantıyı korur.

Cem Dilmegani and Şevval Alper (2026) - "Konuşmadan Metne Karşılaştırması: Deepgram vs. Whisper". AIMultiple.com adresinde çevrimiçi yayımlanmıştır. Erişim tarihi: 22 Ocak 2026, kaynak: https://aimultiple.com/speech-to-text [Çevrimiçi Kaynak]

Dilmegani, C., & Alper, Ş. (2026, 22 Ocak). Konuşmadan Metne Karşılaştırması: Deepgram vs. Whisper. AIMultiple. https://aimultiple.com/speech-to-text

@misc{dilmegani2026,
  author = {Dilmegani, Cem and Alper, Şevval},
  title  = {{Konuşmadan Metne Karşılaştırması: Deepgram vs. Whisper}},
  year   = {2026},
  month  = jan,
  howpublished    = {\url{https://aimultiple.com/speech-to-text}},
  note   = {AIMultiple. Erişim tarihi: 22 Ocak 2026}
}

Cem Dilmegani

Baş Analist

Takip Et

Cem, 2017'den beri AIMultiple'da baş analist olarak görev yapmaktadır. AIMultiple, her ay Fortune 500 şirketlerinin %55'i de dahil olmak üzere yüz binlerce işletmeye (benzer Web'e göre) bilgi sağlamaktadır. Cem'in çalışmaları, Business Insider, Forbes, Washington Post gibi önde gelen küresel yayınlar, Deloitte, HPE gibi küresel firmalar, Dünya Ekonomik Forumu gibi STK'lar ve Avrupa Komisyonu gibi uluslararası kuruluşlar tarafından alıntılanmıştır. AIMultiple'ı referans gösteren daha fazla saygın şirket ve kaynağı görebilirsiniz. Kariyeri boyunca Cem, teknoloji danışmanı, teknoloji alıcısı ve teknoloji girişimcisi olarak görev yapmıştır. On yıldan fazla bir süre McKinsey & Company ve Altman Solon'da işletmelere teknoloji kararları konusunda danışmanlık yapmıştır. Ayrıca dijitalleşme üzerine bir McKinsey raporu yayınlamıştır. Bir telekom şirketinin CEO'suna bağlı olarak teknoloji stratejisi ve tedarikini yönetmiştir. Ayrıca, 2 yıl içinde sıfırdan 7 haneli yıllık yinelenen gelire ve 9 haneli değerlemeye ulaşan derin teknoloji şirketi Hypatos'un ticari büyümesini yönetmiştir. Cem'in Hypatos'taki çalışmaları TechCrunch ve Business Insider gibi önde gelen teknoloji yayınlarında yer aldı. Cem düzenli olarak uluslararası teknoloji konferanslarında konuşmacı olarak yer almaktadır. Boğaziçi Üniversitesi'nden bilgisayar mühendisliği diplomasına ve Columbia Business School'dan MBA derecesine sahiptir.

Tam Profili Görüntüle

Araştıran