Önde gelen konuşmadan metne (STT) dönüştürme sağlayıcılarını, özellikle sağlık uygulamalarına odaklanarak, karşılaştırmalı olarak değerlendirdik. Karşılaştırmalı değerlendirmemizde, hassasiyetin çok önemli olduğu tıbbi bağlamlarda transkripsiyon doğruluğunu değerlendirmek için gerçek dünya örneklerini kullandık.
Konuşmadan metne dönüştürme performans testi sonuçları
Kelime hata oranı (WER) ve karakter hata oranı (CER) sonuçlarına göre, GPT-4o-transcribe, değerlendirilen tüm konuşmadan metne dönüştürme sistemleri arasında en yüksek transkripsiyon doğruluğunu göstermektedir. Deepgram Nova-v3 ve Gladia da her iki ölçütte de düşük hata oranlarını koruyarak güçlü performans sergilemektedir.
Metodoloji
Veri kümesi
Modellerin performanslarını hem küçük ve çeşitli örneklemlerde hem de uzun bir örneklemde değerlendirmek istedik, bu nedenle iki görev gerçekleştirdik:
Görev 1: Sağlık hizmetleri ses verileri
- Toplam örnek sayısı: 100
- Toplam süre: 9 dakika 25 saniye
- Örnek başına ortalama süre: 5,65 saniye
- İçerik: Tıbbi terminoloji, hasta etkileşimleri ve klinik tartışmalar da dahil olmak üzere sağlık hizmetlerine ait sesli veriler.
- Çeşitlilik: Farklı konuşmacılar, değişen ses kalitesi ve İngilizce olarak konuşulan çeşitli tıbbi bağlamlar.
Ses özellikleri:
- Format: WAV
- Kanallar: 1 (Mono)
- Örnek genişliği: 16 bit
- Örnekleme hızı: 16 kHz
- Sabit bit hızı: 256 kbps
- Süre aralığı: Dosya başına yaklaşık 4,5 ila 11,5 saniye.
Görev 2: Anatomi dersi
- Toplam örnek sayısı: 1
- Toplam süre: 8 dakika 35 saniye
- İçerik: Bir doktor tarafından verilen, tıbbi terminolojiyi de içeren bir anatomi dersi.
- Çeşitlilik: Videonun ilk yarısında bir konuşmacı İngilizce konuşuyor; arka planda müzik çalıyor.
Ses özellikleri:
- Format: WAV
- Kanallar: 2 (Stereo)
- Örnek genişliği: 16 bit
- Örnekleme hızı: 48 kHz
- Sabit bit hızı: 1536 kbps
Değerlendirme ölçütleri
Transkripsiyon doğruluğunu değerlendirmek için kelime hata oranı (WER) ve karakter hata oranı (CER) ölçütlerini kullandık. Kelime hata oranı şu şekilde hesaplanır:
WER = (S + D + I) / N
Nerede:
- S = Yerine koyma sayısı
- D = Silinen işlem sayısı
- I = Ekleme sayısı
- N = Gerçek verilerdeki toplam kelime sayısı
Formül, hipotezi referansa dönüştürmek için gereken minimum kelime düzeyindeki işlem sayısını, referanstaki kelime sayısına bölerek hesaplar. Daha düşük WER değeri daha iyi doğruluğu gösterir; %0 ise mükemmel eşleşmeyi ifade eder.
Karakter hata oranı (CER), referans metindeki toplam karakter sayısına, karakter düzeyindeki hataların (eklemeler, silmeler ve değiştirmeler dahil) toplam sayısının bölünmesiyle hesaplanır.
Ses dosyalarını metne dönüştürmek için konuşmadan metne dönüştürme API'lerini kullandık.
Sağlayıcıların tek seferde girebileceği maksimum dosya boyutu tabloda gösterilmiştir:
*Vosk yerel olarak çalıştığı için giriş dosyası boyutunda bir sınırlama yoktur. Ancak, uzun ses dosyaları ışın sınırını aşabilir ve bazı olasılıkların kaybolmasına neden olabilir. Bu nedenle, dosyaları 1-2 dakikalık bölümlere ayırmanız önerilir.
Google MedASR ayrıca yerel olarak çalışır ve maksimum dosya boyutu sınırı koymaz. Optimum performans ve kaynak yönetimi için, uzun dosyaların daha küçük bölümler halinde işlenmesi önerilir.
Not: Daha küçük dosya boyutu sınırlarına sahip sağlayıcılar için (örneğin Google ve OpenAI), daha büyük ses dosyaları işlenmeden önce daha küçük parçalara bölünmelidir. Bunu 2. Görevde gerçekleştirdik.
Konuşma tanıma
Konuşma tanıma, bilgisayarlarınmakine öğrenimi algoritmalarını kullanarak ses dosyalarını metne dönüştürmesini sağlar. Bir transkripsiyon hizmetinin API'si, toplu transkripsiyon için çeşitli programlama dilleriyle kullanılabilir. Bu platformlar hem gerçek zamanlı hem de eşzamansız transkripsiyonu destekler.
Konuşma tanıma teknolojisinin , transkripsiyon, sesli asistanlar ve dil çevirisi de dahil olmak üzere çok sayıda uygulaması bulunmaktadır.
Konuşma tanıma teknolojisinin transkripsiyon için kullanımının faydaları
- Ses dosyalarının hızlı transkripsiyonu
- Zaman ve emek tasarrufu
- Gerçek zamanlı transkripsiyon ve çeviri
- Engelliler için erişilebilirlik
Konuşmadan metne dönüştüren yapay zeka araçları nasıl çalışır?
Transkripsiyon süreci şunları içerir:
- Ses verileri, konuşmadan metne dönüştürme aracına yüklenir veya aktarılır.
- Ses verilerini analiz etmek ve konuşmadaki kalıpları belirlemek için makine öğrenimi algoritmalarının kullanımı.
- Bu araç, konuşmayı metne dönüştürme motoru kullanarak konuşmayı metne çevirir.
- Ardından, yazıya dökülen metin kullanıcıya gösterilir.
SSS'ler
Ses ve video kayıtlarının yazıya dökülmesi şu alanlarda kullanılabilir:
Sesli asistanlar ve sanal asistanlar
Dil çevirisi ve tercümesi
Engelli bireyler için konuşmadan metne (ASR) sistemleri
Önceden eğitilmiş modelleri, kaydedilmiş ses ve video dosyaları için otomatik konuşma tanıma (ASR) olanağı sağlar. Yüksek doğrulukta ses transkripsiyonları, otomatik noktalama ve konu tespiti içerir.
Açık kaynaklı bir motor veya şirketinizin halihazırda çalıştığı bir hizmet sağlayıcısından (örneğin, Google Cloud, AWS Transcribe) bir konuşma tanıma çözümü, şirketinizin ihtiyaçlarına uygun olarak seçilebilir. Bazıları ücretsiz kredi de sunmaktadır, ancak veri güvenliği konusunda dikkatli olmanızı öneririz.
Konuşmadan metne dönüştürme API'si, ses dosyalarını metne çevirmeye yardımcı olabilir. Ses verilerinin işlenmesi ve analizi:
Ses verileri, gürültü azaltma ve yankı giderme gibi teknikler kullanılarak işlenir.
Ardından ses verileri, konuşmadaki kalıpları belirlemek için makine öğrenimi algoritmaları kullanılarak analiz edilir.
Algoritmalar, konuşulan kelimeleri ve ifadeleri tanımak için akustik modeller ve dil modelleri kullanır.
Makine öğrenmesi algoritmaları kullanarak konuşmayı metne dönüştürme:
Makine öğrenimi algoritmaları, büyük ses ve metin veri kümeleri üzerinde eğitilir.
Algoritmalar konuşmadaki kalıpları tanımayı ve bunları metne dönüştürmeyi öğrenir.
Algoritmalar, belirli kullanım durumları ve diller için ince ayar yapılabilir ve özelleştirilebilir.
Yorum yapan ilk kişi olun
E-posta adresiniz yayınlanmayacak. Tüm alanlar gereklidir.