Mobil araçlarda Türkçe konuşma tanıma için yeni bir veri tabanı ve bu veri tabanı ile elde edilen ilk konuşma tanıma sonuçları
Öz
Konuşma tanıma teknolojisi konuşmanın otomatik olarak
metne dönüştürülmesini sağlamaktadır. Bu konuda yapılmış önceki çalışmalar,
teknolojinin belli bir olgunluğa ulaşmasını ve pek çok farklı alanda
kullanılmasını sağlamıştır. Son zamanlarda akıllı telefon, tablet gibi mobil
uygulamaların kullanımında görülen hızlı artış konuşma tanıma teknolojisinin
mobil platformlara uyarlanmasını önemli hale getirmiştir. Bu çalışmada mobil
platformlar için yüksek başarım ile çalışan Türkçe bir konuşma tanıma
sisteminin gerçekleştirilmesi hedeflenmiştir. Bu amaçla farklı akıllı
telefonlardan alınmış kayıtlardan oluşan yeni bir ses veri tabanı
oluşturulmuştur. Sistemin performansı üç farklı konuşma tanıma uygulaması
kullanılarak ölçülmüştür. i) Televizyon kumanda uygulaması, ii) Sesli mesaj
uygulaması, iii) Genel metin yazdırma uygulaması. Yaptığımız testlerde tanıma
performansının televizyon kumanda uygulaması için %95’in üzerinde olduğu
görülmüştür. Sesli mesaj ve genel metin yazdırma uygulamalarında yaklaşık %40
ve %60 başarım oranları elde edilmiştir.
Anahtar Kelimeler
Kaynakça
- Davis SB, Mermelstein P. “Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences”. IEEE Transactions on Acoustics, Speech and Signal Processing, 28(4), 357-366, 1980.
- Makhoul J. “Linear prediction: A tutorial review”. Proceeding of the IEEE, 63(4), 561-580, 1975.
- Hermansky H, Morgan N, Bayya A, Kohn P. “RASTA-PLP speech analysis technique”. IEEE International Conference on Acoustics, Speech and Signal Processing 1992, San Francisco, California, USA, 23-26 March 1992.
- Rabiner LR, Huang BW. Fundamentals of Speech Recognition. Englewood Cliffs, New Jersey, USA, Prentice Hall Inc, 1993.
- Young S, Evermann G, Gales M, Hain T, Kershaw D, Liu X, Moore G, Odell J, Ollason D, Povey D, Valtchev V, Woodland P. The HTK Book (for HTK Version 3.4). 3th ed. Cambridge, UK, Cambridge University Engineering Department, 2006.
- Viterbi, AJ. “Error bounds for convolutional codes and an asymptotically optimum decoding algorithm”. IEEE Transactions on Information Theory, 13(2), 260-269, 1967.
- Carnegie Mellon University Speech Processing Group. “Carnegie Mellon University Sphinx, Open Source Toolkit for Speech Recognition”. http://cmusphinx.sourceforge.net (19.04.2014).
- Kaldi Project. “Kaldi: A Toolkit for Speech Recognition”. http://kaldi-asr.org/ (05.01.2016).
Ayrıntılar
Birincil Dil
Türkçe
Konular
Mühendislik
Bölüm
Araştırma Makalesi
Yazarlar
Osman Büyük
Bu kişi benim
0000-0003-1039-3234
Yayımlanma Tarihi
30 Nisan 2018
Gönderilme Tarihi
6 Temmuz 2016
Kabul Tarihi
-
Yayımlandığı Sayı
Yıl 2018 Cilt: 24 Sayı: 2