Mobil araçlarda Türkçe konuşma tanıma için yeni bir veri tabanı ve bu veri tabanı ile elde edilen ilk konuşma tanıma sonuçları
Öz
Konuşma tanıma teknolojisi konuşmanın otomatik olarak
metne dönüştürülmesini sağlamaktadır. Bu konuda yapılmış önceki çalışmalar,
teknolojinin belli bir olgunluğa ulaşmasını ve pek çok farklı alanda
kullanılmasını sağlamıştır. Son zamanlarda akıllı telefon, tablet gibi mobil
uygulamaların kullanımında görülen hızlı artış konuşma tanıma teknolojisinin
mobil platformlara uyarlanmasını önemli hale getirmiştir. Bu çalışmada mobil
platformlar için yüksek başarım ile çalışan Türkçe bir konuşma tanıma
sisteminin gerçekleştirilmesi hedeflenmiştir. Bu amaçla farklı akıllı
telefonlardan alınmış kayıtlardan oluşan yeni bir ses veri tabanı
oluşturulmuştur. Sistemin performansı üç farklı konuşma tanıma uygulaması
kullanılarak ölçülmüştür. i) Televizyon kumanda uygulaması, ii) Sesli mesaj
uygulaması, iii) Genel metin yazdırma uygulaması. Yaptığımız testlerde tanıma
performansının televizyon kumanda uygulaması için %95’in üzerinde olduğu
görülmüştür. Sesli mesaj ve genel metin yazdırma uygulamalarında yaklaşık %40
ve %60 başarım oranları elde edilmiştir.
Anahtar Kelimeler
References
- Davis SB, Mermelstein P. “Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences”. IEEE Transactions on Acoustics, Speech and Signal Processing, 28(4), 357-366, 1980.
- Makhoul J. “Linear prediction: A tutorial review”. Proceeding of the IEEE, 63(4), 561-580, 1975.
- Hermansky H, Morgan N, Bayya A, Kohn P. “RASTA-PLP speech analysis technique”. IEEE International Conference on Acoustics, Speech and Signal Processing 1992, San Francisco, California, USA, 23-26 March 1992.
- Rabiner LR, Huang BW. Fundamentals of Speech Recognition. Englewood Cliffs, New Jersey, USA, Prentice Hall Inc, 1993.
- Young S, Evermann G, Gales M, Hain T, Kershaw D, Liu X, Moore G, Odell J, Ollason D, Povey D, Valtchev V, Woodland P. The HTK Book (for HTK Version 3.4). 3th ed. Cambridge, UK, Cambridge University Engineering Department, 2006.
- Viterbi, AJ. “Error bounds for convolutional codes and an asymptotically optimum decoding algorithm”. IEEE Transactions on Information Theory, 13(2), 260-269, 1967.
- Carnegie Mellon University Speech Processing Group. “Carnegie Mellon University Sphinx, Open Source Toolkit for Speech Recognition”. http://cmusphinx.sourceforge.net (19.04.2014).
- Kaldi Project. “Kaldi: A Toolkit for Speech Recognition”. http://kaldi-asr.org/ (05.01.2016).
Details
Primary Language
Turkish
Subjects
Engineering
Journal Section
Research Article
Authors
Osman Büyük
This is me
0000-0003-1039-3234
Publication Date
April 30, 2018
Submission Date
July 6, 2016
Acceptance Date
-
Published in Issue
Year 2018 Volume: 24 Number: 2