Research Article
BibTex RIS Cite

Mobil araçlarda Türkçe konuşma tanıma için yeni bir veri tabanı ve bu veri tabanı ile elde edilen ilk konuşma tanıma sonuçları

Year 2018, Volume: 24 Issue: 2, 180 - 184, 30.04.2018

Abstract

Konuşma tanıma teknolojisi konuşmanın otomatik olarak
metne dönüştürülmesini sağlamaktadır. Bu konuda yapılmış önceki çalışmalar,
teknolojinin belli bir olgunluğa ulaşmasını ve pek çok farklı alanda
kullanılmasını sağlamıştır. Son zamanlarda akıllı telefon, tablet gibi mobil
uygulamaların kullanımında görülen hızlı artış konuşma tanıma teknolojisinin
mobil platformlara uyarlanmasını önemli hale getirmiştir. Bu çalışmada mobil
platformlar için yüksek başarım ile çalışan Türkçe bir konuşma tanıma
sisteminin gerçekleştirilmesi hedeflenmiştir. Bu amaçla farklı akıllı
telefonlardan alınmış kayıtlardan oluşan yeni bir ses veri tabanı
oluşturulmuştur. Sistemin performansı üç farklı konuşma tanıma uygulaması
kullanılarak ölçülmüştür. i) Televizyon kumanda uygulaması, ii) Sesli mesaj
uygulaması, iii) Genel metin yazdırma uygulaması. Yaptığımız testlerde tanıma
performansının televizyon kumanda uygulaması için %95’in üzerinde olduğu
görülmüştür. Sesli mesaj ve genel metin yazdırma uygulamalarında yaklaşık %40
ve %60 başarım oranları elde edilmiştir.

References

  • Davis SB, Mermelstein P. “Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences”. IEEE Transactions on Acoustics, Speech and Signal Processing, 28(4), 357-366, 1980.
  • Makhoul J. “Linear prediction: A tutorial review”. Proceeding of the IEEE, 63(4), 561-580, 1975.
  • Hermansky H, Morgan N, Bayya A, Kohn P. “RASTA-PLP speech analysis technique”. IEEE International Conference on Acoustics, Speech and Signal Processing 1992, San Francisco, California, USA, 23-26 March 1992.
  • Rabiner LR, Huang BW. Fundamentals of Speech Recognition. Englewood Cliffs, New Jersey, USA, Prentice Hall Inc, 1993.
  • Young S, Evermann G, Gales M, Hain T, Kershaw D, Liu X, Moore G, Odell J, Ollason D, Povey D, Valtchev V, Woodland P. The HTK Book (for HTK Version 3.4). 3th ed. Cambridge, UK, Cambridge University Engineering Department, 2006.
  • Viterbi, AJ. “Error bounds for convolutional codes and an asymptotically optimum decoding algorithm”. IEEE Transactions on Information Theory, 13(2), 260-269, 1967.
  • Carnegie Mellon University Speech Processing Group. “Carnegie Mellon University Sphinx, Open Source Toolkit for Speech Recognition”. http://cmusphinx.sourceforge.net (19.04.2014).
  • Kaldi Project. “Kaldi: A Toolkit for Speech Recognition”. http://kaldi-asr.org/ (05.01.2016).
  • Tan ZH, Lindberg B. “Speech recognition on mobile devices”. Lecture Notes in Computer Science, 5960, 221-237, 2010.
  • Arisoy E. Turkish Dictation System for Radiology and Brodcast News Applications. Msc. Thesis, Bogazici University, Turkey, 2004.
  • Buyuk O. Sub-word Language Modelling for Turkish Speech Recognition. Msc. Thesis, Sabanci University, Turkey, 2005.
  • Carnegie Mellon University Speech Processing Group, CMU. “The CMU Statistical Language Modeling (SLM) Toolkit”. http://www.speech.cs.cmu.edu/SLM_info.html (19.10.2015).
  • Buyuk O, Haznedaroglu A, Arslan LM. “Turkish speech recognition software with adaptable language model”. 15th Signal Processing and Communication Applications Conference, Eskisehir, Turkey, 11-13 June 2007.

A new database for Turkish speech recognition on mobile devices and initial speech recognition results using the database

Year 2018, Volume: 24 Issue: 2, 180 - 184, 30.04.2018

Abstract

The aim of speech recognition is to recognize human
speech and convert it to written text. Past works in speech recognition
technology leaded to significant improvements and this ensured the use of the
technology in various practical applications. Recently, the demand for mobile
applications has significantly increased when the smart phones and tablets have
been introduced to the market. As a result, the adaptation of speech
recognition to mobile devices has been an important issue since the technology
has many applications in these devices. In this study, we aim to develop a
Turkish speech recognition system for mobile devices. For this purpose, we
collected a new database that includes recordings from various different
speakers and smart phones. The performance of this system is tested using three
speech recognition applications; i) Television control ii) Short message iii) General
text dictation. In the experiments, we achieved 95% recognition performance in
the grammar based television control application. The performance in short
message and general text dictation applications are approximately %40 and %60,
respectively.

References

  • Davis SB, Mermelstein P. “Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences”. IEEE Transactions on Acoustics, Speech and Signal Processing, 28(4), 357-366, 1980.
  • Makhoul J. “Linear prediction: A tutorial review”. Proceeding of the IEEE, 63(4), 561-580, 1975.
  • Hermansky H, Morgan N, Bayya A, Kohn P. “RASTA-PLP speech analysis technique”. IEEE International Conference on Acoustics, Speech and Signal Processing 1992, San Francisco, California, USA, 23-26 March 1992.
  • Rabiner LR, Huang BW. Fundamentals of Speech Recognition. Englewood Cliffs, New Jersey, USA, Prentice Hall Inc, 1993.
  • Young S, Evermann G, Gales M, Hain T, Kershaw D, Liu X, Moore G, Odell J, Ollason D, Povey D, Valtchev V, Woodland P. The HTK Book (for HTK Version 3.4). 3th ed. Cambridge, UK, Cambridge University Engineering Department, 2006.
  • Viterbi, AJ. “Error bounds for convolutional codes and an asymptotically optimum decoding algorithm”. IEEE Transactions on Information Theory, 13(2), 260-269, 1967.
  • Carnegie Mellon University Speech Processing Group. “Carnegie Mellon University Sphinx, Open Source Toolkit for Speech Recognition”. http://cmusphinx.sourceforge.net (19.04.2014).
  • Kaldi Project. “Kaldi: A Toolkit for Speech Recognition”. http://kaldi-asr.org/ (05.01.2016).
  • Tan ZH, Lindberg B. “Speech recognition on mobile devices”. Lecture Notes in Computer Science, 5960, 221-237, 2010.
  • Arisoy E. Turkish Dictation System for Radiology and Brodcast News Applications. Msc. Thesis, Bogazici University, Turkey, 2004.
  • Buyuk O. Sub-word Language Modelling for Turkish Speech Recognition. Msc. Thesis, Sabanci University, Turkey, 2005.
  • Carnegie Mellon University Speech Processing Group, CMU. “The CMU Statistical Language Modeling (SLM) Toolkit”. http://www.speech.cs.cmu.edu/SLM_info.html (19.10.2015).
  • Buyuk O, Haznedaroglu A, Arslan LM. “Turkish speech recognition software with adaptable language model”. 15th Signal Processing and Communication Applications Conference, Eskisehir, Turkey, 11-13 June 2007.
There are 13 citations in total.

Details

Primary Language Turkish
Subjects Engineering
Journal Section Research Article
Authors

Osman Büyük This is me 0000-0003-1039-3234

Publication Date April 30, 2018
Published in Issue Year 2018 Volume: 24 Issue: 2

Cite

APA Büyük, O. (2018). Mobil araçlarda Türkçe konuşma tanıma için yeni bir veri tabanı ve bu veri tabanı ile elde edilen ilk konuşma tanıma sonuçları. Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi, 24(2), 180-184.
AMA Büyük O. Mobil araçlarda Türkçe konuşma tanıma için yeni bir veri tabanı ve bu veri tabanı ile elde edilen ilk konuşma tanıma sonuçları. Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi. April 2018;24(2):180-184.
Chicago Büyük, Osman. “Mobil araçlarda Türkçe konuşma tanıma için Yeni Bir Veri Tabanı Ve Bu Veri Tabanı Ile Elde Edilen Ilk konuşma tanıma sonuçları”. Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi 24, no. 2 (April 2018): 180-84.
EndNote Büyük O (April 1, 2018) Mobil araçlarda Türkçe konuşma tanıma için yeni bir veri tabanı ve bu veri tabanı ile elde edilen ilk konuşma tanıma sonuçları. Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi 24 2 180–184.
IEEE O. Büyük, “Mobil araçlarda Türkçe konuşma tanıma için yeni bir veri tabanı ve bu veri tabanı ile elde edilen ilk konuşma tanıma sonuçları”, Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi, vol. 24, no. 2, pp. 180–184, 2018.
ISNAD Büyük, Osman. “Mobil araçlarda Türkçe konuşma tanıma için Yeni Bir Veri Tabanı Ve Bu Veri Tabanı Ile Elde Edilen Ilk konuşma tanıma sonuçları”. Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi 24/2 (April 2018), 180-184.
JAMA Büyük O. Mobil araçlarda Türkçe konuşma tanıma için yeni bir veri tabanı ve bu veri tabanı ile elde edilen ilk konuşma tanıma sonuçları. Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi. 2018;24:180–184.
MLA Büyük, Osman. “Mobil araçlarda Türkçe konuşma tanıma için Yeni Bir Veri Tabanı Ve Bu Veri Tabanı Ile Elde Edilen Ilk konuşma tanıma sonuçları”. Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi, vol. 24, no. 2, 2018, pp. 180-4.
Vancouver Büyük O. Mobil araçlarda Türkçe konuşma tanıma için yeni bir veri tabanı ve bu veri tabanı ile elde edilen ilk konuşma tanıma sonuçları. Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi. 2018;24(2):180-4.

ESCI_LOGO.png    image001.gif    image002.gif        image003.gif     image004.gif