Araştırma Makalesi
BibTex RIS Kaynak Göster

Mobil araçlarda Türkçe konuşma tanıma için yeni bir veri tabanı ve bu veri tabanı ile elde edilen ilk konuşma tanıma sonuçları

Yıl 2018, Cilt: 24 Sayı: 2, 180 - 184, 30.04.2018

Öz

Konuşma tanıma teknolojisi konuşmanın otomatik olarak
metne dönüştürülmesini sağlamaktadır. Bu konuda yapılmış önceki çalışmalar,
teknolojinin belli bir olgunluğa ulaşmasını ve pek çok farklı alanda
kullanılmasını sağlamıştır. Son zamanlarda akıllı telefon, tablet gibi mobil
uygulamaların kullanımında görülen hızlı artış konuşma tanıma teknolojisinin
mobil platformlara uyarlanmasını önemli hale getirmiştir. Bu çalışmada mobil
platformlar için yüksek başarım ile çalışan Türkçe bir konuşma tanıma
sisteminin gerçekleştirilmesi hedeflenmiştir. Bu amaçla farklı akıllı
telefonlardan alınmış kayıtlardan oluşan yeni bir ses veri tabanı
oluşturulmuştur. Sistemin performansı üç farklı konuşma tanıma uygulaması
kullanılarak ölçülmüştür. i) Televizyon kumanda uygulaması, ii) Sesli mesaj
uygulaması, iii) Genel metin yazdırma uygulaması. Yaptığımız testlerde tanıma
performansının televizyon kumanda uygulaması için %95’in üzerinde olduğu
görülmüştür. Sesli mesaj ve genel metin yazdırma uygulamalarında yaklaşık %40
ve %60 başarım oranları elde edilmiştir.

Kaynakça

  • Davis SB, Mermelstein P. “Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences”. IEEE Transactions on Acoustics, Speech and Signal Processing, 28(4), 357-366, 1980.
  • Makhoul J. “Linear prediction: A tutorial review”. Proceeding of the IEEE, 63(4), 561-580, 1975.
  • Hermansky H, Morgan N, Bayya A, Kohn P. “RASTA-PLP speech analysis technique”. IEEE International Conference on Acoustics, Speech and Signal Processing 1992, San Francisco, California, USA, 23-26 March 1992.
  • Rabiner LR, Huang BW. Fundamentals of Speech Recognition. Englewood Cliffs, New Jersey, USA, Prentice Hall Inc, 1993.
  • Young S, Evermann G, Gales M, Hain T, Kershaw D, Liu X, Moore G, Odell J, Ollason D, Povey D, Valtchev V, Woodland P. The HTK Book (for HTK Version 3.4). 3th ed. Cambridge, UK, Cambridge University Engineering Department, 2006.
  • Viterbi, AJ. “Error bounds for convolutional codes and an asymptotically optimum decoding algorithm”. IEEE Transactions on Information Theory, 13(2), 260-269, 1967.
  • Carnegie Mellon University Speech Processing Group. “Carnegie Mellon University Sphinx, Open Source Toolkit for Speech Recognition”. http://cmusphinx.sourceforge.net (19.04.2014).
  • Kaldi Project. “Kaldi: A Toolkit for Speech Recognition”. http://kaldi-asr.org/ (05.01.2016).
  • Tan ZH, Lindberg B. “Speech recognition on mobile devices”. Lecture Notes in Computer Science, 5960, 221-237, 2010.
  • Arisoy E. Turkish Dictation System for Radiology and Brodcast News Applications. Msc. Thesis, Bogazici University, Turkey, 2004.
  • Buyuk O. Sub-word Language Modelling for Turkish Speech Recognition. Msc. Thesis, Sabanci University, Turkey, 2005.
  • Carnegie Mellon University Speech Processing Group, CMU. “The CMU Statistical Language Modeling (SLM) Toolkit”. http://www.speech.cs.cmu.edu/SLM_info.html (19.10.2015).
  • Buyuk O, Haznedaroglu A, Arslan LM. “Turkish speech recognition software with adaptable language model”. 15th Signal Processing and Communication Applications Conference, Eskisehir, Turkey, 11-13 June 2007.

A new database for Turkish speech recognition on mobile devices and initial speech recognition results using the database

Yıl 2018, Cilt: 24 Sayı: 2, 180 - 184, 30.04.2018

Öz

The aim of speech recognition is to recognize human
speech and convert it to written text. Past works in speech recognition
technology leaded to significant improvements and this ensured the use of the
technology in various practical applications. Recently, the demand for mobile
applications has significantly increased when the smart phones and tablets have
been introduced to the market. As a result, the adaptation of speech
recognition to mobile devices has been an important issue since the technology
has many applications in these devices. In this study, we aim to develop a
Turkish speech recognition system for mobile devices. For this purpose, we
collected a new database that includes recordings from various different
speakers and smart phones. The performance of this system is tested using three
speech recognition applications; i) Television control ii) Short message iii) General
text dictation. In the experiments, we achieved 95% recognition performance in
the grammar based television control application. The performance in short
message and general text dictation applications are approximately %40 and %60,
respectively.

Kaynakça

  • Davis SB, Mermelstein P. “Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences”. IEEE Transactions on Acoustics, Speech and Signal Processing, 28(4), 357-366, 1980.
  • Makhoul J. “Linear prediction: A tutorial review”. Proceeding of the IEEE, 63(4), 561-580, 1975.
  • Hermansky H, Morgan N, Bayya A, Kohn P. “RASTA-PLP speech analysis technique”. IEEE International Conference on Acoustics, Speech and Signal Processing 1992, San Francisco, California, USA, 23-26 March 1992.
  • Rabiner LR, Huang BW. Fundamentals of Speech Recognition. Englewood Cliffs, New Jersey, USA, Prentice Hall Inc, 1993.
  • Young S, Evermann G, Gales M, Hain T, Kershaw D, Liu X, Moore G, Odell J, Ollason D, Povey D, Valtchev V, Woodland P. The HTK Book (for HTK Version 3.4). 3th ed. Cambridge, UK, Cambridge University Engineering Department, 2006.
  • Viterbi, AJ. “Error bounds for convolutional codes and an asymptotically optimum decoding algorithm”. IEEE Transactions on Information Theory, 13(2), 260-269, 1967.
  • Carnegie Mellon University Speech Processing Group. “Carnegie Mellon University Sphinx, Open Source Toolkit for Speech Recognition”. http://cmusphinx.sourceforge.net (19.04.2014).
  • Kaldi Project. “Kaldi: A Toolkit for Speech Recognition”. http://kaldi-asr.org/ (05.01.2016).
  • Tan ZH, Lindberg B. “Speech recognition on mobile devices”. Lecture Notes in Computer Science, 5960, 221-237, 2010.
  • Arisoy E. Turkish Dictation System for Radiology and Brodcast News Applications. Msc. Thesis, Bogazici University, Turkey, 2004.
  • Buyuk O. Sub-word Language Modelling for Turkish Speech Recognition. Msc. Thesis, Sabanci University, Turkey, 2005.
  • Carnegie Mellon University Speech Processing Group, CMU. “The CMU Statistical Language Modeling (SLM) Toolkit”. http://www.speech.cs.cmu.edu/SLM_info.html (19.10.2015).
  • Buyuk O, Haznedaroglu A, Arslan LM. “Turkish speech recognition software with adaptable language model”. 15th Signal Processing and Communication Applications Conference, Eskisehir, Turkey, 11-13 June 2007.
Toplam 13 adet kaynakça vardır.

Ayrıntılar

Birincil Dil Türkçe
Konular Mühendislik
Bölüm Makale
Yazarlar

Osman Büyük Bu kişi benim 0000-0003-1039-3234

Yayımlanma Tarihi 30 Nisan 2018
Yayımlandığı Sayı Yıl 2018 Cilt: 24 Sayı: 2

Kaynak Göster

APA Büyük, O. (2018). Mobil araçlarda Türkçe konuşma tanıma için yeni bir veri tabanı ve bu veri tabanı ile elde edilen ilk konuşma tanıma sonuçları. Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi, 24(2), 180-184.
AMA Büyük O. Mobil araçlarda Türkçe konuşma tanıma için yeni bir veri tabanı ve bu veri tabanı ile elde edilen ilk konuşma tanıma sonuçları. Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi. Nisan 2018;24(2):180-184.
Chicago Büyük, Osman. “Mobil araçlarda Türkçe konuşma tanıma için Yeni Bir Veri Tabanı Ve Bu Veri Tabanı Ile Elde Edilen Ilk konuşma tanıma sonuçları”. Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi 24, sy. 2 (Nisan 2018): 180-84.
EndNote Büyük O (01 Nisan 2018) Mobil araçlarda Türkçe konuşma tanıma için yeni bir veri tabanı ve bu veri tabanı ile elde edilen ilk konuşma tanıma sonuçları. Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi 24 2 180–184.
IEEE O. Büyük, “Mobil araçlarda Türkçe konuşma tanıma için yeni bir veri tabanı ve bu veri tabanı ile elde edilen ilk konuşma tanıma sonuçları”, Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi, c. 24, sy. 2, ss. 180–184, 2018.
ISNAD Büyük, Osman. “Mobil araçlarda Türkçe konuşma tanıma için Yeni Bir Veri Tabanı Ve Bu Veri Tabanı Ile Elde Edilen Ilk konuşma tanıma sonuçları”. Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi 24/2 (Nisan 2018), 180-184.
JAMA Büyük O. Mobil araçlarda Türkçe konuşma tanıma için yeni bir veri tabanı ve bu veri tabanı ile elde edilen ilk konuşma tanıma sonuçları. Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi. 2018;24:180–184.
MLA Büyük, Osman. “Mobil araçlarda Türkçe konuşma tanıma için Yeni Bir Veri Tabanı Ve Bu Veri Tabanı Ile Elde Edilen Ilk konuşma tanıma sonuçları”. Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi, c. 24, sy. 2, 2018, ss. 180-4.
Vancouver Büyük O. Mobil araçlarda Türkçe konuşma tanıma için yeni bir veri tabanı ve bu veri tabanı ile elde edilen ilk konuşma tanıma sonuçları. Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi. 2018;24(2):180-4.





Creative Commons Lisansı
Bu dergi Creative Commons Al 4.0 Uluslararası Lisansı ile lisanslanmıştır.