Sessizliğin Kaldırılması ve Konuşmanın Parçalara Ayrılması İşleminin Türkçe Otomatik Konuşma Tanıma Üzerindeki Etkisi
Abstract
Otomatik Konuşma Tanıma sistemleri temel olarak akustik bilgiden faydalanılarak geliştirilmektedir. Akustik bilgiden fonem bilgisinin elde edilmesi için eşleştirilmiş konuşma ve metin verileri kullanılmaktadır. Bu veriler ile eğitilen akustik modeller gerçek hayattaki bütün akustik bilgiyi modelleyememektedir. Bu nedenle belirli ön işlemlerin yapılması ve otomatik konuşma tanıma sistemlerinin başarımını düşürecek akustik bilgilerin ortadan kaldırılması gerekmektedir. Bu çalışmada konuşma içerisinde geçen sessizliklerin kaldırılması için bir yöntem önerilmiştir. Önerilen yöntemin amacı sessizlik bilgisinin ortadan kaldırılması ve akustik bilgide uzun bağımlılıklar sağlayan konuşmaların parçalara ayrılmasıdır. Geliştirilen yöntemin sonunda elde edilen sessizlik içermeyen ve parçalara ayrılan konuşma bilgisi bir Türkçe Otomatik Konuşma Tanıma sistemine girdi olarak verilmiştir. Otomatik Konuşma Tanıma sisteminin çıkışında sisteme giriş olarak verilen konuşma parçalarına karşılık gelen metinler birleştirilerek sunulmuştur. Gerçekleştirilen deneylerde sessizliğin kaldırılması ve konuşmanın parçalara ayrılması işleminin Otomatik Konuşma Tanıma sistemlerinin başarımını artırdığı görülmüştür.
Keywords
Thanks
References
- [1] M. Abushariah, S. Gunawan, O. Khalifa, ve M. Abushariah, “English digits speech recognition system based on Hidden Markov Models,” International Conference on Computer and Communication Engineering, Kuala Lumpur, Malaysia, 2010, ss. 1–5.
- [2] H. Prakoso, R. Ferdiana, ve R. Hartanto, “Indonesian Automatic Speech Recognition system using CMUSphinx toolkit and limited dataset,” International Symposium on Electronics and Smart Devices, Bandung, Indonesia, 2016, ss. 283–286.
- [3] C. Kurian, ve K. Balakrishnan, “Speech recognition of Malayalam numbers,” World Congress Natural Biology Inspired Compututer, Coimbatore, India, 2009, ss. 1475–1479.
- [4] C. Howard, ve D. David, “Automatic Measurement of Speech Recognition Performance: A Comparison of Six Speaker-Dependent Recognition Devices,” Computer Speech & Language, c. 2, s. 2, ss. 87-108, 1987.
- [5] D. Amodei, “Deep speech 2:end-to-end speech recognition in english and mandarin,” International Conference on International Conference on Machine Learning, New York, USA, 2006, ss. 1–28.
- [6] Y. G. Thimmaraja ve H. S. Jayanna, “Creating language and acoustic models using Kaldi to build an automatic speech recognition system for Kannada language,” International Conference on Recent Trends in Electronics, Information & Communication Technology, Bangalore, India, 2017, ss. 161–165.
- [7] E. Bocchieri, ve D. Caseiro, “Use of geographical meta-data in ASR language and acoustic models,” International Conference on Acoustics, Speech and Signal Processing, Dallas, TX, USA, 2010, ss. 5118–5121.
- [8] J. Neto, “Speaker-adaptation for hybrid HMM-ANN continuous speech recognition system,” European Conference on Speech Communication and Technology, Madrid, Spain, 1995, ss. 2171–2174.
Details
Primary Language
Turkish
Subjects
Engineering
Journal Section
Research Article
Authors
Saadin Oyucu
*
0000-0003-3880-3039
Türkiye
Hüseyin Polat
0000-0003-4128-2625
Türkiye
Hayri Sever
0000-0002-8261-0675
Türkiye
Publication Date
January 31, 2020
Submission Date
May 3, 2019
Acceptance Date
August 5, 2019
Published in Issue
Year 2020 Volume: 8 Number: 1
Cited By
Yalıtık Sözcüklü bir Türkçe Konuşma Tanıma Sisteminin Yapay Veri Artırımı ile Tasarımı ve Gerçekleştirimi
Afyon Kocatepe University Journal of Sciences and Engineering
https://doi.org/10.35414/akufemubid.803547Raspbraille: Conversion to Braille Alphabet with Optical Character Recognition and Voice Recognition Algorithm
Hittite Journal of Science and Engineering
https://doi.org/10.17350/HJSE19030000278