TY - JOUR T1 - Yalıtık Sözcüklü bir Türkçe Konuşma Tanıma Sisteminin Yapay Veri Artırımı ile Tasarımı ve Gerçekleştirimi TT - Design and Implementation of an Isolated-word Turkish Speech Recognition System with Data Augmentation AU - Uslu, İbrahim AU - Tora, Hakan AU - Sümer, Emre AU - Türker, Mustafa PY - 2020 DA - December DO - 10.35414/akufemubid.803547 JF - Afyon Kocatepe Üniversitesi Fen Ve Mühendislik Bilimleri Dergisi PB - Afyon Kocatepe Üniversitesi WT - DergiPark SN - 2149-3367 SP - 1147 EP - 1155 VL - 20 IS - 6 LA - tr AB - Bu çalışmada toplamda doksan iki adet sesli komuttan oluşan bir yalıtık sözcüklü Türkçe konuşma tanıma sistemi tasarlanmış ve gerçekleştirilmiştir. Sistem, destek vektör makinesi (SVM) tabanlı olup, eğitimde kullanılan veri kümesi kaydedilen konuşmaların yapay olarak çeşitlendirilip artırılmasıyla elde edilmiştir. Farklı yapay veri oranlarının tanıma başarımı üzerindeki etkisi incelenmiştir. Akustik öznitelik olarak, mel frekansı kepstral katsayıları (MFCC) kullanılmıştır. Ayrıca, ses aktivitesi tespitinin ve MFCC katsayılarının tanıma başarımına etkileri de irdelenmiştir. Sonuçta doksan iki yalıtık komut için ortalama %92.6’lık doğrulukla çalışan bir konuşma tanıma sistemi geliştirilmiştir. KW - Konuşma tanıma KW - veri artırımı KW - ses aktivitesi tespiti KW - MFCC katsayıları KW - destek vektör makinesi N2 - In this study, an isolated-word Turkish speech recognition system comprising of ninety-two voiced commands has been designed and implemented. The system is support vector machine (SVM) based and the data set used in training has been obtained by augmenting the original recordings artificially. The effect of different augmented data amounts on recognition performance has been examined. As acoustic features, mel frequency cepstral coefficients (MFCC) were used. Moreover, the effects of voice activity detection and MFCCs on recognition performance have also been investigated. In the end, 92.6% recognition accuracy on average has been obtained for ninety-two isolated commands. CR - Boersma, P. “Praat, a system for doing phonetics by computer”. Glot International 5:9/10 (2001): 341-345. CR - Büyük, O., 2018. Mobil araçlarda Türkçe konuşma tanıma için yeni bir veri tabanı ve bu veri tabanı ile elde edilen ilk konuşma tanıma sonuçları, Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi, 24(2), 180-184. CR - Coşkun, A. ve Karadaş, İ., 2014. Okul öncesi eğitime yönelik ses kontrollü eğitim yazılımı, Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi, 20 (2), 36-41. CR - Gelegin, İ. ve Bolat, B., 2011. Ayrık kelime tabanlı bir konuşma tanıma sistemiyle bilgisayar kontrolü, Elektrik-Elektronik ve Bilgisayar Sempozyumu, Elazığ: 5-7. CR - Güneş, H. ve Bicakcı, S., 2018. Akıllı evler için sesli komut algılama yöntemleri, Balıkesir Üniversitesi Fen Bilimleri Enstitüsü Dergisi, 20(2), 561-568. CR - Jaitly, N. and Hinton, G. E., 2013. Vocal tract length perturbation (VTLP) improves speech recognition, In Proc. ICML Workshop on Deep Learning for Audio, Speech and Language, 117. CR - Kanda, N., Takeda, R., and Obuchi, Y., 2013. Elastic spectral distortion for low resource speech recognition with deep neural networks, In 2013 IEEE Workshop on Automatic Speech Recognition and Understanding, IEEE, 309-314. CR - Ko, T., Peddinti, V., Povey, D., and Khudanpur, S., 2015. Audio augmentation for speech recognition, In Sixteenth Annual Conference of the International Speech Communication Association. CR - Oyucu, S., Polat, H. ve Sever, H., 2020. Sessizliğin kaldırılması ve konuşmanın parçalara ayrılması işleminin Türkçe otomatik konuşma tanıma üzerindeki etkisi, Düzce Üniversitesi Bilim ve Teknoloji Dergisi, 8.1, 334-346. CR - Tüfekci Z. and Dişken, G., 2019. Scale-invariant MFCCs for speech/speaker recognition, Turk J Elec Eng & Comp Sci, 27, 3758–3762. CR - İnternet kaynakları 1-https://www.nch.com.au/wavepad/index.html, (17.09.2020) UR - https://doi.org/10.35414/akufemubid.803547 L1 - https://dergipark.org.tr/tr/download/article-file/1321847 ER -