Yalıtık Sözcüklü bir Türkçe Konuşma Tanıma Sisteminin Yapay Veri Artırımı ile Tasarımı ve Gerçekleştirimi

İbrahim Uslu; Hakan Tora; Emre Sümer; Mustafa Türker

doi:10.35414/akufemubid.803547

Research Article

Yalıtık Sözcüklü bir Türkçe Konuşma Tanıma Sisteminin Yapay Veri Artırımı ile Tasarımı ve Gerçekleştirimi

Year 2020, , 1147 - 1155, 31.12.2020

İbrahim Uslu , Hakan Tora , Emre Sümer , Mustafa Türker

https://doi.org/10.35414/akufemubid.803547

Abstract

Bu çalışmada toplamda doksan iki adet sesli komuttan oluşan bir yalıtık sözcüklü Türkçe konuşma tanıma sistemi tasarlanmış ve gerçekleştirilmiştir. Sistem, destek vektör makinesi (SVM) tabanlı olup, eğitimde kullanılan veri kümesi kaydedilen konuşmaların yapay olarak çeşitlendirilip artırılmasıyla elde edilmiştir. Farklı yapay veri oranlarının tanıma başarımı üzerindeki etkisi incelenmiştir. Akustik öznitelik olarak, mel frekansı kepstral katsayıları (MFCC) kullanılmıştır. Ayrıca, ses aktivitesi tespitinin ve MFCC katsayılarının tanıma başarımına etkileri de irdelenmiştir. Sonuçta doksan iki yalıtık komut için ortalama %92.6’lık doğrulukla çalışan bir konuşma tanıma sistemi geliştirilmiştir.

Keywords

Konuşma tanıma, veri artırımı, ses aktivitesi tespiti, MFCC katsayıları, destek vektör makinesi

References

Boersma, P. “Praat, a system for doing phonetics by computer”. Glot International 5:9/10 (2001): 341-345.
Büyük, O., 2018. Mobil araçlarda Türkçe konuşma tanıma için yeni bir veri tabanı ve bu veri tabanı ile elde edilen ilk konuşma tanıma sonuçları, Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi, 24(2), 180-184.
Coşkun, A. ve Karadaş, İ., 2014. Okul öncesi eğitime yönelik ses kontrollü eğitim yazılımı, Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi, 20 (2), 36-41.
Gelegin, İ. ve Bolat, B., 2011. Ayrık kelime tabanlı bir konuşma tanıma sistemiyle bilgisayar kontrolü, Elektrik-Elektronik ve Bilgisayar Sempozyumu, Elazığ: 5-7.
Güneş, H. ve Bicakcı, S., 2018. Akıllı evler için sesli komut algılama yöntemleri, Balıkesir Üniversitesi Fen Bilimleri Enstitüsü Dergisi, 20(2), 561-568.
Jaitly, N. and Hinton, G. E., 2013. Vocal tract length perturbation (VTLP) improves speech recognition, In Proc. ICML Workshop on Deep Learning for Audio, Speech and Language, 117.
Kanda, N., Takeda, R., and Obuchi, Y., 2013. Elastic spectral distortion for low resource speech recognition with deep neural networks, In 2013 IEEE Workshop on Automatic Speech Recognition and Understanding, IEEE, 309-314.
Ko, T., Peddinti, V., Povey, D., and Khudanpur, S., 2015. Audio augmentation for speech recognition, In Sixteenth Annual Conference of the International Speech Communication Association.
Oyucu, S., Polat, H. ve Sever, H., 2020. Sessizliğin kaldırılması ve konuşmanın parçalara ayrılması işleminin Türkçe otomatik konuşma tanıma üzerindeki etkisi, Düzce Üniversitesi Bilim ve Teknoloji Dergisi, 8.1, 334-346.
Tüfekci Z. and Dişken, G., 2019. Scale-invariant MFCCs for speech/speaker recognition, Turk J Elec Eng & Comp Sci, 27, 3758–3762.
İnternet kaynakları 1-https://www.nch.com.au/wavepad/index.html, (17.09.2020)

Design and Implementation of an Isolated-word Turkish Speech Recognition System with Data Augmentation

Year 2020, , 1147 - 1155, 31.12.2020

İbrahim Uslu , Hakan Tora , Emre Sümer , Mustafa Türker

https://doi.org/10.35414/akufemubid.803547

Abstract

In this study, an isolated-word Turkish speech recognition system comprising of ninety-two voiced commands has been designed and implemented. The system is support vector machine (SVM) based and the data set used in training has been obtained by augmenting the original recordings artificially. The effect of different augmented data amounts on recognition performance has been examined. As acoustic features, mel frequency cepstral coefficients (MFCC) were used. Moreover, the effects of voice activity detection and MFCCs on recognition performance have also been investigated. In the end, 92.6% recognition accuracy on average has been obtained for ninety-two isolated commands.

Keywords

Speech recognition, Data augmentation, Voice activity detection, MFCC, Support vector machine

References

Boersma, P. “Praat, a system for doing phonetics by computer”. Glot International 5:9/10 (2001): 341-345.
Büyük, O., 2018. Mobil araçlarda Türkçe konuşma tanıma için yeni bir veri tabanı ve bu veri tabanı ile elde edilen ilk konuşma tanıma sonuçları, Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi, 24(2), 180-184.
Coşkun, A. ve Karadaş, İ., 2014. Okul öncesi eğitime yönelik ses kontrollü eğitim yazılımı, Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi, 20 (2), 36-41.
Gelegin, İ. ve Bolat, B., 2011. Ayrık kelime tabanlı bir konuşma tanıma sistemiyle bilgisayar kontrolü, Elektrik-Elektronik ve Bilgisayar Sempozyumu, Elazığ: 5-7.
Güneş, H. ve Bicakcı, S., 2018. Akıllı evler için sesli komut algılama yöntemleri, Balıkesir Üniversitesi Fen Bilimleri Enstitüsü Dergisi, 20(2), 561-568.
Jaitly, N. and Hinton, G. E., 2013. Vocal tract length perturbation (VTLP) improves speech recognition, In Proc. ICML Workshop on Deep Learning for Audio, Speech and Language, 117.
Kanda, N., Takeda, R., and Obuchi, Y., 2013. Elastic spectral distortion for low resource speech recognition with deep neural networks, In 2013 IEEE Workshop on Automatic Speech Recognition and Understanding, IEEE, 309-314.
Ko, T., Peddinti, V., Povey, D., and Khudanpur, S., 2015. Audio augmentation for speech recognition, In Sixteenth Annual Conference of the International Speech Communication Association.
Oyucu, S., Polat, H. ve Sever, H., 2020. Sessizliğin kaldırılması ve konuşmanın parçalara ayrılması işleminin Türkçe otomatik konuşma tanıma üzerindeki etkisi, Düzce Üniversitesi Bilim ve Teknoloji Dergisi, 8.1, 334-346.
Tüfekci Z. and Dişken, G., 2019. Scale-invariant MFCCs for speech/speaker recognition, Turk J Elec Eng & Comp Sci, 27, 3758–3762.
İnternet kaynakları 1-https://www.nch.com.au/wavepad/index.html, (17.09.2020)

There are 11 citations in total.

Details

Primary Language	Turkish
Subjects	Engineering
Journal Section	Articles
Authors	İbrahim Uslu 0000-0001-5116-779X Hakan Tora 0000-0002-0427-483X Emre Sümer 0000-0001-8502-9184 Mustafa Türker 0000-0001-5604-0472
Publication Date	December 31, 2020
Submission Date	October 1, 2020
Published in Issue	Year 2020

Cite

APA	Uslu, İ., Tora, H., Sümer, E., Türker, M. (2020). Yalıtık Sözcüklü bir Türkçe Konuşma Tanıma Sisteminin Yapay Veri Artırımı ile Tasarımı ve Gerçekleştirimi. Afyon Kocatepe Üniversitesi Fen Ve Mühendislik Bilimleri Dergisi, 20(6), 1147-1155. https://doi.org/10.35414/akufemubid.803547
AMA	Uslu İ, Tora H, Sümer E, Türker M. Yalıtık Sözcüklü bir Türkçe Konuşma Tanıma Sisteminin Yapay Veri Artırımı ile Tasarımı ve Gerçekleştirimi. Afyon Kocatepe Üniversitesi Fen Ve Mühendislik Bilimleri Dergisi. December 2020;20(6):1147-1155. doi:10.35414/akufemubid.803547
Chicago	Uslu, İbrahim, Hakan Tora, Emre Sümer, and Mustafa Türker. “Yalıtık Sözcüklü Bir Türkçe Konuşma Tanıma Sisteminin Yapay Veri Artırımı Ile Tasarımı Ve Gerçekleştirimi”. Afyon Kocatepe Üniversitesi Fen Ve Mühendislik Bilimleri Dergisi 20, no. 6 (December 2020): 1147-55. https://doi.org/10.35414/akufemubid.803547.
EndNote	Uslu İ, Tora H, Sümer E, Türker M (December 1, 2020) Yalıtık Sözcüklü bir Türkçe Konuşma Tanıma Sisteminin Yapay Veri Artırımı ile Tasarımı ve Gerçekleştirimi. Afyon Kocatepe Üniversitesi Fen Ve Mühendislik Bilimleri Dergisi 20 6 1147–1155.
IEEE	İ. Uslu, H. Tora, E. Sümer, and M. Türker, “Yalıtık Sözcüklü bir Türkçe Konuşma Tanıma Sisteminin Yapay Veri Artırımı ile Tasarımı ve Gerçekleştirimi”, Afyon Kocatepe Üniversitesi Fen Ve Mühendislik Bilimleri Dergisi, vol. 20, no. 6, pp. 1147–1155, 2020, doi: 10.35414/akufemubid.803547.
ISNAD	Uslu, İbrahim et al. “Yalıtık Sözcüklü Bir Türkçe Konuşma Tanıma Sisteminin Yapay Veri Artırımı Ile Tasarımı Ve Gerçekleştirimi”. Afyon Kocatepe Üniversitesi Fen Ve Mühendislik Bilimleri Dergisi 20/6 (December 2020), 1147-1155. https://doi.org/10.35414/akufemubid.803547.
JAMA	Uslu İ, Tora H, Sümer E, Türker M. Yalıtık Sözcüklü bir Türkçe Konuşma Tanıma Sisteminin Yapay Veri Artırımı ile Tasarımı ve Gerçekleştirimi. Afyon Kocatepe Üniversitesi Fen Ve Mühendislik Bilimleri Dergisi. 2020;20:1147–1155.
MLA	Uslu, İbrahim et al. “Yalıtık Sözcüklü Bir Türkçe Konuşma Tanıma Sisteminin Yapay Veri Artırımı Ile Tasarımı Ve Gerçekleştirimi”. Afyon Kocatepe Üniversitesi Fen Ve Mühendislik Bilimleri Dergisi, vol. 20, no. 6, 2020, pp. 1147-55, doi:10.35414/akufemubid.803547.
Vancouver	Uslu İ, Tora H, Sümer E, Türker M. Yalıtık Sözcüklü bir Türkçe Konuşma Tanıma Sisteminin Yapay Veri Artırımı ile Tasarımı ve Gerçekleştirimi. Afyon Kocatepe Üniversitesi Fen Ve Mühendislik Bilimleri Dergisi. 2020;20(6):1147-55.