Yalıtık Sözcüklü bir Türkçe Konuşma Tanıma Sisteminin Yapay Veri Artırımı ile Tasarımı ve Gerçekleştirimi

İbrahim Uslu; Hakan Tora; Emre Sümer; Mustafa Türker

doi:10.35414/akufemubid.803547

Araştırma Makalesi

Yalıtık Sözcüklü bir Türkçe Konuşma Tanıma Sisteminin Yapay Veri Artırımı ile Tasarımı ve Gerçekleştirimi

Yıl 2020, , 1147 - 1155, 31.12.2020

İbrahim Uslu , Hakan Tora , Emre Sümer , Mustafa Türker

https://doi.org/10.35414/akufemubid.803547

Öz

Bu çalışmada toplamda doksan iki adet sesli komuttan oluşan bir yalıtık sözcüklü Türkçe konuşma tanıma sistemi tasarlanmış ve gerçekleştirilmiştir. Sistem, destek vektör makinesi (SVM) tabanlı olup, eğitimde kullanılan veri kümesi kaydedilen konuşmaların yapay olarak çeşitlendirilip artırılmasıyla elde edilmiştir. Farklı yapay veri oranlarının tanıma başarımı üzerindeki etkisi incelenmiştir. Akustik öznitelik olarak, mel frekansı kepstral katsayıları (MFCC) kullanılmıştır. Ayrıca, ses aktivitesi tespitinin ve MFCC katsayılarının tanıma başarımına etkileri de irdelenmiştir. Sonuçta doksan iki yalıtık komut için ortalama %92.6’lık doğrulukla çalışan bir konuşma tanıma sistemi geliştirilmiştir.

Anahtar Kelimeler

Konuşma tanıma, veri artırımı, ses aktivitesi tespiti, MFCC katsayıları, destek vektör makinesi

Kaynakça

Boersma, P. “Praat, a system for doing phonetics by computer”. Glot International 5:9/10 (2001): 341-345.
Büyük, O., 2018. Mobil araçlarda Türkçe konuşma tanıma için yeni bir veri tabanı ve bu veri tabanı ile elde edilen ilk konuşma tanıma sonuçları, Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi, 24(2), 180-184.
Coşkun, A. ve Karadaş, İ., 2014. Okul öncesi eğitime yönelik ses kontrollü eğitim yazılımı, Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi, 20 (2), 36-41.
Gelegin, İ. ve Bolat, B., 2011. Ayrık kelime tabanlı bir konuşma tanıma sistemiyle bilgisayar kontrolü, Elektrik-Elektronik ve Bilgisayar Sempozyumu, Elazığ: 5-7.
Güneş, H. ve Bicakcı, S., 2018. Akıllı evler için sesli komut algılama yöntemleri, Balıkesir Üniversitesi Fen Bilimleri Enstitüsü Dergisi, 20(2), 561-568.
Jaitly, N. and Hinton, G. E., 2013. Vocal tract length perturbation (VTLP) improves speech recognition, In Proc. ICML Workshop on Deep Learning for Audio, Speech and Language, 117.
Kanda, N., Takeda, R., and Obuchi, Y., 2013. Elastic spectral distortion for low resource speech recognition with deep neural networks, In 2013 IEEE Workshop on Automatic Speech Recognition and Understanding, IEEE, 309-314.
Ko, T., Peddinti, V., Povey, D., and Khudanpur, S., 2015. Audio augmentation for speech recognition, In Sixteenth Annual Conference of the International Speech Communication Association.
Oyucu, S., Polat, H. ve Sever, H., 2020. Sessizliğin kaldırılması ve konuşmanın parçalara ayrılması işleminin Türkçe otomatik konuşma tanıma üzerindeki etkisi, Düzce Üniversitesi Bilim ve Teknoloji Dergisi, 8.1, 334-346.
Tüfekci Z. and Dişken, G., 2019. Scale-invariant MFCCs for speech/speaker recognition, Turk J Elec Eng & Comp Sci, 27, 3758–3762.
İnternet kaynakları 1-https://www.nch.com.au/wavepad/index.html, (17.09.2020)

Design and Implementation of an Isolated-word Turkish Speech Recognition System with Data Augmentation

Yıl 2020, , 1147 - 1155, 31.12.2020

İbrahim Uslu , Hakan Tora , Emre Sümer , Mustafa Türker

https://doi.org/10.35414/akufemubid.803547

Öz

In this study, an isolated-word Turkish speech recognition system comprising of ninety-two voiced commands has been designed and implemented. The system is support vector machine (SVM) based and the data set used in training has been obtained by augmenting the original recordings artificially. The effect of different augmented data amounts on recognition performance has been examined. As acoustic features, mel frequency cepstral coefficients (MFCC) were used. Moreover, the effects of voice activity detection and MFCCs on recognition performance have also been investigated. In the end, 92.6% recognition accuracy on average has been obtained for ninety-two isolated commands.

Anahtar Kelimeler

Speech recognition, Data augmentation, Voice activity detection, MFCC, Support vector machine

Kaynakça

Boersma, P. “Praat, a system for doing phonetics by computer”. Glot International 5:9/10 (2001): 341-345.
Büyük, O., 2018. Mobil araçlarda Türkçe konuşma tanıma için yeni bir veri tabanı ve bu veri tabanı ile elde edilen ilk konuşma tanıma sonuçları, Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi, 24(2), 180-184.
Coşkun, A. ve Karadaş, İ., 2014. Okul öncesi eğitime yönelik ses kontrollü eğitim yazılımı, Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi, 20 (2), 36-41.
Gelegin, İ. ve Bolat, B., 2011. Ayrık kelime tabanlı bir konuşma tanıma sistemiyle bilgisayar kontrolü, Elektrik-Elektronik ve Bilgisayar Sempozyumu, Elazığ: 5-7.
Güneş, H. ve Bicakcı, S., 2018. Akıllı evler için sesli komut algılama yöntemleri, Balıkesir Üniversitesi Fen Bilimleri Enstitüsü Dergisi, 20(2), 561-568.
Jaitly, N. and Hinton, G. E., 2013. Vocal tract length perturbation (VTLP) improves speech recognition, In Proc. ICML Workshop on Deep Learning for Audio, Speech and Language, 117.
Kanda, N., Takeda, R., and Obuchi, Y., 2013. Elastic spectral distortion for low resource speech recognition with deep neural networks, In 2013 IEEE Workshop on Automatic Speech Recognition and Understanding, IEEE, 309-314.
Ko, T., Peddinti, V., Povey, D., and Khudanpur, S., 2015. Audio augmentation for speech recognition, In Sixteenth Annual Conference of the International Speech Communication Association.
Oyucu, S., Polat, H. ve Sever, H., 2020. Sessizliğin kaldırılması ve konuşmanın parçalara ayrılması işleminin Türkçe otomatik konuşma tanıma üzerindeki etkisi, Düzce Üniversitesi Bilim ve Teknoloji Dergisi, 8.1, 334-346.
Tüfekci Z. and Dişken, G., 2019. Scale-invariant MFCCs for speech/speaker recognition, Turk J Elec Eng & Comp Sci, 27, 3758–3762.
İnternet kaynakları 1-https://www.nch.com.au/wavepad/index.html, (17.09.2020)

Toplam 11 adet kaynakça vardır.

Ayrıntılar

Birincil Dil	Türkçe
Konular	Mühendislik
Bölüm	Makaleler
Yazarlar	İbrahim Uslu 0000-0001-5116-779X Hakan Tora 0000-0002-0427-483X Emre Sümer 0000-0001-8502-9184 Mustafa Türker 0000-0001-5604-0472
Yayımlanma Tarihi	31 Aralık 2020
Gönderilme Tarihi	1 Ekim 2020
Yayımlandığı Sayı	Yıl 2020

Kaynak Göster

APA	Uslu, İ., Tora, H., Sümer, E., Türker, M. (2020). Yalıtık Sözcüklü bir Türkçe Konuşma Tanıma Sisteminin Yapay Veri Artırımı ile Tasarımı ve Gerçekleştirimi. Afyon Kocatepe Üniversitesi Fen Ve Mühendislik Bilimleri Dergisi, 20(6), 1147-1155. https://doi.org/10.35414/akufemubid.803547
AMA	Uslu İ, Tora H, Sümer E, Türker M. Yalıtık Sözcüklü bir Türkçe Konuşma Tanıma Sisteminin Yapay Veri Artırımı ile Tasarımı ve Gerçekleştirimi. Afyon Kocatepe Üniversitesi Fen Ve Mühendislik Bilimleri Dergisi. Aralık 2020;20(6):1147-1155. doi:10.35414/akufemubid.803547
Chicago	Uslu, İbrahim, Hakan Tora, Emre Sümer, ve Mustafa Türker. “Yalıtık Sözcüklü Bir Türkçe Konuşma Tanıma Sisteminin Yapay Veri Artırımı Ile Tasarımı Ve Gerçekleştirimi”. Afyon Kocatepe Üniversitesi Fen Ve Mühendislik Bilimleri Dergisi 20, sy. 6 (Aralık 2020): 1147-55. https://doi.org/10.35414/akufemubid.803547.
EndNote	Uslu İ, Tora H, Sümer E, Türker M (01 Aralık 2020) Yalıtık Sözcüklü bir Türkçe Konuşma Tanıma Sisteminin Yapay Veri Artırımı ile Tasarımı ve Gerçekleştirimi. Afyon Kocatepe Üniversitesi Fen Ve Mühendislik Bilimleri Dergisi 20 6 1147–1155.
IEEE	İ. Uslu, H. Tora, E. Sümer, ve M. Türker, “Yalıtık Sözcüklü bir Türkçe Konuşma Tanıma Sisteminin Yapay Veri Artırımı ile Tasarımı ve Gerçekleştirimi”, Afyon Kocatepe Üniversitesi Fen Ve Mühendislik Bilimleri Dergisi, c. 20, sy. 6, ss. 1147–1155, 2020, doi: 10.35414/akufemubid.803547.
ISNAD	Uslu, İbrahim vd. “Yalıtık Sözcüklü Bir Türkçe Konuşma Tanıma Sisteminin Yapay Veri Artırımı Ile Tasarımı Ve Gerçekleştirimi”. Afyon Kocatepe Üniversitesi Fen Ve Mühendislik Bilimleri Dergisi 20/6 (Aralık 2020), 1147-1155. https://doi.org/10.35414/akufemubid.803547.
JAMA	Uslu İ, Tora H, Sümer E, Türker M. Yalıtık Sözcüklü bir Türkçe Konuşma Tanıma Sisteminin Yapay Veri Artırımı ile Tasarımı ve Gerçekleştirimi. Afyon Kocatepe Üniversitesi Fen Ve Mühendislik Bilimleri Dergisi. 2020;20:1147–1155.
MLA	Uslu, İbrahim vd. “Yalıtık Sözcüklü Bir Türkçe Konuşma Tanıma Sisteminin Yapay Veri Artırımı Ile Tasarımı Ve Gerçekleştirimi”. Afyon Kocatepe Üniversitesi Fen Ve Mühendislik Bilimleri Dergisi, c. 20, sy. 6, 2020, ss. 1147-55, doi:10.35414/akufemubid.803547.
Vancouver	Uslu İ, Tora H, Sümer E, Türker M. Yalıtık Sözcüklü bir Türkçe Konuşma Tanıma Sisteminin Yapay Veri Artırımı ile Tasarımı ve Gerçekleştirimi. Afyon Kocatepe Üniversitesi Fen Ve Mühendislik Bilimleri Dergisi. 2020;20(6):1147-55.