Bu çalışmada toplamda doksan iki adet sesli komuttan oluşan bir yalıtık sözcüklü Türkçe konuşma tanıma sistemi tasarlanmış ve gerçekleştirilmiştir. Sistem, destek vektör makinesi (SVM) tabanlı olup, eğitimde kullanılan veri kümesi kaydedilen konuşmaların yapay olarak çeşitlendirilip artırılmasıyla elde edilmiştir. Farklı yapay veri oranlarının tanıma başarımı üzerindeki etkisi incelenmiştir. Akustik öznitelik olarak, mel frekansı kepstral katsayıları (MFCC) kullanılmıştır. Ayrıca, ses aktivitesi tespitinin ve MFCC katsayılarının tanıma başarımına etkileri de irdelenmiştir. Sonuçta doksan iki yalıtık komut için ortalama %92.6’lık doğrulukla çalışan bir konuşma tanıma sistemi geliştirilmiştir.
Konuşma tanıma veri artırımı ses aktivitesi tespiti MFCC katsayıları destek vektör makinesi
In this study, an isolated-word Turkish speech recognition system comprising of ninety-two voiced commands has been designed and implemented. The system is support vector machine (SVM) based and the data set used in training has been obtained by augmenting the original recordings artificially. The effect of different augmented data amounts on recognition performance has been examined. As acoustic features, mel frequency cepstral coefficients (MFCC) were used. Moreover, the effects of voice activity detection and MFCCs on recognition performance have also been investigated. In the end, 92.6% recognition accuracy on average has been obtained for ninety-two isolated commands.
Speech recognition Data augmentation Voice activity detection MFCC Support vector machine
Birincil Dil | Türkçe |
---|---|
Konular | Mühendislik |
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 31 Aralık 2020 |
Gönderilme Tarihi | 1 Ekim 2020 |
Yayımlandığı Sayı | Yıl 2020 Cilt: 20 Sayı: 6 |
Bu eser Creative Commons Atıf-GayriTicari 4.0 Uluslararası Lisansı ile lisanslanmıştır.