Research Article
Speaker Accent Recognition Using MFCC Feature Extraction and Machine Learning Algorithms

Year 2021, , 17 - 27, 30.12.2021


Konuşma ve konuşmacı tanıma sistemlerinde insan sesinin içerdiği parametrik bilginin sistem tarafından analiz edilip en yüksek başarı oranında tanınması hedeflenmektedir. Konuşmacı tanımanın başarılı bir şekilde yapılabilmesi için ses içerisindeki en önemli özelliklerden bir tanesi konuşmacının aksanıdır. Konuşmacı aksanı tanıma sistemleri konuşan kişinin konuşma şekli ve konuşurken kullandığı kelime seçimi gibi örüntülerin analiz edilerek tanınmasına dayanmaktadır. Konuşmacının ses sinyalinden gerekli öznitelik bilgilerini elde etmek için Mel-Frekans Kepstral Katsayıları (MFCC) öznitelik çıkarım tekniği kullanılmıştır. Bu çalışmada 12 katsayılı MFCC tekniği ile toplamda 7 farklı aksana sahip 367 konuşmacıya ait ses sinyallerinden elde edilen veriler kullanılmıştır. Kullanılan veri setindeki 330 konuşmacıya ait veriler UC Irvine Makine Öğrenmesi (ML) açık veri kaynağındaki “Speaker Accent Recognition” veri setinden alınmıştır. Diğer 37 konuşmacının verisi ise George Mason Üniversitesi tarafından oluşturulan “Speaker Accent Archive” veri setindeki ses kayıtlarının MFCC öznitelik çıkarım tekniği kullanılarak veriye dönüştürülmesi yoluyla elde edilmiştir. Tasarlanan konuşmacı aksanı tanıma sistemi için 9 farklı ML sınıflandırma algoritması kullanılmıştır. Bunun yanında veri setini bağımsız olarak test edebilmek amacıyla k-katlamalı çapraz doğrulama tekniği kullanılmıştır. Bu sayede veri setini farklı sayıda parçalara bölerek analiz edildiğinde sergilediği performans gösterilmiştir. Kullanılan sınıflandırma algoritmaları ve bu algoritmalarda yapılan hiper parametre optimizasyonları açıklanmıştır. Sınıflandırma yapılarının elde ettiği başarı sonuçları değerlendirme ölçütleri kullanılarak gösterilmiştir.


Speech and speaker recognition systems aim to analyze parametric information contained in the human voice and recognize it at the highest possible rate. One of the most important features in the audio signal for the speaker to be recognized successfully by the system is the speaker's accent. Speaker accent recognition systems are based on the analysis of patterns such as the way the speaker speaks and the word choice he uses while speaking. In this study, the data obtained by the MFCC feature extraction technique from voice signals of 367 speakers with 7 different accents were used. The data of 330 speakers in the data set were taken from the "Speaker Accent Recognition" data set in the UC Irvine Machine Learning (ML) open data source. The data of the other 37 speakers were obtained by converting the voice recordings in the "Speaker Accent Archive" data set created by George Mason University into data using the MFCC feature extraction technique. 9 ML classification algorithms were used for the designed speaker accent recognition system. Also, the k-fold cross-validation technique was used to test the data set independently. In this way, the performance of ML algorithms is shown when the data set is divided into a k number of parts. Information about the classification algorithms used in the designed system and the hyperparameter optimizations made in these algorithms are also given. The success performances of the classification algorithms are shown with performance metrics.


Ahmet Aytuğ Ayrancı 0000-0002-5755-5010

Sergen Atay 0000-0002-7791-7365

Tülay Yıldırım 0000-0001-9993-5583

Publication Date December 30, 2021
Published in Issue Year 2021


