Speaker Accent Recognition Using MFCC Feature Extraction and Machine Learning Algorithms
Year 2021,
Volume: 33 - ASYU 2020 Özel Sayısı, 17 - 27, 30.12.2021
Ahmet Aytuğ Ayrancı
,
Sergen Atay
,
Tülay Yıldırım
Abstract
Konuşma ve konuşmacı tanıma sistemlerinde insan sesinin içerdiği parametrik bilginin sistem tarafından analiz edilip en yüksek başarı oranında tanınması hedeflenmektedir. Konuşmacı tanımanın başarılı bir şekilde yapılabilmesi için ses içerisindeki en önemli özelliklerden bir tanesi konuşmacının aksanıdır. Konuşmacı aksanı tanıma sistemleri konuşan kişinin konuşma şekli ve konuşurken kullandığı kelime seçimi gibi örüntülerin analiz edilerek tanınmasına dayanmaktadır. Konuşmacının ses sinyalinden gerekli öznitelik bilgilerini elde etmek için Mel-Frekans Kepstral Katsayıları (MFCC) öznitelik çıkarım tekniği kullanılmıştır. Bu çalışmada 12 katsayılı MFCC tekniği ile toplamda 7 farklı aksana sahip 367 konuşmacıya ait ses sinyallerinden elde edilen veriler kullanılmıştır. Kullanılan veri setindeki 330 konuşmacıya ait veriler UC Irvine Makine Öğrenmesi (ML) açık veri kaynağındaki “Speaker Accent Recognition” veri setinden alınmıştır. Diğer 37 konuşmacının verisi ise George Mason Üniversitesi tarafından oluşturulan “Speaker Accent Archive” veri setindeki ses kayıtlarının MFCC öznitelik çıkarım tekniği kullanılarak veriye dönüştürülmesi yoluyla elde edilmiştir. Tasarlanan konuşmacı aksanı tanıma sistemi için 9 farklı ML sınıflandırma algoritması kullanılmıştır. Bunun yanında veri setini bağımsız olarak test edebilmek amacıyla k-katlamalı çapraz doğrulama tekniği kullanılmıştır. Bu sayede veri setini farklı sayıda parçalara bölerek analiz edildiğinde sergilediği performans gösterilmiştir. Kullanılan sınıflandırma algoritmaları ve bu algoritmalarda yapılan hiper parametre optimizasyonları açıklanmıştır. Sınıflandırma yapılarının elde ettiği başarı sonuçları değerlendirme ölçütleri kullanılarak gösterilmiştir.
Thanks
Bu çalışma ASYU2020_Akıllı Sistemlerde Yenilikler ve Uygulamaları Özel sayısı için değerlendirilmek üzere gönderilmiştir.
References
- Van Leeuwen D. A., Martin A. F., Przybocki M. A., and Bouten J. S., “NIST and TNO-NFI evaluations of automatic speaker recognition,” Comput. Speech Lang., vol. 20, pp. 128–158, 2006.
- Furui, S. “50 Years of Progress in Speech and Speaker Recognition Research.” (1970).
- Kinnunen T. and Li H., “An overview of text-independent speaker recognition: From features to supervectors,” Speech communication, vol. 52, no. 1, pp. 12–40, 2010.
- Nakagawa S., Wang L. and Ohtsuka S., "Speaker identification and verification by combining MFCC and phase information", IEEE Trans. Audio Speech Lang. Process., vol. 20, no. 4, pp. 1085-1095, May 2012.
- Faria A., "Accent classification for speech recognition", proceedings of the Second Joint Workshop on Multimodal Interaction and Related Machine Learning Algorithms (MLMI '05), 2005.
- Turner C. and Joseph A., “A wavelet packet and mel-frequency cepstral coefficients-based feature extraction method for speaker identification”, Procedia Computer Science, 61, pp. 416-421, 2015.
- De-la-Calle-Silos F. and Stern R. M., "Synchrony-Based Feature Extraction for Robust Automatic Speech Recognition," in IEEE Signal Processing Letters, vol. 24, no. 8, pp. 1158-1162, Aug. 2017.
- Ranjan R. and Thakur A., "Analysis of feature extraction techniques for speech recognition system", International Journal of Innovative Technology and Exploring Engineering, vol. 8, no. 7C2, pp. 197-200, 2019.
- Reynolds D. A. and Rose R. C., "Robust Text-Independent Speaker Identification Using Gaussian Mixture Speaker Models", IEEE Trans. Speech and Audio Processing, vol. 3, no. 1, pp. 72-83, 1995.
- Campbell J. P., “Speaker recognition: A tutorial,” Proc. IEEE, vol. 85, no. 9, pp. 1437–1462, Sep. 1997.
- Dave N., "Feature extraction methods LPC PLP and MFCC in speech recognition", Int. J. for Advance Research in Eng. and Technology, vol. I, no. 6, pp. 1-4, 2013.
- Harris F.,”On the use of windows for harmonic analysis with the discrete Fourier transform,” Proceedings of the IEEE, vol. 66, no. 1, pp. 51-84, January 1978.
- Ayrancı A. A., Atay S. and Yıldırım T., "Speaker Accent Recognition Using Machine Learning Algorithms," 2020 Innovations in Intelligent Systems and Applications Conference (ASYU), Istanbul, Turkey, pp. 1-6, 2020.
- Widyowaty D. S. and Sunyoto A., "Accent Recognition by Native Language Using Mel-Frequency Cepstral Coefficient and K-Nearest Neighbor," 2020 3rd International Conference on Information and Communications Technology (ICOIACT), Yogyakarta, Indonesia, pp. 314-318, 2020.
- Alam M. J.,Kinnunen T., Kenny P., Ouellet P. and O'Shaughnessy D., "Multi-taper MFCC features for speaker verification using I-vectors," 2011 IEEE Workshop on Automatic Speech Recognition & Understanding, Waikoloa, HI, USA, 2011, pp. 547-552.
- Aslan Z. and Akın M., "Performing accurate speaker recognition by use of SVM and cepstral features", The International Journal of Energy and Engineering Sciences, vol. 3, no. 2, pp. 16-25, Jan. 2019.
- Okkan U., Dalkılıç H., “Radyal Tabanli Yapay Sinir Aglari ile Kemer Barajı Aylık Akımlarının Modellenmesi”, İMO Teknik Dergi, 379, 5957-5966, 2012.
- S. A. Alim and N. K. A. Rashid, "Some commonly used speech feature extraction algorithms" in From Natural to Artificial Intelligence-Algorithms and Applications, IntechOpen, 2018.
- Onan A., "Şirket İflaslarının Tahminlenmesinde Karar Ağacı Algoritmalarının Karşılaştırmalı Başarım Analizi", Bilişim Teknolojileri Dergisi, vol. 8, no. 1, pp. 0, Jan. 2015.
- Landwehr, N., M. Hall, and E. Frank, Logistic model trees. Machine learning, 2005. 59(1-2): p. 161-205.
- Akar Ö. and Güngör O., "Rastgele Orman algoritması kullanılarak çok bantlı görüntülerin sınıflandırılması", Jeodezi ve Jeoinformasyon Dergisi, no. 106, pp. 139-146, Dec. 2012.
- Erdem F., Derinpınar M., Nasırzadehdızajı R., Oy S., Şeker D. and Bayram B., "Rastgele Orman Yöntemi Kullanılarak Kıyı Çizgisi Çıkarımı İstanbul Örneği", Geomatik, vol. 3, no. 2, pp. 100-107, Aug. 2018.
- KARTAL C., “MODELING BITCOIN PRICES WITH K-STAR ALGORITHM”, bmij, vol. 8, no. 1, pp. 213-231, Mar. 2020.
- Mutlu, A. Y. and Yucel, O., “An artificial intelligence based approach to predicting syngas composition for downdraft biomass gasification,” Energy, vol. 165, pp. 895–901, Dec. 2018.
- Elmaz F. , Yücel Ö. and Mutlu A. , "Machine learning based approach for predicting of higher heating values of solid fuels using proximity and ultimate analysis", International Journal of Advances in Engineering and Pure Sciences, vol. 32, no. 2, pp. 145-151, Jun. 2020.
- Landis J. R. and Koch G. G., 1977. The measurement of observer agreement for categorical data. Biometrics, 33(1):159.
- Kılıç, S. (2015). Kappa Testi. Journal of Mood Disorders, 5(3), 142-144.
Speaker Accent Recognition Using MFCC Feature Extraction and Machine Learning Algorithms
Year 2021,
Volume: 33 - ASYU 2020 Özel Sayısı, 17 - 27, 30.12.2021
Ahmet Aytuğ Ayrancı
,
Sergen Atay
,
Tülay Yıldırım
Abstract
Speech and speaker recognition systems aim to analyze parametric information contained in the human voice and recognize it at the highest possible rate. One of the most important features in the audio signal for the speaker to be recognized successfully by the system is the speaker's accent. Speaker accent recognition systems are based on the analysis of patterns such as the way the speaker speaks and the word choice he uses while speaking. In this study, the data obtained by the MFCC feature extraction technique from voice signals of 367 speakers with 7 different accents were used. The data of 330 speakers in the data set were taken from the "Speaker Accent Recognition" data set in the UC Irvine Machine Learning (ML) open data source. The data of the other 37 speakers were obtained by converting the voice recordings in the "Speaker Accent Archive" data set created by George Mason University into data using the MFCC feature extraction technique. 9 ML classification algorithms were used for the designed speaker accent recognition system. Also, the k-fold cross-validation technique was used to test the data set independently. In this way, the performance of ML algorithms is shown when the data set is divided into a k number of parts. Information about the classification algorithms used in the designed system and the hyperparameter optimizations made in these algorithms are also given. The success performances of the classification algorithms are shown with performance metrics.
References
- Van Leeuwen D. A., Martin A. F., Przybocki M. A., and Bouten J. S., “NIST and TNO-NFI evaluations of automatic speaker recognition,” Comput. Speech Lang., vol. 20, pp. 128–158, 2006.
- Furui, S. “50 Years of Progress in Speech and Speaker Recognition Research.” (1970).
- Kinnunen T. and Li H., “An overview of text-independent speaker recognition: From features to supervectors,” Speech communication, vol. 52, no. 1, pp. 12–40, 2010.
- Nakagawa S., Wang L. and Ohtsuka S., "Speaker identification and verification by combining MFCC and phase information", IEEE Trans. Audio Speech Lang. Process., vol. 20, no. 4, pp. 1085-1095, May 2012.
- Faria A., "Accent classification for speech recognition", proceedings of the Second Joint Workshop on Multimodal Interaction and Related Machine Learning Algorithms (MLMI '05), 2005.
- Turner C. and Joseph A., “A wavelet packet and mel-frequency cepstral coefficients-based feature extraction method for speaker identification”, Procedia Computer Science, 61, pp. 416-421, 2015.
- De-la-Calle-Silos F. and Stern R. M., "Synchrony-Based Feature Extraction for Robust Automatic Speech Recognition," in IEEE Signal Processing Letters, vol. 24, no. 8, pp. 1158-1162, Aug. 2017.
- Ranjan R. and Thakur A., "Analysis of feature extraction techniques for speech recognition system", International Journal of Innovative Technology and Exploring Engineering, vol. 8, no. 7C2, pp. 197-200, 2019.
- Reynolds D. A. and Rose R. C., "Robust Text-Independent Speaker Identification Using Gaussian Mixture Speaker Models", IEEE Trans. Speech and Audio Processing, vol. 3, no. 1, pp. 72-83, 1995.
- Campbell J. P., “Speaker recognition: A tutorial,” Proc. IEEE, vol. 85, no. 9, pp. 1437–1462, Sep. 1997.
- Dave N., "Feature extraction methods LPC PLP and MFCC in speech recognition", Int. J. for Advance Research in Eng. and Technology, vol. I, no. 6, pp. 1-4, 2013.
- Harris F.,”On the use of windows for harmonic analysis with the discrete Fourier transform,” Proceedings of the IEEE, vol. 66, no. 1, pp. 51-84, January 1978.
- Ayrancı A. A., Atay S. and Yıldırım T., "Speaker Accent Recognition Using Machine Learning Algorithms," 2020 Innovations in Intelligent Systems and Applications Conference (ASYU), Istanbul, Turkey, pp. 1-6, 2020.
- Widyowaty D. S. and Sunyoto A., "Accent Recognition by Native Language Using Mel-Frequency Cepstral Coefficient and K-Nearest Neighbor," 2020 3rd International Conference on Information and Communications Technology (ICOIACT), Yogyakarta, Indonesia, pp. 314-318, 2020.
- Alam M. J.,Kinnunen T., Kenny P., Ouellet P. and O'Shaughnessy D., "Multi-taper MFCC features for speaker verification using I-vectors," 2011 IEEE Workshop on Automatic Speech Recognition & Understanding, Waikoloa, HI, USA, 2011, pp. 547-552.
- Aslan Z. and Akın M., "Performing accurate speaker recognition by use of SVM and cepstral features", The International Journal of Energy and Engineering Sciences, vol. 3, no. 2, pp. 16-25, Jan. 2019.
- Okkan U., Dalkılıç H., “Radyal Tabanli Yapay Sinir Aglari ile Kemer Barajı Aylık Akımlarının Modellenmesi”, İMO Teknik Dergi, 379, 5957-5966, 2012.
- S. A. Alim and N. K. A. Rashid, "Some commonly used speech feature extraction algorithms" in From Natural to Artificial Intelligence-Algorithms and Applications, IntechOpen, 2018.
- Onan A., "Şirket İflaslarının Tahminlenmesinde Karar Ağacı Algoritmalarının Karşılaştırmalı Başarım Analizi", Bilişim Teknolojileri Dergisi, vol. 8, no. 1, pp. 0, Jan. 2015.
- Landwehr, N., M. Hall, and E. Frank, Logistic model trees. Machine learning, 2005. 59(1-2): p. 161-205.
- Akar Ö. and Güngör O., "Rastgele Orman algoritması kullanılarak çok bantlı görüntülerin sınıflandırılması", Jeodezi ve Jeoinformasyon Dergisi, no. 106, pp. 139-146, Dec. 2012.
- Erdem F., Derinpınar M., Nasırzadehdızajı R., Oy S., Şeker D. and Bayram B., "Rastgele Orman Yöntemi Kullanılarak Kıyı Çizgisi Çıkarımı İstanbul Örneği", Geomatik, vol. 3, no. 2, pp. 100-107, Aug. 2018.
- KARTAL C., “MODELING BITCOIN PRICES WITH K-STAR ALGORITHM”, bmij, vol. 8, no. 1, pp. 213-231, Mar. 2020.
- Mutlu, A. Y. and Yucel, O., “An artificial intelligence based approach to predicting syngas composition for downdraft biomass gasification,” Energy, vol. 165, pp. 895–901, Dec. 2018.
- Elmaz F. , Yücel Ö. and Mutlu A. , "Machine learning based approach for predicting of higher heating values of solid fuels using proximity and ultimate analysis", International Journal of Advances in Engineering and Pure Sciences, vol. 32, no. 2, pp. 145-151, Jun. 2020.
- Landis J. R. and Koch G. G., 1977. The measurement of observer agreement for categorical data. Biometrics, 33(1):159.
- Kılıç, S. (2015). Kappa Testi. Journal of Mood Disorders, 5(3), 142-144.