Derleme
BibTex RIS Kaynak Göster

Konuşmadan Duygu Tanıma Üzerine Detaylı bir İnceleme: Özellikler ve Sınıflandırma Metotları

Yıl 2021, , 471 - 483, 31.12.2021
https://doi.org/10.31590/ejosat.1039403

Öz

Konuşma insanlar arasındaki hızlı ve en doğal iletişim yöntemlerindendir. Konuşmadan duygu tanıma çalışmaları, konuşma sırasında çıkan ses sinyalinden anlam bilgisini elde etmeye çalışmaktadırlar. Son yıllarda konuşma sinyalleri üzerinden duygu analizi ile ilgili olarak birçok çalışma yapılmıştır. Bu çalışmalarda duygu analizinde 3 önemli yön dikkate alınarak detaylı bir araştırma yapılmıştır. Birinci konu konuşma sinyallerinden öznitelik çıkarma, ikinci konu bu özniteliklerden sınıflandırmaya olumlu katkısı olacakların seçimi ve üçüncü konu ise sınıflandırma şemalarının tasarımı ve performans değerlendirmesidir. Özniteliklerin doğru belirlenmesi, öznitelikler üzerinde seçme işleminin başarılı bir şekilde uygulanması performansı büyük ölçüde etkilemektedir. Ancak sesten özniteliklerin çıkarılması, ve sınıflandırılmasında farklı yöntemler tercih edilse de performans veri setlerine, duygu durumlarına, dillere, eğitim setinin kullanım yöntemine göre değişebilmektedir. İncelenen makaleler kapsamında sınıflandırıcı olarak en sık SVM ve öznitelik olarak da MFCC kullanılmıştır. En yüksek tanıma oranı ise TESS veri setinde oto-kodlayıcı ve Alex-net CNN ile sağlanmış ve %98 başarı elde edilmiştir.

Kaynakça

  • Ancilin, J., & Milton, A. (2021). Improved speech emotion recognition with Mel frequency magnitude coefficient. Applied Acoustics, 179, 108046.
  • Aouani, H., & Ayed, Y. B. (2020). Speech emotion recognition with deep learning. Procedia Computer Science, 176, 251-260.
  • Atila, O., & Şengür, A. (2021). Attention guided 3D CNN-LSTM model for accurate speech based emotion recognition. Applied Acoustics, 182, 108260.
  • Bhavan, A., Chauhan, P., & Shah, R. R. (2019). Bagged support vector machines for emotion recognition from speech. Knowledge-Based Systems, 184, 104886.
  • Durukal, M., & Hocaoğlu, A. K. (2015, May). Performance optimization on emotion recognition from speech. In 2015 23nd Signal Processing and Communications Applications Conference (SIU) (pp. 308-311). IEEE.
  • Fayek, H. M., Lech, M., & Cavedon, L. (2017). Evaluating deep learning architectures for Speech Emotion Recognition. Neural Networks, 92, 60-68.
  • GÖKALP, S., & AYDIN, İ. (2021). Farklı Derin Sinir Ağı Modellerinin Duygu Tanımadaki Performanslarının Karşılaştırılması. Muş Alparslan Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi, 2(1), 35-43.
  • Hızlısoy, S. & Tüfekci, Z. (2020). Türkçe Müzikten Duygu Tanıma. Avrupa Bilim ve Teknoloji Dergisi, Ejosat Special Issue 2020 (ICCEES), 6-12. DOI: 10.31590/ejosat.802169
  • Huang, K. Y., Wu, C. H., & Su, M. H. (2019). Attention-based convolutional neural network and long short-term memory for short-term detection of mood disorders based on elicited speech responses. Pattern Recognition, 88, 668-678.
  • Issa, D., Demirci, M. F., & Yazici, A. (2020). Speech emotion recognition with deep convolutional neural networks. Biomedical Signal Processing and Control, 59, 101894.
  • Jia, N., & Zheng, C. (2021). Two-level discriminative speech emotion recognition model with wave field dynamics: A personalized speech emotion recognition method. Computer Communications, 180, 161-170.
  • Korkmaz, O. E. (2016). Ses sinyalinden duygu tanıma (Doctoral dissertation, Karadeniz Teknik Üniversitesi).
  • Langari, S., Marvi, H., & Zahedi, M. (2020). Efficient speech emotion recognition using modified feature extraction. Informatics in Medicine Unlocked, 20, 100424. Wang, K., Su, G., Liu, L., & Wang, S. (2020). Wavelet packet analysis for speaker-independent emotion recognition. Neurocomputing, 398, 257-264.
  • Monica, F., & Antonella, I. (2019). Correlation Analysis. Encyclopedia of Bioinformatics and Computational Biology.
  • Özseven, T. (2019). Konuşma Tabanlı Duygu Tanımada Ön İşleme ve Öznitelik Seçim Yöntemlerinin Etkisi. Dicle Üniversitesi Mühendislik Fakültesi Mühendislik Dergisi, 10(1), 99-112.
  • PARLAK, C., & Banu, D. İ. R. İ. (2014). FARKLI VERİ SETLERİ ARASINDA DUYGU TANIMA ÇALIŞMASI. Dokuz Eylül Üniversitesi Mühendislik Fakültesi Fen ve Mühendislik Dergisi, 16(48), 21-29. Parlak, C., & Diri, B. (2013). İnsan Sesinden Duygu Çıkarma. Sinyal İşleme ve Uygulamaları Kurultayı.
  • Pan, Y., Shen, P., & Shen, L. (2012). Speech emotion recognition using support vector machine. International Journal of Smart Home, 6(2), 101-108.
  • POLAT, G., & ALTUN. H. (2008). SES ÖZNİTELİK VEKTÖRLERİNİN DUYGUSAL DURUM SINIFLANDIRILMASINDA KULLANIMI.
  • Pourebrahim, Y., Razzazi, F., & Sameti, H. (2021). Semi-supervised parallel shared encoders for speech emotion recognition. Digital Signal Processing, 118, 103205.
  • Yao, Z., Wang, Z., Liu, W., Liu, Y., & Pan, J. (2020). Speech emotion recognition using fusion of three multi-task learning-based classifiers: HSF-DNN, MS-CNN and LLD-RNN. Speech Communication, 120, 11-19.
  • Zhao, Z., Bao, Z., Zhang, Z., Cummins, N., Sun, S., Wang, H., & Schuller, B. W. (2021). Self-attention transfer networks for speech emotion recognition. Virtual Reality & Intelligent Hardware, 3(1), 43-54.
  • Umut Orhan, Makine Öğrenmesi, (21, Kasım, 2021). Erişim Adresi https://bmb.cu.edu.tr/uorhan/DersNotu/Ders11.pdf
  • Nagesh Singh Chauhan, Naive Bayes, 22, Kasım, 2021). Erişim Adresi (https://www.kdnuggets.com/2020/06/naive-bayes-algorithm-everything.html.
  • Robith Gandhi, Support Vector Machine- Introduction to Machine Learning Algorithms, (20, Kasım, 2021). Erişim Adresi https://towardsdatascience.com/support-vector-machine-introduction-to-machine-learning-algorithms-934a444fca47
  • Betül Akpınar, Adaptif Sıralı Minimal Optimizasyon ile Destek Vektör Makinesi, (20, Kasım, 2021). Erişim Adresi https://prezi.com/m7epydjvyf37/adaptif-sral-minimal-optimizasyon-ile-destek-vektor-makine/
  • Mehmet Fatih Akca, Karar Agaçları, (22, Kasım, 2021). Erişim Adresi https://medium.com/deep-learning-turkiye/karar-a%C4%9Fa%C3%A7lar%C4%B1-makine-%C3%B6%C4%9Frenmesi-serisi-3-a03f3ff00ba5
  • Statistics Solutions Team, What is Logistic Regresssion, 26, Kasım, 2021). Erişim Adresi https://www.statisticssolutions.com/free-resources/directory-of-statistical-analyses/what-is-logistic-regression/
  • Mehmet Fatih Akca, RNN Nedir? Nasıl Çalışır? (26, Kasım, 2021). Erişim Adresi https://medium.com/deep-learning-turkiye/rnn-nedir-nas%C4%B1l-%C3%A7al%C4%B1%C5%9F%C4%B1r-9e5d572689e1
  • Protopars Team, Derin öğrenme (Deep learning) nedir?, (25, Kasım, 2021). Erişim Adresi https://www.protopars.com/derin-ogrenme-deep-learning-nedir/
  • TechTarget Team, Convolutional neural network, (21, Kasım, 2021). Erişim Adresi https://searchenterpriseai.techtarget.com/definition/convolutional-neural-network
  • Özgür Doğan, CNN (Convolutional Neural Networks) Nedir?, (22, Kasım, 2021). Erişim Adresi https://teknoloji.org/cnn-convolutional-neural-networks-nedir/
  • Intellipaat Team, What is LSTM, (25, Kasım, 2021). Erişim Adresi https://intellipaat.com/blog/what-is-lstm/
  • Veri Bilimci Ekibi, Uzun/Kısa Süreli Bellek, (17, Kasım, 2021). Erişim Adresi https://veribilimcisi.com/2017/09/26/uzun-kisa-sureli-bellek-long-short-term-memory/
  • Ajitesh Kumar, Gaussian Micture Models: What are they and when to use? (27, Kasım, 2021). Erişim Adresi: https://vitalflux.com/gaussian-mixture-models-what-are-they-when-to-use/
  • Evren Aslan, Makine Öğrenmesi- KNN Algoritması Nedir, (17, Kasım, 2021). Erişim Adresi https://medium.com/@arslanev/makine-%C3%B6%C4%9Frenmesi-knn-k-nearest-neighbors-algoritmas%C4%B1-bdfb688d7c5f
  • Francesco Lassig, Temporal Convolutional Networks and Forecasting (11, Kasım, 2021). Erişim Adresi https://unit8.com/resources/temporal-convolutional-networks-and-forecasting/

A Detailed Survey on Speech Emotion Recognition: Features and Classification Methods

Yıl 2021, , 471 - 483, 31.12.2021
https://doi.org/10.31590/ejosat.1039403

Öz

Speech is one of the fastest and most natural communication methods between people. Emotion recognition studies without speech try to obtain semantic information from the sound signal during speech. In recent years, many studies have been carried out on emotion analysis over speech signals. In these studies, detailed research was conducted by considering 3 important aspects in sentiment analysis. The first topic is feature extraction from speech signals, the second topic is the selection of these features that will contribute positively to the classification, and the third topic is the design and performance evaluation of the classification schemes. The correct determination of the features and the successful implementation of the selection process on the features greatly affect the performance. However, although different methods are preferred in the extraction and classification of features from the voice, the performance may vary according to the data sets, moods, languages, and the method of use of the training set. Generally, among the articles examined, SVM was used as the classifier and MFCC was used as the feature. The highest recognition rate was achieved with the auto-encoder, TESS dataset and Alex-net CNN and 98% success was achieved.

Kaynakça

  • Ancilin, J., & Milton, A. (2021). Improved speech emotion recognition with Mel frequency magnitude coefficient. Applied Acoustics, 179, 108046.
  • Aouani, H., & Ayed, Y. B. (2020). Speech emotion recognition with deep learning. Procedia Computer Science, 176, 251-260.
  • Atila, O., & Şengür, A. (2021). Attention guided 3D CNN-LSTM model for accurate speech based emotion recognition. Applied Acoustics, 182, 108260.
  • Bhavan, A., Chauhan, P., & Shah, R. R. (2019). Bagged support vector machines for emotion recognition from speech. Knowledge-Based Systems, 184, 104886.
  • Durukal, M., & Hocaoğlu, A. K. (2015, May). Performance optimization on emotion recognition from speech. In 2015 23nd Signal Processing and Communications Applications Conference (SIU) (pp. 308-311). IEEE.
  • Fayek, H. M., Lech, M., & Cavedon, L. (2017). Evaluating deep learning architectures for Speech Emotion Recognition. Neural Networks, 92, 60-68.
  • GÖKALP, S., & AYDIN, İ. (2021). Farklı Derin Sinir Ağı Modellerinin Duygu Tanımadaki Performanslarının Karşılaştırılması. Muş Alparslan Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi, 2(1), 35-43.
  • Hızlısoy, S. & Tüfekci, Z. (2020). Türkçe Müzikten Duygu Tanıma. Avrupa Bilim ve Teknoloji Dergisi, Ejosat Special Issue 2020 (ICCEES), 6-12. DOI: 10.31590/ejosat.802169
  • Huang, K. Y., Wu, C. H., & Su, M. H. (2019). Attention-based convolutional neural network and long short-term memory for short-term detection of mood disorders based on elicited speech responses. Pattern Recognition, 88, 668-678.
  • Issa, D., Demirci, M. F., & Yazici, A. (2020). Speech emotion recognition with deep convolutional neural networks. Biomedical Signal Processing and Control, 59, 101894.
  • Jia, N., & Zheng, C. (2021). Two-level discriminative speech emotion recognition model with wave field dynamics: A personalized speech emotion recognition method. Computer Communications, 180, 161-170.
  • Korkmaz, O. E. (2016). Ses sinyalinden duygu tanıma (Doctoral dissertation, Karadeniz Teknik Üniversitesi).
  • Langari, S., Marvi, H., & Zahedi, M. (2020). Efficient speech emotion recognition using modified feature extraction. Informatics in Medicine Unlocked, 20, 100424. Wang, K., Su, G., Liu, L., & Wang, S. (2020). Wavelet packet analysis for speaker-independent emotion recognition. Neurocomputing, 398, 257-264.
  • Monica, F., & Antonella, I. (2019). Correlation Analysis. Encyclopedia of Bioinformatics and Computational Biology.
  • Özseven, T. (2019). Konuşma Tabanlı Duygu Tanımada Ön İşleme ve Öznitelik Seçim Yöntemlerinin Etkisi. Dicle Üniversitesi Mühendislik Fakültesi Mühendislik Dergisi, 10(1), 99-112.
  • PARLAK, C., & Banu, D. İ. R. İ. (2014). FARKLI VERİ SETLERİ ARASINDA DUYGU TANIMA ÇALIŞMASI. Dokuz Eylül Üniversitesi Mühendislik Fakültesi Fen ve Mühendislik Dergisi, 16(48), 21-29. Parlak, C., & Diri, B. (2013). İnsan Sesinden Duygu Çıkarma. Sinyal İşleme ve Uygulamaları Kurultayı.
  • Pan, Y., Shen, P., & Shen, L. (2012). Speech emotion recognition using support vector machine. International Journal of Smart Home, 6(2), 101-108.
  • POLAT, G., & ALTUN. H. (2008). SES ÖZNİTELİK VEKTÖRLERİNİN DUYGUSAL DURUM SINIFLANDIRILMASINDA KULLANIMI.
  • Pourebrahim, Y., Razzazi, F., & Sameti, H. (2021). Semi-supervised parallel shared encoders for speech emotion recognition. Digital Signal Processing, 118, 103205.
  • Yao, Z., Wang, Z., Liu, W., Liu, Y., & Pan, J. (2020). Speech emotion recognition using fusion of three multi-task learning-based classifiers: HSF-DNN, MS-CNN and LLD-RNN. Speech Communication, 120, 11-19.
  • Zhao, Z., Bao, Z., Zhang, Z., Cummins, N., Sun, S., Wang, H., & Schuller, B. W. (2021). Self-attention transfer networks for speech emotion recognition. Virtual Reality & Intelligent Hardware, 3(1), 43-54.
  • Umut Orhan, Makine Öğrenmesi, (21, Kasım, 2021). Erişim Adresi https://bmb.cu.edu.tr/uorhan/DersNotu/Ders11.pdf
  • Nagesh Singh Chauhan, Naive Bayes, 22, Kasım, 2021). Erişim Adresi (https://www.kdnuggets.com/2020/06/naive-bayes-algorithm-everything.html.
  • Robith Gandhi, Support Vector Machine- Introduction to Machine Learning Algorithms, (20, Kasım, 2021). Erişim Adresi https://towardsdatascience.com/support-vector-machine-introduction-to-machine-learning-algorithms-934a444fca47
  • Betül Akpınar, Adaptif Sıralı Minimal Optimizasyon ile Destek Vektör Makinesi, (20, Kasım, 2021). Erişim Adresi https://prezi.com/m7epydjvyf37/adaptif-sral-minimal-optimizasyon-ile-destek-vektor-makine/
  • Mehmet Fatih Akca, Karar Agaçları, (22, Kasım, 2021). Erişim Adresi https://medium.com/deep-learning-turkiye/karar-a%C4%9Fa%C3%A7lar%C4%B1-makine-%C3%B6%C4%9Frenmesi-serisi-3-a03f3ff00ba5
  • Statistics Solutions Team, What is Logistic Regresssion, 26, Kasım, 2021). Erişim Adresi https://www.statisticssolutions.com/free-resources/directory-of-statistical-analyses/what-is-logistic-regression/
  • Mehmet Fatih Akca, RNN Nedir? Nasıl Çalışır? (26, Kasım, 2021). Erişim Adresi https://medium.com/deep-learning-turkiye/rnn-nedir-nas%C4%B1l-%C3%A7al%C4%B1%C5%9F%C4%B1r-9e5d572689e1
  • Protopars Team, Derin öğrenme (Deep learning) nedir?, (25, Kasım, 2021). Erişim Adresi https://www.protopars.com/derin-ogrenme-deep-learning-nedir/
  • TechTarget Team, Convolutional neural network, (21, Kasım, 2021). Erişim Adresi https://searchenterpriseai.techtarget.com/definition/convolutional-neural-network
  • Özgür Doğan, CNN (Convolutional Neural Networks) Nedir?, (22, Kasım, 2021). Erişim Adresi https://teknoloji.org/cnn-convolutional-neural-networks-nedir/
  • Intellipaat Team, What is LSTM, (25, Kasım, 2021). Erişim Adresi https://intellipaat.com/blog/what-is-lstm/
  • Veri Bilimci Ekibi, Uzun/Kısa Süreli Bellek, (17, Kasım, 2021). Erişim Adresi https://veribilimcisi.com/2017/09/26/uzun-kisa-sureli-bellek-long-short-term-memory/
  • Ajitesh Kumar, Gaussian Micture Models: What are they and when to use? (27, Kasım, 2021). Erişim Adresi: https://vitalflux.com/gaussian-mixture-models-what-are-they-when-to-use/
  • Evren Aslan, Makine Öğrenmesi- KNN Algoritması Nedir, (17, Kasım, 2021). Erişim Adresi https://medium.com/@arslanev/makine-%C3%B6%C4%9Frenmesi-knn-k-nearest-neighbors-algoritmas%C4%B1-bdfb688d7c5f
  • Francesco Lassig, Temporal Convolutional Networks and Forecasting (11, Kasım, 2021). Erişim Adresi https://unit8.com/resources/temporal-convolutional-networks-and-forecasting/
Toplam 36 adet kaynakça vardır.

Ayrıntılar

Birincil Dil Türkçe
Konular Mühendislik
Bölüm Makaleler
Yazarlar

Emel Çolakoğlu 0000-0003-1755-3130

Serhat Hızlısoy 0000-0001-8440-5539

Recep Sinan Arslan 0000-0002-3028-0416

Yayımlanma Tarihi 31 Aralık 2021
Yayımlandığı Sayı Yıl 2021

Kaynak Göster

APA Çolakoğlu, E., Hızlısoy, S., & Arslan, R. S. (2021). Konuşmadan Duygu Tanıma Üzerine Detaylı bir İnceleme: Özellikler ve Sınıflandırma Metotları. Avrupa Bilim Ve Teknoloji Dergisi(32), 471-483. https://doi.org/10.31590/ejosat.1039403

Cited By

Speech-to-Gender Recognition Based on Machine Learning Algorithms
International Journal of Applied Mathematics Electronics and Computers
https://doi.org/10.18100/ijamec.1221455