Research Article

Konuşma Duygu Tanıma için Akustik Özelliklere Dayalı LSTM Tabanlı Bir Yaklaşım

Volume: Vol:7 Number: Issue:2 December 7, 2022
TR EN

Konuşma Duygu Tanıma için Akustik Özelliklere Dayalı LSTM Tabanlı Bir Yaklaşım

Abstract

Konuşma duygu tanıma, konuşma sinyallerinden insan duygularını gerçek zamanlı olarak tanıyabilen aktif bir insan-bilgisayar etkileşimi alanıdır. Bu alanda yapılan tanıma görevi, duyguların karmaşıklığı nedeniyle zorlu bir sınıflandırma örneğidir. Etkili bir sınıflandırma işleminin yapılabilmesi yüksek seviyeli derin özelliklere ve uygun bir derin öğrenme modeline bağlıdır. Konuşma duygu tanıma alanında yapılmış birçok sınıflandırma çalışması mevcuttur. Bu çalışmalarda konuşma verilerinden duyguların doğru bir şekilde çıkarılması için birçok farklı model ve özellik birleşimi önerilmiştir. Bu makalede konuşma duygu tanıma görevi için bir sistem önerilmektedir. Bu sistemde konuşma duygu tanıma için uzun-kısa süreli bellek tabanlı bir derin öğrenme modeli önerilmiştir. Önerilen sistem ön-işlem, özellik çıkarma, özellik birleşimi, uzun-kısa süreli bellek ve sınıflandırma olmak üzere dört aşamadan oluşmaktadır. Önerilen sistemde konuşma verilerine ilk olarak kırpma ve ön-vurgu ön-işlemleri uygulanır. Bu işlemlerden sonra elde edilen konuşma verilerinden Mel Frekans Kepstrum Katsayıları, Sıfır Geçiş Oranı ve Kök Ortalama Kare Enerji akustik özellikleri çıkarılarak birleştirilir. Birleştirilen bu özelliklerin uzamsal bilgilerinin yanında zaman içindeki akustik değişimleri sistemde önerilen uzun-kısa süreli bellek ve buna bağlı bir derin sinir ağı modeliyle öğrenilir. Son olarak softmax aktivasyon fonksiyonu ile öğrenilen bilgiler 8 farklı duyguya sınıflandırılır. Önerilen sistem RAVDESS ve TESS veri setlerinin birlikte kullanıldığı bir veri kümesinde test edilmiştir. Eğitim, doğrulama ve test sonuçlarında sırasıyla %99.87 , %85.14 , %88.92 oranlarında doğruluklar ölçülmüştür. Sonuçlar, son teknoloji çalışmalardaki doğruluklarla kıyaslanmış önerilen sistemin başarısı ortaya konmuştur.

Keywords

References

  1. Cai L, Dong J & Wei M. (2020) Multi-Modal Emotion Recognition from Speech and Facial Expression Based on Deep Learning. Proceedings - 2020 Chinese Automation Congress, CAC 2020, pp. 5726–5729.
  2. Issa D, Fatih Demirci M, Yazici A (2020) Speech emotion recognition with deep convolutional neural networks. Biomedical Signal Processing and Control 59:101894.
  3. Atila O, Şengür A (2021) Attention guided 3D CNN-LSTM model for accurate speech based emotion recognition. Applied Acoustics 182:108260.
  4. Mujaddidurrahman A, Ernawan F, Wibowo A, Sarwoko E. A, Sugiharto A, Wahyudi M. D. R. (2021) Speech Emotion Recognition Using 2D-CNN with Data Augmentation. 2021 International Conference on Software Engineering & Computer Systems and 4th International Conference on Computational Science and Information Management (ICSECS-ICOCSIM), pp. 685–689.
  5. Padi S, Manocha D, Sriram R. D (2020) Multi-Window Data Augmentation Approach for Speech Emotion Recognition. http://arxiv.org/abs/2010.09895
  6. Nasim A. S, Chowdory R. H, Dey A, Das A. (2021) Recognizing Speech Emotion Based on Acoustic Features Using Machine Learning. 2021 International Conference on Advanced Computer Science and Information Systems, ICACSIS 2021. https://doi.org/10.1109/ICACSIS53237.2021.9631319
  7. Asiya U. A, Kiran V. K. (2021) Speech Emotion Recognition-A Deep Learning Approach. Proceedings of the 5th International Conference on I-SMAC (IoT in Social, Mobile, Analytics and Cloud), I-SMAC 2021, pp. 867–871.
  8. Öztürk Ö. F, Pashaei E (2021) Konuşmalardaki duygunun evrişimsel LSTM modeli ile tespiti. Convolutional LSTM model for speech emotion recognition. DUJE (Dicle University Journal of Engineering) 12:581–589.

Details

Primary Language

Turkish

Subjects

Artificial Intelligence

Journal Section

Research Article

Publication Date

December 7, 2022

Submission Date

May 6, 2022

Acceptance Date

June 21, 2022

Published in Issue

Year 2022 Volume: Vol:7 Number: Issue:2

APA
Donuk, K., & Hanbay, D. (2022). Konuşma Duygu Tanıma için Akustik Özelliklere Dayalı LSTM Tabanlı Bir Yaklaşım. Computer Science, Vol:7(Issue:2), 54-67. https://doi.org/10.53070/bbd.1113379
AMA
1.Donuk K, Hanbay D. Konuşma Duygu Tanıma için Akustik Özelliklere Dayalı LSTM Tabanlı Bir Yaklaşım. JCS. 2022;Vol:7(Issue:2):54-67. doi:10.53070/bbd.1113379
Chicago
Donuk, Kenan, and Davut Hanbay. 2022. “Konuşma Duygu Tanıma Için Akustik Özelliklere Dayalı LSTM Tabanlı Bir Yaklaşım”. Computer Science Vol:7 (Issue:2): 54-67. https://doi.org/10.53070/bbd.1113379.
EndNote
Donuk K, Hanbay D (December 1, 2022) Konuşma Duygu Tanıma için Akustik Özelliklere Dayalı LSTM Tabanlı Bir Yaklaşım. Computer Science Vol:7 Issue:2 54–67.
IEEE
[1]K. Donuk and D. Hanbay, “Konuşma Duygu Tanıma için Akustik Özelliklere Dayalı LSTM Tabanlı Bir Yaklaşım”, JCS, vol. Vol:7, no. Issue:2, pp. 54–67, Dec. 2022, doi: 10.53070/bbd.1113379.
ISNAD
Donuk, Kenan - Hanbay, Davut. “Konuşma Duygu Tanıma Için Akustik Özelliklere Dayalı LSTM Tabanlı Bir Yaklaşım”. Computer Science VOL:7/Issue:2 (December 1, 2022): 54-67. https://doi.org/10.53070/bbd.1113379.
JAMA
1.Donuk K, Hanbay D. Konuşma Duygu Tanıma için Akustik Özelliklere Dayalı LSTM Tabanlı Bir Yaklaşım. JCS. 2022;Vol:7:54–67.
MLA
Donuk, Kenan, and Davut Hanbay. “Konuşma Duygu Tanıma Için Akustik Özelliklere Dayalı LSTM Tabanlı Bir Yaklaşım”. Computer Science, vol. Vol:7, no. Issue:2, Dec. 2022, pp. 54-67, doi:10.53070/bbd.1113379.
Vancouver
1.Kenan Donuk, Davut Hanbay. Konuşma Duygu Tanıma için Akustik Özelliklere Dayalı LSTM Tabanlı Bir Yaklaşım. JCS. 2022 Dec. 1;Vol:7(Issue:2):54-67. doi:10.53070/bbd.1113379

Cited By

The Creative Commons Attribution 4.0 International License 88x31.png is applied to all research papers published by JCS and

A Digital Object Identifier (DOI) Logo_TM.png is assigned for each published paper