Konuşma Tabanlı Duygu Tanımada Ön İşleme ve Öznitelik Seçim Yöntemlerinin Etkisi
Abstract
Konuşma tabanlı duygu tanımada sayısal sinyal işleme ile sayısal hale getirilen ses sinyalinden elde edilen öznitelikler kullanılmaktadır. Konuşmadan çıkartılan özniteliklerin tamamı tek boyut altında ele alınabildiği gibi boyutsal veya yapı bakımdan gruplandırılarak da ele alınmaktadır. Bu çalışmada, öznitelik seçim ve ön işleme yöntemlerinin duygu tanımadaki etkisi araştırılmıştır. Bu amaçla, EMO-DB veri seti ve üç farklı sınıflandırıcı kullanılmıştır. Elde edilen sonuçlara göre, en yüksek başarı çok katmanlı algılayıcı ve yüksek geçiren filtre ile %90.3 olarak elde edilmiştir. Spektral öznitelikler prosodik özniteliklerden daha yüksek başarı sağlamıştır. Ayrıca, bayanlar erkeklere göre ve 20-29 yaş aralığındaki bireyler 30-35 yaş aralığındaki bireylere göre duygularını seslerine daha fazla yansıtmaktadır. Çalışmada ele alınan ön işleme yöntemlerinden yüksek geçiren filtreler sınıflandırıcı başarısı artırırken alçak geçiren, bant geçiren filtreler ve gürültü giderme başarı oranını düşürmüştür.
Keywords
References
- Altun, Halis, ve Gökhan Polat. 2009. “Boosting Selection of Speech Related Features to Improve Performance of Multi-Class SVMs in Emotion Detection”. Expert Systems with Applications 36 (4): 8197-8203. https://doi.org/10.1016/j.eswa.2008.10.005.
- Bänziger, Tanja, Sona Patel, ve Klaus R. Scherer. 2014. “The Role of Perceived Voice and Speech Characteristics in Vocal Emotion Communication”. Journal of Nonverbal Behavior 38 (1): 31-52. https://doi.org/10.1007/s10919-013-0165-x.
- Batliner, Anton, Stefan Steidl, Björn Schuller, Dino Seppi, Thurid Vogt, Johannes Wagner, Laurence Devillers, vd. 2011. “Whodunnit – Searching for the Most Important Feature Types Signalling Emotion-Related User States in Speech”. Computer Speech & Language 25 (1): 4-28. https://doi.org/10.1016/j.csl.2009.12.003.
- Bayrakdar, Sümeyye, Devrim Akgün, ve İbrahim Yücedağ. 2017. “Video dosyaları üzerinde yüz ifade analizi için hızlandırılmış bir yaklaşım.” Pamukkale University Journal of Engineering Sciences 23 (5).
- Boersma, Paul, ve David Weenink. 2010. Praat: doing phonetics by computer [Computer program], Version 5.1. 44.
- Boll, Steven F. 1979. “Suppression of acoustic noise in speech using spectral subtraction”. Acoustics, Speech and Signal Processing, IEEE Transactions on 27 (2): 113–120.
- Burkhardt, Felix, Astrid Paeschke, Miriam Rolfes, Walter F. Sendlmeier, ve Benjamin Weiss. 2005. “A database of German emotional speech.” Içinde Interspeech, 5:1517–1520. https://www.kw.tu-berlin.de/fileadmin/a01311100/A_Database_of_German_Emotional_Speech_-_Burkhardt_01.pdf.
- Chen, Lijiang, Xia Mao, Pengfei Wei, Yuli Xue, ve Mitsuru Ishizuka. 2012. “Mandarin Emotion Recognition Combining Acoustic and Emotional Point Information”. Applied Intelligence 37 (4): 602-12. https://doi.org/10.1007/s10489-012-0352-1.
Details
Primary Language
Turkish
Subjects
-
Journal Section
Research Article
Authors
Turgut Özseven
*
0000-0002-6325-461X
Türkiye
Publication Date
March 15, 2019
Submission Date
December 18, 2018
Acceptance Date
January 14, 2019
Published in Issue
Year 2019 Volume: 10 Number: 1
Cited By
Konuşmadan Duygu Tanıma Üzerine Detaylı bir İnceleme: Özellikler ve Sınıflandırma Metotları
European Journal of Science and Technology
https://doi.org/10.31590/ejosat.1039403