Konuşma Duygu Tanıma Uygulamalarında Hiper Parametre Optimizasyonu ile Derin Öğrenme Metotlarının Geliştirilmesi

Cevahir Parlak

doi:10.31466/kfbd.1508578

Araştırma Makalesi

Konuşma Duygu Tanıma Uygulamalarında Hiper Parametre Optimizasyonu ile Derin Öğrenme Metotlarının Geliştirilmesi

Yıl 2024, Cilt: 14 Sayı: 4, 1955 - 1975, 15.12.2024

Cevahir Parlak

https://doi.org/10.31466/kfbd.1508578

Öz

Bu çalışmada derin öğrenme uygulamalarında oldukça yeni ve önemli bir aşama olan hiper parametre ayarlama metotlarının bir karşılaştırılması verilecektir. Veriseti olarak yeni duygu verisetlerinden NEMO duygusal konuşma veriseti kullanılacak olup, KerasTuner ile CNN, LSTM ve DNN modelleri Rassal arama, Hiperkomite ve Bayesçi optimizasyon metotları kullanılarak karşılaştırılacaktır. Genel olarak makine öğrenmesi ve özellikle de derin öğrenme uygulamalarında başarılı bir model üretebilmek zaman ve hesaplama gücü açısından oldukça pahalı ve zorlu bir işlem olarak araştırmacıların karşısına çıkmaktadır. Hiper parametre optimizasyonunun genel olarak iki temel aşamadan oluştuğu kabul edilebilir. Birinci aşamada öncelikle değişkenlik gösteren parametrelerin alabilecekleri değerlere dayalı bir arama uzayı belirlenir. Bu parametreler öğrenme katsayısı, nöron sayısı, katman sayısı, aktivasyon fonksiyonu ve benzeri değişkenler olabilir. İkinci aşama ise bu parametreleri kullanarak yapay zekâ modellerini oluşturur ve belirlenen bir başarı kriterine göre test eder. Optimizör bu modelleri çalıştırırken işlemi hızlandırmak için değişik algoritmalar kullanabilir. Hiper parametre optimizasyon uygulamaları bu konuda gün geçtikçe daha iyi çözümler sunmakta ve insan faktörünü kademeli olarak aradan çıkarmaktadırlar. Izgara arama mevcut bütün konfigürasyonları bütün kaynakları sonuna kadar tüketerek çalıştırırken, Rasgele arama ise mevcut kümeden tesadüfi olarak seçilen belli konfigürasyonları dener. Rassal arama her ne kadar bütün olası konfigürasyonları denemese bile genellikle Izgara aramaya yakın sonuçlar üretebilmektedir. Ardışık arama, Asenkron Ardışık arama, Populasyon-Tabanlı Eğitim, Hiperkomite ve Bayesçi yaklaşımlarda diğer hiper parametre optimizasyon metotları arasında sayılabilir. Bu çalışmada NEMO konuşma duygu veriseti 4 duygu ile CNN, LSTM ve DNN derin öğrenme sınıflandırıcılarıyla çalıştırılmış ve KerasTuner’in Rassal Arama, Bayesçi Arama ve Hiperkomite Arama metotlarıyla otomatik üretilen metotların performansları karşılaştırılmıştır. Hiper parametre optimizasyon metotlarından Bayesçi Optimizasyon metodunun diğerlerine göre daha iyi ve hızlı sonuçlar ürettiği görülmüştür.

Anahtar Kelimeler

Konuşma duygu tanıma, Derin öğrenme, Hiper parametre optimizasyonu

Kaynakça

He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep Residual Learning For Image Recognition. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 770-778.
Achiam, J., Adler, S., Agarwal, S., Ahmad, L., Akkaya, I., Aleman, F. L., ... & McGrew, B. (2023). GPT-4 Technical Report. arXiv preprint arXiv:2303.08774.
Hutter, F., Kotthoff, L., & Vanschoren, J. (2019). Automated Machine Learning: Methods, Systems, Challenges (219). Springer Nature.
Bischl, B., Binder, M., Lang, M., Pielok, T., Richter, J., Coors, S., ... & Lindauer, M. (2023). Hyperparameter Optimization: Foundations, Algorithms, Best Practices, And Open Challenges. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 13(2), e1484.
Vincent, A. M., & Jidesh, P. (2023). An Improved Hyperparameter Optimization Framework For AutoML Systems Using Evolutionary Algorithms. Scientific Reports, 13(1), 4737.
Wu, X., Hu, S., Wu, Z., Liu, X., & Meng, H. (2022, May). Neural Architecture Search For Speech Emotion Recognition. ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (6902-6906). IEEE.
Gökalp, S., & Aydın, İ. (2021). Farklı Derin Sinir Ağı Modellerinin Duygu Tanımadaki Performanslarının Karşılaştırılması. Muş Alparslan Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi, 2(1), 35-43.
Livingstone, S. R., & Russo, F. A. (2018). The Ryerson Audio-Visual Database Of Emotional Speech And Song (RAVDESS): A Dynamic, Multimodal Set Of Facial And Vocal Expressions In North American English. PloS One, 13(5), e0196391.
Pichora-Fuller, M. Kathleen; Dupuis, Kate, 2020, Toronto Emotional Speech Set (TESS), https://doi.org/10.5683/SP2/E8H2MF.
Sun, H., Lian, Z., Liu, B., Li, Y., Sun, L., Cai, C., ... & Cheng, Y. (2022). EmotionNAS: Two-stream Architecture Search For Speech Emotion Recognition. arXiv preprint arXiv:2203.13617.
Rajapakshe, T., Rana, R., Khalifa, S., Sisman, B., Schuller, B. W., & Busso, C. (2024). emoDARTS: Joint Optimization Of CNN & Sequential Neural Network Architectures For Superior Speech Emotion Recognition. arXiv preprint arXiv:2403.14083.
Brochu, E., Cora, V. M., & De Freitas, N. (2010). A Tutorial On Bayesian Optimization Of Expensive Cost Functions, With Application To Active User Modeling And Hierarchical Reinforcement Learning. arXiv preprint arXiv:1012.2599.
Li, L., Jamieson, K., DeSalvo, G., Rostamizadeh, A., & Talwalkar, A. (2018). Hyperband: A Novel Bandit-Based Approach To Hyperparameter Optimization. Journal of Machine Learning Research, 18(185), 1-52.
Li, K., & Li, F. (2024). Multi-Fidelity Methods for Optimization: A Survey. arXiv preprint arXiv:2402.09638.
Jamieson, K., & Talwalkar, A. (2016, May). Non-stochastic Best Arm Identification And Hyperparameter Optimization. Artificial Intelligence and Statistics (240-248). PMLR.
Falkner, S., Klein, A., & Hutter, F. (2018, July). BOHB: Robust And Efficient Hyperparameter Optimization At Scale. International Conference on Machine Learning (1437-1446). PMLR.
Garrido-Merchán, E. C., & Hernández-Lobato, D. (2020). Dealing With Categorical And Integer-Valued Variables In Bayesian Optimization With Gaussian Processes. Neurocomputing, 380, 20-35.
Watanabe, S., & Hutter, F. (2022). c-TPE: Generalizing Tree-Structured Parzen Estimator With Inequality Constraints For Continuous And Categorical Hyperparameter Optimization. arXiv preprint arXiv:2211.14411, 240.
Jaderberg, M., Dalibard, V., Osindero, S., Czarnecki, W. M., Donahue, J., Razavi, A., ... & Kavukcuoglu, K. (2017). Population Based Training Of Neural Networks. arXiv preprint arXiv:1711.09846.
Bai, H., & Cheng, R. (2024). Generalized Population-Based Training For Hyperparameter Optimization In Reinforcement Learning. IEEE Transactions on Emerging Topics in Computational Intelligence.
LeCun, Y., Jackel, L. D., Bottou, L., Cortes, C., Denker, J. S., Drucker, H., ... & Vapnik, V. (1995). Learning Algorithms For Classification: A Comparison On Handwritten Digit Recognition. Neural Networks: the Statistical Mechanics Perspective, 261(276), 2.
Hinton, G. E., & Salakhutdinov, R. R. (2006). Reducing The Dimensionality Of Data With Neural Networks. Science, 313(5786), 504-507.
Aydin, M., Tuğrul, B., & Ar, Y. (2022). Emotion Recognition System From Speech Using Convolutional Neural Networks. Computer Science, IDAP-2022: International Artificial Intelligence and Data Processing Symposium, 137-143. https://doi.org/10.53070/bbd.1174033
Hochreiter, S., & Schmidhuber, J. (1997). Long Short-Term Memory. Neural Computation, 9(8), 1735-1780.
Cho, K., Van Merriënboer, B., Bahdanau, D., & Bengio, Y. (2014). On The Properties Of Neural Machine Translation: Encoder-Decoder Approaches. arXiv preprint arXiv:1409.1259.
Beck, M., Pöppel, K., Spanring, M., Auer, A., Prudnikova, O., Kopp, M., ... & Hochreiter, S. (2024). xLSTM: Extended Long Short-Term Memory. arXiv preprint arXiv:2405.04517.
Donuk, K., & Hanbay, D. (2022). Konuşma Duygu Tanıma İçin Akustik Özelliklere Dayalı LSTM Tabanlı Bir Yaklaşım. Computer Science, Vol:7(Issue:2), 54-67. https://doi.org/10.53070/bbd.1113379
Christop, I. (2024). nEMO: Dataset of Emotional Speech In Polish. arXiv preprint arXiv:2404.06292.
Poria, S., Hazarika, D., Majumder, N., Naik, G., Cambria, E., & Mihalcea, R. (2018). Meld: A Multimodal Multi-Party Dataset For Emotion Recognition In Conversations. arXiv preprint arXiv:1810.02508. https://doi.org/10.48550/arXiv.1810.02508
Burkhardt, F., Paeschke, A., Rolfes, M., Sendlmeier, W. F., & Weiss, B. (2005, September). A Database Of German Emotional Speech. Interspeech (Vol. 5, pp. 1517-1520).
Parlak, C., Diri, B., & Gürgen, F. (2014, September). A Cross-Corpus Experiment In Speech Emotion Recognition. SLAM@INTERSPEECH (pp. 58-61).
S. Haq and P.J.B. Jackson, "Multimodal Emotion Recognition", W. Wang (ed), Machine Audition: Principles, Algorithms and Systems, IGI Global Press, ISBN 978-1615209194, chapter 17, pp. 398-423, 2010.
Ahmed, N., Natarajan, T., & Rao, K. R. (1974). Discrete Cosine Transform. IEEE Transactions On Computers, 100(1), 90-93.
Özseven, T. (2019). Konuşma Tabanlı Duygu Tanımada Ön İşleme ve Öznitelik Seçim Yöntemlerinin Etkisi. Dicle Üniversitesi Mühendislik Fakültesi Mühendislik Dergisi, 10(1), 99-112. doi: 10.24012/dumf.498727
Çolakoğlu, E., Hızlısoy, S., & Arslan, R. S. (2021). Konuşmadan Duygu Tanıma Üzerine Detaylı bir İnceleme: Özellikler ve Sınıflandırma Metotları. Avrupa Bilim ve Teknoloji Dergisi, (32), 471-483.
Dala, Ö. Ç. (2023). A Literature Review On Emotion Recognition In Speech. Researcher, 3(02), 46-52.
Dikbıyık, E., Demir, Ö., & Doğan, B. (2022). Derin Öğrenme Yöntemleri ile Konuşmadan Duygu Tanıma Üzerine Bir Literatür Araştırması. Gazi University Journal of Science Part C: Design and Technology, 10(4), 765-791. https://doi.org/10.29109/gujsc.1111884
M. Slaney, “Auditory Toolbox,” Interval Research Corporation, Tech. Rep, 10(1998) 1194
Kingma, D. P., & Ba, J. (2014). Adam: A Method For Stochastic Optimization. arXiv preprint arXiv:1412.6980. https://doi.org/10.48550/arXiv.1412.6980

Improving Deep Learning Models Using Hyper Parameter Optimization in Speech Emotion Recognition

Yıl 2024, Cilt: 14 Sayı: 4, 1955 - 1975, 15.12.2024

Cevahir Parlak

https://doi.org/10.31466/kfbd.1508578

Öz

In this research article, a comparison of newly introduced hyper parameter optimization methods is presented. We used NEMO emotional speech dataset which is a very novel dataset with 4 emotional classes. KerasTuner is used to compare the performances of CNN, DNN, and LSTM classifiers by running the Random Search, Bayesian Search and HyperBand Search to optimize the model hyper parameters. Broadly speaking, it is a very arduous, expensive, time consuming and formidable task for the researchers to produce a successful model for machine learning applications, namely deep learning applications. Hyper-parameter optimization consists of two main steps. The first step constructs a search space setting the values of available parameters. Learning rate, number of hidden neurons, layers, activation functions are among the most notable hyper parameters. The Second step involves generating the best machine model using these parameters and specified performance metrics. Optimizers may use different algorithms while running these models. Hyper parameter optimization applications are presenting better solutions in this field day by day and are eliminating the human factor in-between gradually. Grid search runs all possible parameter sets consuming all available resources. On the other hand, Random search runs only some randomly selected configurations. Although Random search does not try all possible actions it can reach the same level of performance. Successive Halving, Asynchronous Successive Halving, Population Based Training, Hyperband, Bayesian approaches are among the prominent optimization methods. This study uses NEMO emotional speech dataset with 4 emotions using CNN, DNN, and LSTM models. Models are generated using Random Search, Bayesian Search, and Hyperband Search methods of KerasTuner and the results are compared. Experiments show that Bayesian Search outperforms Random and Hyperband search algorithms.

Anahtar Kelimeler

Speech emotion recognition, Deep learning, Hyperparameter optimization

Kaynakça

He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep Residual Learning For Image Recognition. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 770-778.
Achiam, J., Adler, S., Agarwal, S., Ahmad, L., Akkaya, I., Aleman, F. L., ... & McGrew, B. (2023). GPT-4 Technical Report. arXiv preprint arXiv:2303.08774.
Hutter, F., Kotthoff, L., & Vanschoren, J. (2019). Automated Machine Learning: Methods, Systems, Challenges (219). Springer Nature.
Bischl, B., Binder, M., Lang, M., Pielok, T., Richter, J., Coors, S., ... & Lindauer, M. (2023). Hyperparameter Optimization: Foundations, Algorithms, Best Practices, And Open Challenges. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 13(2), e1484.
Vincent, A. M., & Jidesh, P. (2023). An Improved Hyperparameter Optimization Framework For AutoML Systems Using Evolutionary Algorithms. Scientific Reports, 13(1), 4737.
Wu, X., Hu, S., Wu, Z., Liu, X., & Meng, H. (2022, May). Neural Architecture Search For Speech Emotion Recognition. ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (6902-6906). IEEE.
Gökalp, S., & Aydın, İ. (2021). Farklı Derin Sinir Ağı Modellerinin Duygu Tanımadaki Performanslarının Karşılaştırılması. Muş Alparslan Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi, 2(1), 35-43.
Livingstone, S. R., & Russo, F. A. (2018). The Ryerson Audio-Visual Database Of Emotional Speech And Song (RAVDESS): A Dynamic, Multimodal Set Of Facial And Vocal Expressions In North American English. PloS One, 13(5), e0196391.
Pichora-Fuller, M. Kathleen; Dupuis, Kate, 2020, Toronto Emotional Speech Set (TESS), https://doi.org/10.5683/SP2/E8H2MF.
Sun, H., Lian, Z., Liu, B., Li, Y., Sun, L., Cai, C., ... & Cheng, Y. (2022). EmotionNAS: Two-stream Architecture Search For Speech Emotion Recognition. arXiv preprint arXiv:2203.13617.
Rajapakshe, T., Rana, R., Khalifa, S., Sisman, B., Schuller, B. W., & Busso, C. (2024). emoDARTS: Joint Optimization Of CNN & Sequential Neural Network Architectures For Superior Speech Emotion Recognition. arXiv preprint arXiv:2403.14083.
Brochu, E., Cora, V. M., & De Freitas, N. (2010). A Tutorial On Bayesian Optimization Of Expensive Cost Functions, With Application To Active User Modeling And Hierarchical Reinforcement Learning. arXiv preprint arXiv:1012.2599.
Li, L., Jamieson, K., DeSalvo, G., Rostamizadeh, A., & Talwalkar, A. (2018). Hyperband: A Novel Bandit-Based Approach To Hyperparameter Optimization. Journal of Machine Learning Research, 18(185), 1-52.
Li, K., & Li, F. (2024). Multi-Fidelity Methods for Optimization: A Survey. arXiv preprint arXiv:2402.09638.
Jamieson, K., & Talwalkar, A. (2016, May). Non-stochastic Best Arm Identification And Hyperparameter Optimization. Artificial Intelligence and Statistics (240-248). PMLR.
Falkner, S., Klein, A., & Hutter, F. (2018, July). BOHB: Robust And Efficient Hyperparameter Optimization At Scale. International Conference on Machine Learning (1437-1446). PMLR.
Garrido-Merchán, E. C., & Hernández-Lobato, D. (2020). Dealing With Categorical And Integer-Valued Variables In Bayesian Optimization With Gaussian Processes. Neurocomputing, 380, 20-35.
Watanabe, S., & Hutter, F. (2022). c-TPE: Generalizing Tree-Structured Parzen Estimator With Inequality Constraints For Continuous And Categorical Hyperparameter Optimization. arXiv preprint arXiv:2211.14411, 240.
Jaderberg, M., Dalibard, V., Osindero, S., Czarnecki, W. M., Donahue, J., Razavi, A., ... & Kavukcuoglu, K. (2017). Population Based Training Of Neural Networks. arXiv preprint arXiv:1711.09846.
Bai, H., & Cheng, R. (2024). Generalized Population-Based Training For Hyperparameter Optimization In Reinforcement Learning. IEEE Transactions on Emerging Topics in Computational Intelligence.
LeCun, Y., Jackel, L. D., Bottou, L., Cortes, C., Denker, J. S., Drucker, H., ... & Vapnik, V. (1995). Learning Algorithms For Classification: A Comparison On Handwritten Digit Recognition. Neural Networks: the Statistical Mechanics Perspective, 261(276), 2.
Hinton, G. E., & Salakhutdinov, R. R. (2006). Reducing The Dimensionality Of Data With Neural Networks. Science, 313(5786), 504-507.
Aydin, M., Tuğrul, B., & Ar, Y. (2022). Emotion Recognition System From Speech Using Convolutional Neural Networks. Computer Science, IDAP-2022: International Artificial Intelligence and Data Processing Symposium, 137-143. https://doi.org/10.53070/bbd.1174033
Hochreiter, S., & Schmidhuber, J. (1997). Long Short-Term Memory. Neural Computation, 9(8), 1735-1780.
Cho, K., Van Merriënboer, B., Bahdanau, D., & Bengio, Y. (2014). On The Properties Of Neural Machine Translation: Encoder-Decoder Approaches. arXiv preprint arXiv:1409.1259.
Beck, M., Pöppel, K., Spanring, M., Auer, A., Prudnikova, O., Kopp, M., ... & Hochreiter, S. (2024). xLSTM: Extended Long Short-Term Memory. arXiv preprint arXiv:2405.04517.
Donuk, K., & Hanbay, D. (2022). Konuşma Duygu Tanıma İçin Akustik Özelliklere Dayalı LSTM Tabanlı Bir Yaklaşım. Computer Science, Vol:7(Issue:2), 54-67. https://doi.org/10.53070/bbd.1113379
Christop, I. (2024). nEMO: Dataset of Emotional Speech In Polish. arXiv preprint arXiv:2404.06292.
Poria, S., Hazarika, D., Majumder, N., Naik, G., Cambria, E., & Mihalcea, R. (2018). Meld: A Multimodal Multi-Party Dataset For Emotion Recognition In Conversations. arXiv preprint arXiv:1810.02508. https://doi.org/10.48550/arXiv.1810.02508
Burkhardt, F., Paeschke, A., Rolfes, M., Sendlmeier, W. F., & Weiss, B. (2005, September). A Database Of German Emotional Speech. Interspeech (Vol. 5, pp. 1517-1520).
Parlak, C., Diri, B., & Gürgen, F. (2014, September). A Cross-Corpus Experiment In Speech Emotion Recognition. SLAM@INTERSPEECH (pp. 58-61).
S. Haq and P.J.B. Jackson, "Multimodal Emotion Recognition", W. Wang (ed), Machine Audition: Principles, Algorithms and Systems, IGI Global Press, ISBN 978-1615209194, chapter 17, pp. 398-423, 2010.
Ahmed, N., Natarajan, T., & Rao, K. R. (1974). Discrete Cosine Transform. IEEE Transactions On Computers, 100(1), 90-93.
Özseven, T. (2019). Konuşma Tabanlı Duygu Tanımada Ön İşleme ve Öznitelik Seçim Yöntemlerinin Etkisi. Dicle Üniversitesi Mühendislik Fakültesi Mühendislik Dergisi, 10(1), 99-112. doi: 10.24012/dumf.498727
Çolakoğlu, E., Hızlısoy, S., & Arslan, R. S. (2021). Konuşmadan Duygu Tanıma Üzerine Detaylı bir İnceleme: Özellikler ve Sınıflandırma Metotları. Avrupa Bilim ve Teknoloji Dergisi, (32), 471-483.
Dala, Ö. Ç. (2023). A Literature Review On Emotion Recognition In Speech. Researcher, 3(02), 46-52.
Dikbıyık, E., Demir, Ö., & Doğan, B. (2022). Derin Öğrenme Yöntemleri ile Konuşmadan Duygu Tanıma Üzerine Bir Literatür Araştırması. Gazi University Journal of Science Part C: Design and Technology, 10(4), 765-791. https://doi.org/10.29109/gujsc.1111884
M. Slaney, “Auditory Toolbox,” Interval Research Corporation, Tech. Rep, 10(1998) 1194
Kingma, D. P., & Ba, J. (2014). Adam: A Method For Stochastic Optimization. arXiv preprint arXiv:1412.6980. https://doi.org/10.48550/arXiv.1412.6980

Toplam 39 adet kaynakça vardır.

Ayrıntılar

Birincil Dil	Türkçe
Konular	Bilgisayar Yazılımı
Bölüm	Makaleler
Yazarlar	Cevahir Parlak 0000-0002-5500-7379
Yayımlanma Tarihi	15 Aralık 2024
Gönderilme Tarihi	1 Temmuz 2024
Kabul Tarihi	18 Kasım 2024
Yayımlandığı Sayı	Yıl 2024 Cilt: 14 Sayı: 4

Kaynak Göster

APA	Parlak, C. (2024). Konuşma Duygu Tanıma Uygulamalarında Hiper Parametre Optimizasyonu ile Derin Öğrenme Metotlarının Geliştirilmesi. Karadeniz Fen Bilimleri Dergisi, 14(4), 1955-1975. https://doi.org/10.31466/kfbd.1508578

Makale Dosyaları

Tam Metin

This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.