Bu çalışmada derin öğrenme uygulamalarında oldukça yeni ve önemli bir aşama olan hiper parametre ayarlama metotlarının bir karşılaştırılması verilecektir. Veriseti olarak yeni duygu verisetlerinden NEMO duygusal konuşma veriseti kullanılacak olup, KerasTuner ile CNN, LSTM ve DNN modelleri Rassal arama, Hiperkomite ve Bayesçi optimizasyon metotları kullanılarak karşılaştırılacaktır. Genel olarak makine öğrenmesi ve özellikle de derin öğrenme uygulamalarında başarılı bir model üretebilmek zaman ve hesaplama gücü açısından oldukça pahalı ve zorlu bir işlem olarak araştırmacıların karşısına çıkmaktadır. Hiper parametre optimizasyonunun genel olarak iki temel aşamadan oluştuğu kabul edilebilir. Birinci aşamada öncelikle değişkenlik gösteren parametrelerin alabilecekleri değerlere dayalı bir arama uzayı belirlenir. Bu parametreler öğrenme katsayısı, nöron sayısı, katman sayısı, aktivasyon fonksiyonu ve benzeri değişkenler olabilir. İkinci aşama ise bu parametreleri kullanarak yapay zekâ modellerini oluşturur ve belirlenen bir başarı kriterine göre test eder. Optimizör bu modelleri çalıştırırken işlemi hızlandırmak için değişik algoritmalar kullanabilir. Hiper parametre optimizasyon uygulamaları bu konuda gün geçtikçe daha iyi çözümler sunmakta ve insan faktörünü kademeli olarak aradan çıkarmaktadırlar. Izgara arama mevcut bütün konfigürasyonları bütün kaynakları sonuna kadar tüketerek çalıştırırken, Rasgele arama ise mevcut kümeden tesadüfi olarak seçilen belli konfigürasyonları dener. Rassal arama her ne kadar bütün olası konfigürasyonları denemese bile genellikle Izgara aramaya yakın sonuçlar üretebilmektedir. Ardışık arama, Asenkron Ardışık arama, Populasyon-Tabanlı Eğitim, Hiperkomite ve Bayesçi yaklaşımlarda diğer hiper parametre optimizasyon metotları arasında sayılabilir. Bu çalışmada NEMO konuşma duygu veriseti 4 duygu ile CNN, LSTM ve DNN derin öğrenme sınıflandırıcılarıyla çalıştırılmış ve KerasTuner’in Rassal Arama, Bayesçi Arama ve Hiperkomite Arama metotlarıyla otomatik üretilen metotların performansları karşılaştırılmıştır. Hiper parametre optimizasyon metotlarından Bayesçi Optimizasyon metodunun diğerlerine göre daha iyi ve hızlı sonuçlar ürettiği görülmüştür.
Konuşma duygu tanıma Derin öğrenme Hiper parametre optimizasyonu
In this research article, a comparison of newly introduced hyper parameter optimization methods is presented. We used NEMO emotional speech dataset which is a very novel dataset with 4 emotional classes. KerasTuner is used to compare the performances of CNN, DNN, and LSTM classifiers by running the Random Search, Bayesian Search and HyperBand Search to optimize the model hyper parameters. Broadly speaking, it is a very arduous, expensive, time consuming and formidable task for the researchers to produce a successful model for machine learning applications, namely deep learning applications. Hyper-parameter optimization consists of two main steps. The first step constructs a search space setting the values of available parameters. Learning rate, number of hidden neurons, layers, activation functions are among the most notable hyper parameters. The Second step involves generating the best machine model using these parameters and specified performance metrics. Optimizers may use different algorithms while running these models. Hyper parameter optimization applications are presenting better solutions in this field day by day and are eliminating the human factor in-between gradually. Grid search runs all possible parameter sets consuming all available resources. On the other hand, Random search runs only some randomly selected configurations. Although Random search does not try all possible actions it can reach the same level of performance. Successive Halving, Asynchronous Successive Halving, Population Based Training, Hyperband, Bayesian approaches are among the prominent optimization methods. This study uses NEMO emotional speech dataset with 4 emotions using CNN, DNN, and LSTM models. Models are generated using Random Search, Bayesian Search, and Hyperband Search methods of KerasTuner and the results are compared. Experiments show that Bayesian Search outperforms Random and Hyperband search algorithms.
Speech emotion recognition Deep learning Hyperparameter optimization
Birincil Dil | Türkçe |
---|---|
Konular | Bilgisayar Yazılımı |
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 15 Aralık 2024 |
Gönderilme Tarihi | 1 Temmuz 2024 |
Kabul Tarihi | 18 Kasım 2024 |
Yayımlandığı Sayı | Yıl 2024 Cilt: 14 Sayı: 4 |
This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.