İnsan duygularını ses ipuçları aracılığıyla anlamak, özellikle insan-bilgisayar etkileşimi, sağlık hizmetleri ve sanal asistanlar gibi alanlarda duygusal zekâya sahip sistemler geliştirmek için kilit bir noktadır. Ancak, konuşmadan duyguları doğru şekilde tanımak; konuşmacı özelliklerindeki değişkenlik, akustik koşullar ve duygusal durumların ince ve çoğu zaman örtüşen doğası nedeniyle hâlâ zorlu bir görevdir. Bu çalışmada, önceden eğitilmiş ses tabanlı sinir ağları kullanılarak konuşma duygu tanıma (SER) için aktarım öğrenmesi yöntemlerinin karşılaştırmalı bir analizi sunulmuştur. Özellikle, YAMNet ve VGGish modelleri hem statik özellik çıkarıcılar olarak hem de ince ayar (fine-tuning) yöntemiyle kullanılmıştır. Elde edilen gömülü temsiller (embedding’ler), Destek Vektör Makineleri (SVM), En Yakın Komşular (KNN), Rastgele Ormanlar (RF) ve Lojistik Regresyon (LR) gibi geleneksel makine öğrenimi algoritmaları ile sınıflandırılmıştır. Deneyler, yaygın olarak kullanılan iki duygusal konuşma veri seti üzerinde gerçekleştirilmiştir: RAVDESS ve EmoDB. Özellik çıkarma aşamasının performans değerlendirmesi doğruluk, F1 skoru, karışıklık matrisi ve ROC eğrisi altındaki alan (AUC) ölçütlerine dayandırılmıştır. İnce ayar aşamasında ise doğruluğun yanı sıra sınıf bazlı kesinlik (precision), geri çağırma (recall), F1 skoru ve sınıfa özgü AUC metrikleri ile ROC eğrileri kullanılmıştır. Sonuçlar, VGGish’in hem özellik çıkarma hem de ince ayar senaryolarında YAMNet’ten tutarlı bir şekilde daha iyi performans gösterdiğini ortaya koymaktadır. EmoDB veri setinde, VGGish özellikleri ile LR kullanıldığında en yüksek sınıflandırma doğruluğu elde edilmiştir (%73,83). Ayrıca, VGGish’in EmoDB üzerinde ince ayarı, %72,90’lık rekabetçi bir doğruluk sağlamış ve duygu temsili öğrenmede etkinliğini ortaya koymuştur.
Ses duygu analizi Transfer öğrenme Makine öğrenmesi Özellik gömmeleri Fine tuning
Understanding human emotions through vocal cues is a key point for developing emotionally intelligent systems, particularly in fields such as human-computer interaction, healthcare, and virtual assistants. However, accurately recognizing emotions from speech remains a challenging task due to the variability in speaker traits, acoustic conditions, and the subtle, often overlapping nature of emotional states. In this study, a comparative analysis of transfer learning methods for speech emotion recognition (SER) was presented by employing pretrained audio-based neural networks. Specifically, YAMNet and VGGish models were employed both as static feature extractors and in a fine-tuning setup. The extracted embeddings were classified using traditional machine learning algorithms, including Support Vector Machines (SVM), K-Nearest Neighbors (KNN), Random Forests (RF), and Logistic Regression (LR). Experiments were conducted on two widely used emotional speech datasets: RAVDESS and EmoDB. The results demonstrate that VGGish consistently outperforms YAMNet in both feature extraction and fine-tuning scenarios. The highest classification accuracy was achieved using VGGish features with LR on EmoDB (73.83%). Additionally, fine-tuning VGGish on EmoDB yielded a competitive accuracy of 72.90%. Also class-specific analysis showed that the highest AUC score of 0.9635 was obtained using the LR in VGGish + EmoDB setting, while fine-tuning both YAMNet and VGGish with EmoDB dataset has reached up to Recall score of 1 for the ‘Sadness’ emotion.
Audio emotion recognition Transfer learning Machine learning Feature embeddings Fine tuning
| Birincil Dil | İngilizce |
|---|---|
| Konular | Bilgisayar Yazılımı |
| Bölüm | Araştırma Makalesi |
| Yazarlar | |
| Gönderilme Tarihi | 9 Ağustos 2025 |
| Kabul Tarihi | 2 Ekim 2025 |
| Yayımlanma Tarihi | 29 Ocak 2026 |
| Yayımlandığı Sayı | Yıl 2026 Cilt: 15 Sayı: 2 |