Duygu tanıma, sağlık, eğlence ve müşteri deneyimi gibi alanları kapsayan uygulamalarla insan-bilgisayar etkileşimini ilerletmede önemli bir teknoloji haline gelmiştir. Bu makale, yüz ifadelerinden duyguları tespit etmede beş derin öğrenme modelinin (YOLOv8m-cls, ResNet50, EfficientNetB5, MobileNetV2 ve DenseNet121) performansını değerlendirmektedir. Başlangıçta sekiz duygu kategorisi içeren AffectNet veri setinden yararlanarak, düşük veri kullanılabilirliği ve benzerlik nedeniyle üçünü hariç tuttuktan sonra beş duyguya odaklandık. İşlenen duygular arasında öfke, mutluluk, üzüntü, şaşkınlık ve korku yer almaktadır. Modeller, transfer öğrenmesi yoluyla ince ayar yapılarak YOLOv8m-cls'nin doğruluk, hız ve genellemeyi dengeleyerek en iyi performansı gösterdiği ve bu sayede gerçek zamanlı uygulamalar için uygun hale geldiği gösterilmiştir. ResNet50 ve EfficientNetB5 de iyi performans göstermiş, ResNet50 karmaşık yüz özelliklerini işlemede mükemmel performans gösterirken, EfficientNetB5 yüksek doğrulukla hesaplama verimliliği sunmuştur. Çalışma ayrıca, model performansını etkilemeye devam eden sınıf içi değişkenlik ve sınıflar arası benzerlik gibi zorluklara da dikkat çekmektedir. Bu bulgular, model mimarilerinin belirli uygulama gereksinimlerine göre seçilmesinin önemini vurgulamakta ve gelecekteki araştırmaların, duygu tanıma sistemlerini geliştirmek için çok modlu verilerin entegrasyonunu incelemesi gerektiğini göstermektedir.
Duygu tanıma Derin öğrenme Transfer öğrenme Yüz ifadesi YOLOv8m-cls
Emotion recognition has become a pivotal technology in advancing human-computer interaction with applications spanning fields such as healthcare, entertainment, and customer experience. This paper evaluates the performance of five deep learning models—YOLOv8m-cls, ResNet50, EfficientNetB5, MobileNetV2, and DenseNet121—in detecting emotions from facial expressions. Leveraging the AffectNet dataset, which initially contained eight emotional categories, we focused on five emotions after excluding three due to low data availability and similarity. The emotions processed include anger, happiness, sadness, surprise, and fear. The models were fine-tuned through transfer learning, demonstrating that YOLOv8m-cls performed best, balancing accuracy, speed, and generalization, making it suitable for real-time applications. ResNet50 and EfficientNetB5 also performed well, with ResNet50 excelling in handling complex facial features and EfficientNetB5 offering computational efficiency with high accuracy. The study also highlights challenges such as intra-class variability and inter-class similarity, which continue to affect model performance. These findings underscore the importance of selecting model architectures based on specific application requirements and suggest that future research should explore integrating multimodal data to enhance emotion recognition systems.
Emotion recognition Deep learning Transfer learning Facial expression YOLOv8m-cls
Makalemizi inceleyecek olan değerli Editör ve Hakem hocalarımıza şimdiden teşekkür ederiz.
| Birincil Dil | İngilizce |
|---|---|
| Konular | Görüntü İşleme, Derin Öğrenme |
| Bölüm | Araştırma Makalesi |
| Yazarlar | |
| Gönderilme Tarihi | 3 Ağustos 2025 |
| Kabul Tarihi | 25 Kasım 2025 |
| Yayımlanma Tarihi | 30 Aralık 2025 |
| Yayımlandığı Sayı | Yıl 2025 Cilt: 16 Sayı: 4 |