Yapay zekâ (YZ) alanındaki, özellikle örüntü tanıma odaklı ilerlemeler sayesinde, konuşma özellikleri, yüz hareketleri ve fizyolojik tepkiler aracılığıyla insan duygularının tanınmasında kayda değer gelişmeler sağlanmıştır. Bununla birlikte, Nesnelerin İnterneti (IoT) tabanlı altyapıların yaygınlaşması, iletilen veri hacminin büyüklüğü ve gerçek-zamanlı tepki gereksinimi nedeniyle geleneksel bulut sistemleri üzerinde artan bir baskı oluşturmuştur. Bu soruna çözüm olarak, verinin yerel düzeyde işlenmesine olanak tanıyan ve uzak sunuculara bağımlılığı azaltan dağınık bir paradigma olan uç bilişim ortaya konmuştur. Bu bağlamda, mevcut çalışma, üç hibrit derin öğrenme (DL) mimarisinin—Evrişimli Sinir Ağı-Yoğun Bağlantılı Sinir Ağı (CNN–Dense), Uzun Kısa Süreli Bellek-Evrişimli Sinir Ağı (LSTM–CNN) ve Yoğun Bağlantılı Sinir Ağı-Uzun Kısa Süreli Bellek (Dense–LSTM) —sınıflandırma performansını simüle edilmiş bir uç ortamında değerlendirmektedir. Toronto Emotional Speech Set (TESS) veri kümesi kullanılmış, uç kaynak kısıtlarını yansıtmak amacıyla deneysel iş akışları Amazon Web Services (AWS) üzerinde yürütülmüştür. Doğruluk, makro-ortalama kesinlik (precision), duyarlılık (recall) ve F1 skoru dâhil olmak üzere makro-ortalama metrikler aracılığıyla ölçüm yapılmıştır. Modeller arasında, CNN–Dense mimarisi 0,96 F1 skoru ile en yüksek performansı sergilemiş; LSTM–CNN 0,95, Dense–LSTM ise 0,93 F1 skoru elde etmiştir. ulgular, CNN–Dense modelinin özellik çıkarımı açısından avantaj sağlayabileceğini ve hibrit modellerin merkezî olmayan sistemlerde duygu sınıflandırması için umut verici olabileceğini göstermektedir.
With advancements in artificial intelligence (AI), particularly in pattern recognition, significant progress has been made in recognising human emotions from speech characteristics, facial activity, and physiological responses. However, the expansion of Internet of Things (IoT)-based infrastructures has increased pressure on conventional cloud systems due to the high volume of transmitted data and the need for real-time responsiveness. As a remedy, edge computing has emerged as a distributed alternative, enabling localised data processing and reducing dependency on remote servers. In this context, the present study evaluates the classification performance of three hybrid deep learning (DL) models—Convolutional Neural Network–Dense Neural Network (CNN-Dense), Long Short-Term Memory–Convolutional Neural Network (LSTM-CNN), and Dense–Long Short-Term Memory (Dense-LSTM) —within a simulated edge-based environment. The Toronto Emotional Speech Set (TESS) dataset was employed, and experimental workflows were implemented via Amazon Web Services (AWS) to simulate edge resource limitations. Accuracy was assessed using macro-averaged metrics, including precision, recall, and F1-score. Among the models, CNN-Dense showed the highest performance, achieving an F1-score of 96%, followed by LSTM-CNN (95%) and Dense-LSTM (93%). The findings suggest that CNN–Dense may offer feature extraction advantages, and that hybrid models could be promising for emotion classification in decentralised systems.
Primary Language | English |
---|---|
Subjects | Deep Learning, Speech Recognition |
Journal Section | Research Article |
Authors | |
Early Pub Date | September 28, 2025 |
Publication Date | October 3, 2025 |
Submission Date | June 30, 2025 |
Acceptance Date | September 12, 2025 |
Published in Issue | Year 2025 EARLY VIEW |
This work is licensed under Creative Commons Attribution-ShareAlike 4.0 International.