Teknolojinin geliştirilmesi ile insan ve makine etkileşimi her geçen gün artmaktadır. Bilim insanları bu etkileşim nedeniyle oluşan iletişimin dolayısıyla bilgi alışverişinin güçlendirilmesini amaçlamaktadırlar. Son yıllarda güçlendirme için insan sesinin ve yüz ifadelerinin analiz edilerek insan duygularının otomatik olarak tanınmasını sağlayan çalışmaların sayısında artış yaşanmaktadır. Ses sinyalinde duygu tanıma özelikle, görsel bilginin kısıtlı ya da hiç olmadığı durumlarda oldukça önemlidir. Bu çalışmada da insan sesinin analiz edilerek duyguların otomatik olarak tanımlanması üzerine kayda alınmış RAVDESS (The Ryerson Audio-Visual Database of Emotional Speech and Song) ve TESS (Toronto Emotional Speech Set) ses kayıtları veri seti olarak kullanılmış, makine öğrenmesi sınıflandırıcıları ve derin öğrenme algoritmaları kullanılarak modellerin iyi tahminler üretip üretmediğine bakılmış, algoritmalar ve yöntemler kıyaslanmıştır. Bunların yanı sıra Alexnet, Resnet50 ve SqueezeNet ağları da kıyaslamaya dahil edilmiştir. RAVDESS ve TESS veri setleriyle Alexnet ağında Karar Ağacı %44, SVM %29 isabetli sonuç elde edilirken, RAVDESS veri setine TESS eklendiğinde sonuçlar %64 ve %55 isabet oranına yükselmiştir. Ağlar arasında en iyi sonuç Squeezenet’le 100 adımdan henüz 70 adım gerçekleştiğinde tam başarım elde edilirken en kötü sonuç MobileNet’te %15 isabette kalmıştır. Evrişimsel sinir ağı derin öğrenme algoritmalarının bütün ağlarda %15-17 civarı isabetli sonuçlar verdiği gözlemlenmiştir.
derin öğrenme MobileNet SqueezeNet Evrişimsel Sinir Ağı Duygu Tanıma
Birincil Dil | Türkçe |
---|---|
Konular | Yapay Zeka |
Bölüm | Araştırma Makaleleri |
Yazarlar | |
Yayımlanma Tarihi | 30 Haziran 2021 |
Gönderilme Tarihi | 26 Mayıs 2021 |
Yayımlandığı Sayı | Yıl 2021 Cilt: 2 Sayı: 1 |