Konuşmacı tanıma sistemleri için güvenlik hayati önem taşımaktadır. Geçtiğimiz yıllarda, sahte konuşma saldırılarının bu sistemleri kandırabildiği ortaya konmuştur. Bu durumu önlemek amacı ile sahte konuşma tespit sistemleri geliştirilmiştir. Bu tür sistemler bazı durumlarda oldukça yüksek performans sergilese de, gürültü altında performansları kötüleşmektedir. Geleneksel konuşma iyileştirme yöntemleri performansı artırmak bir yana, daha da kötüleştirmektedir. Bu çalışmada, konvolüsyonel sinir ağı yapısı kullanılarak elde edilen maskenin gürültü etkisini azaltmaktaki performansı incelenmiştir. Maske, spektrogramın gürültülü bölgelerini bastırmakta ve bu spektrogramdan elde edilen i-vectorleri gürbüz hale getirmekte kullanılmıştır. ASVspoof 2015 veri tabanı ve üç farklı gürültü tipi ile gerçekleştirilen testlerde önerilen sistemin geleneksel sistemlerden daha üstün olduğu gösterilmiştir. Ancak eğitim aşamasında karşılaşılmayan gürültü tiplerinde performans kaybı olmaktadır.
derin öğrenme evrişimli sinir ağı sahte konuşma tanıma konuşmacı tanıma gürbüz öznitelikler
121E057
Ensuring security in speaker recognition systems is crucial. In the past years, it has been demonstrated that spoofing attacks can fool these systems. In order to deal with this issue, spoof speech detection systems have been developed. While these systems have served with a good performance, their effectiveness tends to degrade under noise. Traditional speech enhancement methods are not efficient for improving performance, they even make it worse. In this research paper, performance of the noise mask obtained via a convolutional neural network structure for reducing the noise effects was investigated. The mask is used to suppress noisy regions of spectrograms in order to extract robust i-vectors. The proposed system is tested on the ASVspoof 2015 database with three different noise types and accomplished superior performance compared to the traditional systems. However, there is a loss of performance in noise types that are not encountered during training phase.
deep learning convolutional neural network spoof detection speaker recognition robust features
TÜBİTAK
121E057
This work was supported by TÜBİTAK (Project No: 121E057).
Birincil Dil | İngilizce |
---|---|
Konular | Yazılım Mühendisliği (Diğer) |
Bölüm | Araştırma Makaleleri |
Yazarlar | |
Proje Numarası | 121E057 |
Erken Görünüm Tarihi | 28 Mart 2024 |
Yayımlanma Tarihi | 22 Nisan 2024 |
Gönderilme Tarihi | 7 Haziran 2023 |
Kabul Tarihi | 15 Mart 2024 |
Yayımlandığı Sayı | Yıl 2024 |
DUYURU:
30.03.2021- Nisan 2021 (26/1) sayımızdan itibaren TR-Dizin yeni kuralları gereği, dergimizde basılacak makalelerde, ilk gönderim aşamasında Telif Hakkı Formu yanısıra, Çıkar Çatışması Bildirim Formu ve Yazar Katkısı Bildirim Formu da tüm yazarlarca imzalanarak gönderilmelidir. Yayınlanacak makalelerde de makale metni içinde "Çıkar Çatışması" ve "Yazar Katkısı" bölümleri yer alacaktır. İlk gönderim aşamasında doldurulması gereken yeni formlara "Yazım Kuralları" ve "Makale Gönderim Süreci" sayfalarımızdan ulaşılabilir. (Değerlendirme süreci bu tarihten önce tamamlanıp basımı bekleyen makalelerin yanısıra değerlendirme süreci devam eden makaleler için, yazarlar tarafından ilgili formlar doldurularak sisteme yüklenmelidir). Makale şablonları da, bu değişiklik doğrultusunda güncellenmiştir. Tüm yazarlarımıza önemle duyurulur.
Bursa Uludağ Üniversitesi, Mühendislik Fakültesi Dekanlığı, Görükle Kampüsü, Nilüfer, 16059 Bursa. Tel: (224) 294 1907, Faks: (224) 294 1903, e-posta: mmfd@uludag.edu.tr