Konuşmacıların yaş ve cinsiyet gruplarının otomatik olarak belirlenmesi önemli bir araştırma konusudur
ve başta çağrı merkezleri olmak üzere birçok alanda farklı amaçlarla kullanılmaktadır. Bu çalışmada Mel Frekansı Kepstrum Katsayılarına (MFKK) eklenen logaritmik enerji ve delta parametrelerinin otomatik yaş ve cinsiyet tanıma üzerindeki etkileri araştırılmıştır. Konuşma sinyallerinden çıkarılan MFKK öznitelikleri, Gauss Karışım Modeli (GKM) süpervektörlerine dönüştürüldükten sonra Destek Vektör Makinesine (DVM) uygulanmış ve gerçekleştirilen optimizasyon süreci sonunda konuşmacıların yaş ve cinsiyet gruplarına karar verilmiştir. Çalışmada MFKK’ya eklenen parametrelerin yanı sıra MFKK sayısının ve GKM bileşen sayısının başarı üzerindeki etkileri de araştırılmıştır. MFKK sayısı 8 ile 20, GKM bileşen sayısı ise 32 ile 256 arasında
değiştirilerek sistem üzerinde testler yapılmıştır. aGender veritabanının geliştirme bölümündeki 299
konuşmacının 1388 konuşması ile yapılan testlerde en yüksek sınıflandırma oranı, 12 kepstral katsayıya
logaritmik enerji, delta ve delta-delta parametrelerinin eklenmesi sonucunda %60.23 olarak hesaplanmıştır.
Çalışmada optimum GKM bileşen sayısı 128 olarak belirlenirken, logaritmik enerji, delta ve delta-delta
parametrelerinin başarı üzerindeki etkileri sırasıyla %1.17, %3.24 ve %4.61 olarak saptanmıştır.
Yaş ve cinsiyet sınıflandırma Konuşma işleme Destek vektör makineleri Gauss karışım modeli
Automatic recognition of the age and gender groups of the speakers is an important research topic
and is used for different purposes in many fields, especially in call centers. In this study, the effects of logarithmic energy and delta parameters added to Mel Frequency Cepstral Coefficients (MFCC) on automatic age and gender recognition were investigated. After transforming the MFCC features extracted from speech signals into Gaussian Mixture Model (GMM) supervectors, they were applied to the Support Vector Machine (DVM) and the age and gender groups of the speakers were decided at the end of the optimization process. In the study, besides the parameters added to MFCC, the effects of MFCC number and GMM component number on success were also investigated. MFCC number was changed between 8 and 20 and GMM component number was changed between 32 and 256 and tests were performed on the system. In tests performed with 1388 speeches of 299 speakers in the development section of aGender database, the highest classification rate was calculated as 60.23% by adding logarithmic energy, delta and delta-delta parameters to 12 cepstral coefficients. In the study, the optimum GMM component number was determined as 128, while the effects of logarithmic energy, delta and delta-delta parameters on success were 1.17%, 3.24% and 4.61%, respectively.
Age and gender classification Speech processing Support Vector Machine Gauss Mixture Model
Birincil Dil | Türkçe |
---|---|
Konular | Bilgisayar Yazılımı |
Bölüm | Bilgisayar Mühendisliği / Computer Engineering |
Yazarlar | |
Yayımlanma Tarihi | 1 Mart 2021 |
Gönderilme Tarihi | 23 Temmuz 2020 |
Kabul Tarihi | 4 Kasım 2020 |
Yayımlandığı Sayı | Yıl 2021 Cilt: 11 Sayı: 1 |