Ses etkinliği algılama, genelde konuşma tanıma, konuşma sıkıştırma gibi konuşma işleme süreçlerinin başında kullanılan bir uygulamadır. Konuşma sesinin olup olmadığını tespit etmede kullanılır ve buna göre uygulamanın devamına yön verir. Sesin varlığını tespit etmede kullanılan belli başlı özellikler vardır. Kullanılan özelliklerin fazla olması algoritmanın verimliliği ile doğrudan ilişkilidir. Klasik VAD algoritmaları genelde STE kullanılarak oluşturulduğundan, düşük sinyal gürültü oranı değerlerinde çok hassastır, bu yüzden istenilen sonuçları veremeyebilir. Çözümde kullanılan özellikler için gerçek zamanlı sesler kullanarak sesli bölge ve gürültülü bölge ayırt edilmeye çalışılmıştır. Bu çalışmada sesin varlığını tespit etmek için STE, periyodiklik ve Spektral düzlük gibi üç özellik kullanılmıştır, kullanılan bu üç özellik ile düşük SNR değerlerinde de istenilen sonuçlar elde edilmiştir. Bu yöntemin, özellikle düşük SNR değerlerinde klasik metotlara göre daha iyi performans elde ettiği gözlemlenmiştir.
En baskın frekans bileşeni Kısa zamanlı enerji Spektral düzlük Ses etkinliği algılama
Voice activity detection is often used at the beginning of speech processes, such as speech recognition, and speech compression. It is used to detect the presence of a speaking voice, and it directs the execution of the application accordingly. There are certain features that are used to detect the presence of the voice. The efficiency of the algorithm is directly related to the number of the features used. Since the classical Voice activity detection algorithms are usually developed using Short Time Energy, they are very sensitive to the low signal-to-noise ratio values, therefore they may not provide the desired results. The parts with a speech and the parts with noise were attempted to be distinguished by using real-time sounds for the features used in the solution. In this study, three features, such as Short Time Energy, Periodicity, and the Spectral Flatness, were used to detect the voice. The desired results have been obtained by using these three features, even at low SNR values. This method has been observed to achieve better performance especially at low SNR values than conventional methods.
Short-time energy Spectral flatness Most dominant frequency component Voice activity detection
Birincil Dil | Türkçe |
---|---|
Konular | Mühendislik |
Bölüm | Araştırma Makaleleri |
Yazarlar | |
Yayımlanma Tarihi | 18 Aralık 2018 |
Gönderilme Tarihi | 14 Eylül 2018 |
Yayımlandığı Sayı | Yıl 2018 Cilt: 1 Sayı: 1 |