Konuşma tanıma ses dalgalarının yazıya dönüştürülmesi işlemidir. Bu çalışmada sesli kitap veri seti üzerinde Çift Yönlü Basit Tekrarlayan Ağlar (BiRNN), Çift Yönlü Uzun Kısa Süreli Bellek (BiLSTM), Çift Yönlü Kapılı Tekrarlayan Hücreler (BiGRU) modellerinin konuşma tanıma performansı incelenmiş ve karşılaştırması yapılmıştır. Kullanılan modellerde Bağlantıcı Zamansal Sınıflandırma (CTC) ve Evrişimsel Sinir Ağları (CNN) kullanılmıştır. Ayrıca bu modellerin tek yönlü versiyonları ile karşılaştırması da yapılmıştır. Çalışmanın sonucunda en yüksek konuşma tanıma başarı oranına sahip model BiLSTM olduğu saptanmıştır. Bununla birlikte %33 daha az para metre ile %3 daha düşük konuşma tanıma oranına sahip BiGRU modeli de dikkate değer bulunmuştur. Çift yönlü modellerin tek yönlü modellere göre daha başarılı sonuçlar verdiği saptanmıştır.
Konuşma Tanıma Derin Öğrenme Evrişimsel Sinir Ağları Çift Yönlü Uzun Kısa Süreli Bellek Çift Yönlü Basit Tekrarlayan Ağlar Çift Yönlü Kapılı Tekrarlayan Hücreler Bağlantıcı Zamansal Sınıflandırma Türkçe Sesli Kitap Veri seti
Speech recognition is the process of converting sound waves into text. In this study, speech recognition performance of Bidirectional Recurrent Neural Network (BiRNN), Bidirectional Long Short Term Memory (BiLSTM), Bidirectional Gated Recurrent Units (BiGRU) models on the audiobook dataset was examined and compared. Connectionist Temporal Classification (CTC) and Convolutional Neural Networks (CNN) are used in the models. In addition, these models were compared with their unidirectional versions. As a result of the study, it was determined that the model with the highest speech recognition success rate was BiLSTM. However, the BiGRU model, which has 33% less parameters and 3% lower speech recognition rate, was also found to be remarkable. It has been determined that bidirectional models give more successful results than unidirectional models.
Speech Recognition Deep Learning Convolutional Neural Networks Bidirectional Long Short Term Memory Bidirectional Recurrent Neural Networks Bidirectional Gated Recurrent Units Connectionist temporal classification Turkish Audiobook Dataset
Primary Language | Turkish |
---|---|
Subjects | Engineering |
Journal Section | Articles |
Authors | |
Publication Date | May 31, 2022 |
Published in Issue | Year 2022 |