Araştırma Makalesi

Konuşma Tanımaya Uygulanan BiRNN, BiLSTM ve BiGRU Modellerinin Performans Değerlendirmesi

Sayı: 36 31 Mayıs 2022
PDF İndir
TR EN

Konuşma Tanımaya Uygulanan BiRNN, BiLSTM ve BiGRU Modellerinin Performans Değerlendirmesi

Öz

Konuşma tanıma ses dalgalarının yazıya dönüştürülmesi işlemidir. Bu çalışmada sesli kitap veri seti üzerinde Çift Yönlü Basit Tekrarlayan Ağlar (BiRNN), Çift Yönlü Uzun Kısa Süreli Bellek (BiLSTM), Çift Yönlü Kapılı Tekrarlayan Hücreler (BiGRU) modellerinin konuşma tanıma performansı incelenmiş ve karşılaştırması yapılmıştır. Kullanılan modellerde Bağlantıcı Zamansal Sınıflandırma (CTC) ve Evrişimsel Sinir Ağları (CNN) kullanılmıştır. Ayrıca bu modellerin tek yönlü versiyonları ile karşılaştırması da yapılmıştır. Çalışmanın sonucunda en yüksek konuşma tanıma başarı oranına sahip model BiLSTM olduğu saptanmıştır. Bununla birlikte %33 daha az para metre ile %3 daha düşük konuşma tanıma oranına sahip BiGRU modeli de dikkate değer bulunmuştur. Çift yönlü modellerin tek yönlü modellere göre daha başarılı sonuçlar verdiği saptanmıştır.

Anahtar Kelimeler

Kaynakça

  1. Arisoy, E., Sethy, A., Ramabhadran, B., & Chen, S. (2015, April). Bidirectional recurrent neural network language models for automatic speech recognition. In 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 5421-5425). IEEE.
  2. Bhuvaneswari, A., Thomas, J. T. J., & Kesavan, P. (2019). Embedded Bi-directional GRU and LSTMLearning Models to Predict Disasterson Twitter Data. Procedia Computer Science, 165, 511-516.
  3. Cho, K., Van Merriënboer, B., Bahdanau, D., & Bengio, Y. (2014). On the properties of neural machine translation: Encoder-decoder approaches. arXiv preprint arXiv:1409.1259.
  4. Graves, A., Fernández, S., Gomez, F., & Schmidhuber, J. (2006, June). Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks. In Proceedings of the 23rd international conference on Machine learning (pp. 369-376).
  5. Graves, A., Mohamed, A. R., & Hinton, G. (2013, May). Speech recognition with deep recurrent neural networks. In 2013 IEEE international conference on acoustics, speech and signal processing (pp. 6645-6649). Ieee.
  6. Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep learning. MIT press.
  7. Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. Neural computation, 9(8), 1735-1780. Mporas, I., Ganchev, T., Siafarikas, M., & Fakotakis, N. (2007). Comparison of speech features on the speech recognition task. Journal of Computer Science, 3(8), 608-616.
  8. LeCun, Y., Boser, B., Denker, J. S., Henderson, D., Howard, R. E., Hubbard, W., & Jackel, L. D. (1989). Backpropagation applied to handwritten zip code recognition. Neural computation, 1(4), 541-551.

Ayrıntılar

Birincil Dil

Türkçe

Konular

Mühendislik

Bölüm

Araştırma Makalesi

Yayımlanma Tarihi

31 Mayıs 2022

Gönderilme Tarihi

29 Nisan 2022

Kabul Tarihi

2 Mayıs 2022

Yayımlandığı Sayı

Yıl 2022 Sayı: 36

Kaynak Göster

APA
Yalman, H. İ., & Tüfekci, Z. (2022). Konuşma Tanımaya Uygulanan BiRNN, BiLSTM ve BiGRU Modellerinin Performans Değerlendirmesi. Avrupa Bilim ve Teknoloji Dergisi, 36, 121-127. https://doi.org/10.31590/ejosat.1111314