Konuşma Tanımaya Uygulanan BiRNN, BiLSTM ve BiGRU Modellerinin Performans Değerlendirmesi

Halil İbrahim Yalman; Zekeriya Tüfekci

doi:10.31590/ejosat.1111314

TR EN

Konuşma Tanımaya Uygulanan BiRNN, BiLSTM ve BiGRU Modellerinin Performans Değerlendirmesi

Öz

Konuşma tanıma ses dalgalarının yazıya dönüştürülmesi işlemidir. Bu çalışmada sesli kitap veri seti üzerinde Çift Yönlü Basit Tekrarlayan Ağlar (BiRNN), Çift Yönlü Uzun Kısa Süreli Bellek (BiLSTM), Çift Yönlü Kapılı Tekrarlayan Hücreler (BiGRU) modellerinin konuşma tanıma performansı incelenmiş ve karşılaştırması yapılmıştır. Kullanılan modellerde Bağlantıcı Zamansal Sınıflandırma (CTC) ve Evrişimsel Sinir Ağları (CNN) kullanılmıştır. Ayrıca bu modellerin tek yönlü versiyonları ile karşılaştırması da yapılmıştır. Çalışmanın sonucunda en yüksek konuşma tanıma başarı oranına sahip model BiLSTM olduğu saptanmıştır. Bununla birlikte %33 daha az para metre ile %3 daha düşük konuşma tanıma oranına sahip BiGRU modeli de dikkate değer bulunmuştur. Çift yönlü modellerin tek yönlü modellere göre daha başarılı sonuçlar verdiği saptanmıştır.

Anahtar Kelimeler

Performance Evaluation of BiRNN, BiLSTM and BiGRU Models Applied to Speech Recognition

Öz

Speech recognition is the process of converting sound waves into text. In this study, speech recognition performance of Bidirectional Recurrent Neural Network (BiRNN), Bidirectional Long Short Term Memory (BiLSTM), Bidirectional Gated Recurrent Units (BiGRU) models on the audiobook dataset was examined and compared. Connectionist Temporal Classification (CTC) and Convolutional Neural Networks (CNN) are used in the models. In addition, these models were compared with their unidirectional versions. As a result of the study, it was determined that the model with the highest speech recognition success rate was BiLSTM. However, the BiGRU model, which has 33% less parameters and 3% lower speech recognition rate, was also found to be remarkable. It has been determined that bidirectional models give more successful results than unidirectional models.

Anahtar Kelimeler

Kaynakça

Arisoy, E., Sethy, A., Ramabhadran, B., & Chen, S. (2015, April). Bidirectional recurrent neural network language models for automatic speech recognition. In 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 5421-5425). IEEE.
Bhuvaneswari, A., Thomas, J. T. J., & Kesavan, P. (2019). Embedded Bi-directional GRU and LSTMLearning Models to Predict Disasterson Twitter Data. Procedia Computer Science, 165, 511-516.
Cho, K., Van Merriënboer, B., Bahdanau, D., & Bengio, Y. (2014). On the properties of neural machine translation: Encoder-decoder approaches. arXiv preprint arXiv:1409.1259.
Graves, A., Fernández, S., Gomez, F., & Schmidhuber, J. (2006, June). Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks. In Proceedings of the 23rd international conference on Machine learning (pp. 369-376).
Graves, A., Mohamed, A. R., & Hinton, G. (2013, May). Speech recognition with deep recurrent neural networks. In 2013 IEEE international conference on acoustics, speech and signal processing (pp. 6645-6649). Ieee.
Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep learning. MIT press.
Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. Neural computation, 9(8), 1735-1780. Mporas, I., Ganchev, T., Siafarikas, M., & Fakotakis, N. (2007). Comparison of speech features on the speech recognition task. Journal of Computer Science, 3(8), 608-616.
LeCun, Y., Boser, B., Denker, J. S., Henderson, D., Howard, R. E., Hubbard, W., & Jackel, L. D. (1989). Backpropagation applied to handwritten zip code recognition. Neural computation, 1(4), 541-551.

Ayrıntılar

Birincil Dil

Türkçe

Konular

Mühendislik

Bölüm

Araştırma Makalesi

Yazarlar

Halil İbrahim Yalman ^*
0000-0003-0841-1309
Türkiye

Zekeriya Tüfekci
0000-0001-7835-2741
Türkiye

Yayımlanma Tarihi

31 Mayıs 2022

Gönderilme Tarihi

29 Nisan 2022

Kabul Tarihi

2 Mayıs 2022

Yayımlandığı Sayı

Yıl 2022 Sayı: 36

DOI

https://doi.org/10.31590/ejosat.1111314

IZ

https://izlik.org/JA98HM29AJ

Kaynak Göster

RIS / Bibtex

APA

Yalman, H. İ., & Tüfekci, Z. (2022). Konuşma Tanımaya Uygulanan BiRNN, BiLSTM ve BiGRU Modellerinin Performans Değerlendirmesi. Avrupa Bilim ve Teknoloji Dergisi, 36, 121-127. https://doi.org/10.31590/ejosat.1111314

AMA

1.Yalman Hİ, Tüfekci Z. Konuşma Tanımaya Uygulanan BiRNN, BiLSTM ve BiGRU Modellerinin Performans Değerlendirmesi. EJOSAT. 2022;(36):121-127. doi:10.31590/ejosat.1111314

Chicago

Yalman, Halil İbrahim, ve Zekeriya Tüfekci. 2022. “Konuşma Tanımaya Uygulanan BiRNN, BiLSTM ve BiGRU Modellerinin Performans Değerlendirmesi”. Avrupa Bilim ve Teknoloji Dergisi, sy 36: 121-27. https://doi.org/10.31590/ejosat.1111314.

EndNote

Yalman Hİ, Tüfekci Z (01 Mayıs 2022) Konuşma Tanımaya Uygulanan BiRNN, BiLSTM ve BiGRU Modellerinin Performans Değerlendirmesi. Avrupa Bilim ve Teknoloji Dergisi 36 121–127.

IEEE

[1]H. İ. Yalman ve Z. Tüfekci, “Konuşma Tanımaya Uygulanan BiRNN, BiLSTM ve BiGRU Modellerinin Performans Değerlendirmesi”, EJOSAT, sy 36, ss. 121–127, May. 2022, doi: 10.31590/ejosat.1111314.

ISNAD

Yalman, Halil İbrahim - Tüfekci, Zekeriya. “Konuşma Tanımaya Uygulanan BiRNN, BiLSTM ve BiGRU Modellerinin Performans Değerlendirmesi”. Avrupa Bilim ve Teknoloji Dergisi. 36 (01 Mayıs 2022): 121-127. https://doi.org/10.31590/ejosat.1111314.

JAMA

1.Yalman Hİ, Tüfekci Z. Konuşma Tanımaya Uygulanan BiRNN, BiLSTM ve BiGRU Modellerinin Performans Değerlendirmesi. EJOSAT. 2022;:121–127.

MLA

Yalman, Halil İbrahim, ve Zekeriya Tüfekci. “Konuşma Tanımaya Uygulanan BiRNN, BiLSTM ve BiGRU Modellerinin Performans Değerlendirmesi”. Avrupa Bilim ve Teknoloji Dergisi, sy 36, Mayıs 2022, ss. 121-7, doi:10.31590/ejosat.1111314.

Vancouver

1.Halil İbrahim Yalman, Zekeriya Tüfekci. Konuşma Tanımaya Uygulanan BiRNN, BiLSTM ve BiGRU Modellerinin Performans Değerlendirmesi. EJOSAT. 01 Mayıs 2022;(36):121-7. doi:10.31590/ejosat.1111314