Araştırma Makalesi

Konuşma Tanımaya Uygulanan BiRNN, BiLSTM ve BiGRU Modellerinin Performans Değerlendirmesi

Sayı: 36 31 Mayıs 2022
PDF İndir
TR EN

Konuşma Tanımaya Uygulanan BiRNN, BiLSTM ve BiGRU Modellerinin Performans Değerlendirmesi

Öz

Konuşma tanıma ses dalgalarının yazıya dönüştürülmesi işlemidir. Bu çalışmada sesli kitap veri seti üzerinde Çift Yönlü Basit Tekrarlayan Ağlar (BiRNN), Çift Yönlü Uzun Kısa Süreli Bellek (BiLSTM), Çift Yönlü Kapılı Tekrarlayan Hücreler (BiGRU) modellerinin konuşma tanıma performansı incelenmiş ve karşılaştırması yapılmıştır. Kullanılan modellerde Bağlantıcı Zamansal Sınıflandırma (CTC) ve Evrişimsel Sinir Ağları (CNN) kullanılmıştır. Ayrıca bu modellerin tek yönlü versiyonları ile karşılaştırması da yapılmıştır. Çalışmanın sonucunda en yüksek konuşma tanıma başarı oranına sahip model BiLSTM olduğu saptanmıştır. Bununla birlikte %33 daha az para metre ile %3 daha düşük konuşma tanıma oranına sahip BiGRU modeli de dikkate değer bulunmuştur. Çift yönlü modellerin tek yönlü modellere göre daha başarılı sonuçlar verdiği saptanmıştır.

Anahtar Kelimeler

Kaynakça

  1. Arisoy, E., Sethy, A., Ramabhadran, B., & Chen, S. (2015, April). Bidirectional recurrent neural network language models for automatic speech recognition. In 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 5421-5425). IEEE.
  2. Bhuvaneswari, A., Thomas, J. T. J., & Kesavan, P. (2019). Embedded Bi-directional GRU and LSTMLearning Models to Predict Disasterson Twitter Data. Procedia Computer Science, 165, 511-516.
  3. Cho, K., Van Merriënboer, B., Bahdanau, D., & Bengio, Y. (2014). On the properties of neural machine translation: Encoder-decoder approaches. arXiv preprint arXiv:1409.1259.
  4. Graves, A., Fernández, S., Gomez, F., & Schmidhuber, J. (2006, June). Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks. In Proceedings of the 23rd international conference on Machine learning (pp. 369-376).
  5. Graves, A., Mohamed, A. R., & Hinton, G. (2013, May). Speech recognition with deep recurrent neural networks. In 2013 IEEE international conference on acoustics, speech and signal processing (pp. 6645-6649). Ieee.
  6. Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep learning. MIT press.
  7. Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. Neural computation, 9(8), 1735-1780. Mporas, I., Ganchev, T., Siafarikas, M., & Fakotakis, N. (2007). Comparison of speech features on the speech recognition task. Journal of Computer Science, 3(8), 608-616.
  8. LeCun, Y., Boser, B., Denker, J. S., Henderson, D., Howard, R. E., Hubbard, W., & Jackel, L. D. (1989). Backpropagation applied to handwritten zip code recognition. Neural computation, 1(4), 541-551.

Ayrıntılar

Birincil Dil

Türkçe

Konular

Mühendislik

Bölüm

Araştırma Makalesi

Yayımlanma Tarihi

31 Mayıs 2022

Gönderilme Tarihi

29 Nisan 2022

Kabul Tarihi

2 Mayıs 2022

Yayımlandığı Sayı

Yıl 2022 Sayı: 36

Kaynak Göster

APA
Yalman, H. İ., & Tüfekci, Z. (2022). Konuşma Tanımaya Uygulanan BiRNN, BiLSTM ve BiGRU Modellerinin Performans Değerlendirmesi. Avrupa Bilim ve Teknoloji Dergisi, 36, 121-127. https://doi.org/10.31590/ejosat.1111314
AMA
1.Yalman Hİ, Tüfekci Z. Konuşma Tanımaya Uygulanan BiRNN, BiLSTM ve BiGRU Modellerinin Performans Değerlendirmesi. EJOSAT. 2022;(36):121-127. doi:10.31590/ejosat.1111314
Chicago
Yalman, Halil İbrahim, ve Zekeriya Tüfekci. 2022. “Konuşma Tanımaya Uygulanan BiRNN, BiLSTM ve BiGRU Modellerinin Performans Değerlendirmesi”. Avrupa Bilim ve Teknoloji Dergisi, sy 36: 121-27. https://doi.org/10.31590/ejosat.1111314.
EndNote
Yalman Hİ, Tüfekci Z (01 Mayıs 2022) Konuşma Tanımaya Uygulanan BiRNN, BiLSTM ve BiGRU Modellerinin Performans Değerlendirmesi. Avrupa Bilim ve Teknoloji Dergisi 36 121–127.
IEEE
[1]H. İ. Yalman ve Z. Tüfekci, “Konuşma Tanımaya Uygulanan BiRNN, BiLSTM ve BiGRU Modellerinin Performans Değerlendirmesi”, EJOSAT, sy 36, ss. 121–127, May. 2022, doi: 10.31590/ejosat.1111314.
ISNAD
Yalman, Halil İbrahim - Tüfekci, Zekeriya. “Konuşma Tanımaya Uygulanan BiRNN, BiLSTM ve BiGRU Modellerinin Performans Değerlendirmesi”. Avrupa Bilim ve Teknoloji Dergisi. 36 (01 Mayıs 2022): 121-127. https://doi.org/10.31590/ejosat.1111314.
JAMA
1.Yalman Hİ, Tüfekci Z. Konuşma Tanımaya Uygulanan BiRNN, BiLSTM ve BiGRU Modellerinin Performans Değerlendirmesi. EJOSAT. 2022;:121–127.
MLA
Yalman, Halil İbrahim, ve Zekeriya Tüfekci. “Konuşma Tanımaya Uygulanan BiRNN, BiLSTM ve BiGRU Modellerinin Performans Değerlendirmesi”. Avrupa Bilim ve Teknoloji Dergisi, sy 36, Mayıs 2022, ss. 121-7, doi:10.31590/ejosat.1111314.
Vancouver
1.Halil İbrahim Yalman, Zekeriya Tüfekci. Konuşma Tanımaya Uygulanan BiRNN, BiLSTM ve BiGRU Modellerinin Performans Değerlendirmesi. EJOSAT. 01 Mayıs 2022;(36):121-7. doi:10.31590/ejosat.1111314