Research Article

Türkçe Günlük Kelime ve İfadeler Kullanarak CNN ve LSTM ile Görsel Konuşma Tanıma

Volume: 8 Number: 2 December 22, 2024
EN TR

Türkçe Günlük Kelime ve İfadeler Kullanarak CNN ve LSTM ile Görsel Konuşma Tanıma

Abstract

Dudak okuma; el hareketleri, jestler ve yüz ifadeleri gibi konuşma örüntülerini, hareketlerini ve mimiklerini değerlendirmek amacıyla bir konuşmacının yüzünü incelemek olarak tanımlanmaktadır. Bilgisayarlara dudak okuma yeteneği kazandırma çalışmaları, derin öğrenmede sınıflandırma ve örüntü tanıma alanında büyüyen bir araştırma alanıdır ve günümüzde hâlâ çözülmesi gereken açık problemler barındırmaktadır. Son yıllarda, farklı dillerde konuşmayı metne dönüştürmek ve sınıflandırmak için çeşitli yöntemler geliştirilmiş ve uygulanmıştır. Ayrıca, çoğu yöntemde çok modlu veriler, yani konuşma ve görüntü verileri birleştirilmiştir. Bu çalışma, görüntülerle yeni Türkçe dudak okuma verileri sağlamayı ve Türkçe günlük kelimeler için yüksek doğrulukta bir sınıflandırma yöntemi sunmayı amaçlamaktadır. Kullanılan veriler, YouTube platformundan toplanmıştır. Bu zorlu verilerle, günlük kelimeleri ve ifadeleri sınıflandırmak için Evrişimli Sinir Ağı (Convolutional Neural Network – CNN) ve Uzun Kısa-Süreli Bellek (Long Short-Term Memory – LSTM) eğitilmiştir. Birçok deney sonucuna göre, CNN modeli daha iyi performans göstermiştir. Çoklu model verileri kullanmadan yalnızca görüntüler kullanmak, belleğin yorgunluğunu önler ve hesaplama süresini azaltır. Ayrıca, literatürde sınırlı bir çeşitlilik olduğundan, bu çalışma çok sınıflı Türkçe bir veri seti sunmaktadır.

Keywords

Supporting Institution

Aselsan-Bites

References

  1. [1] C. G. Fisher. “Confusions among visually perceived consonants.” Journal of Speech, Language, and Hearing Research, 11(4) pp. 796–804, Dec. 1968.
  2. [2] R. D. Easton and M. Basala. “Perceptual dominance during lipreading”. Perception and Psychophysics, 32(6) pp.562–570, Nov. 1982.
  3. [3] Cecilia Tejedor, A. Leer en los labios. Manual práctico para entrenamiento de la comprensión labiolectora. Madrid: CEPE, 2000.
  4. [4] Shrestha, K. (n.d.). “Lip Reading using Neural Network and Deep learning.” 1802.
  5. [5] T. Ozcan, and A. Basturk, “Lip Reading Using Convolutional Neural Networks with and without Pre-Trained Models.” Balkan Journal of Electrical and Computer Engineering, vol. 7(2) pp. 195-201, Apr. 2019.
  6. [6] J. S. Chung, A. Senior, O. Vinyals, and A. Zisserman, “Lip reading sentences in the wild.” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, pp. 6447-6456.
  7. [7] Chitu, A., Rothkrantz, L. “Visual Speech Recognition Automatic System for Lip Reading of Dutch”. Journal on Information Technologies and Control, vol. 7, no. 3, pp. 2-9, 2009.
  8. [8] K. Saenko, K. Livescu, M. Siracusa, K. Wilson, J. Glass, T. Darrell “Visual Speech Recognition with Loosely Synchronized Feature Streams,” in Proceedings of the 10th International Conference on Computer Vision, 2005, pp.1424–1431.

Details

Primary Language

Turkish

Subjects

Speech Recognition

Journal Section

Research Article

Early Pub Date

December 9, 2024

Publication Date

December 22, 2024

Submission Date

July 31, 2024

Acceptance Date

September 13, 2024

Published in Issue

Year 2024 Volume: 8 Number: 2

APA
Berkol, A., Pervan Akman, N., Tümer Sivri, T., & Erdem, H. (2024). Türkçe Günlük Kelime ve İfadeler Kullanarak CNN ve LSTM ile Görsel Konuşma Tanıma. International Journal of Multidisciplinary Studies and Innovative Technologies, 8(2), 69-75. https://izlik.org/JA47SW57WJ
AMA
1.Berkol A, Pervan Akman N, Tümer Sivri T, Erdem H. Türkçe Günlük Kelime ve İfadeler Kullanarak CNN ve LSTM ile Görsel Konuşma Tanıma. IJMSIT. 2024;8(2):69-75. https://izlik.org/JA47SW57WJ
Chicago
Berkol, Ali, Nergis Pervan Akman, Talya Tümer Sivri, and Hamit Erdem. 2024. “Türkçe Günlük Kelime Ve İfadeler Kullanarak CNN Ve LSTM Ile Görsel Konuşma Tanıma”. International Journal of Multidisciplinary Studies and Innovative Technologies 8 (2): 69-75. https://izlik.org/JA47SW57WJ.
EndNote
Berkol A, Pervan Akman N, Tümer Sivri T, Erdem H (December 1, 2024) Türkçe Günlük Kelime ve İfadeler Kullanarak CNN ve LSTM ile Görsel Konuşma Tanıma. International Journal of Multidisciplinary Studies and Innovative Technologies 8 2 69–75.
IEEE
[1]A. Berkol, N. Pervan Akman, T. Tümer Sivri, and H. Erdem, “Türkçe Günlük Kelime ve İfadeler Kullanarak CNN ve LSTM ile Görsel Konuşma Tanıma”, IJMSIT, vol. 8, no. 2, pp. 69–75, Dec. 2024, [Online]. Available: https://izlik.org/JA47SW57WJ
ISNAD
Berkol, Ali - Pervan Akman, Nergis - Tümer Sivri, Talya - Erdem, Hamit. “Türkçe Günlük Kelime Ve İfadeler Kullanarak CNN Ve LSTM Ile Görsel Konuşma Tanıma”. International Journal of Multidisciplinary Studies and Innovative Technologies 8/2 (December 1, 2024): 69-75. https://izlik.org/JA47SW57WJ.
JAMA
1.Berkol A, Pervan Akman N, Tümer Sivri T, Erdem H. Türkçe Günlük Kelime ve İfadeler Kullanarak CNN ve LSTM ile Görsel Konuşma Tanıma. IJMSIT. 2024;8:69–75.
MLA
Berkol, Ali, et al. “Türkçe Günlük Kelime Ve İfadeler Kullanarak CNN Ve LSTM Ile Görsel Konuşma Tanıma”. International Journal of Multidisciplinary Studies and Innovative Technologies, vol. 8, no. 2, Dec. 2024, pp. 69-75, https://izlik.org/JA47SW57WJ.
Vancouver
1.Ali Berkol, Nergis Pervan Akman, Talya Tümer Sivri, Hamit Erdem. Türkçe Günlük Kelime ve İfadeler Kullanarak CNN ve LSTM ile Görsel Konuşma Tanıma. IJMSIT [Internet]. 2024 Dec. 1;8(2):69-75. Available from: https://izlik.org/JA47SW57WJ