Araştırma Makalesi

Türkçe Günlük Kelime ve İfadeler Kullanarak CNN ve LSTM ile Görsel Konuşma Tanıma

Cilt: 8 Sayı: 2 22 Aralık 2024
PDF İndir
EN TR

Türkçe Günlük Kelime ve İfadeler Kullanarak CNN ve LSTM ile Görsel Konuşma Tanıma

Öz

Dudak okuma; el hareketleri, jestler ve yüz ifadeleri gibi konuşma örüntülerini, hareketlerini ve mimiklerini değerlendirmek amacıyla bir konuşmacının yüzünü incelemek olarak tanımlanmaktadır. Bilgisayarlara dudak okuma yeteneği kazandırma çalışmaları, derin öğrenmede sınıflandırma ve örüntü tanıma alanında büyüyen bir araştırma alanıdır ve günümüzde hâlâ çözülmesi gereken açık problemler barındırmaktadır. Son yıllarda, farklı dillerde konuşmayı metne dönüştürmek ve sınıflandırmak için çeşitli yöntemler geliştirilmiş ve uygulanmıştır. Ayrıca, çoğu yöntemde çok modlu veriler, yani konuşma ve görüntü verileri birleştirilmiştir. Bu çalışma, görüntülerle yeni Türkçe dudak okuma verileri sağlamayı ve Türkçe günlük kelimeler için yüksek doğrulukta bir sınıflandırma yöntemi sunmayı amaçlamaktadır. Kullanılan veriler, YouTube platformundan toplanmıştır. Bu zorlu verilerle, günlük kelimeleri ve ifadeleri sınıflandırmak için Evrişimli Sinir Ağı (Convolutional Neural Network – CNN) ve Uzun Kısa-Süreli Bellek (Long Short-Term Memory – LSTM) eğitilmiştir. Birçok deney sonucuna göre, CNN modeli daha iyi performans göstermiştir. Çoklu model verileri kullanmadan yalnızca görüntüler kullanmak, belleğin yorgunluğunu önler ve hesaplama süresini azaltır. Ayrıca, literatürde sınırlı bir çeşitlilik olduğundan, bu çalışma çok sınıflı Türkçe bir veri seti sunmaktadır.

Anahtar Kelimeler

Destekleyen Kurum

Aselsan-Bites

Kaynakça

  1. [1] C. G. Fisher. “Confusions among visually perceived consonants.” Journal of Speech, Language, and Hearing Research, 11(4) pp. 796–804, Dec. 1968.
  2. [2] R. D. Easton and M. Basala. “Perceptual dominance during lipreading”. Perception and Psychophysics, 32(6) pp.562–570, Nov. 1982.
  3. [3] Cecilia Tejedor, A. Leer en los labios. Manual práctico para entrenamiento de la comprensión labiolectora. Madrid: CEPE, 2000.
  4. [4] Shrestha, K. (n.d.). “Lip Reading using Neural Network and Deep learning.” 1802.
  5. [5] T. Ozcan, and A. Basturk, “Lip Reading Using Convolutional Neural Networks with and without Pre-Trained Models.” Balkan Journal of Electrical and Computer Engineering, vol. 7(2) pp. 195-201, Apr. 2019.
  6. [6] J. S. Chung, A. Senior, O. Vinyals, and A. Zisserman, “Lip reading sentences in the wild.” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, pp. 6447-6456.
  7. [7] Chitu, A., Rothkrantz, L. “Visual Speech Recognition Automatic System for Lip Reading of Dutch”. Journal on Information Technologies and Control, vol. 7, no. 3, pp. 2-9, 2009.
  8. [8] K. Saenko, K. Livescu, M. Siracusa, K. Wilson, J. Glass, T. Darrell “Visual Speech Recognition with Loosely Synchronized Feature Streams,” in Proceedings of the 10th International Conference on Computer Vision, 2005, pp.1424–1431.

Ayrıntılar

Birincil Dil

Türkçe

Konular

Konuşma Tanıma

Bölüm

Araştırma Makalesi

Erken Görünüm Tarihi

9 Aralık 2024

Yayımlanma Tarihi

22 Aralık 2024

Gönderilme Tarihi

31 Temmuz 2024

Kabul Tarihi

13 Eylül 2024

Yayımlandığı Sayı

Yıl 2024 Cilt: 8 Sayı: 2

Kaynak Göster

APA
Berkol, A., Pervan Akman, N., Tümer Sivri, T., & Erdem, H. (2024). Türkçe Günlük Kelime ve İfadeler Kullanarak CNN ve LSTM ile Görsel Konuşma Tanıma. International Journal of Multidisciplinary Studies and Innovative Technologies, 8(2), 69-75. https://izlik.org/JA47SW57WJ
AMA
1.Berkol A, Pervan Akman N, Tümer Sivri T, Erdem H. Türkçe Günlük Kelime ve İfadeler Kullanarak CNN ve LSTM ile Görsel Konuşma Tanıma. IJMSIT. 2024;8(2):69-75. https://izlik.org/JA47SW57WJ
Chicago
Berkol, Ali, Nergis Pervan Akman, Talya Tümer Sivri, ve Hamit Erdem. 2024. “Türkçe Günlük Kelime ve İfadeler Kullanarak CNN ve LSTM ile Görsel Konuşma Tanıma”. International Journal of Multidisciplinary Studies and Innovative Technologies 8 (2): 69-75. https://izlik.org/JA47SW57WJ.
EndNote
Berkol A, Pervan Akman N, Tümer Sivri T, Erdem H (01 Aralık 2024) Türkçe Günlük Kelime ve İfadeler Kullanarak CNN ve LSTM ile Görsel Konuşma Tanıma. International Journal of Multidisciplinary Studies and Innovative Technologies 8 2 69–75.
IEEE
[1]A. Berkol, N. Pervan Akman, T. Tümer Sivri, ve H. Erdem, “Türkçe Günlük Kelime ve İfadeler Kullanarak CNN ve LSTM ile Görsel Konuşma Tanıma”, IJMSIT, c. 8, sy 2, ss. 69–75, Ara. 2024, [çevrimiçi]. Erişim adresi: https://izlik.org/JA47SW57WJ
ISNAD
Berkol, Ali - Pervan Akman, Nergis - Tümer Sivri, Talya - Erdem, Hamit. “Türkçe Günlük Kelime ve İfadeler Kullanarak CNN ve LSTM ile Görsel Konuşma Tanıma”. International Journal of Multidisciplinary Studies and Innovative Technologies 8/2 (01 Aralık 2024): 69-75. https://izlik.org/JA47SW57WJ.
JAMA
1.Berkol A, Pervan Akman N, Tümer Sivri T, Erdem H. Türkçe Günlük Kelime ve İfadeler Kullanarak CNN ve LSTM ile Görsel Konuşma Tanıma. IJMSIT. 2024;8:69–75.
MLA
Berkol, Ali, vd. “Türkçe Günlük Kelime ve İfadeler Kullanarak CNN ve LSTM ile Görsel Konuşma Tanıma”. International Journal of Multidisciplinary Studies and Innovative Technologies, c. 8, sy 2, Aralık 2024, ss. 69-75, https://izlik.org/JA47SW57WJ.
Vancouver
1.Ali Berkol, Nergis Pervan Akman, Talya Tümer Sivri, Hamit Erdem. Türkçe Günlük Kelime ve İfadeler Kullanarak CNN ve LSTM ile Görsel Konuşma Tanıma. IJMSIT [Internet]. 01 Aralık 2024;8(2):69-75. Erişim adresi: https://izlik.org/JA47SW57WJ