Research Article

Yeni Türkçe Veri Seti ile Evrişimli Sinir Ağları Kullanarak Kelime Seviyesinde Otomatik Dudak Okuma

Volume: 9 Number: 1 July 31, 2025
EN TR

Yeni Türkçe Veri Seti ile Evrişimli Sinir Ağları Kullanarak Kelime Seviyesinde Otomatik Dudak Okuma

Abstract

Otomatik dudak okuma, son yıllarda önemli ölçüde gelişen bir araştırma problemidir. Dudak okuma, bazı durumlarda hem görsel hem de işitsel olarak değerlendirilmektedir. Bir güvenlik kamerasından istenmeyen bir kelimenin tespit edilmesi, görsel dudak okuma problemine bir örnektir. Bu tür salt görüntü içeren verilerin bulunduğu durumlarda, görsel-işitsel veri setleri uygulanamaz. Dolayısıyla, her durumda ses girdisine sahip olamayabiliriz. Telaffuz edilen kelimenin ses girdisini her durumda elde etmek mümkün değildir. Bu çalışmada, yalnızca görüntü içeren yeni bir Türkçe veri seti topladık. Yeni veri seti, kontrolsüz bir ortam olan Youtube videoları kullanılarak üretilmiştir. Bu nedenle, görüntüler ışık, açı, renk ve yüzün kişisel özellikleri gibi çevresel faktörler açısından zorlu parametrelere sahiptir. İnsan yüzündeki bıyık, sakal ve makyaj gibi farklı özelliklere rağmen, veri üzerinde herhangi bir müdahale olmadan Konvolüsyonel Sinir Ağları (CNN) kullanılarak tekil kelimeler ve iki kelimelik ifadeler dahil 10 sınıfta görsel konuşma tanıma problemi geliştirilmiştir. Yalnızca görsel veri kullanılarak önerilen çalışma, derin öğrenme yaklaşımıyla otomatikleştirilmiş görsel konuşma tanıma modelini elde etmiştir. Ayrıca, bu çalışmada yalnızca görsel veri kullanıldığı için hesaplama maliyeti ve kaynak kullanımı çok modlu çalışmalara göre daha azdır. Aynı zamanda Ural-Altay dillerine ait yeni bir veri seti kullanılarak dudak okuma sorununu derin öğrenme algoritmasıyla ele alan bilinen ilk çalışmadır.

Keywords

Supporting Institution

Aselsan-Bites

References

  1. [1] H. McGurk, J. MacDonald, “Hearing lips and seeing voices.” Nature, 264, pp. 746–748, 1976.
  2. [2] A. Gabbay, A. Ephrat, T. Halperin, S. Peleg, “Seeing through noise: Speaker separation and enhancement using visually-derived speech.” arXiv preprint arXiv:1708.06767, 4, 2017.
  3. [3] D. Stewart, R. Seymour, A. Pass, J. Ming, “Robust audio-visual speech recognition under noisy audio-video conditions.” IEEE transactions on cybernetics, 44, pp. 175–184, 2013.
  4. [4] F.S. Lesani, F.F. Ghazvini, R. Dianat, “Mobile phone security using automatic lip reading.” in Proceedings of the 2015 9th International Conference on e-Commerce in Developing Countries: With focus on e-Business (ECDC). IEEE, 2015, pp. 1–5.
  5. [5] S. Mathulaprangsan, C.Y. Wang, A.Z. Kusum, T.C. Tai, J.C. Wang, “A survey of visual lip reading and lip-password verification.” in Proceedings of the 2015 International Conference on Orange Technologies (ICOT). IEEE, 2015, pp. 22–25.
  6. [6] S. Sengupta, A. Bhattacharya, P. Desai, A. Gupta, “Automated lip reading technique for password authentication.” International Journal of Applied Information Systems (IJAIS) 2012, pp. 18–24.
  7. [7] J. Son Chung, A. Senior, O. Vinyals, A. Zisserman, “Lip reading sentences in the wild.” in Proceedings of the Proceedings of the IEEE conference on computer vision and pattern recognition, 2017, pp. 6447–6456.
  8. [8] Y.M. Assael, B. Shillingford, S. Whiteson, N. De Freitas, “Lipnet: Sentence-level lipreading.” arXiv preprint arXiv:1611.01599, 2, 2016.

Details

Primary Language

Turkish

Subjects

Speech Recognition

Journal Section

Research Article

Early Pub Date

July 17, 2025

Publication Date

July 31, 2025

Submission Date

March 3, 2025

Acceptance Date

April 27, 2025

Published in Issue

Year 2025 Volume: 9 Number: 1

APA
Berkol, A., Pervan Akman, N., & Erdem, H. (2025). Yeni Türkçe Veri Seti ile Evrişimli Sinir Ağları Kullanarak Kelime Seviyesinde Otomatik Dudak Okuma. International Journal of Multidisciplinary Studies and Innovative Technologies, 9(1), 83-93. https://izlik.org/JA29MX46ZR
AMA
1.Berkol A, Pervan Akman N, Erdem H. Yeni Türkçe Veri Seti ile Evrişimli Sinir Ağları Kullanarak Kelime Seviyesinde Otomatik Dudak Okuma. IJMSIT. 2025;9(1):83-93. https://izlik.org/JA29MX46ZR
Chicago
Berkol, Ali, Nergis Pervan Akman, and Hamit Erdem. 2025. “Yeni Türkçe Veri Seti Ile Evrişimli Sinir Ağları Kullanarak Kelime Seviyesinde Otomatik Dudak Okuma”. International Journal of Multidisciplinary Studies and Innovative Technologies 9 (1): 83-93. https://izlik.org/JA29MX46ZR.
EndNote
Berkol A, Pervan Akman N, Erdem H (August 1, 2025) Yeni Türkçe Veri Seti ile Evrişimli Sinir Ağları Kullanarak Kelime Seviyesinde Otomatik Dudak Okuma. International Journal of Multidisciplinary Studies and Innovative Technologies 9 1 83–93.
IEEE
[1]A. Berkol, N. Pervan Akman, and H. Erdem, “Yeni Türkçe Veri Seti ile Evrişimli Sinir Ağları Kullanarak Kelime Seviyesinde Otomatik Dudak Okuma”, IJMSIT, vol. 9, no. 1, pp. 83–93, Aug. 2025, [Online]. Available: https://izlik.org/JA29MX46ZR
ISNAD
Berkol, Ali - Pervan Akman, Nergis - Erdem, Hamit. “Yeni Türkçe Veri Seti Ile Evrişimli Sinir Ağları Kullanarak Kelime Seviyesinde Otomatik Dudak Okuma”. International Journal of Multidisciplinary Studies and Innovative Technologies 9/1 (August 1, 2025): 83-93. https://izlik.org/JA29MX46ZR.
JAMA
1.Berkol A, Pervan Akman N, Erdem H. Yeni Türkçe Veri Seti ile Evrişimli Sinir Ağları Kullanarak Kelime Seviyesinde Otomatik Dudak Okuma. IJMSIT. 2025;9:83–93.
MLA
Berkol, Ali, et al. “Yeni Türkçe Veri Seti Ile Evrişimli Sinir Ağları Kullanarak Kelime Seviyesinde Otomatik Dudak Okuma”. International Journal of Multidisciplinary Studies and Innovative Technologies, vol. 9, no. 1, Aug. 2025, pp. 83-93, https://izlik.org/JA29MX46ZR.
Vancouver
1.Ali Berkol, Nergis Pervan Akman, Hamit Erdem. Yeni Türkçe Veri Seti ile Evrişimli Sinir Ağları Kullanarak Kelime Seviyesinde Otomatik Dudak Okuma. IJMSIT [Internet]. 2025 Aug. 1;9(1):83-9. Available from: https://izlik.org/JA29MX46ZR