Araştırma Makalesi

Yeni Türkçe Veri Seti ile Evrişimli Sinir Ağları Kullanarak Kelime Seviyesinde Otomatik Dudak Okuma

Cilt: 9 Sayı: 1 31 Temmuz 2025
PDF İndir
EN TR

Yeni Türkçe Veri Seti ile Evrişimli Sinir Ağları Kullanarak Kelime Seviyesinde Otomatik Dudak Okuma

Öz

Otomatik dudak okuma, son yıllarda önemli ölçüde gelişen bir araştırma problemidir. Dudak okuma, bazı durumlarda hem görsel hem de işitsel olarak değerlendirilmektedir. Bir güvenlik kamerasından istenmeyen bir kelimenin tespit edilmesi, görsel dudak okuma problemine bir örnektir. Bu tür salt görüntü içeren verilerin bulunduğu durumlarda, görsel-işitsel veri setleri uygulanamaz. Dolayısıyla, her durumda ses girdisine sahip olamayabiliriz. Telaffuz edilen kelimenin ses girdisini her durumda elde etmek mümkün değildir. Bu çalışmada, yalnızca görüntü içeren yeni bir Türkçe veri seti topladık. Yeni veri seti, kontrolsüz bir ortam olan Youtube videoları kullanılarak üretilmiştir. Bu nedenle, görüntüler ışık, açı, renk ve yüzün kişisel özellikleri gibi çevresel faktörler açısından zorlu parametrelere sahiptir. İnsan yüzündeki bıyık, sakal ve makyaj gibi farklı özelliklere rağmen, veri üzerinde herhangi bir müdahale olmadan Konvolüsyonel Sinir Ağları (CNN) kullanılarak tekil kelimeler ve iki kelimelik ifadeler dahil 10 sınıfta görsel konuşma tanıma problemi geliştirilmiştir. Yalnızca görsel veri kullanılarak önerilen çalışma, derin öğrenme yaklaşımıyla otomatikleştirilmiş görsel konuşma tanıma modelini elde etmiştir. Ayrıca, bu çalışmada yalnızca görsel veri kullanıldığı için hesaplama maliyeti ve kaynak kullanımı çok modlu çalışmalara göre daha azdır. Aynı zamanda Ural-Altay dillerine ait yeni bir veri seti kullanılarak dudak okuma sorununu derin öğrenme algoritmasıyla ele alan bilinen ilk çalışmadır.

Anahtar Kelimeler

Destekleyen Kurum

Aselsan-Bites

Kaynakça

  1. [1] H. McGurk, J. MacDonald, “Hearing lips and seeing voices.” Nature, 264, pp. 746–748, 1976.
  2. [2] A. Gabbay, A. Ephrat, T. Halperin, S. Peleg, “Seeing through noise: Speaker separation and enhancement using visually-derived speech.” arXiv preprint arXiv:1708.06767, 4, 2017.
  3. [3] D. Stewart, R. Seymour, A. Pass, J. Ming, “Robust audio-visual speech recognition under noisy audio-video conditions.” IEEE transactions on cybernetics, 44, pp. 175–184, 2013.
  4. [4] F.S. Lesani, F.F. Ghazvini, R. Dianat, “Mobile phone security using automatic lip reading.” in Proceedings of the 2015 9th International Conference on e-Commerce in Developing Countries: With focus on e-Business (ECDC). IEEE, 2015, pp. 1–5.
  5. [5] S. Mathulaprangsan, C.Y. Wang, A.Z. Kusum, T.C. Tai, J.C. Wang, “A survey of visual lip reading and lip-password verification.” in Proceedings of the 2015 International Conference on Orange Technologies (ICOT). IEEE, 2015, pp. 22–25.
  6. [6] S. Sengupta, A. Bhattacharya, P. Desai, A. Gupta, “Automated lip reading technique for password authentication.” International Journal of Applied Information Systems (IJAIS) 2012, pp. 18–24.
  7. [7] J. Son Chung, A. Senior, O. Vinyals, A. Zisserman, “Lip reading sentences in the wild.” in Proceedings of the Proceedings of the IEEE conference on computer vision and pattern recognition, 2017, pp. 6447–6456.
  8. [8] Y.M. Assael, B. Shillingford, S. Whiteson, N. De Freitas, “Lipnet: Sentence-level lipreading.” arXiv preprint arXiv:1611.01599, 2, 2016.

Ayrıntılar

Birincil Dil

Türkçe

Konular

Konuşma Tanıma

Bölüm

Araştırma Makalesi

Erken Görünüm Tarihi

17 Temmuz 2025

Yayımlanma Tarihi

31 Temmuz 2025

Gönderilme Tarihi

3 Mart 2025

Kabul Tarihi

27 Nisan 2025

Yayımlandığı Sayı

Yıl 2025 Cilt: 9 Sayı: 1

Kaynak Göster

APA
Berkol, A., Pervan Akman, N., & Erdem, H. (2025). Yeni Türkçe Veri Seti ile Evrişimli Sinir Ağları Kullanarak Kelime Seviyesinde Otomatik Dudak Okuma. International Journal of Multidisciplinary Studies and Innovative Technologies, 9(1), 83-93. https://izlik.org/JA29MX46ZR
AMA
1.Berkol A, Pervan Akman N, Erdem H. Yeni Türkçe Veri Seti ile Evrişimli Sinir Ağları Kullanarak Kelime Seviyesinde Otomatik Dudak Okuma. IJMSIT. 2025;9(1):83-93. https://izlik.org/JA29MX46ZR
Chicago
Berkol, Ali, Nergis Pervan Akman, ve Hamit Erdem. 2025. “Yeni Türkçe Veri Seti ile Evrişimli Sinir Ağları Kullanarak Kelime Seviyesinde Otomatik Dudak Okuma”. International Journal of Multidisciplinary Studies and Innovative Technologies 9 (1): 83-93. https://izlik.org/JA29MX46ZR.
EndNote
Berkol A, Pervan Akman N, Erdem H (01 Ağustos 2025) Yeni Türkçe Veri Seti ile Evrişimli Sinir Ağları Kullanarak Kelime Seviyesinde Otomatik Dudak Okuma. International Journal of Multidisciplinary Studies and Innovative Technologies 9 1 83–93.
IEEE
[1]A. Berkol, N. Pervan Akman, ve H. Erdem, “Yeni Türkçe Veri Seti ile Evrişimli Sinir Ağları Kullanarak Kelime Seviyesinde Otomatik Dudak Okuma”, IJMSIT, c. 9, sy 1, ss. 83–93, Ağu. 2025, [çevrimiçi]. Erişim adresi: https://izlik.org/JA29MX46ZR
ISNAD
Berkol, Ali - Pervan Akman, Nergis - Erdem, Hamit. “Yeni Türkçe Veri Seti ile Evrişimli Sinir Ağları Kullanarak Kelime Seviyesinde Otomatik Dudak Okuma”. International Journal of Multidisciplinary Studies and Innovative Technologies 9/1 (01 Ağustos 2025): 83-93. https://izlik.org/JA29MX46ZR.
JAMA
1.Berkol A, Pervan Akman N, Erdem H. Yeni Türkçe Veri Seti ile Evrişimli Sinir Ağları Kullanarak Kelime Seviyesinde Otomatik Dudak Okuma. IJMSIT. 2025;9:83–93.
MLA
Berkol, Ali, vd. “Yeni Türkçe Veri Seti ile Evrişimli Sinir Ağları Kullanarak Kelime Seviyesinde Otomatik Dudak Okuma”. International Journal of Multidisciplinary Studies and Innovative Technologies, c. 9, sy 1, Ağustos 2025, ss. 83-93, https://izlik.org/JA29MX46ZR.
Vancouver
1.Ali Berkol, Nergis Pervan Akman, Hamit Erdem. Yeni Türkçe Veri Seti ile Evrişimli Sinir Ağları Kullanarak Kelime Seviyesinde Otomatik Dudak Okuma. IJMSIT [Internet]. 01 Ağustos 2025;9(1):83-9. Erişim adresi: https://izlik.org/JA29MX46ZR