TR
EN
Ses Telleri Görüntülerinde Otomatik Piksel Tabanlı Sınıflandırma için Performans Ölçütlerinin İncelenmesi
Öz
Son yıllarda yapılan konuşma sistemi ile ilgili sorunların tespit edilmesinde ve konuşma analizinde gelişen teknolojinin getirdiği imkanlar sayesinde ses tellerinin yüksek hızlı görüntüleri yaygın olarak kullanılmaya başlanmıştır. Bu yüksek hızlı görüntüler konuşmacının ses tellerinin vibrasyonuyla ilgili detaylı bilgiler içerir. Fakat verinin büyüklüğü göz önüne alındığında bu görüntülerin manuel olarak işlenmesi mümkün görünmemektedir. Bu nedenle son yıllarda geliştirilen otomatik görüntü işleme algoritmaları ile ses telleri görüntülerinden glottis tespiti ve bölütlenmesi popüler hale gelmiştir. Bu çalışmada literatürdeki çalışmalardan farklı olarak ses telleri görüntülerinin piksel tabanlı otomatik sınıflandırılabilmesi için kullanılabilecek olan doğruluk, keskinlik (hassasiyet), geri çağırma, F1 skoru ve eşit hata oranı performans ölçütleri incelenmiştir. Bununla birlikte literatürdeki piksel tabanlı sınıflandırma modeli olan derin yapay sinir ağı temel sistem olarak alınarak yeni önerilen Gauss Karışım Modeli tabanlı sistem ile kıyaslanmıştır. Boyutları 256x256 olan manuel olarak bölütlenmiş 3000 adet yüksek hızlı endoskopik kamera görüntüsü rasgele olarak eğitim, geliştirme ve değerlendirme veri setlerini oluşturmak için kullanılmıştır. Veri seti ile eğitilen modellerin, geliştirme ve değerlendirme setleri ile yapılan çalışmalar sonucunda ikili sınıflandırmada yaygın olarak kullanılan doğruluk, keskinlik, geri çağırma ve F1 skoru ölçütlerinin modelden modele yaklaşık sadece %1 oranında değiştiği ve bu sonuçların sistem performansını yansıtma konusunda, aynı durumda % 22 değişim gösterebilen eşit hata oranı kadar etkili olmadığını göstermiştir. Bu çalışmanın sonucunda sistemlerin doğruluk değerleri aynı kalsa bile eşit hata oranı farkları değişebilmekte, bu nedenle aşırı uydurulmuş sistemlerin daha doğru kestirilebildiği gösterilmektedir. Temel sistem ile önerilen modeller karşılaştırıldığında, önerilen sistem 4096 karışımlı Gauss Karışım Modeli, kullanılan bütün performans ölçütleri için en iyi sonucu vermiş olup, değerlendirme setindeki eşit hata oranı için %22’lik bir performans iyileştirmesi göstermiştir.
Anahtar Kelimeler
Kaynakça
- Cen, Q., Pan, Z., Li, Y., & Ding, H. (2019, January). Laryngeal Tumor Detection in Endoscopic Images Based on Convolutional Neural Network. In 2019 IEEE 2nd International Conference on Electronic Information and Communication Technology (ICEICT) (pp. 604-608). IEEE.
- Turkmen, H. I., Karsligil, M. E., & Kocak, I. (2015). Classification of laryngeal disorders based on shape and vascular defects of vocal folds. Computers in biology and medicine, 62, 76-85.
- Aubreville, M., Knipfer, C., Oetter, N., Jaremenko, C., Rodner, E., Denzler, J., ... & Maier, A. (2017). Automatic classification of cancerous tissue in laserendomicroscopy images of the oral cavity using deep learning. Scientific reports, 7(1), 1-10.
- Drioli, C., & Foresti, G. L. (2020). Fitting a biomechanical model of the folds to high-speed video data through bayesian estimation. Informatics in Medicine Unlocked, 20, 100373.
- Khairuddin, K. A. M., Ahmad, K., Ibrahim, H. M., & Yan, Y. (2020). Description of the Features and Vibratory Behaviors of the Nyquist Plot Analyzed From Laryngeal High-Speed Videoendoscopy Images. Journal of Voice.
- Fehling, M. K., Grosch, F., Schuster, M. E., Schick, B., & Lohscheller, J. (2020). Fully automatic segmentation of glottis and vocal folds in endoscopic laryngeal high-speed videos using a deep Convolutional LSTM Network. Plos one, 15(2), e0227791.
- Andrade-Miranda, G., Stylianou, Y., Deliyski, D. D., Godino-Llorente, J. I., & Henrich Bernardoni, N. (2020). Laryngeal Image Processing of Vocal Folds Motion. Applied Sciences, 10(5), 1556.
- Deliyski, D. D., Powell, M. E., Zacharias, S. R., Gerlach, T. T., & de Alarcon, A. (2015). Experimental investigation on minimum frame rate requirements of high-speed videoendoscopy for clinical voice assessment. Biomedical Signal Processing and Control, 17, 21-28.
Ayrıntılar
Birincil Dil
Türkçe
Konular
Mühendislik
Bölüm
Araştırma Makalesi
Yayımlanma Tarihi
30 Kasım 2020
Gönderilme Tarihi
1 Kasım 2020
Kabul Tarihi
7 Kasım 2020
Yayımlandığı Sayı
Yıl 2020