Konferans Bildirisi

Akıllı Telefonlar için Birleştirme Modeli Tabanlı Görüntü Altyazılama

Sayı: 26 31 Temmuz 2021
PDF İndir
TR EN

Akıllı Telefonlar için Birleştirme Modeli Tabanlı Görüntü Altyazılama

Öz

Görüntü altyazılama, bir görüntünün metinsel açıklamasını doğal dil işleme ve bilgisayarlı görü kullanılarak oluşturma işlemidir. Bir görüntünün görsel içeriğini makineye tanımlatmak, potansiyel uygulamaları nedeniyle son yıllarda artarak ilgi görmüştür. Bu çalışmada, akıllı telefonlarda uygulanabilir, kodlayıcı-kod çözücü yaklaşımına dayanan birleştirme modeli tabanlı bir görüntü altyazılama sistemi önerilmektedir. Önerilen birleştirme modelinde kodlayıcı olarak görüntü özniteliklerini çıkarmak için VGG16 evrişimsel sinir ağları ve kelime özelliklerini çıkarmak için uzun-kısa dönemli bellek yapısı kullanılmıştır. Bu iki işlem sonrası, görüntü özniteliklerinin ve oluşturulan kelime özelliklerinin kodlanmış biçimleri önerilen modelde birleştirilmiştir. Bu iki kodlanmış girdinin kombinasyonu daha sonra dizideki bir sonraki kelimeyi oluşturmak için çok basit bir kod çözücü modeli tarafından kullanılarak görüntülerin doğal dile uygun altyazıları başarıyla üretilmiştir. Önerilen sistem Flickr8k/30k veri kümeleri üzerinde BLEUn metriği kullanılarak test edilmiş ve literatürdeki çalışmalarla kıyaslanarak sağladığı üstünlük gösterilmiştir. Önerilen sistem, ayrıca, benzer çalışmalardan farklı olarak internet bağlantısı olmadan görüntü altyazısı üretebilecek şekilde geliştirdiğimiz ImCap adlı Android uygulamamız üzerinde de başarıyla çalıştırılmıştır. Bu uygulama ile görüntü altyazılamanın daha çok kullanıcıya ulaşması amaçlanmıştır.

Anahtar Kelimeler

Kaynakça

  1. Bigham, J. P., Jayant, C., Ji, H., Little, G., Miller, A., Miller, R. C., . . . White, S. (2010). Vizwiz: nearly real-time answers to visual questions. Paper presented at the Proceedings of the 23rd annual ACM symposium on User interface software and technology.
  2. Brownlee, J. (2019). A gentle introduction to pooling layers for convolutional neural networks. Machine Learning Mastery, 22.
  3. Çaylı, Ö., Makav, B., Kılıç, V., & Onan, A. (2020). Mobile Application Based Automatic Caption Generation for Visually Impaired. Paper presented at the International Conference on Intelligent and Fuzzy Systems.
  4. Chen, X., Fang, H., Lin, T.-Y., Vedantam, R., Gupta, S., Dollár, P., & Zitnick, C. L. (2015). Microsoft coco captions: Data collection and evaluation server. J arXiv preprint arXiv:.00325.
  5. Chen, X., & Zitnick, C. L. (2014). Learning a recurrent visual representation for image caption generation. J arXiv preprint arXiv:1411.5654.
  6. Elliott, D., & Keller, F. (2013). Image description using visual dependency representations. Paper presented at the Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing.
  7. Flair, D. (2019). Python based Project – Learn to Build Image Caption Generator with CNN and LSTM.
  8. Hendricks, L. A., Venugopalan, S., Rohrbach, M., Mooney, R., Saenko, K., & Darrell, T. (2016). Deep compositional captioning: Describing novel object categories without paired training data. Paper presented at the Proceedings of the IEEE conference on computer vision and pattern recognition.

Ayrıntılar

Birincil Dil

Türkçe

Konular

Mühendislik

Bölüm

Konferans Bildirisi

Yayımlanma Tarihi

31 Temmuz 2021

Gönderilme Tarihi

11 Haziran 2021

Kabul Tarihi

25 Haziran 2021

Yayımlandığı Sayı

Yıl 2021 Sayı: 26

Kaynak Göster

APA
Baran, M., Moral, Ö. T., & Kılıç, V. (2021). Akıllı Telefonlar için Birleştirme Modeli Tabanlı Görüntü Altyazılama. Avrupa Bilim ve Teknoloji Dergisi, 26, 191-196. https://doi.org/10.31590/ejosat.950924

Cited By