Görüntülerden Derin Öğrenmeye Dayalı Otomatik Metin Çıkarma: Bir Görüntü Yakalama Sistemi
Öz
Bilgisayarlı görme ve doğal dil işlemenin çalışma alanlarından biri olan görüntüden metin üretme (image capturing), doğal bir dil kullanarak görüntü içeriğini otomatik olarak tanımlama görevidir. Bu çalışmada, MS COCO veri seti üzerinde İngilizce dili için encoder-decoder tekniğine dayalı bir otomatik altyazı oluşturma yaklaşımı önerilmiştir. Önerilen yaklaşımda, görüntü özniteliklerini çıkarmak için encoder olarak Evrişimli Sinir Ağı (CNN) mimarisi ve görüntülerden altyazı oluşturmak için bir decoder olarak Tekrarlayan Sinir Ağı (RNN) mimarisi kullanılmıştır. Önerilen yaklaşımın performansı BLEU, METEOR ve ROUGE_L değerlendirme kriterleri kullanılarak değerlendirilmiş ve her bir görüntüden 5 cümle elde edilmiştir. Deneysel sonuçlar, modelin görüntülerdeki nesneleri doğru bir şekilde algılamada tatmin edici olduğunu göstermektedir.
Anahtar Kelimeler
Kaynakça
- [1] C. P. Chaudhari ve S. Devane, “Capturing Semantic Knowledge In Object Localization In Captioning Images”, içinde 2021 International Conference on Communication information and Computing Technology (ICCICT), Haz. 2021, ss. 1-4. doi: 10.1109/ICCICT50803.2021.9510175.
- [2] A. U. Dey, S. K. Ghosh, E. Valveny, and G. Harit, “Beyond visual semantics: Exploring the role of scene text in image understanding,” Pattern Recognition Letters, vol. 149, pp. 164–171, Sep. 2021, doi: 10.1016/j.patrec.2021.06.011.
- [3] R. A. Davis, Z. Xiao, and X. Qi, “Capturing semantic relationship among images in clusters for efficient content-based image retrieval,” in 2012 19th IEEE International Conference on Image Processing, Sep. 2012, pp. 1953–1956. doi: 10.1109/ICIP.2012.6467269.
- [4] C. Bai, A. Zheng, Y. Huang, X. Pan, ve N. Chen, “Boosting convolutional image captioning with semantic content and visual relationship”, Displays, c. 70, s. 102069, Ara. 2021, doi: 10.1016/j.displa.2021.102069.
- [5] C. Wang, Y. Shen, and L. Ji, “Geometry Attention Transformer with position-aware LSTMs for image captioning,” Expert Systems with Applications, vol. 201, p. 117174, Sep. 2022, doi: 10.1016/j.eswa.2022.117174.
- [6] S. Wang et al., “Multi-label semantic feature fusion for remote sensing image captioning,” ISPRS Journal of Photogrammetry and Remote Sensing, vol. 184, pp. 1–18, Feb. 2022, doi: 10.1016/j.isprsjprs.2021.11.020.
- [7] C. Wu, J. Wu, H. Cao, Y. Wei, and L. Wang, “Dual-View Semantic Inference Network for image-text matching,” Neurocomputing, vol. 426, pp. 47–57, Feb. 2021, doi:10.1016/j.neucom.2020.09.079.
- [8] Y. Wang, Y. Xie, J. Zeng, H. Wang, L. Fan, and Y. Song, “Cross-modal fusion for multi-label image classification with attention mechanism,” Computers and Electrical Engineering, vol. 101, p. 108002, Jul. 2022, doi: 10.1016/j.compeleceng.2022.108002.
Ayrıntılar
Birincil Dil
Türkçe
Konular
Mühendislik
Bölüm
Araştırma Makalesi
Yayımlanma Tarihi
30 Eylül 2022
Gönderilme Tarihi
25 Temmuz 2022
Kabul Tarihi
26 Eylül 2022
Yayımlandığı Sayı
Yıl 2022 Cilt: 34 Sayı: 2
APA
Karaca, Z., & Daş, B. (2022). Görüntülerden Derin Öğrenmeye Dayalı Otomatik Metin Çıkarma: Bir Görüntü Yakalama Sistemi. Fırat Üniversitesi Mühendislik Bilimleri Dergisi, 34(2), 829-837. https://doi.org/10.35234/fumbd.1148296
AMA
1.Karaca Z, Daş B. Görüntülerden Derin Öğrenmeye Dayalı Otomatik Metin Çıkarma: Bir Görüntü Yakalama Sistemi. Fırat Üniversitesi Mühendislik Bilimleri Dergisi. 2022;34(2):829-837. doi:10.35234/fumbd.1148296
Chicago
Karaca, Zeynep, ve Bihter Daş. 2022. “Görüntülerden Derin Öğrenmeye Dayalı Otomatik Metin Çıkarma: Bir Görüntü Yakalama Sistemi”. Fırat Üniversitesi Mühendislik Bilimleri Dergisi 34 (2): 829-37. https://doi.org/10.35234/fumbd.1148296.
EndNote
Karaca Z, Daş B (01 Eylül 2022) Görüntülerden Derin Öğrenmeye Dayalı Otomatik Metin Çıkarma: Bir Görüntü Yakalama Sistemi. Fırat Üniversitesi Mühendislik Bilimleri Dergisi 34 2 829–837.
IEEE
[1]Z. Karaca ve B. Daş, “Görüntülerden Derin Öğrenmeye Dayalı Otomatik Metin Çıkarma: Bir Görüntü Yakalama Sistemi”, Fırat Üniversitesi Mühendislik Bilimleri Dergisi, c. 34, sy 2, ss. 829–837, Eyl. 2022, doi: 10.35234/fumbd.1148296.
ISNAD
Karaca, Zeynep - Daş, Bihter. “Görüntülerden Derin Öğrenmeye Dayalı Otomatik Metin Çıkarma: Bir Görüntü Yakalama Sistemi”. Fırat Üniversitesi Mühendislik Bilimleri Dergisi 34/2 (01 Eylül 2022): 829-837. https://doi.org/10.35234/fumbd.1148296.
JAMA
1.Karaca Z, Daş B. Görüntülerden Derin Öğrenmeye Dayalı Otomatik Metin Çıkarma: Bir Görüntü Yakalama Sistemi. Fırat Üniversitesi Mühendislik Bilimleri Dergisi. 2022;34:829–837.
MLA
Karaca, Zeynep, ve Bihter Daş. “Görüntülerden Derin Öğrenmeye Dayalı Otomatik Metin Çıkarma: Bir Görüntü Yakalama Sistemi”. Fırat Üniversitesi Mühendislik Bilimleri Dergisi, c. 34, sy 2, Eylül 2022, ss. 829-37, doi:10.35234/fumbd.1148296.
Vancouver
1.Zeynep Karaca, Bihter Daş. Görüntülerden Derin Öğrenmeye Dayalı Otomatik Metin Çıkarma: Bir Görüntü Yakalama Sistemi. Fırat Üniversitesi Mühendislik Bilimleri Dergisi. 01 Eylül 2022;34(2):829-37. doi:10.35234/fumbd.1148296