Araştırma Makalesi

Görüntülerden Derin Öğrenmeye Dayalı Otomatik Metin Çıkarma: Bir Görüntü Yakalama Sistemi

Cilt: 34 Sayı: 2 30 Eylül 2022
PDF İndir

Görüntülerden Derin Öğrenmeye Dayalı Otomatik Metin Çıkarma: Bir Görüntü Yakalama Sistemi

Öz

Bilgisayarlı görme ve doğal dil işlemenin çalışma alanlarından biri olan görüntüden metin üretme (image capturing), doğal bir dil kullanarak görüntü içeriğini otomatik olarak tanımlama görevidir. Bu çalışmada, MS COCO veri seti üzerinde İngilizce dili için encoder-decoder tekniğine dayalı bir otomatik altyazı oluşturma yaklaşımı önerilmiştir. Önerilen yaklaşımda, görüntü özniteliklerini çıkarmak için encoder olarak Evrişimli Sinir Ağı (CNN) mimarisi ve görüntülerden altyazı oluşturmak için bir decoder olarak Tekrarlayan Sinir Ağı (RNN) mimarisi kullanılmıştır. Önerilen yaklaşımın performansı BLEU, METEOR ve ROUGE_L değerlendirme kriterleri kullanılarak değerlendirilmiş ve her bir görüntüden 5 cümle elde edilmiştir. Deneysel sonuçlar, modelin görüntülerdeki nesneleri doğru bir şekilde algılamada tatmin edici olduğunu göstermektedir.

Anahtar Kelimeler

Kaynakça

  1. [1] C. P. Chaudhari ve S. Devane, “Capturing Semantic Knowledge In Object Localization In Captioning Images”, içinde 2021 International Conference on Communication information and Computing Technology (ICCICT), Haz. 2021, ss. 1-4. doi: 10.1109/ICCICT50803.2021.9510175.
  2. [2] A. U. Dey, S. K. Ghosh, E. Valveny, and G. Harit, “Beyond visual semantics: Exploring the role of scene text in image understanding,” Pattern Recognition Letters, vol. 149, pp. 164–171, Sep. 2021, doi: 10.1016/j.patrec.2021.06.011.
  3. [3] R. A. Davis, Z. Xiao, and X. Qi, “Capturing semantic relationship among images in clusters for efficient content-based image retrieval,” in 2012 19th IEEE International Conference on Image Processing, Sep. 2012, pp. 1953–1956. doi: 10.1109/ICIP.2012.6467269.
  4. [4] C. Bai, A. Zheng, Y. Huang, X. Pan, ve N. Chen, “Boosting convolutional image captioning with semantic content and visual relationship”, Displays, c. 70, s. 102069, Ara. 2021, doi: 10.1016/j.displa.2021.102069.
  5. [5] C. Wang, Y. Shen, and L. Ji, “Geometry Attention Transformer with position-aware LSTMs for image captioning,” Expert Systems with Applications, vol. 201, p. 117174, Sep. 2022, doi: 10.1016/j.eswa.2022.117174.
  6. [6] S. Wang et al., “Multi-label semantic feature fusion for remote sensing image captioning,” ISPRS Journal of Photogrammetry and Remote Sensing, vol. 184, pp. 1–18, Feb. 2022, doi: 10.1016/j.isprsjprs.2021.11.020.
  7. [7] C. Wu, J. Wu, H. Cao, Y. Wei, and L. Wang, “Dual-View Semantic Inference Network for image-text matching,” Neurocomputing, vol. 426, pp. 47–57, Feb. 2021, doi:10.1016/j.neucom.2020.09.079.
  8. [8] Y. Wang, Y. Xie, J. Zeng, H. Wang, L. Fan, and Y. Song, “Cross-modal fusion for multi-label image classification with attention mechanism,” Computers and Electrical Engineering, vol. 101, p. 108002, Jul. 2022, doi: 10.1016/j.compeleceng.2022.108002.

Ayrıntılar

Birincil Dil

Türkçe

Konular

Mühendislik

Bölüm

Araştırma Makalesi

Yayımlanma Tarihi

30 Eylül 2022

Gönderilme Tarihi

25 Temmuz 2022

Kabul Tarihi

26 Eylül 2022

Yayımlandığı Sayı

Yıl 2022 Cilt: 34 Sayı: 2

Kaynak Göster

APA
Karaca, Z., & Daş, B. (2022). Görüntülerden Derin Öğrenmeye Dayalı Otomatik Metin Çıkarma: Bir Görüntü Yakalama Sistemi. Fırat Üniversitesi Mühendislik Bilimleri Dergisi, 34(2), 829-837. https://doi.org/10.35234/fumbd.1148296
AMA
1.Karaca Z, Daş B. Görüntülerden Derin Öğrenmeye Dayalı Otomatik Metin Çıkarma: Bir Görüntü Yakalama Sistemi. Fırat Üniversitesi Mühendislik Bilimleri Dergisi. 2022;34(2):829-837. doi:10.35234/fumbd.1148296
Chicago
Karaca, Zeynep, ve Bihter Daş. 2022. “Görüntülerden Derin Öğrenmeye Dayalı Otomatik Metin Çıkarma: Bir Görüntü Yakalama Sistemi”. Fırat Üniversitesi Mühendislik Bilimleri Dergisi 34 (2): 829-37. https://doi.org/10.35234/fumbd.1148296.
EndNote
Karaca Z, Daş B (01 Eylül 2022) Görüntülerden Derin Öğrenmeye Dayalı Otomatik Metin Çıkarma: Bir Görüntü Yakalama Sistemi. Fırat Üniversitesi Mühendislik Bilimleri Dergisi 34 2 829–837.
IEEE
[1]Z. Karaca ve B. Daş, “Görüntülerden Derin Öğrenmeye Dayalı Otomatik Metin Çıkarma: Bir Görüntü Yakalama Sistemi”, Fırat Üniversitesi Mühendislik Bilimleri Dergisi, c. 34, sy 2, ss. 829–837, Eyl. 2022, doi: 10.35234/fumbd.1148296.
ISNAD
Karaca, Zeynep - Daş, Bihter. “Görüntülerden Derin Öğrenmeye Dayalı Otomatik Metin Çıkarma: Bir Görüntü Yakalama Sistemi”. Fırat Üniversitesi Mühendislik Bilimleri Dergisi 34/2 (01 Eylül 2022): 829-837. https://doi.org/10.35234/fumbd.1148296.
JAMA
1.Karaca Z, Daş B. Görüntülerden Derin Öğrenmeye Dayalı Otomatik Metin Çıkarma: Bir Görüntü Yakalama Sistemi. Fırat Üniversitesi Mühendislik Bilimleri Dergisi. 2022;34:829–837.
MLA
Karaca, Zeynep, ve Bihter Daş. “Görüntülerden Derin Öğrenmeye Dayalı Otomatik Metin Çıkarma: Bir Görüntü Yakalama Sistemi”. Fırat Üniversitesi Mühendislik Bilimleri Dergisi, c. 34, sy 2, Eylül 2022, ss. 829-37, doi:10.35234/fumbd.1148296.
Vancouver
1.Zeynep Karaca, Bihter Daş. Görüntülerden Derin Öğrenmeye Dayalı Otomatik Metin Çıkarma: Bir Görüntü Yakalama Sistemi. Fırat Üniversitesi Mühendislik Bilimleri Dergisi. 01 Eylül 2022;34(2):829-37. doi:10.35234/fumbd.1148296