Otomatik görüntü altyazısı, yapay zekânın hem bilgisayarla
görme hem de doğal dil işleme alanlarını kapsayan bir konudur. Makine çevirisi
alanındaki gelişmelerden ilham alan ve bu alanda başarılı sonuçlar veren
kodlayıcı-kod çözücü tekniği, şu anda İngilizce görüntü altyazısı konusunda kullanılan
mevcut yöntemlerden biridir. Bu çalışmada, Türkçe dili için otomatik görüntü altyazısı
oluşturan bir model sunulmaktadır. Bu çalışma, verilen görüntülerin
özelliklerini çıkarmaktan sorumlu olan bir CNN kodlayıcıyı, altyazı oluşturmaktan
sorumlu olan bir RNN kod çözücüsü ile birleştirilerek, Türkçe MS COCO veri
tabanını üzerinde Türkçe görüntü altyazısı kodlayıcı-kod çözücü modelini test etmektedir.
Üretken modelin performansı yeni oluşturulan veri tabanında hem BLEU, METEOR,
ROUGE ve CIDEr gibi en yaygın değerlendirme ölçütleri hem de insan tabanlı
yöntemler kullanılarak değerlendirilmiştir. Sonuçlar, önerilen modelin
performansının hem niteliksel hem de niceliksel olarak tatmin edici olduğunu
göstermektedir. Çalışma sonunda hazırlanan, herkesin kullanımına açık bir Web uygulaması
uygulaması[1]
sayesinde Türkçe dili için MS COCO görüntülerine ait Türkçe girişlerin
yapıldığı bir ortam kullanıcıya sunulmuştur. Tüm görüntüler tamamlandığında,
Türkçe’ye özgü ve karşılaştırmalı çalışmaların yapıldığı bir veri kümesi
tamamlanmış olacaktır.
Türkçe görüntü altyazısı Türkçe MS COCO Bilgisayarlı görme Doğal dil işleme CNN RNN
Automatic image captioning is a challenging issue in
artificial intelligence, which covers both the fields of computer vision and
natural language processing. Inspired by the later advances in machine
translation, a successful encoder-decoder technique is currently the
state-of-the-art in English language captioning. In this study, we proposed an
image captioning model for Turkish Language. This paper evaluate the
encoder-decoder model on MS COCO database by coupling an encoder CNN -the
component that is responsible for extracting the features of the given images-,
with a decoder RNN -the component that is responsible for generating captions
using the given inputs- to generate Turkish captions. We conducted the
experiments using the most common evaluation metrics such as BLEU, METEOR,
ROUGE and CIDEr. Results show that the performance of the proposed model is
satisfactory in both qualitative and quantitatively evaluations. Finally, this
study introduces a Web platform, which is proposed to improve the dataset via
crowd-sourcing and free to use. The Turkish MS COCO database is available for
research purpose. When all the images
are completed, a Turkish dataset will be available for comparative studies.
Turkish image captioning Turkish MS COCO Computer vision Natural language processing CNN RNN
Birincil Dil | Türkçe |
---|---|
Konular | Mühendislik |
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 21 Temmuz 2020 |
Gönderilme Tarihi | 26 Temmuz 2019 |
Kabul Tarihi | 17 Mayıs 2020 |
Yayımlandığı Sayı | Yıl 2020 Cilt: 35 Sayı: 4 |