Research Article

DocDig: Dijitalleştirilmiş Dokümanlarda İçerik Tabanlı Figür Arama

Volume: 6 Number: 1 January 31, 2018
TR EN

DocDig: Dijitalleştirilmiş Dokümanlarda İçerik Tabanlı Figür Arama

Abstract

Örüntü tanıma psikolojiden biyometriye, biyoenformatikten gen ifadelerinin analizine, trafikten hesaplamalı finansa kadar birçok alanda kullanılmaktadır. Optik Karakter Tanıma da bu alanlardan bir tanesidir. Kamu ve özel birçok firma, arşivlerindeki klasörlenmiş verilerini taratarak dijital hale getirmekte ve bunun için emek yoğun çalışmalar yapmaktadır. Ancak resim olarak dijitalleştirilen bu verilerin içerik olarak aranması ve işlenmesi ancak operatörlerin manuel olarak taranan resim verisine meta veri eklemesi ile kısmi olarak gerçekleşmektedir. Bu çalışmada, resim olarak taranarak (eng. scan) ve dijital hale getirilen büyük miktarlardaki bu dokümanlar üzerinde içerik bazlı figür aramaları mümkün kılan bir mimari geliştirdik. Kullanıcı, bazı anahtar kelimelerle arama yaparak dijital dökümanlardaki ilgili figürleri başlıklarıyla beraber görüntüleyebilmektedir. Sistemin yapılabilirlik ve başarımı farklı veri setleri üzerinde test edilmiş, başarısonuçlar elde edilmiştir.

Keywords

References

  1. [1] K. Jung, K. I. Kim ve A. K. Jain, “Text information extraction in images and video: A survey,” Pattern Recognition, vol. 37, no. 5, pp. 977–997, 2004.
  2. [2] C. Patrick, C. Francine ve D. Laurent “Picture Detection in Document Page Images,” ACM Symposium on Document Engineering, Manchester, United Kingdom, 2010, pp. 211–214.
  3. [3] S. B. Dan ve R. C. Francine, “Extraction of text-related features for condensing image documents,” SPIE 2660, Document Recognition III, San Jose, CA, United States, 1996, pp. 72–88.
  4. [4] L. A. Fletcher ve R. Kasturi “A robust algorithm for text string separation from mixed text/graphics images,” IEEE TPAMI, vol. 10, no. 6, pp. 910–918, 1988.
  5. [5] C. Najwa-Maria, D. Pascal ve Y. Charles, “A Robust Algorithm for Text Extraction from Images,” 39th International Conference on Telecommunications and Signal Processing, Vienna, Austria, 2016, pp. 493–497.
  6. [6] Y. Vikas ve R. Nicolas, “Text extraction in document images: highlight on using corner points,” 12th IAPR Workshop on Document Analysis Systems, Santorini, Greece, 2015, pp. 281–286.
  7. [7] F. Shafait, D. Keysers ve T. M. Breue, “Performance evaluation and benchmarking of six page segmentation algorithms,” IEEE TPAMI, vol. 10, no. 6, pp. 941–954, 2008.
  8. [8] T. J. Burns ve J. J. Corso, “Robust unsupervised segmentation of degraded document images with topic models,” Computer Vision and Pattern Recognition, Miami, FL, USA, 2009, pp. 1287–1294.

Details

Primary Language

Turkish

Subjects

Engineering

Journal Section

Research Article

Authors

Süleyman Eken
KOCAELİ ÜNİVERSİTESİ
0000-0001-9488-908X
Türkiye

Burak Atay This is me
KOCAELİ ÜNİVERSİTESİ
Türkiye

Büşra Ceren Sönmez This is me
KOCAELİ ÜNİVERSİTESİ
Türkiye

Ahmet Sayar
KOCAELİ ÜNİVERSİTESİ
Türkiye

Publication Date

January 31, 2018

Submission Date

July 21, 2017

Acceptance Date

October 13, 2017

Published in Issue

Year 2018 Volume: 6 Number: 1

APA
Eken, S., Atay, B., Sönmez, B. C., & Sayar, A. (2018). DocDig: Dijitalleştirilmiş Dokümanlarda İçerik Tabanlı Figür Arama. Duzce University Journal of Science and Technology, 6(1), 68-78. https://doi.org/10.29130/dubited.330094
AMA
1.Eken S, Atay B, Sönmez BC, Sayar A. DocDig: Dijitalleştirilmiş Dokümanlarda İçerik Tabanlı Figür Arama. DUBİTED. 2018;6(1):68-78. doi:10.29130/dubited.330094
Chicago
Eken, Süleyman, Burak Atay, Büşra Ceren Sönmez, and Ahmet Sayar. 2018. “DocDig: Dijitalleştirilmiş Dokümanlarda İçerik Tabanlı Figür Arama”. Duzce University Journal of Science and Technology 6 (1): 68-78. https://doi.org/10.29130/dubited.330094.
EndNote
Eken S, Atay B, Sönmez BC, Sayar A (January 1, 2018) DocDig: Dijitalleştirilmiş Dokümanlarda İçerik Tabanlı Figür Arama. Duzce University Journal of Science and Technology 6 1 68–78.
IEEE
[1]S. Eken, B. Atay, B. C. Sönmez, and A. Sayar, “DocDig: Dijitalleştirilmiş Dokümanlarda İçerik Tabanlı Figür Arama”, DUBİTED, vol. 6, no. 1, pp. 68–78, Jan. 2018, doi: 10.29130/dubited.330094.
ISNAD
Eken, Süleyman - Atay, Burak - Sönmez, Büşra Ceren - Sayar, Ahmet. “DocDig: Dijitalleştirilmiş Dokümanlarda İçerik Tabanlı Figür Arama”. Duzce University Journal of Science and Technology 6/1 (January 1, 2018): 68-78. https://doi.org/10.29130/dubited.330094.
JAMA
1.Eken S, Atay B, Sönmez BC, Sayar A. DocDig: Dijitalleştirilmiş Dokümanlarda İçerik Tabanlı Figür Arama. DUBİTED. 2018;6:68–78.
MLA
Eken, Süleyman, et al. “DocDig: Dijitalleştirilmiş Dokümanlarda İçerik Tabanlı Figür Arama”. Duzce University Journal of Science and Technology, vol. 6, no. 1, Jan. 2018, pp. 68-78, doi:10.29130/dubited.330094.
Vancouver
1.Süleyman Eken, Burak Atay, Büşra Ceren Sönmez, Ahmet Sayar. DocDig: Dijitalleştirilmiş Dokümanlarda İçerik Tabanlı Figür Arama. DUBİTED. 2018 Jan. 1;6(1):68-7. doi:10.29130/dubited.330094

Cited By