DocDig: Dijitalleştirilmiş Dokümanlarda İçerik Tabanlı Figür Arama
Abstract
Örüntü tanıma psikolojiden biyometriye, biyoenformatikten gen ifadelerinin analizine, trafikten hesaplamalı finansa kadar birçok alanda kullanılmaktadır. Optik Karakter Tanıma da bu alanlardan bir tanesidir. Kamu ve özel birçok firma, arşivlerindeki klasörlenmiş verilerini taratarak dijital hale getirmekte ve bunun için emek yoğun çalışmalar yapmaktadır. Ancak resim olarak dijitalleştirilen bu verilerin içerik olarak aranması ve işlenmesi ancak operatörlerin manuel olarak taranan resim verisine meta veri eklemesi ile kısmi olarak gerçekleşmektedir. Bu çalışmada, resim olarak taranarak (eng. scan) ve dijital hale getirilen büyük miktarlardaki bu dokümanlar üzerinde içerik bazlı figür aramaları mümkün kılan bir mimari geliştirdik. Kullanıcı, bazı anahtar kelimelerle arama yaparak dijital dökümanlardaki ilgili figürleri başlıklarıyla beraber görüntüleyebilmektedir. Sistemin yapılabilirlik ve başarımı farklı veri setleri üzerinde test edilmiş, başarılı sonuçlar elde edilmiştir.
Keywords
References
- [1] K. Jung, K. I. Kim ve A. K. Jain, “Text information extraction in images and video: A survey,” Pattern Recognition, vol. 37, no. 5, pp. 977–997, 2004.
- [2] C. Patrick, C. Francine ve D. Laurent “Picture Detection in Document Page Images,” ACM Symposium on Document Engineering, Manchester, United Kingdom, 2010, pp. 211–214.
- [3] S. B. Dan ve R. C. Francine, “Extraction of text-related features for condensing image documents,” SPIE 2660, Document Recognition III, San Jose, CA, United States, 1996, pp. 72–88.
- [4] L. A. Fletcher ve R. Kasturi “A robust algorithm for text string separation from mixed text/graphics images,” IEEE TPAMI, vol. 10, no. 6, pp. 910–918, 1988.
- [5] C. Najwa-Maria, D. Pascal ve Y. Charles, “A Robust Algorithm for Text Extraction from Images,” 39th International Conference on Telecommunications and Signal Processing, Vienna, Austria, 2016, pp. 493–497.
- [6] Y. Vikas ve R. Nicolas, “Text extraction in document images: highlight on using corner points,” 12th IAPR Workshop on Document Analysis Systems, Santorini, Greece, 2015, pp. 281–286.
- [7] F. Shafait, D. Keysers ve T. M. Breue, “Performance evaluation and benchmarking of six page segmentation algorithms,” IEEE TPAMI, vol. 10, no. 6, pp. 941–954, 2008.
- [8] T. J. Burns ve J. J. Corso, “Robust unsupervised segmentation of degraded document images with topic models,” Computer Vision and Pattern Recognition, Miami, FL, USA, 2009, pp. 1287–1294.
Details
Primary Language
Turkish
Subjects
Engineering
Journal Section
Research Article
Authors
Süleyman Eken
KOCAELİ ÜNİVERSİTESİ
0000-0001-9488-908X
Türkiye
Burak Atay
This is me
KOCAELİ ÜNİVERSİTESİ
Türkiye
Büşra Ceren Sönmez
This is me
KOCAELİ ÜNİVERSİTESİ
Türkiye
Ahmet Sayar
KOCAELİ ÜNİVERSİTESİ
Türkiye
Publication Date
January 31, 2018
Submission Date
July 21, 2017
Acceptance Date
October 13, 2017
Published in Issue
Year 2018 Volume: 6 Number: 1
Cited By
Searchable Turkish OCRed historical newspaper collection 1928–1942
Journal of Information Science
https://doi.org/10.1177/01655515211000642Figure search by text in large scale digital document collections
Concurrency and Computation: Practice and Experience
https://doi.org/10.1002/cpe.6529Multi-Class Document Image Classification using Deep Visual and Textual Features
International Journal of Computational Intelligence and Applications
https://doi.org/10.1142/S1469026822500134Digitization of hand-drawn flow charts with deep learning
Signal, Image and Video Processing
https://doi.org/10.1007/s11760-026-05212-w