Yıl 2019, Cilt , Sayı 17, Sayfalar 1313 - 1324 2019-12-31

Dijital Dokümanlar Üzerinde Otomatik Biçim Tanıma ve Farklı İçeriklere Uyarlama: Özgeçmişler Üzerinde Durum Çalışması

Alper KANTARCİ [1] , Süleyman EKEN [2] , Ahmet SAYAR [3]


Çoğu bilgisayar işleminin merkezinde yer alan toplu kategorizasyona ilişkin olarak bilgi geri çağırmayı etkileyen iki tür ilgili veri vardır: yapısal veriler ve yapılandırılmamış veriler. Yapılandırılmış veriler, ilişkisel bir veritabanına dahil edilmesi gibi yüksek derecede organizasyona sahip bilgileri ifade eder. Bununla birlikte, yapılandırılmamış veriler kendi iç yapısına sahip olabilir, ancak bir e-tabloya veya veritabanına tam olarak karşılık gelmezler. Özgeçmişler bu tür verilerdir. Genelde PDF (Portable Document Format, Taşınabilir Belge Formatı) formatında sunulan özgeçmişler, PDF etiketleme özelliği kullanılarak yapısal hale getirilebilir; fakat çoğu PDF verisi etiketlenmemiş ve yapısal olmayan haldedir. Teknik olmayan iş dünyası kullanıcıları ve veri analistlerinin bu tür kapalı kutularla başa çıkmaları çok zordur. Bu çalışma kapsamında, kişilerin özgeçmiş hazırlayarak zamanlarını kaybetmemek ve farklı kabul görmüş formatlarda kişilerin kendi bilgilerine göre kendilerine has özgeçmişler hazırlayabilmesine imkân verecek web tabanlı zeki özgeçmiş tasarımcısı geliştirildi. PDF dokümanlarının içerik yapısı, metin verisi ve bu verinin yazı tipi ve dokümandaki lokasyon bilgileri çıkartıldı ve elde edilen bu bilgiler okuma sırasına göre belirli yapılara dönüştürülerek önceden tanımlanmış olan XML (Extensible Markup Language, Genişletilebilir İşaretleme Dili) tabanlı özgeçmiş tasarımı oluşturuldu. Elde edilen bu tasarımlar kullanılarak kişisel PDF dökümanları oluşturuldu. PDF analizi ve PDF oluşturma işlemi, Java iText-pdf kütüphanesi yardımıyla gerçekleştirildi. Tasarım verileri arayüz aracılığyla kullanıcıya sunularak kullanıcı istediği tasarımı kendi dökümanını oluştururken seç ve uygula yaklaşımıyla aktarabilmektedir. PDF dokümanından elde edilen şablonun XML formatında kaydedilmesi ve farklı içeriklere uyarlama aşamasında, kaydedilmiş hazır XML formatındaki şablonların kullanılması öngörüldü. XML formatındaki şablonların otomatik oluşturulabilmesi ve sonradan doğruluğunun test edilebilmesi için XSD (XML Schema Definition, XML Şeması Tanımı) tanımlandı. Geliştirilen uygulama ile özgeçmişlerin otomatik biçimlerinin tanınması ve farklı içeriklerin adaptasyonu sağlandı.
: Doküman analiz ve tanıma, PDF, Bilgi çıkarımı, XML, XSD
  • Aiello, M., Monz, C., Todoran, L., & Worring, M. (2002). Document Understanding for a Broad Class of Documents. International Journal on Document Analysis and Recognition, 5(1), 1-16.
  • Altamura, O., Esposito, F., & Malerba, D. (2000). Transforming paper documents into XML format with WISDOM++. International Journal on Document Analysis and Recognition, 4(1), 2-17.
  • Baker, J. B., Sexton, A. P., Sorge, V., & Suzuki, M. (2011). Comparing Approaches to Mathematical Document Analysis from PDF. 2011 International Conference on Document Analysis and Recognition (s. 463-467). Beijing: IEEE. doi:10.1109/ICDAR.2011.99
  • Chao, H., & Fan, J. (2004). Layout and Content Extraction for PDF Documents. doi:10.1007/978-3-540-28640-0_20
  • Constantin, A., Pettifer, S., & Voronkov, A. (2013). PDFX: fully-automated PDF-to-XML conversion of scientific literature. 2013 ACM symposium on Document engineering (s. 177-180). New York: ACM.
  • Gabdulkhakova, A., & Tamir, H. (2012). Document understanding of graphical content in natively digital PDF documents. 2012 ACM symposium on Document engineering, (s. 137-140). New York. doi:https://doi.org/10.1145/2361354.2361385
  • Hassan, T. (2009). Object-Level Document Analysis of PDF Files. ACM DL, 47-55.
  • Jiang, D., & Yang, X. (2009). Converting PDF to HTML approach based on text detection. In Proceedings of the 2nd International Conference on Interaction Sciences: Information Technology, Culture and Human (ICIS '09) (s. 982-985). New York: ACM. doi:https://doi.org/10.1145/1655925.1656103
  • Liu, Y., Bai, K., Mitra, P., & Giles, C. L. (2009). Improving the Table Boundary Detection in PDFs by Fixing the Sequence Error of the Sparse Lines. 10th International Conference on Document Analysis and Recognition (s. 1006-1010). Barcelona: IEEE.
  • Mohemad, R., Hamdan, A. R., Othman, Z. A., & Mohamad, N. M. (2011). Automatic Document Structure Analysis of Structured PDF Files. IJNCAA, 404-411.
  • Tunçer, M. (2013, April 9). Özgeçmiş Hazırlama Tüyoları ve CV Örneği. 12 18, 2019 tarihinde Kariyer.net: https://www.kariyer.net/kariyer-rehberi/ozgecmis-hazirlama-tuyolari-ve-cv-ornegi/ adresinden alındı
Birincil Dil tr
Konular Mühendislik
Bölüm Makaleler
Yazarlar

Orcid: 0000-0003-2456-8648
Yazar: Alper KANTARCİ (Sorumlu Yazar)
Kurum: KOCAELİ ÜNİVERSİTESİ
Ülke: Kosovo


Orcid: 0000-0001-9488-908X
Yazar: Süleyman EKEN
Kurum: KOCAELİ ÜNİVERSİTESİ
Ülke: Turkey


Orcid: 0000-0002-6335-459X
Yazar: Ahmet SAYAR
Kurum: KOCAELİ ÜNİVERSİTESİ
Ülke: Turkey


Destekleyen Kurum Kocaeli Üniversitesi Bilimsel Araştırma Projeleri Koordinasyon Birimi
Proje Numarası 2018/136
Teşekkür Bu çalışma Kocaeli Üniversitesi Bilimsel Araştırma Projeleri Koordinasyon Birimi (BAP) tarafından 2018/136 nolu proje kapmasında desteklenmektedir.
Tarihler

Yayımlanma Tarihi : 31 Aralık 2019

APA Kantarci̇, A , Eken, S , Sayar, A . (2019). Dijital Dokümanlar Üzerinde Otomatik Biçim Tanıma ve Farklı İçeriklere Uyarlama: Özgeçmişler Üzerinde Durum Çalışması . Avrupa Bilim ve Teknoloji Dergisi , (17) , 1313-1324 . DOI: 10.31590/ejosat.661562