Research Article
BibTex RIS Cite

Evrişimsel Sinir Ağı Tabanlı Osmanlıca Belge Çözümleyici

Year 2021, Volume: 33 Issue: 4, 581 - 591, 30.12.2021
https://doi.org/10.7240/jeps.888164

Abstract

Osmanlıca, yüzyılları kapsayan bir tarihe ışık tutabilecek, onlarca neslin yaşantılarını, hayallerini, bilgi birikimini kapsayan zengin bir dildir. Ancak Arap alfabesini temel alan karmaşık yapısı ve Türkçe’nin ihtiyaçlarını karşılamakta zorlanması nedeni ile modern çağa uyum sağlayamamış ve değişime uğramıştır.
Evrişimsel Sinir Ağları Tabanlı Osmanlıca Belge Çözümleyici projesi kapsamında, tarihi belgeler üzerinde araştırma yapmak isteyen insanların önüne çıkan yeni bir alfabe öğrenme zorluğunu gidermek ve Osmanlıca yazılmış belgeleri anlamalarını kolaylaştırmak için bir platform geliştirilmesi amaçlanmıştır.
Platform, kullanıcının görüntüsünü verdiği Osmanlıca belgenin içinde kullanıcının çevirmek istediği metni seçmesini ve bu metnin perspektif dönüşüm ile düzeltilerek sonraki görüntü işleme adımlarına hazır hale gelmesini sağlayan bir araç bulundurmaktadır. Seçilen metin otomatik görüntü işleme yöntemleri ile satırlarına, kelimelerine ve karakterlerine ayrıldıktan sonra bir Evrişimsel Sinir Ağı (ESA, Convolutional Neural Network-CNN) kullanılarak metinde bulunan karakterler tanınmıştır. Arap alfabesi ve yazım kuralları nedeni ile birçok kelimede yazılmayan, ya da yazılıp telaffuz edilmeyen karakterler bulunmaktadır. Bu nedenle, kelimelerin düzenlenmesi gerekmektedir. Bu işlem ise Zemberek doğal dil işleme eklentisi kullanılarak yapılmış, metinde bulunan kelimelere karşılık gelebilecek kelimelerin önerilmesi amaçlanmıştır. Kullanıcıya Zemberek eklentisinin önereceği kelimeler arasında seçim yapma ya da kendi önerdiği kelimeyi girme imkanı tanınmıştır. Sonuç olarak sistemin satır ayırma başarısı %97, satırlar üzerindeki kelimeleri ayırma başarısı ise %96 olmuştur. Bununla birlikte uygun ayrılmış karakterler için %88.47 doğru sınıflandırma yapılmaktadır.

Thanks

Evrişimsel Sinir Ağları Tabanlı Osmanlıca Belge Çözümleyici projesi kapsamında bize arşivlerini açan Türkiye Büyük Millet Meclisi Kütüphane ve Arşivler Başkanlığı’na teşekkür ederiz.

References

  • [1] T. Y. D. A.¸S. (2016). Dervaze metin mütercimi, [Online]. Available: http:// dervaze.com/translate-ott/ (visited on 04/11/2020).
  • [2] www.osmanlicayaceviri.com/. (2017). Osmanlıca çeviri, [Online]. Available: www.osmanlicayaceviri.com/ (visited on 04/11/2020).
  • [3] F. Farooq, Venu Govindaraju, and M. Perrone, “Pre-processing methods for handwritten arabic documents,” in Eighth International Conference on Document Analysis and Recognition (ICDAR’05), 2005, 267–271 Vol. 1.
  • [4] S. Erkilinc, M. Jaber, E. Saber, P. Bauer, and D. Depalov, “Text, photo, and line extraction in scanned documents,” Journal of Electronic Imaging, vol. 21, pp. 3006–, Jul. 2012. DOI: 10.1117/1.JEI.21.3.033006.
  • [5] S. Jin, Y. You, and Y. Huafen, “A scanned document ımage processing model for ınformation system,” in 2010 Asia-Pacific Conference on Wearable Computing Systems, 2010, pp. 198–201.
  • [6] B. B. Chaudhuri and S. Bera, “Handwritten text line ıdentification in ındian scripts,” in 2009 10th International Conference on Document Analysis and Recognition, 2009, pp. 636–640.
  • [7] A. Alsaeedi, H. A. Mutawa, S. Snoussi, S. Natheer, K. Omri, and W. A. Subhi, “Arabic words recognition using cnn and tnn on a smartphone,” in 2018 IEEE 2nd International Workshop on Arabic and Derived Script Analysis and Recognition (ASAR), 2018, pp. 57–61.
  • [8] M. Rabi, M. Amrouch, Z. Mahani, and D. Mammass, “Recognition of cursive arabic handwritten text using embedded training based on hmms,” in 2016 International Conference on Engineering MIS (ICEMIS), 2016, pp. 1–5.
  • [9] Khedher, M. I., Jmila, H., & El-Yacoubi, M. A. (2020). Automatic processing of Historical Arabic Documents: a comprehensive survey. Pattern Recognition, 100, 107144.
  • [10] Ali, A. A. A., & Mallaiah, S. (2021). Intelligent handwritten recognition using hybrid CNN architectures based-SVM classifier with dropout. Journal of King Saud University-Computer and Information Sciences.
  • [11] El-Sawy A., EL-Bakry H., Loey M. (2017) CNN for Handwritten Arabic Digits Recognition Based on LeNet-5. In: Hassanien A., Shaalan K., Gaber T., Azar A., Tolba M. (eds) Proceedings of the International Conference on Advanced Intelligent Systems and Informatics 2016. AISI 2016. Advances in Intelligent Systems and Computing, vol 533. Springer, Cham. https://doi.org/10.1007/978-3-319-48308-5_54
  • [12] Lamsaf, Asmae & Aitkerroum, Mounir & Boulaknadel, Siham & FAKHRI, Youssef. (2018). Lines segmentation and word extraction of Arabic handwritten text. SCA '18: Proceedings of the 3rd International Conference on Smart City Applications. 1-7. 10.1145/3286606.3286831.
  • [13] Ayesh, Muna & Mohammad, Khader & Qaroush, Aziz & Agaian, Sos & Washha, Mahdi. (2017). A Robust Line Segmentation Algorithm for Arabic Printed Text with Diacritics. Electronic Imaging. 2017. 42-47. 10.2352/ISSN.2470-1173.2017.13.IPAS-204.
  • [14] Alworafi, Mokhtar & Manjunath, Ravikumar & Pradeep, R.. (2014). Text Line Segmentation of Arabic Handwritten Documents using Line Height Method. International Journal of Advanced Research in Computer Science and Software Engineering. 4. 5.
  • [15] Ali, A. A. A., & Suresha, M. (2019). Efficient algorithms for text lines and words segmentation for recognition of Arabic handwritten script. In Emerging research in computing, information, communication and applications (pp. 387-401). Springer, Singapore.
  • [16] http://miletos.co/tr/showcase/ottoman-ocr
  • [17] C. Ozan Ceyhan & Melih Taşdizen & Berkin Malkoç & Atabey Kaygun & Kürşat Aker (2017) Osmanlıca Baskı Metinler İçin Arama Altyapısı
  • [18] https://www.kaggle.com/mloey1/ahcd1
  • [19] https://www.kaggle.com/alpbintuuzun/ottoman-turkish-characters
  • [20] Akın, A. A., & Akın, M. D. (2007). Zemberek, an open source nlp framework for turkic languages. Structure, 10, 1-5.
  • [21] Powers, D. M. (2020). Evaluation: from precision, recall and F-measure to ROC, informedness, markedness and correlation. arXiv preprint arXiv:2010.16061.
  • [22] Kurt, Z., Turkmen, H. I., & Karsligil, M. E. (2009). Linear discriminant analysis in ottoman alphabet character recognition. In Proceedings of the European Computing Conference (pp. 601-607). Springer, Boston, MA.
Year 2021, Volume: 33 Issue: 4, 581 - 591, 30.12.2021
https://doi.org/10.7240/jeps.888164

Abstract

References

  • [1] T. Y. D. A.¸S. (2016). Dervaze metin mütercimi, [Online]. Available: http:// dervaze.com/translate-ott/ (visited on 04/11/2020).
  • [2] www.osmanlicayaceviri.com/. (2017). Osmanlıca çeviri, [Online]. Available: www.osmanlicayaceviri.com/ (visited on 04/11/2020).
  • [3] F. Farooq, Venu Govindaraju, and M. Perrone, “Pre-processing methods for handwritten arabic documents,” in Eighth International Conference on Document Analysis and Recognition (ICDAR’05), 2005, 267–271 Vol. 1.
  • [4] S. Erkilinc, M. Jaber, E. Saber, P. Bauer, and D. Depalov, “Text, photo, and line extraction in scanned documents,” Journal of Electronic Imaging, vol. 21, pp. 3006–, Jul. 2012. DOI: 10.1117/1.JEI.21.3.033006.
  • [5] S. Jin, Y. You, and Y. Huafen, “A scanned document ımage processing model for ınformation system,” in 2010 Asia-Pacific Conference on Wearable Computing Systems, 2010, pp. 198–201.
  • [6] B. B. Chaudhuri and S. Bera, “Handwritten text line ıdentification in ındian scripts,” in 2009 10th International Conference on Document Analysis and Recognition, 2009, pp. 636–640.
  • [7] A. Alsaeedi, H. A. Mutawa, S. Snoussi, S. Natheer, K. Omri, and W. A. Subhi, “Arabic words recognition using cnn and tnn on a smartphone,” in 2018 IEEE 2nd International Workshop on Arabic and Derived Script Analysis and Recognition (ASAR), 2018, pp. 57–61.
  • [8] M. Rabi, M. Amrouch, Z. Mahani, and D. Mammass, “Recognition of cursive arabic handwritten text using embedded training based on hmms,” in 2016 International Conference on Engineering MIS (ICEMIS), 2016, pp. 1–5.
  • [9] Khedher, M. I., Jmila, H., & El-Yacoubi, M. A. (2020). Automatic processing of Historical Arabic Documents: a comprehensive survey. Pattern Recognition, 100, 107144.
  • [10] Ali, A. A. A., & Mallaiah, S. (2021). Intelligent handwritten recognition using hybrid CNN architectures based-SVM classifier with dropout. Journal of King Saud University-Computer and Information Sciences.
  • [11] El-Sawy A., EL-Bakry H., Loey M. (2017) CNN for Handwritten Arabic Digits Recognition Based on LeNet-5. In: Hassanien A., Shaalan K., Gaber T., Azar A., Tolba M. (eds) Proceedings of the International Conference on Advanced Intelligent Systems and Informatics 2016. AISI 2016. Advances in Intelligent Systems and Computing, vol 533. Springer, Cham. https://doi.org/10.1007/978-3-319-48308-5_54
  • [12] Lamsaf, Asmae & Aitkerroum, Mounir & Boulaknadel, Siham & FAKHRI, Youssef. (2018). Lines segmentation and word extraction of Arabic handwritten text. SCA '18: Proceedings of the 3rd International Conference on Smart City Applications. 1-7. 10.1145/3286606.3286831.
  • [13] Ayesh, Muna & Mohammad, Khader & Qaroush, Aziz & Agaian, Sos & Washha, Mahdi. (2017). A Robust Line Segmentation Algorithm for Arabic Printed Text with Diacritics. Electronic Imaging. 2017. 42-47. 10.2352/ISSN.2470-1173.2017.13.IPAS-204.
  • [14] Alworafi, Mokhtar & Manjunath, Ravikumar & Pradeep, R.. (2014). Text Line Segmentation of Arabic Handwritten Documents using Line Height Method. International Journal of Advanced Research in Computer Science and Software Engineering. 4. 5.
  • [15] Ali, A. A. A., & Suresha, M. (2019). Efficient algorithms for text lines and words segmentation for recognition of Arabic handwritten script. In Emerging research in computing, information, communication and applications (pp. 387-401). Springer, Singapore.
  • [16] http://miletos.co/tr/showcase/ottoman-ocr
  • [17] C. Ozan Ceyhan & Melih Taşdizen & Berkin Malkoç & Atabey Kaygun & Kürşat Aker (2017) Osmanlıca Baskı Metinler İçin Arama Altyapısı
  • [18] https://www.kaggle.com/mloey1/ahcd1
  • [19] https://www.kaggle.com/alpbintuuzun/ottoman-turkish-characters
  • [20] Akın, A. A., & Akın, M. D. (2007). Zemberek, an open source nlp framework for turkic languages. Structure, 10, 1-5.
  • [21] Powers, D. M. (2020). Evaluation: from precision, recall and F-measure to ROC, informedness, markedness and correlation. arXiv preprint arXiv:2010.16061.
  • [22] Kurt, Z., Turkmen, H. I., & Karsligil, M. E. (2009). Linear discriminant analysis in ottoman alphabet character recognition. In Proceedings of the European Computing Conference (pp. 601-607). Springer, Boston, MA.
There are 22 citations in total.

Details

Primary Language Turkish
Subjects Engineering
Journal Section Research Articles
Authors

Alp Uzun 0000-0001-9246-9479

Alperen Özer This is me 0000-0003-4020-5660

H. Irem Turkmen 0000-0002-8690-0725

Publication Date December 30, 2021
Published in Issue Year 2021 Volume: 33 Issue: 4

Cite

APA Uzun, A., Özer, A., & Turkmen, H. I. (2021). Evrişimsel Sinir Ağı Tabanlı Osmanlıca Belge Çözümleyici. International Journal of Advances in Engineering and Pure Sciences, 33(4), 581-591. https://doi.org/10.7240/jeps.888164
AMA Uzun A, Özer A, Turkmen HI. Evrişimsel Sinir Ağı Tabanlı Osmanlıca Belge Çözümleyici. JEPS. December 2021;33(4):581-591. doi:10.7240/jeps.888164
Chicago Uzun, Alp, Alperen Özer, and H. Irem Turkmen. “Evrişimsel Sinir Ağı Tabanlı Osmanlıca Belge Çözümleyici”. International Journal of Advances in Engineering and Pure Sciences 33, no. 4 (December 2021): 581-91. https://doi.org/10.7240/jeps.888164.
EndNote Uzun A, Özer A, Turkmen HI (December 1, 2021) Evrişimsel Sinir Ağı Tabanlı Osmanlıca Belge Çözümleyici. International Journal of Advances in Engineering and Pure Sciences 33 4 581–591.
IEEE A. Uzun, A. Özer, and H. I. Turkmen, “Evrişimsel Sinir Ağı Tabanlı Osmanlıca Belge Çözümleyici”, JEPS, vol. 33, no. 4, pp. 581–591, 2021, doi: 10.7240/jeps.888164.
ISNAD Uzun, Alp et al. “Evrişimsel Sinir Ağı Tabanlı Osmanlıca Belge Çözümleyici”. International Journal of Advances in Engineering and Pure Sciences 33/4 (December 2021), 581-591. https://doi.org/10.7240/jeps.888164.
JAMA Uzun A, Özer A, Turkmen HI. Evrişimsel Sinir Ağı Tabanlı Osmanlıca Belge Çözümleyici. JEPS. 2021;33:581–591.
MLA Uzun, Alp et al. “Evrişimsel Sinir Ağı Tabanlı Osmanlıca Belge Çözümleyici”. International Journal of Advances in Engineering and Pure Sciences, vol. 33, no. 4, 2021, pp. 581-9, doi:10.7240/jeps.888164.
Vancouver Uzun A, Özer A, Turkmen HI. Evrişimsel Sinir Ağı Tabanlı Osmanlıca Belge Çözümleyici. JEPS. 2021;33(4):581-9.