TY - JOUR T1 - DİJİTALLEŞTİRMEDE OCR DOĞRULUĞU: DİJİTAL TARIM KÜTÜPHANESİ DİJİTALLEŞTİRME PROJESİ BAĞLAMINDA BİR DEĞERLENDİRME TT - OCR ACCURACY İN DİGİTİZATİON: AN ASSESSMENT İN THE CONTEXT OF THE DİGİTAL AGRİCULTURE LİBRARY DİGİTİZATİON PROJECT AU - Gültekin, Vedat AU - Bilir, Mehmet PY - 2025 DA - July Y2 - 2025 JF - Ankara Üniversitesi Sosyal Bilimler Dergisi JO - AUSOBILD PB - Ankara University WT - DergiPark SN - 2148-3434 SP - 448 EP - 464 VL - 16 IS - 2 LA - tr AB - Dijitalleştirme, fiziksel ortamda bulunan bilgi kaynaklarının taranıp makine dili ile okunabilmesi, veri tabanlarına aktarılabilmesi, işlenebilmesi ve saklanabilmesi amacıyla sayısal kodlara dönüştürülmesi işlemidir. Dijitalleştirme sayesinde okuyucuya, zamana ve mekâna bağlı olmadan araştırma imkânı sunulurken, bilgi merkezlerine ise bilgi kaynaklarının uzun süreli saklanması ve korunması konusunda fırsatlar sunulmaktadır. Bu çalışmada, Dijital Tarım Kütüphanesinde gerçekleştirilen dijitalleştirme projesi üzerinden optik karakter tanımlama doğrulama başarısı ölçülmektedir. Çalışmada, dijitalleştirme ve optik karakter tanımlama hakkında bilgi verilerek, dijitalleştirilen bilgi kaynaklarından seçilen örneklemler üzerinden optik karakter doğrulama oranı hesaplanmıştır. 2018-2019 yılları arasında dijitalleştirilen 7 bin bilgi kaynağının kelime hata oranı hesaplaması sonucunda, dijitalleştirme projesinde OCR (Optical Character Recognition) kelime doğrulama oranı %98 olarak tespit edilmiştir. Ayrıca, dijitalleştirme projelerinde karakter tanımanın kalite kontrol koşulları arasında yer almamasının sebep olacağı eksiklikleri ortadan kaldırmak amacıyla; ilgili proje kapsamında yürütülen faaliyetlerin yanında geliştirilen kalite kontrol yöntemi ve yazılımının, diğer projelere de örnek teşkil edecek şekilde paylaşılması amaçlanmaktadır. KW - OCR KW - Optik Karakter Tanımlama KW - OCR Doğruluğu KW - Dijitalleştirme KW - Dijitalleştirme Teknolojisi KW - Dijital Tarım Kütüphanesi N2 - Digitization is the process of scanning information sources in the physical environment and converting them into numerical codes so that they can be read with machine language, transferred to databases, processed and stored. Thanks to digitization, the reader is provided with the opportunity to research independently of time and space, while information centers are provided with opportunities for long-term storage and protection of information resources. In this study, the optical character identification verification success is measured through the digitization project carried out in the Digital Agriculture Library. In the study, information about digitization and optical character identification is provided, and the optical character verification rate is calculated over the samples selected from the digitized information sources. As a result of the word error rate calculation of the information sources digitized between 2018-2019, the OCR word verification rate in the digitization project was determined to be as 98%. In addition, in order to eliminate the deficiencies that will be caused by the fact that character recognition is not included among the quality control conditions in digitization projects; It is aimed to share the quality control method and software developed in addition to the activities carried out within the scope of the relevant project as an example for other projects. CR - Agrawal, V., Jagtap, J. ve Kantipudi, M. V. V. P. (2024). Exploration of advancements in handwritten document recognition techniques. Intelligent Systems with Applications, 22, 200358. https://doi.org/10.1016/j.iswa.2024.200358 CR - Alav, O. (2023). Yeni nesil bilgi merkezleri: Veri yönetimi. Akademisyen Kitabevi. https://doi.org/10.37609/akya.2972 CR - Bieniecki, W. Grabowski, S. ve Rozenberg, W. (2007). Image preprocessing for improving OCR accuracy. 2007 International Conference on Perspective Technologies and Methods in MEMS Design, Lviv, Ukraine içinde (ss. 75-80). https://doi.org/10.1109/MEMSTECH.2007.4283429 CR - Binici, K. ve Akkaya, M. A. (2018). Bilişim teknolojilerinin bilgi merkezlerine ve hizmetlerine etkileri. Bilgi ve Belge Araştırmaları Dergisi, 10, 1-22. https://dergipark.org.tr/tr/download/article-file/605422 CR - Carlson, J. Bryan, T. ve Dell, M. (2024). Efficient OCR for building a diverse digital history. Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) içinde (ss. 8105–8115). Association for Computational Linguistics. https://doi.org/10.48550/arXiv.2304.02737 CR - Carrasco, R. C. (2014). An open-source OCR evaluation tool. Proceedings of the First International Conference on Digital Access to Textual Cultural Heritage, 2014, içinde (ss. 179-184). ACM Press. https://doi.org/10.1145/2595188.2595221 CR - Chiron, G., Doucet, A., Coustaty, M., Visani, M. ve Moreux, J. P. (2017). Impact of OCR errors on the use of digital libraries: Towards a better access to ınformation. ACM/IEEE Joint Conference on Digital Libraries (JCDL), Toronto, ON, Canada, 2017 içinde (ss. 1-4). https://doi.org/10.1109/JCDL.2017.7991582 CR - Coyle, K. (2006). One word: Digital. Journal of Academic Librarianship, 32(2), 205-207. https://doi.org/10.1016/j.acalib.2005.12.011 CR - Çakmak, T. ve Yılmaz, B. (2012). Türkiye’de kültürel bellek kurumlarındaki dijitalleştirme çalışmalarının düşünce özgürlüğü bağlamında değerlendirilmesi. Bilgi Dünyası, 13(2) 418-436. https://doi.org/10.15612/BD.2012.149 CR - Çakmak, T. ve Yılmaz, B. (2017). Bellek kurumlarında dijitalleştirme ve dijital koruma: Türkiye’deki uygulamaların analizi. Bilgi Dünyası, 18(1) 49-91. https://doi.org/10.15612/BD.2017.580 CR - Çelik, A. (2020). Optik karakter tanımada hata yayılım algoritmalarının performans kıyaslaması. Journal of the Institute of Science and Technology, 10(4), 2328-2340. https://doi.org/10.21597/jist.714810 CR - Dalıp, F. (2022). Raspbraille: Optik karakter tanıma ve ses tanıma algoritması ile Braille alfabesine dönüşüm [Yayımlanmamış yüksek lisans tezi]. Marmara Üniversitesi. CR - Dölek, İ. ve Kurt, A. (2022). Osmanlıcadan Türkçeye uçtan uca aktarım. Journal of Smart Systems Research, 3(1), 1-10. https://dergipark.org.tr/tr/download/article-file/2171923 CR - EKAP. (2018a). Gıda Tarım ve Hayvancılık Bakanlığı Merkez Kütüphanesinde bulunan kitapların dijital ortama aktarılması ve internet ortamında hizmete sunulması (2018/95704). Elektronik Kamu Alımları Platformu (EKAP). https://ekap.kik.gov.tr/EKAP/Ortak/IhaleArama/index.html CR - EKAP. (2018b). Gıda Tarım Ve Hayvancılık Bakanlığı Merkez Kütüphanesinde bulunan kitapların dijital ortama aktarılması ve internet ortamında hizmete sunulması (2018/321851). Elektronik Kamu Alımları Platformu (EKAP). https://ekap.kik.gov.tr/EKAP/Ortak/IhaleArama/index.html CR - Hamad, K. ve Kaya, M. (2016). A detailed analysis of optical character recognition technology. International Journal of Applied Mathematics Electronics and Computers, (Special Issue-1), 244-249. https://doi.org/10.18100/ijamec.270374 CR - Holley, R. (2009). Analysing and improving OCR accuracy in large scale historic newspaper digitisation programs. D-Lib Magazine, 15(3/4). https://www.dlib.org/dlib/march09/holley/03holley.html CR - Irimia, C. Harbuzariu, F., Hazi, I. ve Iftene, A. (2022). Official document identification and data extraction using templates and OCR. Proce. Comput. Sci., 207, 1571-1580. https://doi.org/10.1016/J.PROCS.2022.09.214 CR - Karagözoğlu Aslıyüksek, M. (2016). Bilgi teknolojileri ve dijitalleşmenin Türkiye’de bilgibilim literatürüne yansıması: Bilgi Dünyası dergisi örneği (2000-2014). Bilgi Dünyası, 17(1), 87-103. https://doi.org/10.15612/BD.2016.480 CR - Karasar, N. (2024). Bilimsel araştırma yöntemi: Kavramlar ilkeler teknikler (39. bs.). Nobel. CR - Kavčič Čolić, A. and Hari, A. (2024). Improving accessibility of digitization outputs: EODOPEN project research findings. Digital Library Perspectives, 40(2), 187-211. https://doi.org/10.1108/DLP-09-2023-0080 CR - Klijn, E. (2008). The current state-of-art in newspaper digitization: A market perspective. D-Lib Magazine, 14(1/2). https://www.dlib.org/dlib/january08/klijn/01klijn.html CR - Koyun, A. ve Afşin, E. (2017). Derin öğrenme ile iki boyutlu optik karakter tanıma. Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi, 10(1), 11-14. https://dergipark.org.tr/tr/download/article-file/346880 CR - Küçük, M. ve Soydal, İ. (2003). Dijital kütüphanelerde standartlar ve protokoller. Türk Kütüphaneciliği, 17(2), 121-146. http://www.tk.org.tr/index.php/tk/article/view/215 CR - Külcü, Ö. (2010). Belge yönetiminde yeni fırsatlar: Dijitalleştirme ve içerik yönetimi uygulamaları. Bilgi Dünyası, 11(2), 290-331. https://doi.org/10.15612/BD.2010.239 CR - Lindland, C. ve Fadul, F. E. (2023). Interface development for digitization of documents using OCR [Yayımlanmamış lisans tezi]. University of Stavanger. CR - Mahadevkar, S., Patil, S. ve Kotecha, K. (2024). Enhancement of handwritten text recognition using AI-based hybrid approach. MethodsX, 12, 102654. https://doi.org/10.1016/j.mex.2024.102654 CR - Margner, V. ve Abed, H. E. (2014). Tools and metrics for document analysis systems evaluation. D. Doermann ve K. Tombre (Ed.) Handbook of Document Image Processing and Recognition içinde (ss. 1011-1036). Springer. doi: 10.1007/978-0-85729-859-1_33 CR - McIlwaine, J., Comment, J., Wolf, C., Peters, D., Justrell, B., Varlamoff, M. ve Koopman, S. (2002). Guidelines for digitization projects for collections and holdings in the public domain, particularly those held by libraries and archives. International Federation of Library Associations and Institutions (IFLA). https://www.ifla.org/wp-content/uploads/2019/05/assets/preservation-and-conservation/publications/digitization-projects-guidelines.pdf CR - Mithe, R., Indalkar, S. ve Divekar, N. (2013). Optical character recognition. International Journal of Recent Technology and Engineering (IJRTE), 2(1), 72-75. https://www.ijrte.org/wp-content/uploads/papers/v2i1/A0504032113.pdf CR - Özçubukçu, G. (2019). Arşivlerde dijitalleştirme ve kullanıcı hizmetleri: Bilgi teknolojileri ve iletişim kurumu örneği [Yayımlanmamış yüksek lisans tezi]. Hacettepe Üniversitesi. CR - Öztemiz, S. ve Yılmaz, B. (2017). Kültürel bellek kurumlarında dijitalleştirme: kültürel miras ürünlerine yönelik uygulamalar üzerine bir araştırma. Ankara Üniversitesi Dil Ve Tarih-Coğrafya Fakültesi Dergisi, 57(1), 493-523. https://doi.org/10.1501/Dtcfder_0000001524 CR - Pinto, L.G.M., Mora-Camino, F., de Brito, P.L., Ramos, A.C.B., Castro Filho, H.F. (2019). A SSD – OCR Approach for Real-Time Active Car Tracking on Quadrotors. Latifi, S. (ed.), 16th International Conference on Information Technology-New Generations (ITNG 2019). Advances in Intelligent Systems and Computing içinde (ss. 471–476). Springer, Cham. https://doi.org/10.1007/978-3-030-14070-0_65 CR - Powell, T. ve Paynter, G. (2009). Going grey? Comparing the OCR accuracy levels of bitonal and greyscale images. D-Lib Magazine, 15(3/4). https://www.dlib.org/dlib/march09/powell/03powell.html CR - Prytherch, R. J. (2005). Harrod's librarians' glossary and reference book : A directory of over 10,200 terms, organizations, projects and acronyms in the areas of information management, library science, publishing and archive management. Aldershot, Hants, England ; Burlington, VT: Ashgate. CR - Raj, A., Sharma, S., Singh, J. ve Singh, A. (2023). Revolutionizing data entry: An in-depth study of optical character recognition technology and its future potential. IJRASET. https://doi.org/10.22214/ijraset.2023.49108 CR - S., R. ve Magapu, S.B. (2018). Development and customization of in-house developed OCR and its evaluation. The Electronic Library, 36(5), 766-781. https://doi.org/10.1108/EL-01-2018-0011 CR - Sarıçoban, B. Ş. ve Demir, G. (2024). Bilgi toplumunda bilgi yönetimi, bilgiye erişim ve kütüphaneler: Kuramsal bir perspektif. Hacettepe Üniversitesi Edebiyat Fakültesi Dergisi, 41(2), 610-631. https://doi.org/10.32600/huefd.1451441 CR - Springmann, U., Fink, F. ve Schulz, K.U. (2016). Automatic quality evaluation and (semi-) automatic improvement of OCR models for historical printings. https://arxiv.org/abs/1606.05157 (Erişim tarihi: 16.07.2025) CR - Srihari, S. N., Shekhawat, A., Lam , S. W. (2003) Optical character recognition (OCR). Encyclopedia Of Computer Science içinde (ss. 1326–1333). Wiley. https://dl.acm.org/doi/pdf/10.5555/1074100.1074664 CR - Stoliński, S. ve Bieniecki, W. (2011). Application of ocr systems to preprocessing and digitalization of paper documents. Information systems in management: Information and Communication Technologies for e-Business içinde (ss. 102– 111). WULS Press. https://www.researchgate.net/profile/Wojciech-Bieniecki/publication/228554430_Application_of_OCR_systems_to_processing_and_digitization_of_paper_documents/links/02e7e51d530d538520000000/Application-of-OCR-systems-to-processing-and-digitization-of-paper-documents.pdf CR - Sun, W., Liu, L. Zhang, W. ve Comfort, J. C. (1992). Intelligent OCR processing. Journal of the American Society for Information Science, 46(6), 422-431. https://doi.org/10.1002/(SICI)1097-4571(199207)43:6%3C422::AID-ASI3%3E3.0.CO;2-Z CR - Şenkaya, Y. ve Kurnaz, Ç. (2022). Bölütleme kullanarak doğal görüntülerde metin tanıma. Duzce University Journal of Science and Technology, 10(5), 42-51. https://doi.org/10.29130/dubited.1107625 CR - Şeşen, Y. ve Şeşen, E. (2025). Türk kamu yönetiminin bilgi toplumuna dönüşüm niyet-eylem uyumuna yönelik bir araştırma: Merkezi yönetim kapsamındaki kamu idarelerinin stratejik planlarının analizi. Türk Kütüphaneciliği, 39(2), 107-153. https://doi.org/10.24146/tk.1583426 CR - Tilki, S. (2020). İngilizcede çember dolgu oranı yöntemi ile optik karakter tanıma [Yayımlanmamış yüksek lisans tezi]. İstanbul Sabahattin Zaim Üniversitesi. CR - Uztemur, M. (2019). Yapay sinir ağları ile optik karakter tanıma [Yayımlanmamış yüksek lisans tezi]. İstanbul Teknik Üniversitesi. CR - Ülger, D. K. ve Külcü, Ö. (2016). Dijitalleştirme çalışmalarına kültürel miras ölçeğinde genel bir bakış: VEKAM Örneği. Akademia Disiplinlerarası Bilimsel Araştırmalar Dergisi 2(1), 42-55. https://dergipark.org.tr/tr/pub/adbad/issue/28278/300239 CR - Ünal, H. (2019). Dijitalleştirme ve kurumsal elektronik arşiv yönetimi sistemlerinin yapılandırılması [Yayımlanmamış yüksek lisans tezi]. Hacettepe Üniversitesi. CR - Yılmaz, B. (2011). Dijital kütüphane becerileri konusunda Türkiye’de durum: AccessIT Projesi çerçevesinde bir değerlendirme. Türk Kütüphaneciliği, 25(1), 117-123. https://dergipark.org.tr/tr/pub/tk/issue/48856/622468 UR - https://dergipark.org.tr/en/pub/sobild/issue//1741880 L1 - https://dergipark.org.tr/en/download/article-file/5053003 ER -