<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.4 20241031//EN"
        "https://jats.nlm.nih.gov/publishing/1.4/JATS-journalpublishing1-4.dtd">
<article  article-type="research-article"        dtd-version="1.4">
            <front>

                <journal-meta>
                                                                <journal-id>gummfd</journal-id>
            <journal-title-group>
                                                                                    <journal-title>Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi</journal-title>
            </journal-title-group>
                            <issn pub-type="ppub">1300-1884</issn>
                                        <issn pub-type="epub">1304-4915</issn>
                                                                                            <publisher>
                    <publisher-name>Gazi Üniversitesi</publisher-name>
                </publisher>
                    </journal-meta>
                <article-meta>
                                        <article-id pub-id-type="doi">10.17341/gazimmfd.1062596</article-id>
                                                                <article-categories>
                                            <subj-group  xml:lang="en">
                                                            <subject>Engineering</subject>
                                                    </subj-group>
                                            <subj-group  xml:lang="tr">
                                                            <subject>Mühendislik</subject>
                                                    </subj-group>
                                    </article-categories>
                                                                                                                                                        <title-group>
                                                                                                                        <article-title>Derin sinir ağlarıyla Osmanlıca optik karakter tanıma</article-title>
                                                                                                    </title-group>
            
                                                    <contrib-group content-type="authors">
                                                                        <contrib contrib-type="author">
                                                                    <contrib-id contrib-id-type="orcid">
                                        https://orcid.org/0000-0002-5823-0103</contrib-id>
                                                                <name>
                                    <surname>Dölek</surname>
                                    <given-names>İshak</given-names>
                                </name>
                                                                    <aff>istanbul üniversitesi-cerrahpaşa</aff>
                                                            </contrib>
                                                    <contrib contrib-type="author">
                                                                    <contrib-id contrib-id-type="orcid">
                                        https://orcid.org/0000-0002-9549-8475</contrib-id>
                                                                <name>
                                    <surname>Kurt</surname>
                                    <given-names>Atakan</given-names>
                                </name>
                                                                    <aff>İstanbul Üniversitesi-Cerrahpaşa</aff>
                                                            </contrib>
                                                                                </contrib-group>
                        
                                        <pub-date pub-type="pub" iso-8601-date="20230412">
                    <day>04</day>
                    <month>12</month>
                    <year>2023</year>
                </pub-date>
                                        <volume>38</volume>
                                        <issue>4</issue>
                                        <fpage>2579</fpage>
                                        <lpage>2594</lpage>
                        
                        <history>
                                    <date date-type="received" iso-8601-date="20220124">
                        <day>01</day>
                        <month>24</month>
                        <year>2022</year>
                    </date>
                                                    <date date-type="accepted" iso-8601-date="20221224">
                        <day>12</day>
                        <month>24</month>
                        <year>2022</year>
                    </date>
                            </history>
                                        <permissions>
                    <copyright-statement>Copyright © 1986, Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi</copyright-statement>
                    <copyright-year>1986</copyright-year>
                    <copyright-holder>Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi</copyright-holder>
                </permissions>
            
                                                                                                <abstract><p>Bu makalede &quot;Osmanlıcadan Günümüz Türkçesine Uçtan Uca Aktarım Projesi&quot;  kapsamında geliştirilen ve nesih hattıyla basılmış Osmanlıca (Osmanlı Türkçesi) doküman görüntülerini derin sinir ağı modelleriyle metne dönüştüren web tabanlı bir optik karakter tanıma (OCR) sistemi sunulmuştur. Sistemin derin sinir ağı mimarisi görüntü tanımada yaygın kullanılan CNN katmanlarından ve doğal dil işlemede yaygın kullanılan bir RNN türü olan iki yönlü LSTM katmanlarından oluşmaktadır. Eğitim için orijinal, sentetik ve hibrit olmak üzere 3 farklı veri kümesi hazırlanmış ve bunlarla aynı isimde 3 farklı OCR modeli oluşturulmuştur. Orijinal veri seti yaklaşık 1.000 sayfadan, sentetik veri seti ise yaklaşık 23.000 sayfadan oluşmaktadır. Geneline Osmanlica.com OCR adı verilen bu 3 model Tesseract’ın Arapça ve Farsça, Google Docs’ın Arapça, Abby FineReader’ın Arapça ve Miletos firmasının OCR model/araçlarıyla test için hazırladığımız 21 sayfalık orijinal doküman kümesi kullanılarak karşılaştırılmıştır. Kesin referans ve OCR çıktı metinleri kullanıcı ve yazılım kaynaklı hatalar içerdiğinden karşılaştırmadan önce metinler özel bir normalizasyon sürecinden geçirilmiştir. Karşılaştırma ham, normalize ve bitişik olmak üzere 3 farklı metin ve karakter, katar ve kelime tanıma olmak üzere 3 farklı ölçüt ile yapılmıştır. Osmanlica.com Hibrit modeli karakter tanımada %88,86 ham, %96,12 normalize ve %97,37 bitişik doğruluk oranlarıyla; bağlı karakter katarı tanımada %80,48 ham, %91,60 normalize ve %97,37 bitişik doğruluk oranlarıyla; kelime tanımada %44.08 ham ve %66.45 normalize doğruluk oranlarıyla diğer modellerden belirgin şekilde daha iyi sonuçlar üretmiştir. Makalede Osmanlı alfabesinin kendine özgü karakteristiklerinin OCR üstündeki etkilerini gözlemlemek için Osmanlıcanın karakter, katar ve kelime ölçütlerinde sıklık analizi çalışması yapılmıştır. Bu sıklık analizi çalışmasında alfabedeki karakterler bitişebilme, harf gövdesi, noktaların konumu ve sayıları, karakterin türü, kaynak dil vb. ayırt edici özelliklere göre gruplandırılmış grup bazında sıklıklar hesaplanmıştır. Yapılan karşılaştırma deneylerinde karakter tanıma doğruluk oranları grup bazında hesaplanarak ayrıca incelenmiştir. Deneylerde sadece karakter tanıma doğruluk oranlarıyla yetinilmemiş, hatalar detaylı olarak incelenmiş, harf bazındaki OCR hataları ekleme, silme ve yer değiştime işlemleri cinsinden ortaya konulmuştur. Böylece en çok hangi harfin hangi harflerle karıştırıldığı, en çok hangi harflerin gözden kaçırıldığı, hangi durumlarda hangi tür hataların daha çok ortaya çıktığı vb. durumlar sadece kendi OCR modelimizde değil diğer tüm modeller için ortaya konulmuştur. Bu bulguların hem verilerin ön/son işlemesinde hem de modellerin iyileştirmesinde değerli katkılar sağlayacağını düşünüyoruz. Karşılaştırmada kullanılan 21 sayfalık orijinal doküman görüntüleri, kesin referans metinleri, modellerin OCR çıktıları ve normalizasyonu yapıp doğruluk oranlarını hesaplayan Python programını içeren test veri kümesi osmanlica.com/test adresinde paylaşılmıştır.</p></abstract>
                                                            
            
                                                            <kwd-group>
                                                    <kwd>Osmanlıca</kwd>
                                                    <kwd>  Optik karakter tanıma</kwd>
                                                    <kwd>  OCR</kwd>
                                                    <kwd>  matbu nesih hattı</kwd>
                                                    <kwd>  derin öğrenme</kwd>
                                                    <kwd>  CNN</kwd>
                                                    <kwd>  RNN</kwd>
                                                    <kwd>  LSTM</kwd>
                                                    <kwd>  derin sinir ağları</kwd>
                                            </kwd-group>
                            
                                                                                                                    <funding-group specific-use="FundRef">
                    <award-group>
                                                    <funding-source>
                                <named-content content-type="funder_name">TÜBİTAK</named-content>
                            </funding-source>
                                                                            <award-id>2190252</award-id>
                                            </award-group>
                </funding-group>
                                </article-meta>
    </front>
    <back>
                            <ref-list>
                                    <ref id="ref1">
                        <label>1</label>
                        <mixed-citation publication-type="journal">M. ERGİN, Osmanlıca Dersleri, İstanbul: Boğaziçi yayınları, 2020.</mixed-citation>
                    </ref>
                                    <ref id="ref2">
                        <label>2</label>
                        <mixed-citation publication-type="journal">Q. U. A. Akram, S. Hussain, A. Niazi, U. Anjum ve F. Irfan, “Adapting Tesseract for Complex Scripts: An Example for Urdu Nastalique,” in Document Analysis Systems (DAS) 11th IAPR International Workshop on, 2014, pp. 191-195., 2014</mixed-citation>
                    </ref>
                                    <ref id="ref3">
                        <label>3</label>
                        <mixed-citation publication-type="journal">A. A. Atici ve F. T. Yarman Vural, “A heuristic algorithm for optical character recognition of Arabic Script,”  Signal Processing 62, 8799., 1997.</mixed-citation>
                    </ref>
                                    <ref id="ref4">
                        <label>4</label>
                        <mixed-citation publication-type="journal">E. . Öztop, A. Y. Mülayim, V. Atalay ve F. Yarman Vural, “Repulsive Attractive Network for Baseline Extraction on Document Images,”  Signal Processing 75, no. 1 (1999): 1-10.</mixed-citation>
                    </ref>
                                    <ref id="ref5">
                        <label>5</label>
                        <mixed-citation publication-type="journal">A. Ozturk, S. Güneş ve Y. Özbay, “Multifont Ottoman Character Recognition,” 7th IEEE Int. Conf. on Electronics Circuits and System (ICECS) bildiri kitapçığı içinde (2000).</mixed-citation>
                    </ref>
                                    <ref id="ref6">
                        <label>6</label>
                        <mixed-citation publication-type="journal">E. Şeykol, A. K. Sinop, U. Güdükbay ve Ö. Ulusoy, “Content Based Retrieval of Historical Ottoman Documents Stored as Textual Images,” IEEE Transactions on Image Processing, cilt 13, no. 314, 2004.</mixed-citation>
                    </ref>
                                    <ref id="ref7">
                        <label>7</label>
                        <mixed-citation publication-type="journal">E. Ataer ve P. Duygulu, “Matching ottoman words: an image retrieval approach to historical document indexing,” Proceedings of the 6th ACM International conference on Image and Video Retrieval, 2007.</mixed-citation>
                    </ref>
                                    <ref id="ref8">
                        <label>8</label>
                        <mixed-citation publication-type="journal">I. Z. Yalniz, I. Sengor Altingovde, U. Güdükbay ve Ö. Ulusoy, “Ottoman Archives Explorer: A Retrieval System for Digital Ottoman Archives,” Journal on Computing and Cultural Heritage (JOCCH) 2.3 (2010): 1-20.</mixed-citation>
                    </ref>
                                    <ref id="ref9">
                        <label>9</label>
                        <mixed-citation publication-type="journal">E. F. Can ve P. Duygulu, “A line based representation for matching words in historical manuscripts,”, Pattern Recognition Letters 32, 11261138 (2011)</mixed-citation>
                    </ref>
                                    <ref id="ref10">
                        <label>10</label>
                        <mixed-citation publication-type="journal">P. Duygulu, D. Arifoglu ve M. Kalpaklı, “Cross-document word matching for segmentation and retrieval of Ottoman divans,” Pattern Analysis and Applications , cilt 19, no. 3, pp. 647-663., 2016.</mixed-citation>
                    </ref>
                                    <ref id="ref11">
                        <label>11</label>
                        <mixed-citation publication-type="journal">N. Kilic, P. Gorgel, O. N. Ucan and A. Kala, “Multifont Ottoman character recognition using support vector machine,” 2008 3rd Int. Sym. on Communications, Control and Signal Processing, 2008, pp. 328-333</mixed-citation>
                    </ref>
                                    <ref id="ref12">
                        <label>12</label>
                        <mixed-citation publication-type="journal">A. Onat, . F. Yildiz ve M. Gündüz, “Ottoman Script Recognition Using Hidden Markov Model,” World Academy of Science, Engineering and Technology 2, 630 632 (2008).</mixed-citation>
                    </ref>
                                    <ref id="ref13">
                        <label>13</label>
                        <mixed-citation publication-type="journal">Z. Kurt, H. I. Turkmen ve E. Karsligil, “Linear Discriminant Analysis in Ottoman Alphabet Character Recognition,”  Proceedings of the European Computing Conference, 2009.</mixed-citation>
                    </ref>
                                    <ref id="ref14">
                        <label>14</label>
                        <mixed-citation publication-type="journal">P. Gorgel, N. Kilic, B. Ucan, A. Kala ve O. N. Ucan, “A Backpropagation Neural Network Approach For Ottoman Character Recognition,” Intelligent Automation &amp; Soft Computing 15, 3 (2009).</mixed-citation>
                    </ref>
                                    <ref id="ref15">
                        <label>15</label>
                        <mixed-citation publication-type="journal">I. Z. Yalniz, I. S. Altingovde, U. Güdükbay ve Ö. Ulusoy, “Integrated segmentation and recognition of connected Ottoman script,” Optical Engineering, 2009.</mixed-citation>
                    </ref>
                                    <ref id="ref16">
                        <label>16</label>
                        <mixed-citation publication-type="journal">H. Adigüzel, P. D. Şahin ve M. Kalpaklı, “Line Segmentation of Ottoman Documents,” Signal Processing and Communications Applications Conference, 2012.</mixed-citation>
                    </ref>
                                    <ref id="ref17">
                        <label>17</label>
                        <mixed-citation publication-type="journal">N. Küçükşahin, “Design of an offline ottoman character recognition system of translating printed documents to modern turkish,” M.Sc. Thesis,İzmir Institute of Technology, 2019.</mixed-citation>
                    </ref>
                                    <ref id="ref18">
                        <label>18</label>
                        <mixed-citation publication-type="journal">S. Kirmizialtin ve D. Wrisley, “Automated Transcription of Non-Latin Script Periodicals: A Case Study in the Ottoman Turkish Print Archive,” arXiv preprint arXiv:2011.01139, 2020.</mixed-citation>
                    </ref>
                                    <ref id="ref19">
                        <label>19</label>
                        <mixed-citation publication-type="journal">M. Doğru, “Ottoman-Turkish Optical Character Recognition and Latin Transcription M.Sc. Thesis,” Yıldırım Beyazıt University, 2016.</mixed-citation>
                    </ref>
                                    <ref id="ref20">
                        <label>20</label>
                        <mixed-citation publication-type="journal">B. Elmas, “Evrişimli sinir ağları ile ağaç kabuğu görüntülerinden ağaç türlerinin transfer öğrenme yöntemiyle tanımlanması,” Journal of the Faculty of Eng. &amp; Arch. of Gazi University, cilt 3, no. 36, pp. 1253-1270, 2021.</mixed-citation>
                    </ref>
                                    <ref id="ref21">
                        <label>21</label>
                        <mixed-citation publication-type="journal">O. Yıldız, “Derin öğrenme yöntemleriyle dermoskopi görüntülerinden melanom tespiti: Kapsamlı bir çalışma,” Journal of the Faculty of Eng.&amp; Arch. of Gazi University, cilt 34, no. 4, pp. 2241-2260, 2019.</mixed-citation>
                    </ref>
                                    <ref id="ref22">
                        <label>22</label>
                        <mixed-citation publication-type="journal">K. Gurkahraman ve R. Karakiş, “Veri çoğaltma kullanılarak derin öğrenme ile beyin tümörlerinin sınıflandırılması,” Journal of the Faculty of Eng. &amp; Arch. of Gazi University, cilt 36, no. 2, pp. 997-1012, 2021.</mixed-citation>
                    </ref>
                                    <ref id="ref23">
                        <label>23</label>
                        <mixed-citation publication-type="journal">W. G. Al-Khatib, S. A. Shahab ve S. A. Mahmoud, “Digital Library Framework for Arabic Manuscripts,” IEEE/ACS International Conference on Computer Systems and Applications, 2007.</mixed-citation>
                    </ref>
                                    <ref id="ref24">
                        <label>24</label>
                        <mixed-citation publication-type="journal">A. A. Jaf ve S. Koç Kayhan, “Machine-Based Transliterate of Ottoman to Latin-Based Script,” Scientific Programming, Article ID 7152935, 2021. https://doi.org/10.1155/2021/7152935, 2021.</mixed-citation>
                    </ref>
                                    <ref id="ref25">
                        <label>25</label>
                        <mixed-citation publication-type="journal">N. Altwaijry ve I. Al-Turaiki, “Arabic handwriting recognition system using convolutional neural network,” Neural Comput &amp; Applic 33, 2249–2261 https://doi.org/10.1007/s00521-020-05070-8 , 2021.</mixed-citation>
                    </ref>
                                    <ref id="ref26">
                        <label>26</label>
                        <mixed-citation publication-type="journal">H. Lamtougui, H. E. M. H. Fouadi, A. Yahyaouy ve K. Satori, “Offline Arabic Handwriting Recognition Using Deep Learning: Comparative Study,” 2020 Int. Conf. on Intelligent Systems and Computer Vision (ISCV), pp. 1-8, doi: 10.1, 2020.</mixed-citation>
                    </ref>
                                    <ref id="ref27">
                        <label>27</label>
                        <mixed-citation publication-type="journal">H. Q. Ghadhban, M. Othman, N. Samsudin, S. Kasim, A. Mohamed ve Y. Aljeroudi, “Segments Interpolation Extractor for Finding the Best Fit Line in Arabic Offline Handwriting Recognition Words,” IEEE Access, vol. 9, pp. 73482-73494, 2021.</mixed-citation>
                    </ref>
                                    <ref id="ref28">
                        <label>28</label>
                        <mixed-citation publication-type="journal">M. Mohd, F. Qamar, I. Al-Sheikh ve R. Salah, “Quranic Optical Text Recognition Using Deep Learning Models,” IEEE Access, 2021.</mixed-citation>
                    </ref>
                                    <ref id="ref29">
                        <label>29</label>
                        <mixed-citation publication-type="journal">E. F. Bilgin, “Machine transliteration of Ottoman Turkish texts to modern Turkish,” İstanbul Fatih Ün.: Fen Bilimleri Enstitüsü, Yüksek Lisans Tezi,56, 2012.</mixed-citation>
                    </ref>
                                    <ref id="ref30">
                        <label>30</label>
                        <mixed-citation publication-type="journal">S. Albelwi ve A. Mahmood, “A Framework for Designing the Architectures of Deep Convolutional Neural Networks,” Entropy,19, 242, doi:10.3390/e19060242, 2017.</mixed-citation>
                    </ref>
                            </ref-list>
                    </back>
    </article>
