Bu makalede Osmanlıca Dokümanların Modern Türkçeye Uçtan Uca aktarımı adlı proje sunulmuştur. Devlet arşivleri, kütüphaneleri ve özel koleksiyonlarda milyonlarca Osmanlıca doküman bulunmaktadır. Bunların Modern Türkçeye elle aktarımı mümkün değildir. Osmanlica.com adresinde kullanıma açılan bu projede Osmanlıca dokümanların Türkçe 3 adımda aktarımı yapılmaktadır: (i) Osmanlıca karakter tanıma (OCR) (ii) Osmanlıca-Türkçe Alfabe Çevrisi (iii) Osmanlıca-Türkçe Çeviri. Bildiğimiz kadarıyla, bu proje Osmanlıca-Türkçe aktarım sürecinin üç adımını da çözmeyi hedefleyen ilk projedir. Bu adımların her biri NLP ve Derin Öğrenmede teknik ve bilimsel olarak karmaşık ve kaynak gerektiren problemlerdir. Birinci adımda doküman görüntüleri OCR ile Osmanlı alfabesinde düz metine dönüştürülür. İkinci adımda Arap-tabanlı Osmanlı alfabesindeki bu metin bir alfabe çevrisi sistemiyle Latin-tabanlı Türk alfabesine dönüştürülür. Türk alfabesindeki metin her ne kadar okunabilir olsa da çok sayıda Arapça ve Farsça kelime ve yapı barındırdığı için henüz anlaşılabilir değildir. Üçüncü adım bu metin makine çevirisi ile Modern Türkçeye aktarılır. Birinci adımda geliştirilen CRNN tabanlı OCR modeli 21 sayfalık bir veri setinde test edilmiş ve %96 karakter tanıma doğruluk oranı üretmiştir. İkinci adımda geliştirilen alfabe çeviri sistemi 7500 kelimelik bir veri setiyle test edilmiş ve %98 kelime çeviri doğruluk oranı üretmiştir. Üçüncü adım için kelime grubu tabanlı bir makine çeviri sistemi geliştirilmiş ve testlerine başlanmıştır. Bu projenin önemli bir sosyal, kültürel ve bilimsel probleme katkı sağladığı için değerli bir çalışma olduğunu düşünüyoruz.
Osmanlıca OCR Osmanlıca-Türkçe alfabe çevirisi Osmanlıca-Türkçe harfçevrim Osmanlıca-Türkçe dil çevirisi
In this paper, a project titled End-To-End Conversion Ottoman Documents to Contemporary Turkish is presented. The state archives, libraries, and private collections contain millions of document written in Ottoman. It is practically impossible to convert all these documents to Modern Turkish manually. In this project which is available at Osmanlica.com Ottoman documents are converted to Modern Turkish in three steps: (i) Ottoman OCR (Optical Character Recognition), (ii) Ottoman-Turkish transliteration, and (iii) Ottoman-Turkish translation. To our knowledge this is the only project to set out to solve all three steps of this conversion to date. Each one of these three steps are technically complex and resource-demanding problems in NLP and deep learning. OCR converts image files to editable text in Ottoman alphabet in the first step. Transliteration tranforms that Ottoman text in Arabic-based Ottoman alphabet to the Latin-based Turkish alphabet making it readable but not yet understandable because of Arabic and Persian words and structures in the second step. In the last step, this Ottoman text in Turkish alphabet is translated to Modern Turkish via machine translation. The CRNN based on model developed in the first step produced %96 OCR accuracy with a 21 pages test document set. The Ottoman-Turkish transliteration system developed yielded %98 accuracy with a test set of 7500 words in the second step. The phase-based Ottoman-Turkish machine translation system developed in the third step is being tested presently. We believe that the contribution of this project is significant because it addresses an important social, cultural and scientific problem.
Primary Language | Turkish |
---|---|
Subjects | Artificial Intelligence |
Journal Section | Research Articles |
Authors | |
Publication Date | June 29, 2022 |
Published in Issue | Year 2022 Volume: 3 Issue: 1 |