Bu çalışmada matbu Osmanlıca dokümanlardaki karakterlerin tespiti ve tanınmasına yönelik derin öğrenme tabanlı bir yöntem geliştirilmiştir. Karakter tespit ve tanıma problemi bir nesne tespit problemi olarak ele alınmış ve bu amaçla nesne tespitinde en başarılı yöntemlerden biri olan YOLO modeli temel alınarak Osmanlıca karakter tanıma modeli geliştirilmiştir. Ayrıca bu çalışmada, Osmanlıca doküman imgelerinden oluşan ve doküman imgelerindeki her bir karakterin işaretlendiği bir veri kümesi oluşturulmuştur. Karakter tanıma doğruluğunun artırılması ve yöntemin gürbüzlüğünün sağlanması için veri çoğaltma teknikleri uygulanmıştır. Daha sonra bu veri kümesi kullanılarak Osmanlıca karakter tanıma ağı eğitilmiştir. Eğitilen ağ modeli veri kümesindeki test imgeleri ile test edilmiştir. Modelin performans değerlendirmesi, literatürde sıklıkla kullanılan ortalama kesinlik metriği hesaplanarak yapılmıştır. Veri kümesindeki 34 karakter sınıfı için ortalama kesinlik değeri hesaplanmış ve sonuçlar yöntemin artı ve eksileri açısından yorumlanmıştır. Elde edilen sonuçlar değerlendirildiğinde, önerilen yöntemin matbu Osmanlıca belgelerdeki karakterleri büyük bir doğrulukla, %98,71 ağırlıklı ortalama kesinlik değeri ile, tespit edip tanıyabildiği görülmüştür.
Osmanlıca Dokümanlar Karakter Tanıma Doküman Analizi Derin Öğrenme Osmanlı Türkçesi
In this study, a deep learning-based method is developed for character detection and recognition in printed Ottoman documents. The character detection and recognition problem are considered as an object detection problem and for this purpose, an Ottoman character recognition model is developed based on the YOLO model, which is one of the most successful methods in object detection. In addition, in this study, a dataset consisting of Ottoman document images is created in which each character in the document images is marked. Data augmentation techniques are applied to improve the accuracy of character recognition and the robustness of the method. The Ottoman character recognition network was then trained using this dataset. The trained network model was tested with the test images in the dataset. The performance evaluation of the model was performed by calculating the average precision metric, which is frequently used in the literature. The average precision value was calculated for 34 character classes in the dataset and the results were interpreted in terms of the pros and cons of the method. The results show that the proposed method can detect and recognize characters in printed Ottoman documents with great accuracy, with a weighted average precision of 98.71%.
Ottoman Documents Character Recognition Document Analysis Deep Learning Ottoman Turkish
Birincil Dil | İngilizce |
---|---|
Konular | Bilgisayar Yazılımı, Yazılım Mühendisliği (Diğer) |
Bölüm | Araştırma Makaleleri \ Research Articles |
Yazarlar | |
Yayımlanma Tarihi | 30 Haziran 2024 |
Gönderilme Tarihi | 31 Ekim 2023 |
Kabul Tarihi | 5 Haziran 2024 |
Yayımlandığı Sayı | Yıl 2024 |