Bu çalışmada matbu Osmanlıca dokümanlardaki karakterlerin tespiti ve tanınmasına yönelik derin öğrenme tabanlı bir yöntem geliştirilmiştir. Karakter tespit ve tanıma problemi bir nesne tespit problemi olarak ele alınmış ve bu amaçla nesne tespitinde en başarılı yöntemlerden biri olan YOLO modeli temel alınarak Osmanlıca karakter tanıma modeli geliştirilmiştir. Ayrıca bu çalışmada, Osmanlıca doküman imgelerinden oluşan ve doküman imgelerindeki her bir karakterin işaretlendiği bir veri kümesi oluşturulmuştur. Karakter tanıma doğruluğunun artırılması ve yöntemin gürbüzlüğünün sağlanması için veri çoğaltma teknikleri uygulanmıştır. Daha sonra bu veri kümesi kullanılarak Osmanlıca karakter tanıma ağı eğitilmiştir. Eğitilen ağ modeli veri kümesindeki test imgeleri ile test edilmiştir. Modelin performans değerlendirmesi, literatürde sıklıkla kullanılan ortalama kesinlik metriği hesaplanarak yapılmıştır. Veri kümesindeki 34 karakter sınıfı için ortalama kesinlik değeri hesaplanmış ve sonuçlar yöntemin artı ve eksileri açısından yorumlanmıştır. Elde edilen sonuçlar değerlendirildiğinde, önerilen yöntemin matbu Osmanlıca belgelerdeki karakterleri büyük bir doğrulukla, %98,71 ağırlıklı ortalama kesinlik değeri ile, tespit edip tanıyabildiği görülmüştür.
In this study, a deep learning-based method is developed for character detection and recognition in printed Ottoman documents. The character detection and recognition problem are considered as an object detection problem and for this purpose, an Ottoman character recognition model is developed based on the YOLO model, which is one of the most successful methods in object detection. In addition, in this study, a dataset consisting of Ottoman document images is created in which each character in the document images is marked. Data augmentation techniques are applied to improve the accuracy of character recognition and the robustness of the method. The Ottoman character recognition network was then trained using this dataset. The trained network model was tested with the test images in the dataset. The performance evaluation of the model was performed by calculating the average precision metric, which is frequently used in the literature. The average precision value was calculated for 34 character classes in the dataset and the results were interpreted in terms of the pros and cons of the method. The results show that the proposed method can detect and recognize characters in printed Ottoman documents with great accuracy, with a weighted average precision of 98.71%.
Primary Language | English |
---|---|
Subjects | Computer Software, Software Engineering (Other) |
Journal Section | Research Articles |
Authors | |
Publication Date | June 30, 2024 |
Submission Date | October 31, 2023 |
Acceptance Date | June 5, 2024 |
Published in Issue | Year 2024 Volume: 12 Issue: 2 |