Bu çalışma, Osmanlıca metinlerin istatistiksel özelliklerini ve kelime dağılımlarını inceleyerek doğal dil işleme (DDİ) araştırmalarına katkı sağlamayı amaçlamaktadır. Osmanlıca, Arap alfabesine dayalı yapısı ve yoğun Arapça ile Farsça etkileri nedeniyle dil işleme süreçlerinde zorluklar sunmaktadır. Çalışmada, Osmanlıca metinlerden oluşturulan bir derlem kullanılarak kelime, harf ve harf grubu dağılımları detaylı olarak analiz edilmiştir. Derlemde, yaklaşık 2,34 milyon kelime, 5,7 milyon harf grubu ve 14 milyon harf içeren kapsamlı bir söz varlığı ortaya konmuştur. Derlem üzerinde yapılan istatistiksel analizler sonucunda, Osmanlıcada ortalama kelime uzunluğunun 3 ile 7 harf arasında yoğunlaştığı tespit edilmiştir. Çalışma, Osmanlıcanın nicel olarak belgelenmesine katkı sağlamanın yanı sıra, OCR, HTR ve alfabe çevirisi gibi uygulamalara yönelik dil modeli geliştirme süreçlerinde kullanılabilecek nitelikli bir kaynak sunmaktadır. Elde edilen bulgular, tarihi metinlerin dijitalleştirilmesi, otomatik işlenmesi ve kültürel mirasın korunması açısından da önemli bir temel teşkil etmektedir.
Osmanlıca Derlem Kelime Sıklığı Harf Dağılımı Harf Grubu Dağılımı İstatistiksel Dil Analizi
This study aims to contribute to natural language processing (NLP) research by analyzing the statistical properties and word distributions of Ottoman texts. Ottoman presents difficulties in language processing due to its structure based on the Arabic alphabet and its heavy Arabic and Persian influences. In this study, a corpus of Ottoman texts was used to analyses word, letter, and letter group (ligature) distributions in detail. The corpus has approximately 2.34 million words, 5.7 million letter groups, and 14 million letters. As a result of the statistical analysis of the Ottoman corpus, it was determined that the average word length in Ottoman is concentrated between 3 and 7 letters. In addition to contributing to the quantitative documentation of Ottoman, the study provides a qualified resource that can be used in language model development processes for applications such as OCR, HTR and Ottoman-Turkish transliteration. The findings also constitute an important basis for the digitization and automatic processing of historical texts and the preservation of cultural heritage.
Ottoman Corpus Word Frequency Letter Distribution Ligature Distribution Statistical Language Analysis
| Primary Language | Turkish |
|---|---|
| Subjects | Computer Software |
| Journal Section | Research Article |
| Authors | |
| Submission Date | July 19, 2025 |
| Acceptance Date | February 5, 2026 |
| Publication Date | March 20, 2026 |
| DOI | https://doi.org/10.21923/jesd.1746365 |
| IZ | https://izlik.org/JA27JA28FE |
| Published in Issue | Year 2026 Volume: 14 Issue: 1 |