Araştırma Makalesi
BibTex RIS Kaynak Göster

OSMANLICA DERLEM VE KELİMELERİN UZUNLUK DAĞILIMININ ANALİZİ

Yıl 2026, Cilt: 14 Sayı: 1, 33 - 44, 20.03.2026
https://doi.org/10.21923/jesd.1746365
https://izlik.org/JA27JA28FE

Öz

Bu çalışma, Osmanlıca metinlerin istatistiksel özelliklerini ve kelime dağılımlarını inceleyerek doğal dil işleme (DDİ) araştırmalarına katkı sağlamayı amaçlamaktadır. Osmanlıca, Arap alfabesine dayalı yapısı ve yoğun Arapça ile Farsça etkileri nedeniyle dil işleme süreçlerinde zorluklar sunmaktadır. Çalışmada, Osmanlıca metinlerden oluşturulan bir derlem kullanılarak kelime, harf ve harf grubu dağılımları detaylı olarak analiz edilmiştir. Derlemde, yaklaşık 2,34 milyon kelime, 5,7 milyon harf grubu ve 14 milyon harf içeren kapsamlı bir söz varlığı ortaya konmuştur. Derlem üzerinde yapılan istatistiksel analizler sonucunda, Osmanlıcada ortalama kelime uzunluğunun 3 ile 7 harf arasında yoğunlaştığı tespit edilmiştir. Çalışma, Osmanlıcanın nicel olarak belgelenmesine katkı sağlamanın yanı sıra, OCR, HTR ve alfabe çevirisi gibi uygulamalara yönelik dil modeli geliştirme süreçlerinde kullanılabilecek nitelikli bir kaynak sunmaktadır. Elde edilen bulgular, tarihi metinlerin dijitalleştirilmesi, otomatik işlenmesi ve kültürel mirasın korunması açısından da önemli bir temel teşkil etmektedir.

Kaynakça

  • Agan, C., & Diri, B., Türkçe Derlemler İçin Söz Dizimsel Görselleştirme ve Sorgulama Aracı, Türkiye Bilişim Vakfı Bilgisayar Bilimleri Ve Mühendisliği Dergisi, cilt 9, no. 1, pp. 1-10, 2016.
  • Aksan, Y., et al., Construction of the Turkish National Corpus (TNC), Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC'12), İstanbul, 2012.
  • Becker, D. & Riaz, K., A Study in Urdu Corpus Construction, COLING-02: The 3rd Workshop on Asian Language Resources and International Standardization, https://aclanthology.org/W02-1201.pdf, 2002.
  • Çöltekin, Ç., A Corpus of Turkish Offensive Language on Social Media, Proceedings of the Twelfth Language Resources and Evaluation Conference, Marseille, 2020.
  • Dalkılıç, G. & Çebi, Y., Türkçe Külliyat Oluşturulması Ve Türkçe Metinlerde Kullanılan Kelimelerin Uzunluk Dağılımlarının Belirlenmesi, Dokuz Eylül Üniversitesi Mühendislik Fakültesi Fen ve Mühendislik Dergisi, cilt 5, no. 1, pp. 1-7, 2003.
  • Dalkılıç, G. & Çebi, Y., Zipf’s Law and Mandelbrot’s Constants for Turkish Language Using Turkish Corpus (TurCo), Advances in Information Systems. ADVIS, Berlin, 2004.
  • Demirhan, U. U. & Aksan, M., Türkçede Eylemlerin Derlem-Temelli Değerlik Sözlüğünün Oluşturulması: Yöntembilimsel Bir Çalışma, Dil Ve Edebiyat Dergisi, cilt 19, no. 1, pp. 61-88, 2023.
  • Dölek İ. & Kurt A. A deep learning model for Ottoman OCR. Concurrency Computat Pract Exper. 2022; 34(20):e6937. doi:10.1002/cpe.6937
  • Dölek, İ. & Kurt A., "Ottoman OCR: Printed Naskh Font," 2021 International Conference on INnovations in Intelligent SysTems and Applications (INISTA), Kocaeli, Turkey, 2021, pp. 1-5, doi: 10.1109/INISTA52262.2021.9548616.
  • Dölek, İ., & Kurt A. “Derin sinir ağlarıyla Osmanlıca optik karakter tanıma”. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi 38, sy. 4 (Nisan 2023): 2579-94. https://doi.org/10.17341/gazimmfd.1062596.
  • Dölek, İ., &Kurt A. “Osmanlıcadan Türkçeye Uçtan Uca Aktarım”. Journal of Smart Systems Research 3, no. 1 (June 2022): 1-10.
  • Dölek İ, & Kurt A., "Ottoman HTR: Recognition of the Ottoman Riqa Font Using Deep Learning Models," 2025 Innovations in Intelligent Systems and Applications Conference (ASYU), Bursa, Turkiye, 2025, pp. 1-6, doi: 10.1109/ASYU67174.2025.11208325.
  • Hashemi, H. B., Shakery A. & Faili, H., Creating a Persian-English Comparable Corpus, Multilingual and Multimodal Information Access Evaluation. CLEF , https://doi.org/10.1007/978-3-642-15998-5_5, 2010.
  • Ilgen, B. & Karaoglan, B., Investigation of Zipf’s ‘law-of-meaning’ on Turkish corpora, 22nd international symposium on computer and information sciences, Ankara, 2007.
  • Özkan, B., Terim Bilim Çalışmalarında Derlem Kullanımı Ve “Kendi Kendine Derlem Oluşturma Platformu” Terim Bilim Modülü, Avrasya Terim Dergisi, cilt 8, no. 1, pp. 8-17, 2020.
  • Özkan, M., Osmanlı Türkçesi, İstanbul: Türkiye Diyanet Vakfı İslam Ansiklopedisi, 2007.
  • Saad, M. K. & Ashour, W., OSAC: Open Source Arabic Corpora, 6th International Conference on Electrical and Computer Systems (EECS’10), Lefke, 2010.
  • Sak, H., Güngör, T. & Saraçlar, M., Resources for Turkish morphological processing, Lang Resources & Evaluation, Cilt 1 /2, https://doi.org/10.1007/s10579-010-9128-6, p. 249–261, 2011.
  • Sak, H., Güngör, T. & Saraçlar, M., Turkish language resources: Morphological parser, morphological disambiguator and web corpus, Advances in Natural Language Processing: 6th International Conference, GoTAL 2008, Gothenburg, 2008.
  • Say, B., Zeyrek, D., Oflazer, K. & Özge, U., Development of a corpus and a treebank for present-day written Turkish, Proceedings of The Eleventh International Conference of Turkish Linguistics, 2002.
  • Schweter, S., BERTurk - BERT models for Turkish, Zenodo, https://doi.org/10.5281/zenodo.3770924, 2020.
  • Sezer, T. & Sever Sezer, B., TS Corpus: Herkes için Türkçe derlem, The 27th Turkish National Linguistics Conference, 2013.
  • Tulum, M., Osmanlı Türkçesine Giriş-I, Eskişehir: Anadolu Üniversitesi, 2014.
  • Uludoğan, G., Yirmibeşoğlu, Z., Akkurt, F., Türker, M., Güngör, O., & Üsküdarlı, S., TURNA: A Turkish encoder-decoder language model for enhanced understanding and generation. arXiv. https://arxiv.org/abs/2401.14373, 2024
  • Zaghouani, W., Critical Survey of the Freely Available Arabic Corpora, https://arxiv.org/abs/1702.07835, 2017.

ANALYSIS OF OTTOMAN CORPUS AND LENGTH DISTRIBUTION OF WORDS

Yıl 2026, Cilt: 14 Sayı: 1, 33 - 44, 20.03.2026
https://doi.org/10.21923/jesd.1746365
https://izlik.org/JA27JA28FE

Öz

This study aims to contribute to natural language processing (NLP) research by analyzing the statistical properties and word distributions of Ottoman texts. Ottoman presents difficulties in language processing due to its structure based on the Arabic alphabet and its heavy Arabic and Persian influences. In this study, a corpus of Ottoman texts was used to analyses word, letter, and letter group (ligature) distributions in detail. The corpus has approximately 2.34 million words, 5.7 million letter groups, and 14 million letters. As a result of the statistical analysis of the Ottoman corpus, it was determined that the average word length in Ottoman is concentrated between 3 and 7 letters. In addition to contributing to the quantitative documentation of Ottoman, the study provides a qualified resource that can be used in language model development processes for applications such as OCR, HTR and Ottoman-Turkish transliteration. The findings also constitute an important basis for the digitization and automatic processing of historical texts and the preservation of cultural heritage.

Kaynakça

  • Agan, C., & Diri, B., Türkçe Derlemler İçin Söz Dizimsel Görselleştirme ve Sorgulama Aracı, Türkiye Bilişim Vakfı Bilgisayar Bilimleri Ve Mühendisliği Dergisi, cilt 9, no. 1, pp. 1-10, 2016.
  • Aksan, Y., et al., Construction of the Turkish National Corpus (TNC), Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC'12), İstanbul, 2012.
  • Becker, D. & Riaz, K., A Study in Urdu Corpus Construction, COLING-02: The 3rd Workshop on Asian Language Resources and International Standardization, https://aclanthology.org/W02-1201.pdf, 2002.
  • Çöltekin, Ç., A Corpus of Turkish Offensive Language on Social Media, Proceedings of the Twelfth Language Resources and Evaluation Conference, Marseille, 2020.
  • Dalkılıç, G. & Çebi, Y., Türkçe Külliyat Oluşturulması Ve Türkçe Metinlerde Kullanılan Kelimelerin Uzunluk Dağılımlarının Belirlenmesi, Dokuz Eylül Üniversitesi Mühendislik Fakültesi Fen ve Mühendislik Dergisi, cilt 5, no. 1, pp. 1-7, 2003.
  • Dalkılıç, G. & Çebi, Y., Zipf’s Law and Mandelbrot’s Constants for Turkish Language Using Turkish Corpus (TurCo), Advances in Information Systems. ADVIS, Berlin, 2004.
  • Demirhan, U. U. & Aksan, M., Türkçede Eylemlerin Derlem-Temelli Değerlik Sözlüğünün Oluşturulması: Yöntembilimsel Bir Çalışma, Dil Ve Edebiyat Dergisi, cilt 19, no. 1, pp. 61-88, 2023.
  • Dölek İ. & Kurt A. A deep learning model for Ottoman OCR. Concurrency Computat Pract Exper. 2022; 34(20):e6937. doi:10.1002/cpe.6937
  • Dölek, İ. & Kurt A., "Ottoman OCR: Printed Naskh Font," 2021 International Conference on INnovations in Intelligent SysTems and Applications (INISTA), Kocaeli, Turkey, 2021, pp. 1-5, doi: 10.1109/INISTA52262.2021.9548616.
  • Dölek, İ., & Kurt A. “Derin sinir ağlarıyla Osmanlıca optik karakter tanıma”. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi 38, sy. 4 (Nisan 2023): 2579-94. https://doi.org/10.17341/gazimmfd.1062596.
  • Dölek, İ., &Kurt A. “Osmanlıcadan Türkçeye Uçtan Uca Aktarım”. Journal of Smart Systems Research 3, no. 1 (June 2022): 1-10.
  • Dölek İ, & Kurt A., "Ottoman HTR: Recognition of the Ottoman Riqa Font Using Deep Learning Models," 2025 Innovations in Intelligent Systems and Applications Conference (ASYU), Bursa, Turkiye, 2025, pp. 1-6, doi: 10.1109/ASYU67174.2025.11208325.
  • Hashemi, H. B., Shakery A. & Faili, H., Creating a Persian-English Comparable Corpus, Multilingual and Multimodal Information Access Evaluation. CLEF , https://doi.org/10.1007/978-3-642-15998-5_5, 2010.
  • Ilgen, B. & Karaoglan, B., Investigation of Zipf’s ‘law-of-meaning’ on Turkish corpora, 22nd international symposium on computer and information sciences, Ankara, 2007.
  • Özkan, B., Terim Bilim Çalışmalarında Derlem Kullanımı Ve “Kendi Kendine Derlem Oluşturma Platformu” Terim Bilim Modülü, Avrasya Terim Dergisi, cilt 8, no. 1, pp. 8-17, 2020.
  • Özkan, M., Osmanlı Türkçesi, İstanbul: Türkiye Diyanet Vakfı İslam Ansiklopedisi, 2007.
  • Saad, M. K. & Ashour, W., OSAC: Open Source Arabic Corpora, 6th International Conference on Electrical and Computer Systems (EECS’10), Lefke, 2010.
  • Sak, H., Güngör, T. & Saraçlar, M., Resources for Turkish morphological processing, Lang Resources & Evaluation, Cilt 1 /2, https://doi.org/10.1007/s10579-010-9128-6, p. 249–261, 2011.
  • Sak, H., Güngör, T. & Saraçlar, M., Turkish language resources: Morphological parser, morphological disambiguator and web corpus, Advances in Natural Language Processing: 6th International Conference, GoTAL 2008, Gothenburg, 2008.
  • Say, B., Zeyrek, D., Oflazer, K. & Özge, U., Development of a corpus and a treebank for present-day written Turkish, Proceedings of The Eleventh International Conference of Turkish Linguistics, 2002.
  • Schweter, S., BERTurk - BERT models for Turkish, Zenodo, https://doi.org/10.5281/zenodo.3770924, 2020.
  • Sezer, T. & Sever Sezer, B., TS Corpus: Herkes için Türkçe derlem, The 27th Turkish National Linguistics Conference, 2013.
  • Tulum, M., Osmanlı Türkçesine Giriş-I, Eskişehir: Anadolu Üniversitesi, 2014.
  • Uludoğan, G., Yirmibeşoğlu, Z., Akkurt, F., Türker, M., Güngör, O., & Üsküdarlı, S., TURNA: A Turkish encoder-decoder language model for enhanced understanding and generation. arXiv. https://arxiv.org/abs/2401.14373, 2024
  • Zaghouani, W., Critical Survey of the Freely Available Arabic Corpora, https://arxiv.org/abs/1702.07835, 2017.
Toplam 25 adet kaynakça vardır.

Ayrıntılar

Birincil Dil Türkçe
Konular Bilgisayar Yazılımı
Bölüm Araştırma Makalesi
Yazarlar

İshak Dölek 0000-0002-5823-0103

Atakan Kurt 0000-0002-9549-8475

Gönderilme Tarihi 19 Temmuz 2025
Kabul Tarihi 5 Şubat 2026
Yayımlanma Tarihi 20 Mart 2026
DOI https://doi.org/10.21923/jesd.1746365
IZ https://izlik.org/JA27JA28FE
Yayımlandığı Sayı Yıl 2026 Cilt: 14 Sayı: 1

Kaynak Göster

APA Dölek, İ., & Kurt, A. (2026). OSMANLICA DERLEM VE KELİMELERİN UZUNLUK DAĞILIMININ ANALİZİ. Mühendislik Bilimleri ve Tasarım Dergisi, 14(1), 33-44. https://doi.org/10.21923/jesd.1746365