Eski Dilde Kullanılan Sözcükler Arasındaki Anlamsal Yakınlıkların Doğal Dil İşleme Yöntemleriyle Tespiti
Öz
Makina
öğrenme tekniklerinin doğal dil işleme alanında kullanımı son yıllarda oldukça
popüler bir çalışma konusu haline gelmiştir. Doğal dil işleme yöntemlerinin
yabancı dillerdeki birçok uygulamasına rastlanılmasına rağmen Türkçe ve
özellikle eski dil metinlerdeki uygulamaları oldukça yetersizdir. Bu alandaki
eksikliğin giderilmesine yönelik olarak yapılan bu çalışmada, Kültür Bakanlığı
kaynaklarından elde edilen 32000 sayfa doküman, temizleme işleminden geçirildikten
sonra, bu metinlerden elde edilen kelimeler üzerinde iki katmanlı bir sinir ağı
modeli çalıştırılmıştır. Pencere boyutu, uzay boyutu, örnekleme miktarı gibi birçok
farklı parametre ile geliştirilen modellere ait vektör uzayları bir sunucuya
kopyalanarak bir sorgulama sistemi ve RESTful API servisleri oluşturulmuştur. Ayrıca
bu sorgulama sisteminin doğrudan kullanabilmesi için bir kullanıcı portalı
oluşturularak RESTful API ile beraber internet kullanımına açılmıştır. Yapılan bu
çalışmanın iki farklı amaçla kullanılması hedeflenmektedir. Birinci hedef bu
sistemin Türk Dil Kurumu ve Kültür Bakanlığı gibi kurumların ve diğer eski dil
sözlük hizmeti sağlayan şirketlerin internet sitelerine entegre edilmesi ve
aratılan sözcüklere yakın terimlerin kullanıcılara getirilmesidir. İkinci hedef
ise tarih ve edebiyat gibi eski dilin kullanıldığı bilimsel çalışmalarda metinlerin
günümüz Türkçe’sine çevrilmesi esnasında ortaya çıkan hataların azaltılmasıdır.
Anahtar Kelimeler
Kaynakça
- Adıgüzel, H., Şahin, P., Kalpaklı, M., 2012. Line segmentation of Ottoman documents. 20th Signal Processing and Communications Applications Conference, Fethiye Mugla, Turkey.
- Arifoğlu, D., Duygulu, P., 2011. Word retrieval in ottoman documents. IEEE 19th Signal Processing and Communications Applications Conference, Antalya, Turkey.
- Ataer, E., Duygulu P., 2007. Matching ottoman words: an image retrieval approach to historical document indexing. Proceedings of the 6th ACM international conference on Image and video retrieval, Amsterdam, Netherlands.
- Basu, M., Roy, A., Ghosh, K., Bandyopadhyay, S., Ghosh, S., 2017. A Novel Word Embedding Based Stemming Approach for Microblog Retrieval During Disasters. 39th European Conference on Information Retrieval, Scotland, UK.
- Can, B., 2017. Unsupervised learning of allomorphs in Turkish. Turkish Journal of Electrical Engineering & Computer Sciences 25(4), 3253-3260.
- Chris, B., Faralli, S., Panchenko, A., Ponzetto, S., 2018. A framework for enriching lexical semantic resources with distributional semantics. Natural Language Engineering, Cambridge University Press, 24(1), 265-312.
- Church, K. W., 2017. Word2Vec. Natural Language Engineering: Cambridge University Press, 155 p.
- Deniz, K., Özçift, A., Bozyigit, F., Yıldırım, P., Yücalar F., Borandag E., 2017. TTC-3600: A new benchmark dataset for Turkish text categorization. Journal of Information Science, 43(2), 174-185.
- Ganggao, Z., Iglesias, C. A., 2017. Computing Semantic Similarity of Concepts in Knowledge Graphs. IEEE Transactions on Knowledge and Data Engineering, 29(1), 72-85.
- İlgen, B., Adalı, E., Tantuğ, A., 2016. Exploring feature sets for Turkish word sense disambiguation. Turkish Journal of Electrical Engineering & Computer Sciences, 24(1), 4391-4405.