Araştırma Makalesi

Eski Dilde Kullanılan Sözcükler Arasındaki Anlamsal Yakınlıkların Doğal Dil İşleme Yöntemleriyle Tespiti

Cilt: 9 Sayı: 3 15 Temmuz 2019
PDF İndir
EN TR

Eski Dilde Kullanılan Sözcükler Arasındaki Anlamsal Yakınlıkların Doğal Dil İşleme Yöntemleriyle Tespiti

Öz

Makina öğrenme tekniklerinin doğal dil işleme alanında kullanımı son yıllarda oldukça popüler bir çalışma konusu haline gelmiştir. Doğal dil işleme yöntemlerinin yabancı dillerdeki birçok uygulamasına rastlanılmasına rağmen Türkçe ve özellikle eski dil metinlerdeki uygulamaları oldukça yetersizdir. Bu alandaki eksikliğin giderilmesine yönelik olarak yapılan bu çalışmada, Kültür Bakanlığı kaynaklarından elde edilen 32000 sayfa doküman, temizleme işleminden geçirildikten sonra, bu metinlerden elde edilen kelimeler üzerinde iki katmanlı bir sinir ağı modeli çalıştırılmıştır. Pencere boyutu, uzay boyutu, örnekleme miktarı gibi birçok farklı parametre ile geliştirilen modellere ait vektör uzayları bir sunucuya kopyalanarak bir sorgulama sistemi ve RESTful API servisleri oluşturulmuştur. Ayrıca bu sorgulama sisteminin doğrudan kullanabilmesi için bir kullanıcı portalı oluşturularak RESTful API ile beraber internet kullanımına açılmıştır. Yapılan bu çalışmanın iki farklı amaçla kullanılması hedeflenmektedir. Birinci hedef bu sistemin Türk Dil Kurumu ve Kültür Bakanlığı gibi kurumların ve diğer eski dil sözlük hizmeti sağlayan şirketlerin internet sitelerine entegre edilmesi ve aratılan sözcüklere yakın terimlerin kullanıcılara getirilmesidir. İkinci hedef ise tarih ve edebiyat gibi eski dilin kullanıldığı bilimsel çalışmalarda metinlerin günümüz Türkçe’sine çevrilmesi esnasında ortaya çıkan hataların azaltılmasıdır. 

Anahtar Kelimeler

Doğal dil işleme,Kelime simgeleri,NLP,Yapay sinir ağları

Kaynakça

  1. Adıgüzel, H., Şahin, P., Kalpaklı, M., 2012. Line segmentation of Ottoman documents. 20th Signal Processing and Communications Applications Conference, Fethiye Mugla, Turkey.
  2. Arifoğlu, D., Duygulu, P., 2011. Word retrieval in ottoman documents. IEEE 19th Signal Processing and Communications Applications Conference, Antalya, Turkey.
  3. Ataer, E., Duygulu P., 2007. Matching ottoman words: an image retrieval approach to historical document indexing. Proceedings of the 6th ACM international conference on Image and video retrieval, Amsterdam, Netherlands.
  4. Basu, M., Roy, A., Ghosh, K., Bandyopadhyay, S., Ghosh, S., 2017. A Novel Word Embedding Based Stemming Approach for Microblog Retrieval During Disasters. 39th European Conference on Information Retrieval, Scotland, UK.
  5. Can, B., 2017. Unsupervised learning of allomorphs in Turkish. Turkish Journal of Electrical Engineering & Computer Sciences 25(4), 3253-3260.
  6. Chris, B., Faralli, S., Panchenko, A., Ponzetto, S., 2018. A framework for enriching lexical semantic resources with distributional semantics. Natural Language Engineering, Cambridge University Press, 24(1), 265-312.
  7. Church, K. W., 2017. Word2Vec. Natural Language Engineering: Cambridge University Press, 155 p.
  8. Deniz, K., Özçift, A., Bozyigit, F., Yıldırım, P., Yücalar F., Borandag E., 2017. TTC-3600: A new benchmark dataset for Turkish text categorization. Journal of Information Science, 43(2), 174-185.
  9. Ganggao, Z., Iglesias, C. A., 2017. Computing Semantic Similarity of Concepts in Knowledge Graphs. IEEE Transactions on Knowledge and Data Engineering, 29(1), 72-85.
  10. İlgen, B., Adalı, E., Tantuğ, A., 2016. Exploring feature sets for Turkish word sense disambiguation. Turkish Journal of Electrical Engineering & Computer Sciences, 24(1), 4391-4405.

Kaynak Göster

APA
Canım, M. (2019). Eski Dilde Kullanılan Sözcükler Arasındaki Anlamsal Yakınlıkların Doğal Dil İşleme Yöntemleriyle Tespiti. Gümüşhane Üniversitesi Fen Bilimleri Dergisi, 9(3), 536-546. https://doi.org/10.17714/gumusfenbil.514154