Leveraging machine learning techniques in NLP
domain has been a very hot research field due to the advancements in artificial
intelligence area. Despite the popularity of this field, there is no known
study on application of ML techniques on old Turkish language. This study aims to fill in this gap where
32000 pages of text has been downloaded from the websites of Ministry of Culture
and a two-layer neural network model has been built on top of them to discover
the semantic similarities between Turkish words in old Turkish language. The
algorithm has been run with different parameters such as window size, dimension
size, sampling size etc. and the produced vector spaces are uploaded into public
servers for the purposes of enabling a RESTful API based query interface. Also
a web UI has been created to provide a querying mechanism for regular users. The
services that are developed can be used for two different purposes. One of them
is to integrate these services into existing old Turkish language dictionary
websites that are made available by third party providers as well as other
institutions such as Ministry of Culture and Turkish Language Institution.
Secondly, the developed services are intended to be used for mitigating the
translation errors made during the translation of old Turkish texts into modern
Turkish language in the areas of history and Turkish literature. Also enabling these
services for public use will encourage other researchers to pursue this
academic work and compare their results with the experimental results presented
in this paper to make further improvements in this field.
Artificial neural networks Natural language processing NLP Word embeddings
Makina
öğrenme tekniklerinin doğal dil işleme alanında kullanımı son yıllarda oldukça
popüler bir çalışma konusu haline gelmiştir. Doğal dil işleme yöntemlerinin
yabancı dillerdeki birçok uygulamasına rastlanılmasına rağmen Türkçe ve
özellikle eski dil metinlerdeki uygulamaları oldukça yetersizdir. Bu alandaki
eksikliğin giderilmesine yönelik olarak yapılan bu çalışmada, Kültür Bakanlığı
kaynaklarından elde edilen 32000 sayfa doküman, temizleme işleminden geçirildikten
sonra, bu metinlerden elde edilen kelimeler üzerinde iki katmanlı bir sinir ağı
modeli çalıştırılmıştır. Pencere boyutu, uzay boyutu, örnekleme miktarı gibi birçok
farklı parametre ile geliştirilen modellere ait vektör uzayları bir sunucuya
kopyalanarak bir sorgulama sistemi ve RESTful API servisleri oluşturulmuştur. Ayrıca
bu sorgulama sisteminin doğrudan kullanabilmesi için bir kullanıcı portalı
oluşturularak RESTful API ile beraber internet kullanımına açılmıştır. Yapılan bu
çalışmanın iki farklı amaçla kullanılması hedeflenmektedir. Birinci hedef bu
sistemin Türk Dil Kurumu ve Kültür Bakanlığı gibi kurumların ve diğer eski dil
sözlük hizmeti sağlayan şirketlerin internet sitelerine entegre edilmesi ve
aratılan sözcüklere yakın terimlerin kullanıcılara getirilmesidir. İkinci hedef
ise tarih ve edebiyat gibi eski dilin kullanıldığı bilimsel çalışmalarda metinlerin
günümüz Türkçe’sine çevrilmesi esnasında ortaya çıkan hataların azaltılmasıdır.
Birincil Dil | Türkçe |
---|---|
Konular | Mühendislik |
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 15 Temmuz 2019 |
Gönderilme Tarihi | 17 Ocak 2019 |
Kabul Tarihi | 7 Mayıs 2019 |
Yayımlandığı Sayı | Yıl 2019 Cilt: 9 Sayı: 3 |