In the domain of Natural Language Processing (NLP), despite the progress made for some common languages, difficulties persist for many others for the completion of particular NLP tasks. In this scope, the current study aims to explore these challenges by proposing a question answering (QA) system in the Turkish language. In particular, the system will generate the best answers in terms of content and length from questions that are based on a set of documents related to the banking sector. In order to achieve this goal, the system utilizes advanced artificial intelligence algorithms and large data sets. More specifically, BERT algorithm is used for the generation of the language model, followed by a fine-tuning procedure for performing a machine reading for question answering (MRQA) task. In this work, various experiments were conducted using original and translated data sets in an effort to solve the challenges that arise from morphologically complex languages as Turkish. Finally, the system achieved a performance that overall is applicable to a wider range than any other QA system in the Turkish language. The proposed methodology is not only proper to the Turkish language, but can also be adapted to any other language for performing various NLP tasks.
Doğal Dil İşleme (NLP) alanında, yaygın diller için kaydedilen bazı ilerlemelere rağmen, diğer dillerde belli başlı NLP görevleri için zorluklar devam etmektedir. Bu kapsamda, mevcut çalışma Türkçe dilinde bir soru cevaplama (QA) sistemi önererek bu zorluklara çözüm araştırmayı amaçlamaktadır. Sistem, bankacılık sektöründen seçilen dokümanları kullanarak, sorulan sorulara içerik ve uzunluk açısından en iyi yanıtları üretecektir. Bu amaca ulaşmak için sistem, gelişmiş yapay zeka algoritmaları ve büyük veri kümeleri kullanır. Daha spesifik olarak, dil modelinin oluşturulması için BERT algoritması kullanılmış, ardından sistemin soru cevaplama (MRQA) becerisini arttırmak için bir iyileştirme (fine-tuning) uygulanmıştır. Bu çalışmada, Türkçe gibi morfolojik açıdan karmaşık dillerden kaynaklanan zorlukları çözmek için orijinal ve İngilizce’den çevrilmiş veri setleri kullanılarak çeşitli deneyler yapılmıştır. Son olarak, sistem, genel olarak Türkçe dilinde diğer tüm QA sistemlerinden genel olarak daha yeni bir yelpazede yüksek bir performans elde etmiştir. Önerilen metodoloji sadece Türk diline özgü olmayıp aynı zamanda çeşitli NLP görevlerini yerine getirmek için başka diğer dillerde de uyarlanabilir.
Primary Language | English |
---|---|
Subjects | Artificial Intelligence |
Journal Section | Research Articles |
Authors | |
Publication Date | September 23, 2021 |
Submission Date | October 25, 2020 |
Published in Issue | Year 2021 Volume: 4 Issue: 2 |
Journal
of Intelligent Systems: Theory and Applications