Makine öğrenmesi yöntemlerinde tahmin aşamasının başarısı için kullanılan eğitim veri seti kümesi oldukça önemlidir. Doğal dil işlemede en çok karşılaşılan problemlerden birisi yeterli veri bulunamaması veya bulunan verilerin etiketsiz olmasıdır. Özellikle sınıflandırma problemlerinde belirli bir sınıftaki verinin azlığı sınıflandırmanın başarısını düşürmektedir. Bu çalışmada veri kümesinde bulunan eksik sınıfa ait metinlerin arttırılması amacı ile üretken rakip ağlar yöntemi kullanılmıştır. Haber metinleri üzerinde veri çoğalma işlemi gerçekleştirilmiştir. Elde edilen sonuçlar n-gram, destek vektör makinesi, TF-IDF ve lojistik regresyon gibi makine öğrenmesi teknikleriyle birlikte kullanılarak performansları değerlendirilmiştir. Sonuçlara göre üretken rakip ağların Türkçe metin üretimi için kullanılması sınıflandırma başarısını yaklaşık % 47 oranında arttırmıştır.
Doğal dil işleme Üretken rakip ağlar Metin üretimi Sınıflandırma
The training data set used for the success of the training phase in machine learning methods is very important. One of the most common problems in natural language processing is the lack of sufficient data or the unlabeled data. Especially in classification problems, the scarcity of data in a certain class reduces the success of the classification. In this study, generative adversarial network method was used in order to increase the texts belonging to the missing class in the data set. Data augmentation is performed on news texts. The results obtained were evaluated together with machine learning techniques such as n-grams, support vector machine, TF-IDF and logistic regression. According to the results, the use of generative adversarial network for Turkish text generation increased the classification success by approximately 47%.
Natural language processing Generative adversarial networks Text generation Classification
Birincil Dil | Türkçe |
---|---|
Konular | Mühendislik |
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 30 Nisan 2021 |
Yayımlandığı Sayı | Yıl 2021 Sayı: 23 |