Bu çalışmada, Konvolüsyonel Sinir Ağları (KSA) ve Word2Vec metodu
kullanılarak Turkish Text Classification 3600 (TTC-3600) veri kümesi üzerinde
metin sınıflandırma çalışması yapılmış ve aynı veri kümesi kullanılarak yapılan
önceki çalışma ile kıyaslanmıştır. Çalışmada TTC-3600’ün ham ve Zemberek
yazılımıyla gövdelenmiş halleri üzerinde iki farklı KSA eğitilmiş ve test
edilmiştir. KSA ve Word2Vec metodu, klasik istatistiksel ve makine öğrenmesine
dayalı sınıflandırma algoritmalarından daha iyi bir performans (%93,3 doğruluk)
göstermiştir. Türkçe doğal dil işleme çalışmalarının azlığı ve bu alandaki
özellik çıkarma yöntemlerinin limitli olması sebebiyle, kelimelerin semantik
değerlerinin önceden eğitilmiş Word2Vec ağı ile sınıflandırmaya katılabilmesi
KSA modellerinin doğruluk değerlerini arttırmıştır.
Türkçe metin sınıflandırma konvolüsyonel sinir ağları derin öğrenme word2vec
In this study, a text classification study on the Turkish Text
Classification 3600 (TTC-3600) dataset was conducted using Convolutional Neural
Networks (CNN) and Word2Vec method and compared with the previous study using
the same dataset. In the study, two different CNN s were trained and tested on
the TTC-3600 raw and stuck with Zemberek software. CNN and Word2Vec method
showed better performance (93.3% accuracy) than classical statistical and
machine learning based classification algorithms. Due to the limited number of
natural language processing operations in Turkish and the limited feature
extraction methods in this area, the accuracy of the CNN models has increased
by allowing the semantic values of the words to be included in the
classification with the pre-trained Word2Vec network.
Turkish text categorization convolutional neural networks deep learning word2vec
Birincil Dil | Türkçe |
---|---|
Konular | Bilgisayar Yazılımı |
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 31 Temmuz 2019 |
Gönderilme Tarihi | 6 Eylül 2018 |
Yayımlandığı Sayı | Yıl 2019 |