Metin
Sınıflandırma Doğal Dil İşleme (DDİ) alanında önemli bir yere sahiptir. Son
zamanlarda metinsel verilerin artması ve otomatik etiketlenmesi gerekliliği,
metin sınıflandırma probleminin önemini artırmıştır. Geleneksel yaklaşımlardan
öne çıkan kelime torbası yöntemi yıllardır metin sınıflandırmasında başarılı
olmaktadır. Son zamanlarda sinir ağları dil modelleri DDİ problemlerine
başarılı bir şekilde uygulanmış ve bazı alanlarda büyük başarı kaydetmişlerdir.
Yapay Sinir Ağları (YSA) temelli mimarilerin en önemli avantajı daha etkili
kelime ve metin gösterilimlerin oluşturmasıdır. Bu gösterilimler, geleneksel
yöntemlere göre daha az boyutlu ve daha etkili bulunmuştur. Özellikle
anlambilimsel ve sözdizimsel analizlerde başarılı uygulamalar yapılmıştır. Öte
yandan daha uzun vektörlerle gösterilim kullanan geleneksel kelime torbası yöntemleri,
metin gösterilimleri anlamında hala gücünü korumaktadır. Ancak Türkçe için bu
iki yaklaşımın herhangi bir karşılaştırılması yapılmamıştır. Bu çalışmada,
geleneksel kelime torbası yaklaşımı ile sinir ağı temelli yeni gösterilim
yaklaşımları metin sınıflandırması açısından karşılaştırılmıştır. Bu
çalışmalarda gördük ki etkili özellik seçimleri geleneksel yöntemlerinin hala
yeni kuşak kelime gömme (word embeddings) yaklaşımı ile yarışacak düzeydedir.
Son olarak deneylerimizi bu iki yaklaşım açısından çeşitlendirerek raporladık
ve Türkçe için başarılı metin sınıflandırma mimarisini bu raporda ayrıntılı
tartıştık.
Text categorization plays
important role in the field of Natural Language Processing. Recently, the rapid
growth in the amount of textual data and requirement of automatic annotation
makes the problem of text categorization more important. As a prominent one of
the traditional methods, the bag-of-words approach has been successfully
applied to text categorization problem for years. Recently, Neural Network
Language Models (NNLM) have achieved successful results for various problems of
Natural Language Processing (NLP). The most important advantage of the NNLM is
to provide effective word and document representations. Those representations
are lower dimensional and are found to be more effective than traditional
methods. They have been exploited successfully for semantic and syntactic
analysis. On the other hand, the traditional bag-of-words approaches that use
one-hot long vector representation are still considered powerful in terms of
their accuracy in document classification. However, comparing these approaches
for Turkish language has not been attempted before. In this study,
we compared them within a variety of analysis. We observed that the traditional
bag-of-word representation utilizing an effective feature selection and a
machine learning algorithm aligned with it have comparable performance with new
generation vector based methods, namely word embeddings. In this study, we have
conducted various experiments comparing these approaches and designated an
effective text categorization architecture for Turkish Language.
Primary Language | Turkish |
---|---|
Subjects | Engineering |
Journal Section | Research Article |
Authors | |
Publication Date | October 12, 2018 |
Published in Issue | Year 2018 Volume: 24 Issue: 5 |