Terim
ağırlıklandırma, metin sınıflandırmada sonuçlar üzerinde doğrudan etkili olan
önemli bir adımdır. Ancak, bir metin sınıflandırma problemi olarak ele alınan
duygu analizinde farklı önişleme tekniklerine bağlı olarak ağırlıklandırma
yönteminin davranışı değişebilmektedir. Bu çalışmada bilgi getirimi, metin
sınıflandırma, doküman filtreleme gibi farklı çalışma alanları için yakın
zamanda önerilen yöntemler Twitter duygu analizinde uygulanmış ve sonuçlar
üzerindeki etkisi incelenmiştir. Öznitelikler çıkarılırken kelime torbası (BoW)
ve karakter seviye N-gram olmak üzere iki farklı model kullanılmıştır. Deneyler
Türkçe ve İngilizce Twitter mesajlarından oluşan veri kümeleri üzerinde
uygulanmıştır. Twitter mesajlarının duygu sınıflandırması, Gizli Dirichlet Ataması
(LDA) tabanlı konu modeli ile gerçekleştirilmiştir. Sınıflandırma aşamasında
ise Destek Vektör Makinesi (SVM) algoritması kullanılmıştır. Deneysel sonuçlara
göre, Twitter duygu analizi çalışmalarında kullanılabilecek en etkili terim
ağırlıklandırma yöntemi önerilmiştir.
Term
weighting is an important step which has direct impact on the result in
classical text classification. However, the behavior of the term weighting
method may vary depending on different preprocessing techniques in sentiment
analysis which considered as a text classification task. In this study, term
weighted methods which are newly proposed for various research areas such as
information retrieval, text classification and document filtering, performed to
investigate effect on results for Twitter sentiment analysis. In feature
extraction phase, two different models are used including Bag of Words (BoW)
and character level N-gram. The experiments conducted on data sets consist of
Turkish and English Twitter feeds. Sentiment classification of Twitter feeds
performed using topic model generated with Latent Dirichlet Allocation (LDA)
method. The Support Vector Machine (SVM) algorithm is employed in the
classification stage. According to the experimental results, the most effective
term weighting method that can be used in Twitter sentiment analysis studies is
suggested.
Birincil Dil | Türkçe |
---|---|
Konular | Mühendislik |
Bölüm | Makale |
Yazarlar | |
Yayımlanma Tarihi | 30 Nisan 2018 |
Yayımlandığı Sayı | Yıl 2018 Cilt: 24 Sayı: 2 |