Bu çalışmada, Türkçe metinlerden duygu çıkarımı alanında kullanılan TREMO veri seti üzerinde farklı makine öğrenmesi algoritmasının sınıflandırma sonuçları karşılaştırılmıştır. Duygu analizi bir metin sınıflandırma problemi olarak ele alınmış ve Yapay Sinir Ağları (YSA), Destek Vektör Makineleri (DVM), Random Forest (RF) ve K-En Yakın Komşu (KEYK) algortimaları olmak üzere dört yaklaşım incelenmiştir. İncelenen duygu kategorileri olarak veri setinin sağladığı, mutluluk, korku, öfke, üzüntü, tiksinme ve şaşırma kategorileri kullanılmıştır. Veri ön işleme bölümünde, veri setini oluşturan kelimelerin kökleri ilk beş karakter (F5) yöntemi kullanılarak tespit edilmiştir. Kelimeler kök haline getirildikten sonra Vektör Uzay Modeli ile veri seti modellenmiş ve her duygu için en önemli ilk 500 kelime Kaşılıklı Bilgi (Mutual Information-MI) yöntemi ile tespit edilmiştir. Sınıflandırma sonuçlarının karşılaştırılmasında doğruluk metriği esas alınmıştır. Deneysel çalışma sonuçlarına göre, YSA algoritması en iyi sonucu vermiştir. DVM, RF ve KEYK algoritmaları ise bu sıra ile azalan başarım göstermişlerdir. |
In this
research, the classification results of different Machine Learning Algorithms
were compared on the validated TREMO data set used in the field of emotion
extraction from Turkish texts. Emotion analysis was considered as text
classification problem and four different machine algorithms, Artificial Neural
Networks (ANN), Support Vector Machines (SVM), Random Forest (RF) and K‑Nearest
Neighbor (KNN) have been investigated. The categories provided by the data set,
which are happiness, fear, anger, sadness, disgust and surprise, were used as
emotion categories. In the preprocessing phase, stemming process was performed
using the truncate at five (F5) method. After stemming process, the data set
was modeled using the Vector Space Model. After that, the first 500 words for
each emotion in the data set were identified by the Mutual Information (MI)
formula. The comparison of classification results was based on accuracy metric.
According to experimental study results, the ANN classifier was performed best,
and SVM, RF and KNN performed, in descending order
Primary Language | Turkish |
---|---|
Subjects | Engineering |
Journal Section | Articles |
Authors | |
Publication Date | September 20, 2019 |
Published in Issue | Year 2019 |
Dokuz Eylül Üniversitesi, Mühendislik Fakültesi Dekanlığı Tınaztepe Yerleşkesi, Adatepe Mah. Doğuş Cad. No: 207-I / 35390 Buca-İZMİR.