The distribution of text data across classes is often imbalanced. This situation has a negative impact on
the performance of classifiers in the text classification process. Many studies have been performed on
imbalanced text classification. The feature selection stage, which is one of the important stages of the
text classification process, is also critical in the imbalanced text classification problem. The effect of
feature selection methods on the classification of imbalanced texts has been thoroughly investigated
in this study. In this direction, many experiments were carried out with three different classifiers and
nine different feature selection methods on two different data sets. In addition, the success of feature
selection methods has been observed employing different number of features. Nine different feature
selection methods called NDM, DFSS, PFS, POISSON, CHI2, IG, GINI, DFS and MDFS were evaluated.
Experimental results obtained with Support Vector Machines (SVM), Decision Tree (DTREE), and Naïve
Bayes (MNB) classifiers. On the Reuters-21578 dataset, DFS and CHI2 feature selection methods
obtained approximately 80 as the highest Macro-F1 score. On the SPAM SMS dataset, DFS feature
selection method obtained 95 and CHI2 feature selection method obtained 94 as the highest Macro-F1
score. It is seen that feature selection methods DFS and CHI2 are more successful than the others for
imbalanced text classification.
Metin verilerinin sınıflar arasında dağılımı genellikle eşit değildir. Bu durum, metin sınıflandırma
işleminde sınıflandırıcıların performansına olumsuz yansımaktadır. Dengesiz metin sınıflandırma ile ilgili
birçok çalışma yapılmıştır. Metin sınıflandırma işleminin önemli aşamalarından olan öznitelik seçim
aşaması, dengesiz metin probleminde de kritik öneme sahiptir. Öznitelik seçme metotlarının dengesiz
metinlerin sınıflandırılması üzerindeki etkisi bu çalışmada etraflıca araştırılmıştır. Bu doğrultuda, iki
farklı veri seti üzerinde üç farklı sınıflandırıcı ve dokuz farklı öznitelik seçim metodu ile birçok deney
yapılmıştır. Ayrıca öznitelik seçim yöntemlerinin başarıları farklı öznitelik sayılarında da gözlemlenmiştir.
NDM, DFSS, PFS, POISSON, CHI2, IG, GINI, DFS ve MDFS olarak adlandırılan 9 farklı öznitelik seçim
metodu değerlendirilmiştir. Destek Vektör Makinesi (SVM), Karar Ağacı (DTREE) ve Basit Bayes (MNB)
sınıflandırıcıları ile deneysel sonuçlar elde edilmiştir. Reuters-21578 veri setinde DFS ve CHI2 öznitelik
seçim yöntemleri Makro-F1 değerlendirme metriği üzerinden yaklaşık en yüksek 80 değerini alırken,
SPAM SMS veri setinde, DFS öznitelik seçim yöntemi en yüksek skor olarak 95 ve CHI2 öznitelik seçim
yöntemi 94 değerlerini almıştır. Öznitelik seçme metotlarından DFS ve CHI2’nin dengesiz metin
sınıflandırmada daha başarılı olduğu görülmektedir.
Primary Language | Turkish |
---|---|
Subjects | Computer Software |
Journal Section | Articles |
Authors | |
Early Pub Date | April 28, 2023 |
Publication Date | May 3, 2023 |
Submission Date | September 10, 2022 |
Published in Issue | Year 2023 |
Bu eser Creative Commons Atıf-GayriTicari 4.0 Uluslararası Lisansı ile lisanslanmıştır.