With the development of internet technologies, there has been a significant increase in textual data. Automatic text classification approaches have become important in order for these textual data to become meaningful. Feature selection and feature weighting have an important place in automatic text classification approaches. In this study, the effect of feature weighting methods on local feature selection methods is examined in detail. Two different weighting methods, three different local feature selection methods, three different criteria datasets, and two classifiers were used in the study. The highest Micro-F1 and Macro-F1 scores were 92.88 and 65.55 for the Reuters-21578 dataset, 99.02 and 98.15 for the 20Newsgroup dataset, and 97.19 and 93.40 for the Enron1 dataset. Experimental results show that better results are obtained with the combination of Odds Ratio (OR) feature selection method, Term Frequency (TF) feature weighting and Support Vector Machine (SVM) classifier.
İnternet teknolojilerinin gelişimiyle birlikte metinsel verilerde ciddi bir artış yaşanmıştır. Bu metinsel verilerin anlamlı hale gelebilmesi için otomatik metin sınıflandırma yaklaşımları önemli hale gelmiştir. Otomatik metin sınıflandırma yaklaşımlarında öznitelik seçimi ve öznitelik ağırlıklandırma önemli bir yer tutar. Bu çalışmada, öznitelik ağırlıklandırma metotlarının lokal öznitelik seçim metotları üzerindeki etkisi ayrıntılı bir şekilde incelenmiştir. Çalışmada iki farklı ağırlıklandırma metodu, üç farklı lokal öznitelik seçim metodu, üç farklı kriter veri kümesi ve iki sınıflandırıcı kullanılmıştır. En yüksek Mikro-F1 ve Makro-F1 skoru, Reuters-21578 veri kümesi için 92.88 ve 65.55, 20Newsgroup veri kümesi için 99.02 ve 98.15, Enron1 veri kümesi için 97.19 ve 93.40’tır. Deneysel sonuçlar, OddsRatio (OR) öznitelik seçim metodu, Terim Frekansı (TF) öznitelik ağırlıklandırma ve Destek Vektör Makinesi (DVM) sınıflandırıcı kombinasyonu ile daha iyi sonucun elde edildiğini göstermektedir.
Metin Sınıflandırma Öznitelik Seçimi Öznitelik Ağırlıklandırma Text Classification Feature Selection Feature Weighting
Primary Language | Turkish |
---|---|
Subjects | Engineering |
Journal Section | Articles |
Authors | |
Publication Date | December 31, 2022 |
Submission Date | September 10, 2021 |
Acceptance Date | August 15, 2022 |
Published in Issue | Year 2022 |