İnternetin hızlı gelişmesi ile başta haber kaynakları, e-ticaret ve sosyal ağ uygulamaları olmak üzere çok sayıda web hizmeti ve sayfaları kullanıma sunuldu. Bu uygulamaların kullanımı ile inanılmaz büyüklükte video, ses ve metin gibi içerikler oluştu. Oluşan bu verilerin doğru olarak sınıflandırılması, web uygulamasından faydalanan kullanıcıların istedikleri verilere daha hızlı ve kolay erişmesini sağlar. Çok sayıda öznitelikten oluşan bu veriler metin sınıflandırması için yüksek hesaplama sürelerine neden olur. Yüksek boyutlara sahip veriler için daha az öznitelik ve düşük hesaplama süresi ile yüksek doğrulukta metin sınıflandırma başarısını öznitelik seçimi metotları kullanımı ile sağlamak mümkündür. Literatürde metin sınıflandırmasında kullanılan öznitelik seçim metotları filtreleme, sarma, gömülü ve hibrit yöntemler olarak sınıflandırılmaktadır. Bu çalışmada, metin sınıflandırılmasında öznitelik seçimi için İkili Gri Kurt Optimizasyonu (IGKO) ve İkili Harris Şahin Optimizasyonu (IHSO) algoritmaları ReliefF ile beraber kullanılmıştır. Çalışmada algoritmaların sonuçlarını değerlendirmek için 2 farklı özelliğe sahip veri kümesi kullanılmıştır. Birincisi,100 web belgesinden oluşan 2 kategoriye sahip bir veri kümesi, ikincisi ise 9 kategoriden oluşan (fizik, biyoloji, genetik vs) bilim haberleriyle ilgili web sayfalarından çıkarılan 450 web belgesini içeren veri kümesidir. Sonuçlara göre, IHSO amaç fonksiyonu ve öznitelik sayısına göre karşılaştırma yapılan diğer öznitelik seçim metotlarından daha performanslı olduğu görülmüştür.
Metin sınıflandırma Öznitelik seçimi İkili Gri kurt algoritması İkili Harris Şahin algoritması Metin madenciliği.
With the rapid development of the internet, many web services and pages, especially news sources, e-commerce, and social network applications, have been released to use. Using these applications creates an incredible amount of content such as video, audio, and text. The classification of these data with high accuracy provides faster and easier access to the data which the users search for using the web applications. These datasets, consisting of high dimension features, give rise to high computation times for text classification. It is possible to achieve high accuracy with fewer features and less computation time for classification using feature selection methods on these datasets having high dimensions. In the literature, feature selection methods used in text classification can be classified as filtering, wrapping, embedded, and hybrid methods. In this study, Binary Grey Wolf Optimization (BGWO) and Binary Harris Hawk Optimization (BHHO) algorithms are used with ReliefF for feature selection in text classification. To evaluate the results of the proposed algorithms, two datasets having two different characteristics are used. The first dataset has 2 categories and 100 web documents. The second dataset has 9 categories (physics, biology, genetics, etc.) and 450 web documents extracted from science news web pages. The results show that BHHO has better performance than the compared feature selection methods according to fitness and the number of selected features.
Text Classification Feature Selection Binary Grey Wolf algorithm Binary Harris Hawk algorithm Text Mining.
Primary Language | Turkish |
---|---|
Subjects | Engineering |
Journal Section | Articles |
Authors | |
Publication Date | July 31, 2021 |
Published in Issue | Year 2021 Issue: 26 - Ejosat Special Issue 2021 (HORA) |