Metin sınıflandırma problemlerinde en büyük sorun, veri uzayının büyük boyutta olması ve başarı oranını düşürmesidir. Sezgisel arama algoritmaları literatürde pek çok alanda kapsamlı bir şekilde kullanılıyor olmalarına rağmen metin sınıflandırma alanında yaygın olarak kullanılmamaktadır. Bunun en önemli sebebi, bu algoritmaların özellik seçimi için kullanıldığında oldukça çok vakit ve hesaplama gücüne ihtiyaç duymalarıdır. Bu çalışmada bu algoritmaları metin sınıflandırmada kullanabilecek bir yöntem benimsenmiş ve popüler dört sezgisel arama algoritması (Genetik Arama, Parçacık Sürü Optimizasyon Arama, Evrimsel Arama, TABU Arama) bu amaçla test edilmiştir. Elde edilen sonuçlara göre, bahsi geçen algoritmalar özellik seçimi amaçlı kullanılarak metin sınıflandırma performansını artırmaktadırlar. Az da olsa TABU arama algoritması diğerlerine göre daha iyi sonuç vermiştir.
One of the most important problems in text categorization tasks is that the data space is very high dimensional which significantly diminishes the classification performance. Although, heuristic search algorithms are broadly used in many fields in the literature, they are not widely used in text categorization field. One important reason behind this fact is that these algorithms require high computational power and time to process the data for attribute selection purpose. In this study, a method to utilize such algorithms as a part of text categorization task is adopted and four popular heuristic search algorithms (Genetic Algorithm, Particle Swarm Optimization, Evolutionary Search and TABU Search) are tested. Obtained results show that heuristic search algorithms can be used effectively to increase the classification performance. Also, TABU algorithm has shown a slight performance advantage over the others.
Birincil Dil | Türkçe |
---|---|
Konular | Mühendislik |
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 30 Eylül 2015 |
Gönderilme Tarihi | 30 Eylül 2015 |
Yayımlandığı Sayı | Yıl 2015 |