METİN SINIFLANDIRMADA SEZGİSEL ARAMA ALGORİTMALARININ PERFORMANS ANALİZİ
Öz
Metin sınıflandırma problemlerinde en büyük sorun, veri uzayının büyük boyutta olması ve başarı oranını düşürmesidir. Sezgisel arama algoritmaları literatürde pek çok alanda kapsamlı bir şekilde kullanılıyor olmalarına rağmen metin sınıflandırma alanında yaygın olarak kullanılmamaktadır. Bunun en önemli sebebi, bu algoritmaların özellik seçimi için kullanıldığında oldukça çok vakit ve hesaplama gücüne ihtiyaç duymalarıdır. Bu çalışmada bu algoritmaları metin sınıflandırmada kullanabilecek bir yöntem benimsenmiş ve popüler dört sezgisel arama algoritması (Genetik Arama, Parçacık Sürü Optimizasyon Arama, Evrimsel Arama, TABU Arama) bu amaçla test edilmiştir. Elde edilen sonuçlara göre, bahsi geçen algoritmalar özellik seçimi amaçlı kullanılarak metin sınıflandırma performansını artırmaktadırlar. Az da olsa TABU arama algoritması diğerlerine göre daha iyi sonuç vermiştir.
Anahtar Kelimeler
Kaynakça
- Joachims, T., “A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization”, Proceedings of the Fourteenth International Conference on Machine Learning, San Francisco, CA, USA, 143–151, 1997.
- Oğuzlar, A., ”Metin Madenciliği Nedir?”, Temel Metin Madenciliği, Bursa, Dora Basım, 2011.
- Yang Y. ve Pedersen J. O., “A Comparative Study on Feature Selection in Text Categorization”, Proceedings of the Fourteenth International Conference on Machine Learning, San Francisco, CA, USA, 412–420, 1997.
- Zheng Z., Wu X., ve Srihari R., “Feature Selection for Text Categorization on Imbalanced Data”, SIGKDD Explor Newsl, Cilt 6, No. 1, 80–89, Haziran 2004.
- Karabulut M., “Fuzzy unordered rule induction algorithm in text categorization on top of geometric particle swarm optimization term selection”, Knowl.-Based Syst., Cilt 54, 288–297, Aralık 2013.
- Uğuz H., “A two-stage feature selection method for text categorization by using information gain, principal component analysis and genetic algorithm”, Knowl.-Based Syst., Cilt 24, No. 7, 1024–1032, 2011.
- Sebastiani F., “Machine Learning in Automated Text Categorization”, ACM Comput. Surv., Cilt 34, sayı 1, 1–47, Mar. 2002.
- Lahtinen T., Automatic indexing: an approach using an index term corpus and combining linguistic and statistical methods, Tez, University of Helsinki, Helsinki, 2000.
Ayrıntılar
Birincil Dil
Türkçe
Konular
Mühendislik
Bölüm
Araştırma Makalesi
Yayımlanma Tarihi
30 Eylül 2015
Gönderilme Tarihi
30 Eylül 2015
Kabul Tarihi
-
Yayımlandığı Sayı
Yıl 2015 Cilt: 30 Sayı: 3
Cited By
Türkçe Haber Metinlerinin Konvolüsyonel Sinir Ağları ve Word2Vec Kullanılarak Sınıflandırılması
Bilişim Teknolojileri Dergisi
https://doi.org/10.17671/gazibtd.457917OBEZİTE RİSKİ ALTINDAKİ ÇOCUKLARIN ÖRNEK TABANLI SINIFLANDIRICI TOPLULUKLARIYLA TESPİTİ
Gazi Üniversitesi Mühendislik-Mimarlık Fakültesi Dergisi
https://doi.org/10.17341/gazimmfd.300595HPA algoritması ile çok makinalı güç sistemi kararlı kılıcısı tasarımı
Gazi Üniversitesi Mühendislik-Mimarlık Fakültesi Dergisi
https://doi.org/10.17341/gazimmfd.369716Klasik Türk müziğinde makam tanıma için veri madenciliği kullanımı
Gazi Üniversitesi Mühendislik-Mimarlık Fakültesi Dergisi
https://doi.org/10.17341/gazimmfd.369557YAPAY ÖĞRENME YÖNTEMLERİ VE DALGACIK DÖNÜŞÜMÜ KULLANILARAK NÖRO DEJENERATİF HASTALIKLARIN TEŞHİSİ
Gazi Üniversitesi Mühendislik-Mimarlık Fakültesi Dergisi
https://doi.org/10.17341/gazimmfd.337621‘Tamam’ ve ‘Devam’ Etiketleriyle Atılan Tweetler ile Cumhur ve Millet İttifakı Grupları Arasındaki İlişkinin İncelenmesi
Bilişim Teknolojileri Dergisi
https://doi.org/10.17671/gazibtd.453272Bilgi Erişimi için Eşli bir Sıralama Algoritması
Bitlis Eren Üniversitesi Fen Bilimleri Dergisi
https://doi.org/10.17798/bitlisfen.432105Comparison of Machine Learning Algorithms for Classification of Hotel Reviews: Sentiment Analysis of TripAdvisor Reviews
GSI Journals Serie A: Advancements in Tourism Recreation and Sports Sciences
https://doi.org/10.53353/atrss.1327615