Research Article

The Effect of Feature Selection Methods to Classification Performance in Health Datasets

Volume: 1 Number: 1 April 15, 2021
TR EN

Sağlık Veri Setlerinde Öznitelik Seçiminin Sınıflandırma Performansına Etkisi

Öz

Giriş: Günümüzde veri setleri, farklı cihazlardan toplanan verilerle çok yüksek boyut-lu ve spesifik hale geldiğinden, öznitelik seçimi veri madenciliğinde veri boyutunu azaltmada önemli bir veri ön işleme adımıdır. Bu çalışma, öznitelik seçim yöntemlerini kullanarak makine öğrenmesi yöntemlerinin hesaplama süresini ve maliyetini düşürüp sınıflandırma performansının iyileştirilmesini amaçlamaktadır. Gereç ve Yöntem: Özni-telik seçim yöntemleri; filtreleme yöntemleri, sarmal yöntemler ve gömülü yöntemler olmak üzere üç ana başlık altında incelenmektedir. Çalışmada, makine öğrenmesi sınıf-landırma algoritmalarından destek vektör makinesi, Naïve Bayes ve karar ağaçları yön-temleri kullanılmıştır. Çalışmada kullanılan veriler UCI ve Kaggle veri tabanlarından elde edilmiştir. Algoritmaların sınıflandırma performanslarını karşılaştırmak için doğru-luk, duyarlılık, özgüllük, kesinlik ve F ölçütü değerleri hesaplanmıştır. Tüm analizlerde WEKA 3.8.3, R3.3.0 ve Tableu programları kullanılmıştır. Analizlerde uygun yöntemler kullanılarak gereksiz öznitelikler çıkarıldıktan sonra; algoritmaların sınıflandırma per-formansları ve çalışma süreleri hesaplanmıştır. Bulgular: Doğruluk değerleri, öznitelik seçiminden sonra kullanılan veri setlerinde MNIST için % 87’e, Parkinson için % 85’e, SCADI için % 97’ye, HCC için % 100’e ve meme kanseri için % 78’e yükselmiştir. En yüksek performansa sahip algoritma karar ağaçları (J48) sarmal yöntem öznitelik seçimi ile elde edilmiştir. En hızlı metot filtreleme yöntemi iken, en uzun süre çalışan algoritma sarmal yöntemdir. Bulgulara göre, çok sayıda özniteliğe sahip verilerin sınıflandırma performansları, öznitelik seçimi yapılmış verilere göre daha düşük bulunmuştur. Sonuç: Sonuç olarak; düşük boyutlu veri setleri, daha düşük hesaplama maliyetleri ile daha yüksek sınıflandırma doğruluğu sağlayabilmektedir.

Anahtar Kelimeler

References

  1. [1] Deo RC. Machine learning in medicine, Circulation. 2015;132:1920-1930.doi:10.1161/Circulationaha.115.001593.
  2. [2] Lin JH, Haug PJ. Data preparation framework for prepro-cessing clinical data in data mining, AMIA Annual Symposium Proceedings. American Medical Informatics Association, 2006. p. 489.
  3. [3] Kohavi R, John GH. Wrappers for feature subset selection. Artificial intelligence, 1997, 97.1-2: 273-324. doi.org/10.1016/S0004-3702(97)00043-X.
  4. [4] Yang J, Honavar V. Feature subset selection using a genetic al-gorithm. In Feature extraction, construction and selection. Sprin-ger, Boston, MA, 1998. p. 117-136.
  5. [5] Rodriguez GV, Luque EJ, Chica OM, Mendes MP. Featu-re selection approaches for predictive modelling of groundwater nitrate pollution: An evaluation of filters, embedded and wrapper methods. Science of the total environment. 2018, 624: 661-672.
  6. [6] D Chen DY. Pandas for everyone, Python data analysis. Addi-son-Wesley Professional, 2017. p.161.
  7. [7] UCI Machine Learning Repository [Internet]. Available from: https://archive.ics.uci.edu/ml/index.php
  8. [8] Open Datasets and Machine Learning Projects | Kaggle [Inter-net]. Available from: https://www.kaggle.com/datasets

Details

Primary Language

Turkish

Subjects

Artificial Intelligence (Other)

Journal Section

Research Article

Publication Date

April 15, 2021

Submission Date

March 7, 2021

Acceptance Date

March 21, 2021

Published in Issue

Year 1970 Volume: 1 Number: 1

Vancouver
1.Mert Demirarslan, Aslı Suner. Sağlık Veri Setlerinde Öznitelik Seçiminin Sınıflandırma Performansına Etkisi. JAIHS [Internet]. 2021 Apr. 1;1(1):6-11. Available from: https://izlik.org/JA44XK77NX