TR
EN
Sağlık Veri Setlerinde Öznitelik Seçiminin Sınıflandırma Performansına Etkisi
Öz
Giriş: Günümüzde veri setleri, farklı cihazlardan toplanan verilerle çok yüksek boyut-lu ve spesifik hale geldiğinden, öznitelik seçimi veri madenciliğinde veri boyutunu azaltmada önemli bir veri ön işleme adımıdır. Bu çalışma, öznitelik seçim yöntemlerini kullanarak makine öğrenmesi yöntemlerinin hesaplama süresini ve maliyetini düşürüp sınıflandırma performansının iyileştirilmesini amaçlamaktadır. Gereç ve Yöntem: Özni-telik seçim yöntemleri; filtreleme yöntemleri, sarmal yöntemler ve gömülü yöntemler olmak üzere üç ana başlık altında incelenmektedir. Çalışmada, makine öğrenmesi sınıf-landırma algoritmalarından destek vektör makinesi, Naïve Bayes ve karar ağaçları yön-temleri kullanılmıştır. Çalışmada kullanılan veriler UCI ve Kaggle veri tabanlarından elde edilmiştir. Algoritmaların sınıflandırma performanslarını karşılaştırmak için doğru-luk, duyarlılık, özgüllük, kesinlik ve F ölçütü değerleri hesaplanmıştır. Tüm analizlerde WEKA 3.8.3, R3.3.0 ve Tableu programları kullanılmıştır. Analizlerde uygun yöntemler kullanılarak gereksiz öznitelikler çıkarıldıktan sonra; algoritmaların sınıflandırma per-formansları ve çalışma süreleri hesaplanmıştır. Bulgular: Doğruluk değerleri, öznitelik seçiminden sonra kullanılan veri setlerinde MNIST için % 87’e, Parkinson için % 85’e, SCADI için % 97’ye, HCC için % 100’e ve meme kanseri için % 78’e yükselmiştir. En yüksek performansa sahip algoritma karar ağaçları (J48) sarmal yöntem öznitelik seçimi ile elde edilmiştir. En hızlı metot filtreleme yöntemi iken, en uzun süre çalışan algoritma sarmal yöntemdir. Bulgulara göre, çok sayıda özniteliğe sahip verilerin sınıflandırma performansları, öznitelik seçimi yapılmış verilere göre daha düşük bulunmuştur. Sonuç: Sonuç olarak; düşük boyutlu veri setleri, daha düşük hesaplama maliyetleri ile daha yüksek sınıflandırma doğruluğu sağlayabilmektedir.
Anahtar Kelimeler
References
- [1] Deo RC. Machine learning in medicine, Circulation. 2015;132:1920-1930.doi:10.1161/Circulationaha.115.001593.
- [2] Lin JH, Haug PJ. Data preparation framework for prepro-cessing clinical data in data mining, AMIA Annual Symposium Proceedings. American Medical Informatics Association, 2006. p. 489.
- [3] Kohavi R, John GH. Wrappers for feature subset selection. Artificial intelligence, 1997, 97.1-2: 273-324. doi.org/10.1016/S0004-3702(97)00043-X.
- [4] Yang J, Honavar V. Feature subset selection using a genetic al-gorithm. In Feature extraction, construction and selection. Sprin-ger, Boston, MA, 1998. p. 117-136.
- [5] Rodriguez GV, Luque EJ, Chica OM, Mendes MP. Featu-re selection approaches for predictive modelling of groundwater nitrate pollution: An evaluation of filters, embedded and wrapper methods. Science of the total environment. 2018, 624: 661-672.
- [6] D Chen DY. Pandas for everyone, Python data analysis. Addi-son-Wesley Professional, 2017. p.161.
- [7] UCI Machine Learning Repository [Internet]. Available from: https://archive.ics.uci.edu/ml/index.php
- [8] Open Datasets and Machine Learning Projects | Kaggle [Inter-net]. Available from: https://www.kaggle.com/datasets
Details
Primary Language
Turkish
Subjects
Artificial Intelligence (Other)
Journal Section
Research Article
Publication Date
April 15, 2021
Submission Date
March 7, 2021
Acceptance Date
March 21, 2021
Published in Issue
Year 1970 Volume: 1 Number: 1