Özellik Seçimi Yöntemlerinin Sınıflandırma Performansı ve Model Yorumlanabilirliği Üzerindeki Etkileri: Deneysel Bir Analiz
Öz
Bu çalışmada farklı özellik seçimi yöntemlerinin sınıflandırma performansı üzerindeki etkileri farklı yapılara sahip iki veri seti üzerinde incelenmiştir. Bu amaçla filtre yaklaşımını temsil eden karşılıklı bilgi yöntemi ile gömülü yöntemler arasında yer alan L1 düzenlileştirme ve ağaç tabanlı değişken önem ölçüleri kullanılarak farklı özellik alt kümeleri oluşturulmuştur. Elde edilen özellik alt kümeleri L2 düzenlileştirmeli lojistik regresyon ve Rastgele Orman sınıflandırma modelleri ile değerlendirilmiştir. Deneysel süreçte veri sızıntısını önlemek amacıyla ön işleme ve özellik seçimi adımları tekrarlı çapraz doğrulama süreci içerisinde yalnızca eğitim verisi üzerinde gerçekleştirilmiştir. Model performansı doğruluk, F1-skoru ve ROC-AUC ölçütleri kullanılarak değerlendirilmiştir. Elde edilen bulgular, özellik seçimi yöntemlerinin model performansı üzerindeki etkisinin veri setinin yapısına bağlı olarak değişebileceğini göstermektedir. Adult veri setinde değişken sayısının azaltılması performansta belirgin bir değişime yol açmazken, Heart veri setinde uygun özellik alt kümelerinin seçilmesinin performans üzerinde daha belirgin etkiler oluşturabildiği gözlenmiştir. Ayrıca seçilen modeller için gerçekleştirilen SHAP analizi sayesinde model tahminlerinde etkili olan değişkenler yorumlanmıştır.
Anahtar Kelimeler
Kaynakça
- Guyon, I., and Elisseeff, A. (2003). An introduction to variable and feature selection. Journal of Machine Learning Research, 3, 1157-1182.
- Battiti, R. (1994). Using mutual information for selecting features in supervised neural net learning. IEEE Transactions on Neural Networks, 5(4), 537-550.
- Peng, H., Long, F., and Ding, C. (2005). Feature selection based on mutual information: Criteria of max-dependency, max-relevance, and min-redundancy. IEEE Transactions on Pattern Analysis and Machine Intelligence, 27(8), 1226-1238.
- Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society Series B: Statistical Methodology, 58(1), 267-288.
- Breiman, L. (2001). Random forests. Machine Learning, 45(1), 5-32.
- Díaz-Uriarte, R., and Alvarez de Andrés, S. (2006). Gene selection and classification of microarray data using random forest. BMC Bioinformatics, 7(1), 3.
- Hosmer Jr, D. W., Lemeshow, S., and Sturdivant, R. X. (2013). Applied Logistic Regression (3rd ed.). New York: John Wiley & Sons.
- Li, J., Cheng, K., Wang, S., Morstatter, F., Trevino, R. P., Tang, J., and Liu, H. (2017). Feature selection: A data perspective. ACM Computing Surveys, 50(6), 1-45.
Ayrıntılar
Birincil Dil
Türkçe
Konular
İstatistiksel Analiz, İstatistiksel Veri Bilimi
Bölüm
Araştırma Makalesi
Yazarlar
Derya Turfan
*
0000-0001-8252-1325
Türkiye
Yayımlanma Tarihi
26 Mayıs 2026
Gönderilme Tarihi
17 Mart 2026
Kabul Tarihi
24 Nisan 2026
Yayımlandığı Sayı
Yıl 2026 Cilt: 7 Sayı: 1