Özellik Seçimi Yöntemlerinin Sınıflandırma Performansı ve Model Yorumlanabilirliği Üzerindeki Etkileri: Deneysel Bir Analiz

Derya Turfan

doi:10.63716/guffd.1911737

Özellik Seçimi Yöntemlerinin Sınıflandırma Performansı ve Model Yorumlanabilirliği Üzerindeki Etkileri: Deneysel Bir Analiz

Öz

Bu çalışmada farklı özellik seçimi yöntemlerinin sınıflandırma performansı üzerindeki etkileri farklı yapılara sahip iki veri seti üzerinde incelenmiştir. Bu amaçla filtre yaklaşımını temsil eden karşılıklı bilgi yöntemi ile gömülü yöntemler arasında yer alan L1 düzenlileştirme ve ağaç tabanlı değişken önem ölçüleri kullanılarak farklı özellik alt kümeleri oluşturulmuştur. Elde edilen özellik alt kümeleri L2 düzenlileştirmeli lojistik regresyon ve Rastgele Orman sınıflandırma modelleri ile değerlendirilmiştir. Deneysel süreçte veri sızıntısını önlemek amacıyla ön işleme ve özellik seçimi adımları tekrarlı çapraz doğrulama süreci içerisinde yalnızca eğitim verisi üzerinde gerçekleştirilmiştir. Model performansı doğruluk, F1-skoru ve ROC-AUC ölçütleri kullanılarak değerlendirilmiştir. Elde edilen bulgular, özellik seçimi yöntemlerinin model performansı üzerindeki etkisinin veri setinin yapısına bağlı olarak değişebileceğini göstermektedir. Adult veri setinde değişken sayısının azaltılması performansta belirgin bir değişime yol açmazken, Heart veri setinde uygun özellik alt kümelerinin seçilmesinin performans üzerinde daha belirgin etkiler oluşturabildiği gözlenmiştir. Ayrıca seçilen modeller için gerçekleştirilen SHAP analizi sayesinde model tahminlerinde etkili olan değişkenler yorumlanmıştır.

Anahtar Kelimeler

Kaynakça

Guyon, I., and Elisseeff, A. (2003). An introduction to variable and feature selection. Journal of Machine Learning Research, 3, 1157-1182.
Battiti, R. (1994). Using mutual information for selecting features in supervised neural net learning. IEEE Transactions on Neural Networks, 5(4), 537-550.
Peng, H., Long, F., and Ding, C. (2005). Feature selection based on mutual information: Criteria of max-dependency, max-relevance, and min-redundancy. IEEE Transactions on Pattern Analysis and Machine Intelligence, 27(8), 1226-1238.
Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society Series B: Statistical Methodology, 58(1), 267-288.
Breiman, L. (2001). Random forests. Machine Learning, 45(1), 5-32.
Díaz-Uriarte, R., and Alvarez de Andrés, S. (2006). Gene selection and classification of microarray data using random forest. BMC Bioinformatics, 7(1), 3.
Hosmer Jr, D. W., Lemeshow, S., and Sturdivant, R. X. (2013). Applied Logistic Regression (3rd ed.). New York: John Wiley & Sons.
Li, J., Cheng, K., Wang, S., Morstatter, F., Trevino, R. P., Tang, J., and Liu, H. (2017). Feature selection: A data perspective. ACM Computing Surveys, 50(6), 1-45.

Genuer, R., Poggi, J. M., and Tuleau-Malot, C. (2010). Variable selection using random forests. Pattern Recognition Letters, 31(14), 2225-2236.
Fernández-Delgado, M., Cernadas, E., Barro, S., and Amorim, D. (2014). Do we need hundreds of classifiers to solve real world classification problems? Journal of Machine Learning Research, 15(1), 3133-3181.
Ribeiro, M. T., Singh, S., and Guestrin, C. (2016). "Why should I trust you?": Explaining the predictions of any classifier. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 1135-1144.
Lundberg, S. M., and Lee, S. I. (2017). A unified approach to interpreting model predictions. Advances in Neural Information Processing Systems, 30, 4768-4777.
Chicco, D., and Jurman, G. (2020). Machine learning can predict survival of patients with heart failure from serum creatinine and ejection fraction alone. BMC Medical Informatics and Decision Making, 20(1), 16.
Zhou, H., Wang, X., and Zhu, R. (2022). Feature selection based on mutual information with correlation coefficient. Applied Intelligence, 52(5), 5457-5474.
Gomez-Martinez, V., Chushig-Muzo, D., Veierød, M. B., Granja, C., and Soguero-Ruiz, C. (2024). Ensemble feature selection and tabular data augmentation with generative adversarial networks to enhance cutaneous melanoma identification and interpretability. BioData Mining, 17(1), 46.
Mohan, S., Thirumalai, C., and Srivastava, G. (2019). Effective heart disease prediction using hybrid machine learning techniques. IEEE Access, 7, 81542-81554.
Sena, L., & Machado, J. (2024). Evaluation of fairness in machine learning models using the UCI Adult Dataset. In Proceedings of the 39th Brazilian Symposium on Data Bases (SBBD) (pp. 743–749)
Shah, D., Patel, S., and Bharti, S. K. (2020). Heart disease prediction using machine learning techniques. SN Computer Science, 1(6), 345.
Cover, T. M. (1999). Elements of Information Theory. New York: John Wiley & Sons.
Friedman, J. H., Hastie, T., and Tibshirani, R. (2010). Regularization paths for generalized linear models via coordinate descent. Journal of Statistical Software, 33, 1-22.
Wright, M. N., and Ziegler, A. (2017). ranger: A fast implementation of random forests for high dimensional data in C++ and R. Journal of Statistical Software, 77, 1-17.
Powers, D. M. W. (2020). Evaluation: From precision, recall and F-measure to ROC, informedness, markedness and correlation. arXiv preprint arXiv:2010.16061.
Fawcett, T. (2006). An introduction to ROC analysis. Pattern Recognition Letters, 27(8), 861-874.
Molnar, C. (2020). Interpretable Machine Learning. Lulu Press.
Kohavi, R. (1996). Scaling up the accuracy of naive-bayes classifiers: A decision-tree hybrid. Proceedings of the Second International Conference on Knowledge Discovery and Data Mining, 202-207.
Detrano, R., Janosi, A., Steinbrunn, W., Pfisterer, M., Schmid, J. J., Sandhu, S., Guppy, K. H., Lee, S., and Froelicher, V. (1989). International application of a new probability algorithm for the diagnosis of coronary artery disease. The American Journal of Cardiology, 64(5), 304-310.
Sen, R., Mandal, A. K., Goswami, S., & Chakraborty, B. (2019). A comparative study of the stability of filter based feature selection algorithms. In 2019 IEEE 10th International Conference on Awareness Science and Technology (iCAST) (pp. 1–6). Institute of Electrical and Electronics Engineers.
Nogueira, S., Sechidis, K., and Brown, G. (2018). On the stability of feature selection algorithms. Journal of Machine Learning Research, 18(174), 1-54.
Ding, F., Hardt, M., Miller, J., and Schmidt, L. (2021). Retiring adult: New datasets for fair machine learning. Advances in Neural Information Processing Systems, 34, 6478-6490.
Barbieri, M. C., Grisci, B. I., and Dorn, M. (2024). Analysis and comparison of feature selection methods towards performance and stability. Expert Systems with Applications, 249, 123667.
Patel, J., Upadhyay, T., and Patel, S. (2015). Heart disease prediction using machine learning and data mining technique. International Journal of Computer Science and Information Security, 7(1), 129-137.
Alfadli, K., and Almagrabi, A. (2023). Feature-limited prediction on the UCI heart disease dataset. Computers, Materials, & Continua, 74(3), 5871-5883.

Ayrıntılar

Birincil Dil

Türkçe

Konular

İstatistiksel Analiz, İstatistiksel Veri Bilimi

Bölüm

Araştırma Makalesi

Yazarlar

Derya Turfan ^*
0000-0001-8252-1325
Türkiye

Yayımlanma Tarihi

26 Mayıs 2026

Gönderilme Tarihi

17 Mart 2026

Kabul Tarihi

24 Nisan 2026

Yayımlandığı Sayı

Yıl 2026 Cilt: 7 Sayı: 1

DOI

https://doi.org/10.63716/guffd.1911737

IZ

https://izlik.org/JA77BE67DN

Kaynak Göster

RIS / Bibtex

APA

Turfan, D. (2026). Özellik Seçimi Yöntemlerinin Sınıflandırma Performansı ve Model Yorumlanabilirliği Üzerindeki Etkileri: Deneysel Bir Analiz. Gazi Üniversitesi Fen Fakültesi Dergisi, 7(1), 39-56. https://doi.org/10.63716/guffd.1911737

AMA

1.Turfan D. Özellik Seçimi Yöntemlerinin Sınıflandırma Performansı ve Model Yorumlanabilirliği Üzerindeki Etkileri: Deneysel Bir Analiz. GÜFFD. 2026;7(1):39-56. doi:10.63716/guffd.1911737

Chicago

Turfan, Derya. 2026. “Özellik Seçimi Yöntemlerinin Sınıflandırma Performansı ve Model Yorumlanabilirliği Üzerindeki Etkileri: Deneysel Bir Analiz”. Gazi Üniversitesi Fen Fakültesi Dergisi 7 (1): 39-56. https://doi.org/10.63716/guffd.1911737.

EndNote

Turfan D (01 Mayıs 2026) Özellik Seçimi Yöntemlerinin Sınıflandırma Performansı ve Model Yorumlanabilirliği Üzerindeki Etkileri: Deneysel Bir Analiz. Gazi Üniversitesi Fen Fakültesi Dergisi 7 1 39–56.

IEEE

[1]D. Turfan, “Özellik Seçimi Yöntemlerinin Sınıflandırma Performansı ve Model Yorumlanabilirliği Üzerindeki Etkileri: Deneysel Bir Analiz”, GÜFFD, c. 7, sy 1, ss. 39–56, May. 2026, doi: 10.63716/guffd.1911737.

ISNAD

Turfan, Derya. “Özellik Seçimi Yöntemlerinin Sınıflandırma Performansı ve Model Yorumlanabilirliği Üzerindeki Etkileri: Deneysel Bir Analiz”. Gazi Üniversitesi Fen Fakültesi Dergisi 7/1 (01 Mayıs 2026): 39-56. https://doi.org/10.63716/guffd.1911737.

JAMA

1.Turfan D. Özellik Seçimi Yöntemlerinin Sınıflandırma Performansı ve Model Yorumlanabilirliği Üzerindeki Etkileri: Deneysel Bir Analiz. GÜFFD. 2026;7:39–56.

MLA

Turfan, Derya. “Özellik Seçimi Yöntemlerinin Sınıflandırma Performansı ve Model Yorumlanabilirliği Üzerindeki Etkileri: Deneysel Bir Analiz”. Gazi Üniversitesi Fen Fakültesi Dergisi, c. 7, sy 1, Mayıs 2026, ss. 39-56, doi:10.63716/guffd.1911737.

Vancouver

1.Derya Turfan. Özellik Seçimi Yöntemlerinin Sınıflandırma Performansı ve Model Yorumlanabilirliği Üzerindeki Etkileri: Deneysel Bir Analiz. GÜFFD. 01 Mayıs 2026;7(1):39-56. doi:10.63716/guffd.1911737