Data preprocessing techniques, one of the most fundamental steps in the data mining process, are frequently referenced in the literature. In this study, the effectiveness of commonly used data preprocessing techniques in the health field was examined on a dataset related to Hepatitis disease. The processes of handling missing data, managing imbalanced datasets, outlier detection, normalization, and feature selection were applied in sequence. For each new version of the dataset obtained at every step, classification was performed using five machine learning methods commonly used in the literature (KNN, LR, RF, SVM, ANN). The results obtained support the positive contribution of correctly selecting the appropriate data preprocessing techniques to model success. The model performances achieved in all steps are above 85%, showing consistent results across all performance evaluation metrics. Each data preprocessing step contributed gradually to model performance, with the highest contribution provided by the feature selection applied in the final stage. Feature selection significantly enhanced the model's performance, making a substantial contribution to classification success.
Health Dataset Hepatitis Machine Learning Data Preprocessing
Veri madenciliği sürecinin en temel adımlarından biri olan veri ön işleme teknikleri, literatürde sıklıkla başvurulan bir süreçtir. Bu çalışmada Hepatit hastalığına ait veri kümesi üzerinde sağlık alanında sık kullanılan veri ön işleme tekniklerinin etkinliği incelenmiştir. Sırasıyla eksik veri, dengesiz veri kümesi, aykırı veri, normalizasyon ve özellik seçimi işlemleri uygulanmıştır. Veri kümesinin her adımda elde edilen yeni versiyonu için literatürde sıklıkla kullanılan beş makine öğrenmesi yöntemi (KNN, LR, RF, SVM, ANN) ile sınıflandırma yapılmıştır. Elde edilen sonuçlar, doğru ve gerekli veri ön işleme tekniklerinin seçimi ile model başarısına olumlu katkısını desteklemektedir. Tüm aşama sonunda elde edilen model performansları %85 ve üzerinde olup, tüm performans belirleme ölçütleri bazında tutarlı sonuçlar göstermektedir. Her bir veri ön işleme model performansına kademeli olarak katkıda bulunmuş, en yüksek katkı ise son aşamada uygulanan özellik seçimi ile sağlanmıştır. Özellik seçimi, modelin performansını belirgin şekilde iyileştirerek sınıflandırma başarısına önemli ölçüde katkı sağlamıştır.
Birincil Dil | Türkçe |
---|---|
Konular | Makine Öğrenme (Diğer) |
Bölüm | Makaleler |
Yazarlar | |
Erken Görünüm Tarihi | 29 Aralık 2024 |
Yayımlanma Tarihi | 31 Aralık 2024 |
Gönderilme Tarihi | 8 Nisan 2024 |
Kabul Tarihi | 22 Kasım 2024 |
Yayımlandığı Sayı | Yıl 2024 Cilt: 11 Sayı: 24 |