One of the most important issues affecting machine learning performance is class imbalance problems. In this case, which is frequently encountered in real-world problems, the effect of the minority class is ignored in the learning process and a biased estimation is obtained that shifts towards the majority class. This study presents the evaluation of 4 different resampling methods to cope with the class imbalance problem on the popular credit scoring dataset (Australian and German) in the UCI datasets. In this problem, where the credibility of bank customers is estimated, there are two customer classes classified as good and bad and are imbalanced. Different machine learning techniques such as Support Vector Machines (SVM), Random Forests (RF), Extra Boosting (XGBoost), CatBoost have been used in the prediction of risky customers and these algorithms have been combined with resampling approaches such as Random Oversampling (ROS), Random Undersampling (RUS), SMOTE and Tomek Linkages to eliminate the class imbalance problem. According to the experimental results, resampling methods are effective in improving the method performance and the SMOTE approach and the CatBoost classifier; It has been observed that ROS approach produces better results than RF classifier.
Makine öğrenmesi performansını etkileyen önemli hususların başında sınıf dengesizliği sorunları gelmektedir. Gerçek dünya problemlerinde sıklıkla karşılaşılabilen bu durumda öğrenme sürecinde azınlık sınıfın etkisi ihmal edilerek çoğunluk sınıfına doğru kayan yanlı bir tahmin elde edilir. Bu çalışma UCI veri setleri içerisinde yer alan popüler kredi puanlama (Australian ve German) veri seti üzerinde sınıf dengesizliği sorunuyla başa çıkmak için 4 farklı yeniden örnekleme yönteminin değerlendirmesi sunulmaktadır. Banka müşterilerinin kredibilitesinin tahmin edildiği bu problemde iyi ve kötü olarak sınıflandırılan ve dengesiz dağılan iki müşteri sınıfı vardır. Riskli müşterilerin tahmininde Destek Vektör Makineleri (SVM), Rassal Ormanlar (RF), Extra Artırma (XGBoost), CatBoost olmak üzere farklı makine öğrenmesi teknikleri kullanılmış ve bu algoritmalar sınıf dengesizliği sorununu gidermek için Random Oversampling (ROS), Random Undersampling (RUS), SMOTE ve Tomek Bağlantıları yeniden örnekleme yaklaşımları ile birleştirilmiştir. Deneysel sonuçlara göre, yeniden örnekleme yöntemlerinin yöntem performansını iyileştirmede etkili olduğu ve SMOTE yaklaşımı ile CatBoost sınıflandırıcısının; ROS yaklaşımı ile RF sınıflandırıcısının daha iyi sonuçlar ürettiği gözlenmiştir.
Birincil Dil | Türkçe |
---|---|
Konular | Strateji, Yönetim ve Örgütsel Davranış (Diğer) |
Bölüm | Araştırma Makalesi |
Yazarlar | |
Yayımlanma Tarihi | 30 Aralık 2024 |
Gönderilme Tarihi | 13 Kasım 2024 |
Kabul Tarihi | 20 Aralık 2024 |
Yayımlandığı Sayı | Yıl 2024 Cilt: 1 Sayı: 2 |