Bu makale, müşterinin temerrüde düşüp düşmediğini gösteren değişkeni tahmin ederek kurumsal kredi riskini değerlendirmeyi amaçlamaktadır. Bu amaçla kullanılan veri seti, Türkiye'de finans sektörünün önde gelen kuruluşlarından birinden temin edilmiştir. Genel olarak başvuru sahibinin verileri, kurumsal veriler, hissedar verileri ve başvuru sahibinin alacaklının kurumundaki kredi geçmişine atıfta bulunan 401 değişkenden oluşur. Diğerlerinden girdi değişkenlerini belirleyerek ve ardından bu girdileri inceleyerek güçlü bir şekilde ilişkili değişkenleri ve neredeyse tamamen eksik veya sıfır değerlerden oluşan değişkenleri kullanmaktan kaçınarak bu çok sayıda değişkeni azaltırız. Veri kümesindeki birçok değişkenin çok fazla eksik girişi vardır, ancak bunun haklı sebepleri vardır. Bu sorunu çözmek için, hangi değişken grubunun hangi müşteriyle ilişkili olduğunu yansıtan yedi alt küme oluşturduk. Veri seti dengesiz, yaklaşık %96 temerrüt dışı örneklerden ve onaylanmış krediler arasında yalnızca yaklaşık %4 temerrüt örneklerinden oluşuyor. Bu yazıda, eğitim setlerindeki örnekleri dengelemek için üç örnekleme tekniği kullanıyoruz; alt örnekleme, yüksek örnekleme ve sentetik azınlık yüksek örnekleme tekniği ve altı sınıflandırıcı uyguluyoruz; Rastgele Orman, Naif Bayes, Lojistik Regresyon, Destek Vektör Makinesi, Karar Ağacı ve K-En Yakın Komşu. Bu tekniklerin performansını ölçmek için, sırasıyla çoğunluk sınıfı ve azınlık sınıfının ne kadar iyi tahmin edildiğini ölçmek için duyarlılık ve özgüllük kullanırız. Sonuç olarak, eş zamanlı olarak %50'den fazla duyarlılık ve özgüllük elde ettik; burada alt örnekleme tekniği azınlık sınıfı için en iyi örnekleme tekniğiydi ve sentetik azınlık yüksek örnekleme tekniği ve yüksek örnekleme çoğunluk sınıfı için daha iyi performans gösterdi.
This article aims to assess corporate credit risk by predicting the variable that indicates whether the customer has defaulted or not. The dataset used for this purpose is obtained from one of the leading institutions in the finance sector in Türkiye. It consists of 401 variables generally referring to the applicant's data, corporate data, shareholder data, and the applicant's credit history within the creditor's institution. We reduce this large number of variables by identifying the input variables from the others and then studying those inputs to avoid using strongly correlated variables and variables consisting almost entirely of missing or zero values. Many variables in the dataset have too many missing entries but for justifiable reasons. To solve this issue, we created seven subsets to reflect which group of variables relates to which customer. The dataset is imbalanced, consisting of about 96% non-default instances and only around 4% default instances among approved loans. In this paper, we use three sampling techniques to balance the instances in the training sets; under-sampling, oversampling, and synthetic minority oversampling technique, and we apply six classifiers; Random Forest, Naïve Bayes, Logistic Regression, Support Vector Machine, Decision Tree, and K-Nearest Neighbor. To measure the performance of these techniques, we use sensitivity and specificity to measure how well the majority class and minority class were respectively predicted. As a result, we simultaneously achieved greater than 50% sensitivity and specificity, where the under-sampling technique was the best sampling technique for the minority class, and the synthetic minority oversampling technique and oversampling performed better for the majority class.
Primary Language | English |
---|---|
Subjects | Industrial Engineering |
Journal Section | RESEARCH ARTICLES |
Authors | |
Publication Date | March 11, 2024 |
Submission Date | August 10, 2023 |
Acceptance Date | January 11, 2024 |
Published in Issue | Year 2024 Volume: 7 Issue: 2 |
*This journal is an international refereed journal
*Our journal does not charge any article processing fees over publication process.
* This journal is online publishes 5 issues per year (January, March, June, September, December)
*This journal published in Turkish and English as open access.
* This work is licensed under a Creative Commons Attribution 4.0 International License.