Araştırma Makalesi
BibTex RIS Kaynak Göster

Veri madenciliğinde kullanılan karar ağaçları, yapay sinir ağları ve lojistik regresyon yöntemlerinin sınıflandırma yaklaşımlarının ve sonuç performanslarının finansal bir veri kümesi üzerinde karşılaştırmalı olarak analizi

Yıl 2025, Cilt: 27 Sayı: 2, 391 - 405

Öz

Bu çalışmada bir sınıflandırma problemi veri madenciliğinde en çok kullanılan sınıflandırma yöntemleri olan Karar Ağaçları (KA), Yapay Sinir Ağları (YSA) ve Lojistik Regresyon (LR) yöntemleri kullanılarak çözülmüştür. Analizde KA’nın Entropi ve Gini İndeksleri budama yapılmak suretiyle ve YSA’nın Çok Katmanlı Algılayıcı (ÇKA) modeli ise mimarisi optimize edilerek kullanılmıştır. Uygulama, veri düzgünleştirme (SMOTE) yapılmadan önce ve sonra olmak üzere iki aşamada gerçekleştirilmiş olup sonuçlar altı farklı ölçüt (doğruluk, standart sapma, hassasiyet, geri çağırma, AUC_ROC ve F1) kullanılarak karşılaştırılmıştır. KA mevcut veri kümesi üzerinde, her iki indekste de geri çağırma ölçütü hariç altı ölçütün beşine göre en iyi sonuçları veren sınıflandırma yöntemi olmuştur. İndeks sonuçları arasındaki fark %0 ila %4 arasında çıkmıştır. SMOTE yöntemi YSA’nın sonuçlarına pozitif tesir etmiş fakat KA ve LR’un sonuçlarında en ufak bir farklılık meydana getirmemiştir. Bu sonuçlar dikkate alındığında KA, kredi riski belirlemede kullanıma uygun potansiyel bir Makine Öğrenimi (MÖ) tekniği olarak ön plana çıkmaktadır. Çalışma, yöntemlerin gerçek hayat verisi üzerinde, farklı indekslerde gerçekleştirilmiş olması ve sonuçların altı farklı kriterle ölçülmesi neticesinde, söz konusu yöntemlerin sınıflandırma yeteneklerinin sağlıklı bir kıyasını sunmaktadır.

Kaynakça

  • Aggarwal, A. Kasiviswanathan, S. Xu, Z. Feyisetan, O. ve Teissier, N. Label. (2021). Inference Attacks from Log-loss Scores. 38. Uluslararası Makine Öğrenmesi Konferansı Bildirileri, PMLR, 139, 120-129.
  • Bansal, M., Goyal, A. ve Choudhary, A. (2022). A comparative analysis of K-Nearest Neighbor, Genetic, Support Vector Machine, Decision Tree, and Long Short Term Memory algorithms in machine learning. Decision Analytics Journal, 3, 1-21. https://doi.org/10.1016/j.dajour.2022.100071
  • Bensic, M. Sarlija, N ve Susac, M. Z. (2005). Modelling small-business credit scoring by using logistic regression, neural networks and decision trees. Intelligent Systems, 13(3), 133-150. https://doi.org/10.1002/isaf.261
  • Bertsimas, D. ve Dunn, J. (2017). Optimal classification trees. Mach Learn, 106, 1039–1082. DOI: 10.1007/s10994-017-5633-9
  • Costa, V. G. ve Pedreira, C. E. (2023). Recent advances in decision trees: an updated survey. Artifcial Intelligence Review 56 ss. 4765–4800. https://doi.org/10.1007/s10462-022-10275-5
  • Çelik, E., Dal, D. ve Aydın, T. (2021). Duygu Analizi İçin Veri Madenciliği Sınıflandırma Algoritmalarının Karşılaştırılması. Avrupa Bilim ve Teknoloji Dergisi 27, 880-889.
  • Çelik, E., Dal, D. ve Bozkurt, F. (2021). Analysis of the Effectiveness of Various Machine Learning, Artificial Neural Network and Deep Learning Methods in Detecting Fraudulent Credit Card Transactions. Erzincan Üniversitesi Erzincan University Fen Bilimleri Enstitüsü Dergisi Journal of Science and Technology 2022, 15(1), 145-167.
  • Friedl, M. A. ve Brodleyf, C. E. (1997). Decision Tree Classification of Land Cover from Remotely Sensed Data. Remote Sensing of Environment, 61(3), 399-409. DOI: 10.1016/S0034-4257(97)00049-7
  • Gouvea, M. A. ve Gonçalves, E. B. (1997). Credit Risk Analysis Applying Logistic Regression, Neural Networks and Genetic Algorithms Models. POMS 18th Annual Conference, Dallas, Texas, U.S.A. DOI: 10.22161/ijaers.89.20
  • Gupta, B., Rawat, A. Jain, A., Arora, A. ve Dhami, N. (2017). Analysis of Various Decision Tree Algorithms for Classification in Data Mining. International Journal of Computer Applications, 163(8), 15-19. DOI: 10.5120/ijca2017913660
  • Gürsoy, U. T. (2009). Veri Madenciliği ve Bilgi Keşfi. 1. Baskı. Anakara, Pegem Yayınevi.
  • Harrell, F.E., Jr. Kerry L. ve Lee, J. K. L. (1985). A Comparison Of The Discrimination Of Discriminant Analysis And Logistic Regresyon Under Multivarite Normality, S.K. Se (Ed.), Biostatistics: Statistics İn Biomedical, Public Health, And Environmental Sciences, 333-343. DOI:10.1063/1.4801262
  • Chugh, V. (2024). AUC and the ROC Curve in Machine Learning 2 Mart 2025 tarihinde https://www.datacamp.com/tutorial/auc adresinden edinilmiştir. https://developers.google.com/machine-learning/crash-course/classification/roc-and-auc?hl=tr 08.03.2025.
  • Idbenjra, K., Coussement, K. ve Caigny, A. D. (2024). Investigating The Beneficial İmpact Of Segmentation-Based Modelling For Credit Scoring. Decision Support Systems, 179, 1-34. https://doi.org/10.1016/j.dss.2024.114170
  • Jijo, B. T. ve Abdulazeez, A. M. (2021). Classification Based on Decision Tree Algorithm for Machine Learning. Journal of Applied Science and Technology Trends (JASTT), 2(1), 20 – 28. DOI: 10.38094/jastt20165.
  • Kavzoğlu, T. ve Çölkesen, İ. (2010). Karar Ağaçları İle Uydu Görüntülerinin Sınıflandırılması: Kocaeli Örneği. Harita Teknolojileri Elektronik Dergisi, 2(1), 36-45.
  • Kotsiantis, S.B. (2011). Decision trees: a recent overview. Artificial Intelligence Review, 39, 261-283.
  • Lavalley, (2008). Logistic Regression. Statistical Primer for Cardiovascular Research, 117(18), 2395-2399. DOI:10.1161/CIRCULATIONAHA.106.682658
  • Mestiri, S. (2024). Credit Scoring Using Machine Learning And Deep Learning-Based Models. Data Science At Finance And Economics, (DSFE), 4(2), 236-248. DOI: 10.3934/DSFE.2024009
  • Mohammadi, N ve Zangeneh, M. (2016). Customer Credit Risk Assessment using Artificial Neural Networks. Information Technology and Computer Science, 3, ss. 58-66. DOI: 10.5815/ijitcs.2016.03.07
  • Mushava, Y. Ve Murray, M. (2024). Flexible Loss Functions For Binary Classification İn Gradient-Boosted Decision Trees: An Application To Credit Scoring. Expert Systems with Applications, 238(C), 1-16. https://doi.org/10.1016/j.eswa.2023.121876
  • Nie, G., Rowe, W., Zhang, L., Tian, T. ve Shi, Y. (2011). Credit Card Churn Forecasting By Logistic Regression And Decision Tree. Expert Systems with Applications, 38, 15273-15285. DOI: 10.1016/j.eswa.2011.06.028
  • Öztemel, E. (2012). Yapay Sinir Ağları. İstanbul, Papatya Yayıncılık.
  • Patel, B.R. ve Rana, K. K. (2014). A Survey on Decision Tree Algorithm For Classification. IJEDR, 2(1), 1-5.
  • Patel, H. H. ve Prajapati, P. (2018). Study and Analysis of Decision Tree Based Classification Algorithms. International Journal of Computer Sciences and Engineering (JCSE), 6(10), 74-78. DOI: 10.26438/ijcse/v6i10.7478
  • Podgorelec, V., Kokol, P., Stiglic, B. ve Rozman, I. (2002). Decision Trees: An Overview and Their Use in Medicine. Journal of Medical Systems, 26(5), 445-463. DOI: 10.1023/a:1016409317640
  • Sharma, H. ve Kumar, S. A Survey on Decision Tree Algorithms of Classification in Data Mining. International Journal of Science and Research (IJSR), 5(4), 2094-2097.
  • Singh, J. ve Banerjee, R. (2019). A Study on Single and Multi-layer Perceptron Neural Network. Proceedings of the Third International Conference on Computing Methodologies and Communication (ICCMC), 35-40. DOI: 10.1109/ICCMC.2019.8819775
  • Song, Y.Y. Lu, Y. (2015). Decision Tree Methods: Applications For Classification And Prediction. Shanghai Arch Psychiatry, 27(2), 130-135. DOI: 10.11919/j.issn.1002-0829.215044
  • Şakar, B. (2015). Banka Kredileri ve Yönetimi. 6. Baskı. İstanbul, Beta Yayınları.
  • Torun, T. (2007). Finansal Başarısızlık Tahmininde Geleneksel İstatistiki Yöntemlerle Yapay Sinir Ağlarının 213 Karşılaştırılması Ve Sanayi İşletmeleri Üzerinde Uygulama (Doktora Tezi), Erciyes Üniversitesi, Kayseri
  • Vens, C., Struyf, J. Schietgat, L. Džeroski S. ve Blockeel H. (2008).Decision trees for hierarchical multi-label classification. Mach Learn, 73, 185–214. DOI 10.1007/s10994-008-5077-3
  • West, D. (2000), Neural Network Credit Scoring Models. Computers ve Operations Research, 27(11-12), 1131-1152. https://doi.org/10.1016/S0305-0548(99)00149-5
  • www.jawatpoint.com, https://www.javatpoint.com/machine-learning-decision-tree-classification-algorithm, 27.11.2024.
  • Yakut, E. (2012). Veri Madenciliği Tekniklerinden C5.0 Algoritması Ve Destek Vektör Makineleri İle Yapay Sinir Ağlarının Sınıflandırma Başarılarının Karşılaştırılması: İmalat Bir Uygulama, Doktora Tezi, Atatürk Üniversitesi.

A comparative analysis of the classification approaches and performance results of decision trees, artificial neural networks, and logistic regression methods used in data mining on a financial dataset

Yıl 2025, Cilt: 27 Sayı: 2, 391 - 405

Öz

In this study, a classification problem was solved using the most commonly used classification methods in data mining: Decision Trees (DT), Artificial Neural Networks (ANN), and Logistic Regression (LR). In the analysis, DT was applied with pruning using both the Entropy and Gini Indexes, and the ANN was used with a Multilayer Perceptron (MLP) model, where the architecture was optimized. The application was carried out in two phases: before and after data balancing (SMOTE), and the results were compared using six different metrics (accuracy, standard deviation, precision, recall, AUC-ROC, and F1 score). DT was the best-performing classification method on the existing dataset for five out of the six metrics, excluding recall, in both index measures. The difference between the index results ranged from 0% to 4%. The SMOTE method had a positive impact on the results of ANN, but it did not cause any significant difference in the results of DT or LR. Considering these results, DT stands out as a potential Machine Learning (ML) technique suitable for credit risk assessment. The study provides a healthy comparison of the classification capabilities of the methods, as they were applied to real-world data and evaluated using six different criteria.

Kaynakça

  • Aggarwal, A. Kasiviswanathan, S. Xu, Z. Feyisetan, O. ve Teissier, N. Label. (2021). Inference Attacks from Log-loss Scores. 38. Uluslararası Makine Öğrenmesi Konferansı Bildirileri, PMLR, 139, 120-129.
  • Bansal, M., Goyal, A. ve Choudhary, A. (2022). A comparative analysis of K-Nearest Neighbor, Genetic, Support Vector Machine, Decision Tree, and Long Short Term Memory algorithms in machine learning. Decision Analytics Journal, 3, 1-21. https://doi.org/10.1016/j.dajour.2022.100071
  • Bensic, M. Sarlija, N ve Susac, M. Z. (2005). Modelling small-business credit scoring by using logistic regression, neural networks and decision trees. Intelligent Systems, 13(3), 133-150. https://doi.org/10.1002/isaf.261
  • Bertsimas, D. ve Dunn, J. (2017). Optimal classification trees. Mach Learn, 106, 1039–1082. DOI: 10.1007/s10994-017-5633-9
  • Costa, V. G. ve Pedreira, C. E. (2023). Recent advances in decision trees: an updated survey. Artifcial Intelligence Review 56 ss. 4765–4800. https://doi.org/10.1007/s10462-022-10275-5
  • Çelik, E., Dal, D. ve Aydın, T. (2021). Duygu Analizi İçin Veri Madenciliği Sınıflandırma Algoritmalarının Karşılaştırılması. Avrupa Bilim ve Teknoloji Dergisi 27, 880-889.
  • Çelik, E., Dal, D. ve Bozkurt, F. (2021). Analysis of the Effectiveness of Various Machine Learning, Artificial Neural Network and Deep Learning Methods in Detecting Fraudulent Credit Card Transactions. Erzincan Üniversitesi Erzincan University Fen Bilimleri Enstitüsü Dergisi Journal of Science and Technology 2022, 15(1), 145-167.
  • Friedl, M. A. ve Brodleyf, C. E. (1997). Decision Tree Classification of Land Cover from Remotely Sensed Data. Remote Sensing of Environment, 61(3), 399-409. DOI: 10.1016/S0034-4257(97)00049-7
  • Gouvea, M. A. ve Gonçalves, E. B. (1997). Credit Risk Analysis Applying Logistic Regression, Neural Networks and Genetic Algorithms Models. POMS 18th Annual Conference, Dallas, Texas, U.S.A. DOI: 10.22161/ijaers.89.20
  • Gupta, B., Rawat, A. Jain, A., Arora, A. ve Dhami, N. (2017). Analysis of Various Decision Tree Algorithms for Classification in Data Mining. International Journal of Computer Applications, 163(8), 15-19. DOI: 10.5120/ijca2017913660
  • Gürsoy, U. T. (2009). Veri Madenciliği ve Bilgi Keşfi. 1. Baskı. Anakara, Pegem Yayınevi.
  • Harrell, F.E., Jr. Kerry L. ve Lee, J. K. L. (1985). A Comparison Of The Discrimination Of Discriminant Analysis And Logistic Regresyon Under Multivarite Normality, S.K. Se (Ed.), Biostatistics: Statistics İn Biomedical, Public Health, And Environmental Sciences, 333-343. DOI:10.1063/1.4801262
  • Chugh, V. (2024). AUC and the ROC Curve in Machine Learning 2 Mart 2025 tarihinde https://www.datacamp.com/tutorial/auc adresinden edinilmiştir. https://developers.google.com/machine-learning/crash-course/classification/roc-and-auc?hl=tr 08.03.2025.
  • Idbenjra, K., Coussement, K. ve Caigny, A. D. (2024). Investigating The Beneficial İmpact Of Segmentation-Based Modelling For Credit Scoring. Decision Support Systems, 179, 1-34. https://doi.org/10.1016/j.dss.2024.114170
  • Jijo, B. T. ve Abdulazeez, A. M. (2021). Classification Based on Decision Tree Algorithm for Machine Learning. Journal of Applied Science and Technology Trends (JASTT), 2(1), 20 – 28. DOI: 10.38094/jastt20165.
  • Kavzoğlu, T. ve Çölkesen, İ. (2010). Karar Ağaçları İle Uydu Görüntülerinin Sınıflandırılması: Kocaeli Örneği. Harita Teknolojileri Elektronik Dergisi, 2(1), 36-45.
  • Kotsiantis, S.B. (2011). Decision trees: a recent overview. Artificial Intelligence Review, 39, 261-283.
  • Lavalley, (2008). Logistic Regression. Statistical Primer for Cardiovascular Research, 117(18), 2395-2399. DOI:10.1161/CIRCULATIONAHA.106.682658
  • Mestiri, S. (2024). Credit Scoring Using Machine Learning And Deep Learning-Based Models. Data Science At Finance And Economics, (DSFE), 4(2), 236-248. DOI: 10.3934/DSFE.2024009
  • Mohammadi, N ve Zangeneh, M. (2016). Customer Credit Risk Assessment using Artificial Neural Networks. Information Technology and Computer Science, 3, ss. 58-66. DOI: 10.5815/ijitcs.2016.03.07
  • Mushava, Y. Ve Murray, M. (2024). Flexible Loss Functions For Binary Classification İn Gradient-Boosted Decision Trees: An Application To Credit Scoring. Expert Systems with Applications, 238(C), 1-16. https://doi.org/10.1016/j.eswa.2023.121876
  • Nie, G., Rowe, W., Zhang, L., Tian, T. ve Shi, Y. (2011). Credit Card Churn Forecasting By Logistic Regression And Decision Tree. Expert Systems with Applications, 38, 15273-15285. DOI: 10.1016/j.eswa.2011.06.028
  • Öztemel, E. (2012). Yapay Sinir Ağları. İstanbul, Papatya Yayıncılık.
  • Patel, B.R. ve Rana, K. K. (2014). A Survey on Decision Tree Algorithm For Classification. IJEDR, 2(1), 1-5.
  • Patel, H. H. ve Prajapati, P. (2018). Study and Analysis of Decision Tree Based Classification Algorithms. International Journal of Computer Sciences and Engineering (JCSE), 6(10), 74-78. DOI: 10.26438/ijcse/v6i10.7478
  • Podgorelec, V., Kokol, P., Stiglic, B. ve Rozman, I. (2002). Decision Trees: An Overview and Their Use in Medicine. Journal of Medical Systems, 26(5), 445-463. DOI: 10.1023/a:1016409317640
  • Sharma, H. ve Kumar, S. A Survey on Decision Tree Algorithms of Classification in Data Mining. International Journal of Science and Research (IJSR), 5(4), 2094-2097.
  • Singh, J. ve Banerjee, R. (2019). A Study on Single and Multi-layer Perceptron Neural Network. Proceedings of the Third International Conference on Computing Methodologies and Communication (ICCMC), 35-40. DOI: 10.1109/ICCMC.2019.8819775
  • Song, Y.Y. Lu, Y. (2015). Decision Tree Methods: Applications For Classification And Prediction. Shanghai Arch Psychiatry, 27(2), 130-135. DOI: 10.11919/j.issn.1002-0829.215044
  • Şakar, B. (2015). Banka Kredileri ve Yönetimi. 6. Baskı. İstanbul, Beta Yayınları.
  • Torun, T. (2007). Finansal Başarısızlık Tahmininde Geleneksel İstatistiki Yöntemlerle Yapay Sinir Ağlarının 213 Karşılaştırılması Ve Sanayi İşletmeleri Üzerinde Uygulama (Doktora Tezi), Erciyes Üniversitesi, Kayseri
  • Vens, C., Struyf, J. Schietgat, L. Džeroski S. ve Blockeel H. (2008).Decision trees for hierarchical multi-label classification. Mach Learn, 73, 185–214. DOI 10.1007/s10994-008-5077-3
  • West, D. (2000), Neural Network Credit Scoring Models. Computers ve Operations Research, 27(11-12), 1131-1152. https://doi.org/10.1016/S0305-0548(99)00149-5
  • www.jawatpoint.com, https://www.javatpoint.com/machine-learning-decision-tree-classification-algorithm, 27.11.2024.
  • Yakut, E. (2012). Veri Madenciliği Tekniklerinden C5.0 Algoritması Ve Destek Vektör Makineleri İle Yapay Sinir Ağlarının Sınıflandırma Başarılarının Karşılaştırılması: İmalat Bir Uygulama, Doktora Tezi, Atatürk Üniversitesi.
Toplam 35 adet kaynakça vardır.

Ayrıntılar

Birincil Dil Türkçe
Konular Yapay Zeka (Diğer)
Bölüm Araştırma Makaleleri
Yazarlar

Gökhan Korkmaz 0000-0002-1702-2965

Erken Görünüm Tarihi 6 Eylül 2025
Yayımlanma Tarihi 6 Ekim 2025
Gönderilme Tarihi 29 Kasım 2024
Kabul Tarihi 25 Haziran 2025
Yayımlandığı Sayı Yıl 2025 Cilt: 27 Sayı: 2

Kaynak Göster

APA Korkmaz, G. (2025). Veri madenciliğinde kullanılan karar ağaçları, yapay sinir ağları ve lojistik regresyon yöntemlerinin sınıflandırma yaklaşımlarının ve sonuç performanslarının finansal bir veri kümesi üzerinde karşılaştırmalı olarak analizi. Afyon Kocatepe Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi, 27(2), 391-405. https://doi.org/10.33707/akuiibfd.1593210


22365