Genelleme kabiliyetine ket vuran aşırı uyum probleminden Yapay Sinir Ağları (YSA) yönteminde metriklerin optimizasyonu yoluyla, Destek Vektör Makinelerinde (DVM), Vapnik-Chervonenkis (VC) Katsayısı yardımıyla, Karar Ağaçlarında (KA) ise ön budama (Pre-Pruning) ve son budama (Post_Pruning) yöntemiyle kaçınılmaya çalışılmaktadır. Bu çalışmada Gini ve Entropi ve Logaritmik Kayıp Fonksiyonu (LKF) indeksli KA modelleri, budamasız, ön budama sonrası ve son budama sonrası olmak üzere üç ayrı evrede, gerçek hayattan alınan bir kredi veri kümesine ve yine bu veriden türetilmiş “dengelenmiş” veri kümesine, üçüncül olarak da bir tarım verisine uygulanmış ve sonuçları YSA, DVM ve Lojistik Regresyon (LR) sınıflandırıcılarının sonuçları ile mukayese edilmiştir. Uygulamada YSA ve KA metrikleri Bayes (Optuna) ile optimize edilmiştir. Verilerin hepsine SMOTE dengeleme yöntemi uygulanmıştır. KA, her üç evrede tüm indeksleriyle birlikte, her üç veri kümesinde diğer yöntemlerinkinden belirgin bir şekilde daha iyi sonuçlar vermiştir. Sonuçlar Friedman’la test edilmiş ve modeller arasındaki sonuç farkları her üç veri kümesinde de anlamlı çıkmıştır. Üç veri kümesinin ikisinde indeks sonuçları arasındaki fark istatiksel olarak anlamlı değilken gözlem sayısı çok olan (11069) veri kümesinde ise anlamlı çıkmıştır. Çalışmanın sonuçlarına bakıldığında KA’nın kriterlerin tamamında (doğruluk, standart sapma, hassasiyet, geri çağırma, F1 ve AUC_ROC) verdiği sonuçların kalitesi göz önünde bulundurulduğunda güçlü ve pratik bir sınıflandırıcı olarak ön plana çıkmaktadır. Fakat ön budama ve son budama yöntemlerinin KA’nın genelleme kabiliyetine herhangi bir katkısının olmadığı sonucuna bu çalışma sonucunda varılmıştır.
The overfitting problem, which hampers generalization capability, is addressed through metric optimization in Artificial Neural Networks (ANN), with the aid of the Vapnik-Chervonenkis (VC) coefficient in Support Vector Machines (SVM), and via pre-pruning and post-pruning methods in Decision Trees (DT). In this study, DT models indexed by Gini, Entropy, and Logarithmic Loss Function (LLF) were applied in three separate phases—before pruning, after pre-pruning, and after post-pruning—to a real-world credit dataset, a “balanced” version of this dataset, and, thirdly, an agricultural dataset. Their results were compared with those of the classifiers ANN, SVM, and Logistic Regression (LR). In the implementation, ANN and DT metrics were optimized using Bayesian (Optuna) optimization, and SMOTE balancing was applied to all datasets. Across all three datasets and indices, DT consistently delivered significantly better results than the other methods in all three pruning phases. The differences in model results were tested with the Friedman test and found to be statistically significant in all three datasets. While the differences in index results were not statistically significant in two of the datasets, they were significant in the dataset with a large number of observations (11069).
Reviewing the study's findings, it can be concluded that DT stands out as a strong and practical classifier, considering the quality of the results it produced across all criteria (accuracy, standard deviation, precision, recall, F1, and AUC_ROC). However, this study found that pre-pruning and post-pruning methods did not contribute to the generalization capability of DT.
| Primary Language | Turkish |
|---|---|
| Subjects | Decision Support and Group Support Systems, Data Structures and Algorithms, Neural Networks, Data Mining and Knowledge Discovery |
| Journal Section | Research Article |
| Authors | |
| Publication Date | July 31, 2025 |
| Submission Date | December 9, 2024 |
| Acceptance Date | June 25, 2025 |
| Published in Issue | Year 2025 Volume: 18 Issue: 3 |