Genelleme kabiliyetine ket vuran aşırı uyum probleminden Yapay Sinir Ağları (YSA) yönteminde metriklerin optimizasyonu yoluyla, Destek Vektör Makinelerinde (DVM), Vapnik-Chervonenkis (VC) Katsayısı yardımıyla, Karar Ağaçlarında (KA) ise ön budama (Pre-Pruning) ve son budama (Post_Pruning) yöntemiyle kaçınılmaya çalışılmaktadır. Bu çalışmada Gini ve Entropi ve Logaritmik Kayıp Fonksiyonu (LKF) indeksli KA modelleri, budamasız, ön budama sonrası ve son budama sonrası olmak üzere üç ayrı evrede, gerçek hayattan alınan bir kredi veri kümesine ve yine bu veriden türetilmiş “dengelenmiş” veri kümesine, üçüncül olarak da bir tarım verisine uygulanmış ve sonuçları YSA, DVM ve Lojistik Regresyon (LR) sınıflandırıcılarının sonuçları ile mukayese edilmiştir. Uygulamada YSA ve KA metrikleri Bayes (Optuna) ile optimize edilmiştir. Verilerin hepsine SMOTE dengeleme yöntemi uygulanmıştır. KA, her üç evrede tüm indeksleriyle birlikte, her üç veri kümesinde diğer yöntemlerinkinden belirgin bir şekilde daha iyi sonuçlar vermiştir. Sonuçlar Friedman’la test edilmiş ve modeller arasındaki sonuç farkları her üç veri kümesinde de anlamlı çıkmıştır. Üç veri kümesinin ikisinde indeks sonuçları arasındaki fark istatiksel olarak anlamlı değilken gözlem sayısı çok olan (11069) veri kümesinde ise anlamlı çıkmıştır. Çalışmanın sonuçlarına bakıldığında KA’nın kriterlerin tamamında (doğruluk, standart sapma, hassasiyet, geri çağırma, F1 ve AUC_ROC) verdiği sonuçların kalitesi göz önünde bulundurulduğunda güçlü ve pratik bir sınıflandırıcı olarak ön plana çıkmaktadır. Fakat ön budama ve son budama yöntemlerinin KA’nın genelleme kabiliyetine herhangi bir katkısının olmadığı sonucuna bu çalışma sonucunda varılmıştır.
karar ağaçları yapay sinir ağları destek vektör makineleri sınıflandırma budama
The overfitting problem, which hampers generalization capability, is addressed through metric optimization in Artificial Neural Networks (ANN), with the aid of the Vapnik-Chervonenkis (VC) coefficient in Support Vector Machines (SVM), and via pre-pruning and post-pruning methods in Decision Trees (DT). In this study, DT models indexed by Gini, Entropy, and Logarithmic Loss Function (LLF) were applied in three separate phases—before pruning, after pre-pruning, and after post-pruning—to a real-world credit dataset, a “balanced” version of this dataset, and, thirdly, an agricultural dataset. Their results were compared with those of the classifiers ANN, SVM, and Logistic Regression (LR). In the implementation, ANN and DT metrics were optimized using Bayesian (Optuna) optimization, and SMOTE balancing was applied to all datasets. Across all three datasets and indices, DT consistently delivered significantly better results than the other methods in all three pruning phases. The differences in model results were tested with the Friedman test and found to be statistically significant in all three datasets. While the differences in index results were not statistically significant in two of the datasets, they were significant in the dataset with a large number of observations (11069).
Reviewing the study's findings, it can be concluded that DT stands out as a strong and practical classifier, considering the quality of the results it produced across all criteria (accuracy, standard deviation, precision, recall, F1, and AUC_ROC). However, this study found that pre-pruning and post-pruning methods did not contribute to the generalization capability of DT.
decision trees artificial neural networks support vector machines classification pruning
| Birincil Dil | Türkçe |
|---|---|
| Konular | Karar Desteği ve Grup Destek Sistemleri, Veri Yapıları ve Algoritmalar, Nöral Ağlar, Veri Madenciliği ve Bilgi Keşfi |
| Bölüm | Araştırma Makalesi |
| Yazarlar | |
| Yayımlanma Tarihi | 31 Temmuz 2025 |
| Gönderilme Tarihi | 9 Aralık 2024 |
| Kabul Tarihi | 25 Haziran 2025 |
| Yayımlandığı Sayı | Yıl 2025 Cilt: 18 Sayı: 3 |