Bu çalışma, veri bozulmasının makine öğrenmesi (ML) sınıflandırma algoritmalarının performansı üzerindeki etkisini sistematik bir biçimde incelemektedir. Araştırmanın odağı; aykırı değer oranları, veri boyutluluğu ve farklı öznitelik ölçekleme teknikleri arasındaki karmaşık etkileşimdir. Bu kapsamda, çok değişkenli lojistik regresyona dayalı kapsamlı bir faktöriyel simülasyon tasarımı oluşturulmuş ve yaygın olarak kullanılan dört ML algoritması (XGBoost, Random Forest, LightGBM ve SVM), sekizi farklı ölçekleme yöntemi ve biri normalizasyon uygulanmamış referans durum olmak üzere toplam dokuz ön-işleme koşulu altında karşılaştırmalı olarak değerlendirilmiştir. Çalışmanın temel amacı; örneklem büyüklüğü, değişken sayısı ve veri bozulma şiddeti arttıkça en yüksek düzeyde sağlamlığı koruyan normalizasyon stratejisinin belirlenmesidir. Bulgular, Medyan/MAD (MD) yönteminin, özellikle aykırı değer oranının yüksek olduğu durumlarda (%50’ye kadar), Z-Score gibi geleneksel yöntemlerde gözlenen performans düşüşünü etkili biçimde telafi ederek tutarlı biçimde üstün bir dayanıklılık sunduğunu açıkça ortaya koymaktadır. Her ne kadar ağaç tabanlı topluluk yöntemleri (XGBoost, Random Forest ve LightGBM) doğaları gereği aykırı değerlere karşı çekirdek tabanlı SVM’ye kıyasla daha toleranslı olsa da SVM’nin MD gibi sağlam bir ölçekleyici ile birlikte kullanılması, yüksek derecede kirlenmiş veri kümelerinde modelin kararlılığını belirgin biçimde artırmaktadır.
This research provides a systematic investigation into how data corruption impacts the performance of Machine Learning (ML) classification algorithms. Our focus is on the intricate interplay between outlier ratios, data dimensionality, and various feature scaling techniques. We constructed a comprehensive factorial simulation based on multivariate logistic regression, benchmarking four widely-used ML algorithms (XGBoost, Random Forest, LightGBM, and SVM) under nine preprocessing conditions: eight feature-scaling methods and one unnormalized baseline. The primary goal was to identify the normalization strategy that maintains the highest level of robustness as data size, feature count, and corruption severity escalate. The findings clearly indicate that the Median/MAD (MD) method offers consistently superior resilience, especially when the outlier ratio is substantial (up to 50%), effectively counteracting the performance collapse seen with conventional methods like Z-Score. While ensemble tree methods (XGBoost, Random Forest, LightGBM) naturally tolerate outliers better than the kernel-based SVM, pairing a robust scaler like MD with SVM dramatically improves the latter's stability in highly contaminated datasets. This work emphasizes the necessity of context-aware data preprocessing, offering empirically-grounded recommendations for practitioners seeking to build resilient models in data science applications.
| Primary Language | Turkish |
|---|---|
| Subjects | Context Learning, Deep Learning |
| Journal Section | Research Article |
| Authors | |
| Submission Date | December 22, 2025 |
| Acceptance Date | February 5, 2026 |
| Publication Date | March 16, 2026 |
| DOI | https://doi.org/10.47495/okufbed.1846741 |
| IZ | https://izlik.org/JA97TF67TH |
| Published in Issue | Year 2026 Volume: 9 Issue: 2 |
*This journal is an international refereed journal
*Our journal does not charge any article processing fees over publication process.
* This journal is online publishes 5 issues per year (January, March, June, September, December)
*This journal published in Turkish and English as open access.
* This work is licensed under a Creative Commons Attribution 4.0 International License.