Hiperparametre seçimi, makine öğrenmesi modellerinin performansını optimize etmede kritik bir rol oynar. Özellikle spam tespiti gibi doğruluk ve hesaplama verimliliğinin önemli olduğu görevlerde, doğru hiperparametre ayarlama tekniklerinin seçimi büyük fark yaratabilir. Bu çalışmada, UCI Makine Öğrenmesi Deposunda yer alan Spambase veri kümesi kullanılarak Altı Makine Öğrenmesi Modeli değerlendirildi: Çok Katmanlı Algılayıcı (MLP), Light Gradient Boosting Machine (LightGBM), Rastgele Orman (RF), Aşırı Gradient Artırma (XGBoost), Karar Ağacı (DT) ve K-En Yakın Komşu (KNN).
Bu modellerin optimizasyonu için altı hiperparametre ayarlama yöntemi kullanıldı: Kovaryans Matris Adaptasyonlu Evrim Stratejisi (CMA-ES), Diferansiyel Evrim (DE), Bayesci Optimizasyon (BO), Genetik Algoritma (GA), Ağaç Yapılı Parzen Kestiricisi (TPE) ve Parçacık Sürü Optimizasyonu (PSO).
Analiz sonuçları, model ve optimizasyon yöntemi seçiminin tahmin performansı ve kaynak verimliliği üzerinde önemli bir etkisi olduğunu göstermektedir. Deneysel bulgulara göre, XGBoost modeli %98.24 doğruluk oranı ile en yüksek başarıyı elde ederek spam tespiti için etkin bir seçenek olduğunu kanıtlamıştır. LightGBM, %96.74 doğruluk oranı ve yüksek optimizasyon hızıyla performans ve verimlilik arasında dengeli bir alternatif sunmuştur. Karar Ağacı (DT) modelleri, özellikle TPE yöntemiyle sadece 2.81 saniyede optimize edilerek hesaplama açısından en verimli model olarak öne çıkmıştır.
Hiperparametre optimizasyon teknikleri açısından bakıldığında, Bayesci Optimizasyon (BO) ve TPE, en verimli yöntemler olarak öne çıkmış ve en düşük zaman maliyetiyle rekabetçi doğruluk seviyeleri elde etmiştir.
Hyperparameter selection plays a pivotal role in optimizing the performance of machine learning models, particularly for tasks such as spam detection, where both accuracy and computational efficiency are critical. In this study, the Spambase dataset from the UCI Machine Learning Repository was used to evaluate six machine learning models: Multi-Layer Perceptron (MLP), Light Gradient Boosting Machine (LightGBM), Random Forest (RF), Extreme Gradient Boosting (XGBoost), Decision Tree (DT), and K-Nearest Neighbors (KNN). These models were optimized using six hyperparameter optimization techniques: Covariance Matrix Adaptation Evolution Strategy (CMA-ES), Differential Evolution (DE), Bayesian Optimization (BO), Genetic Algorithm (GA), Tree-structured Parzen Estimator (TPE), and Particle Swarm Optimization (PSO). The analysis highlights the significant impact of model and optimization method selection on predictive performance and resource efficiency. Based on the experimental results, XGBoost achieved the highest accuracy (0.9824), showcasing its effectiveness in spam detection tasks. LightGBM demonstrated a favorable balance between accuracy (0.9674) and optimization speed, making it a practical alternative. Decision Tree models were notable for their computational efficiency, optimizing in as little as 2.81 seconds with TPE. Bayesian Optimization and TPE emerged as the most efficient hyperparameter tuning methods, achieving competitive accuracy with minimal time costs. Future studies could focus on addressing challenges such as computational complexity and evolving spam patterns by exploring advanced optimization strategies and adaptive deep learning models.
| Primary Language | English |
|---|---|
| Subjects | Computer Software |
| Journal Section | Research Article |
| Authors | |
| Submission Date | February 15, 2025 |
| Acceptance Date | August 21, 2025 |
| Publication Date | January 29, 2026 |
| Published in Issue | Year 2026 Volume: 15 Issue: 2 |
All articles published by EJT are licensed under the Creative Commons Attribution 4.0 International License. This permits anyone to copy, redistribute, remix, transmit and adapt the work provided the original work and source is appropriately cited.