With the proliferation of mobile communication tools, spam SMS traffic has become a significant problem. Spam SMS has security implications as well as causing annoyance among users. In this study, three different machine learning models (Naive Bayes, Logistic Regression and Random Forest) are used for spam SMS classification. The dataset used was obtained from the “SMS Spam Collection Dataset” presented on the Kaggle platform. The extensive data preprocessing process improved the data quality and contributed to the improvement of model accuracy. The basic distributions of the dataset were analyzed with various visualization techniques to enhance the statistical interpretation power. TF-IDF vectorization and class imbalance correction techniques were applied on 5,574 SMS (4,827 real and 747 spam). Accuracy, AUC, precision, recall and F1-score were used in the performance analysis. Logistic Regression stood out with the highest accuracy (98%) and AUC (0.988) values and showed balanced performance (precision: 93%, recall: 92%) in the spam class. Naive Bayes and Random Forest models also performed satisfactorily, but were relatively inaccurate in detecting spam messages. ROC curves and complexity matrices were used to analyze the classification accuracy of the models in depth. The study also examines the effects of feature engineering on model performance. The results show that machine learning models are effective in spam SMS detection.
Mobil iletişim araçlarının yaygınlaşmasıyla birlikte, istenmeyen (spam) SMS trafiği de önemli bir sorun haline gelmiştir. Spam SMS’ler, güvenlik açısından sakıncalar barındırdığı gibi kullanıcılarda bıkkınlık meydana getirmektedir. Çalışmada, spam SMS sınıflandırması için üç farklı makine öğrenmesi modeli (Naive Bayes, Lojistik Regresyon ve Rastgele Orman) kullanılmıştır. Kullanılan veri seti, Kaggle platformunda sunulan "SMS Spam Collection Dataset" başlıklı çalışmadan elde edilmiştir. Yapılan kapsamlı veri ön işleme süreci, veri kalitesini artırarak model doğruluğunun iyileştirilmesine katkı sağlamıştır. Veri setine ilişkin temel dağılımlar, istatistiksel yorum gücünü artırmak amacıyla çeşitli görselleştirme teknikleri ile analiz edilmiştir. 5.574 SMS (4.827 gerçek ve 747 spam) üzerinde TF-IDF vektörleştirme ve sınıf dengesizliği düzeltme teknikleri uygulanmıştır. Performans analizinde doğruluk, AUC, precision, recall ve F1-score kullanılmıştır. Lojistik Regresyon; en yüksek doğruluk (%98) ve AUC (0.988) değerleri ile ön plana çıkmış, spam sınıfında dengeli performans (precision: %93, recall: %92) sergilemiştir. Naive Bayes ve Rastgele Orman modelleri de tatmin edici performans sergilemekle birlikte, spam mesajların saptanmasında nispeten hatalı sınıflandırma yapmıştır. ROC eğrileri ve karmaşıklık matrisleri ile modellerin sınıflandırma hassasiyeti derinlemesine incelenmiştir. Çalışmada ayrıca, özellik mühendisliğinin model başarısına etkileri incelenmiştir. Sonuçlar, makine öğrenmesi modellerinin spam SMS tespitinde etkili olduğunu göstermektedir.
| Primary Language | Turkish |
|---|---|
| Subjects | Strategy, Management and Organisational Behaviour (Other) |
| Journal Section | Articles |
| Authors | |
| Publication Date | October 23, 2025 |
| Submission Date | May 14, 2025 |
| Acceptance Date | June 24, 2025 |
| Published in Issue | Year 2025 Volume: 6 Issue: 2 |