With the proliferation of mobile communication tools, spam SMS traffic has become a significant problem. Spam SMS has security implications as well as causing annoyance among users. In this study, three different machine learning models (Naive Bayes, Logistic Regression and Random Forest) are used for spam SMS classification. The dataset used was obtained from the “SMS Spam Collection Dataset” presented on the Kaggle platform. The extensive data preprocessing process improved the data quality and contributed to the improvement of model accuracy. The basic distributions of the dataset were analyzed with various visualization techniques to enhance the statistical interpretation power. TF-IDF vectorization and class imbalance correction techniques were applied on 5,574 SMS (4,827 real and 747 spam). Accuracy, AUC, precision, recall and F1-score were used in the performance analysis. Logistic Regression stood out with the highest accuracy (98%) and AUC (0.988) values and showed balanced performance (precision: 93%, recall: 92%) in the spam class. Naive Bayes and Random Forest models also performed satisfactorily, but were relatively inaccurate in detecting spam messages. ROC curves and complexity matrices were used to analyze the classification accuracy of the models in depth. The study also examines the effects of feature engineering on model performance. The results show that machine learning models are effective in spam SMS detection.
Machine Learning Data Mining Spam SMS Classification Feature Engineering
Mobil iletişim araçlarının yaygınlaşmasıyla birlikte, istenmeyen (spam) SMS trafiği de önemli bir sorun haline gelmiştir. Spam SMS’ler, güvenlik açısından sakıncalar barındırdığı gibi kullanıcılarda bıkkınlık meydana getirmektedir. Çalışmada, spam SMS sınıflandırması için üç farklı makine öğrenmesi modeli (Naive Bayes, Lojistik Regresyon ve Rastgele Orman) kullanılmıştır. Kullanılan veri seti, Kaggle platformunda sunulan "SMS Spam Collection Dataset" başlıklı çalışmadan elde edilmiştir. Yapılan kapsamlı veri ön işleme süreci, veri kalitesini artırarak model doğruluğunun iyileştirilmesine katkı sağlamıştır. Veri setine ilişkin temel dağılımlar, istatistiksel yorum gücünü artırmak amacıyla çeşitli görselleştirme teknikleri ile analiz edilmiştir. 5.574 SMS (4.827 gerçek ve 747 spam) üzerinde TF-IDF vektörleştirme ve sınıf dengesizliği düzeltme teknikleri uygulanmıştır. Performans analizinde doğruluk, AUC, precision, recall ve F1-score kullanılmıştır. Lojistik Regresyon; en yüksek doğruluk (%98) ve AUC (0.988) değerleri ile ön plana çıkmış, spam sınıfında dengeli performans (precision: %93, recall: %92) sergilemiştir. Naive Bayes ve Rastgele Orman modelleri de tatmin edici performans sergilemekle birlikte, spam mesajların saptanmasında nispeten hatalı sınıflandırma yapmıştır. ROC eğrileri ve karmaşıklık matrisleri ile modellerin sınıflandırma hassasiyeti derinlemesine incelenmiştir. Çalışmada ayrıca, özellik mühendisliğinin model başarısına etkileri incelenmiştir. Sonuçlar, makine öğrenmesi modellerinin spam SMS tespitinde etkili olduğunu göstermektedir.
Makine Öğrenmesi Veri Madenciliği Spam SMS Sınıflandırma Özellik Mühendisliği
| Birincil Dil | Türkçe |
|---|---|
| Konular | Strateji, Yönetim ve Örgütsel Davranış (Diğer) |
| Bölüm | Makaleler |
| Yazarlar | |
| Yayımlanma Tarihi | 23 Ekim 2025 |
| Gönderilme Tarihi | 14 Mayıs 2025 |
| Kabul Tarihi | 24 Haziran 2025 |
| Yayımlandığı Sayı | Yıl 2025 Cilt: 6 Sayı: 2 |