Araştırma Makalesi
BibTex RIS Kaynak Göster

Comparative Performance Analysis Of Machine Learning Models In Spam Sms Detection

Yıl 2025, Cilt: 6 Sayı: 2, 159 - 171, 23.10.2025

Öz

With the proliferation of mobile communication tools, spam SMS traffic has become a significant problem. Spam SMS has security implications as well as causing annoyance among users. In this study, three different machine learning models (Naive Bayes, Logistic Regression and Random Forest) are used for spam SMS classification. The dataset used was obtained from the “SMS Spam Collection Dataset” presented on the Kaggle platform. The extensive data preprocessing process improved the data quality and contributed to the improvement of model accuracy. The basic distributions of the dataset were analyzed with various visualization techniques to enhance the statistical interpretation power. TF-IDF vectorization and class imbalance correction techniques were applied on 5,574 SMS (4,827 real and 747 spam). Accuracy, AUC, precision, recall and F1-score were used in the performance analysis. Logistic Regression stood out with the highest accuracy (98%) and AUC (0.988) values and showed balanced performance (precision: 93%, recall: 92%) in the spam class. Naive Bayes and Random Forest models also performed satisfactorily, but were relatively inaccurate in detecting spam messages. ROC curves and complexity matrices were used to analyze the classification accuracy of the models in depth. The study also examines the effects of feature engineering on model performance. The results show that machine learning models are effective in spam SMS detection.

Kaynakça

  • Aslan, K. (2025). Yapay Zekâ Makine Öğrenmesi ve Veri Bilimi Kursu, Sınıfta Yapılan Örnekler ve Özet Notlar, C ve Sistem Programcıları Derneği, İstanbul.
  • Baktır, N., & Atay, Y. (2022). Makine Öğrenmesi Yaklaşımlarının Spam-Mail Sınıflandırma Probleminde Karşılaştırmalı Analizi. Bilişim Teknolojileri Dergisi, 15(3), 349-364. https://doi.org/10.17671/gazibtd.1014764
  • Eryılmaz, E. E., Şahin, D. Ö., & Kılıç, E. (2020). Türkçe İstenmeyen E-postaların Farklı Öznitelik Seçim Yöntemleri Kullanılarak Makine Öğrenmesi Algoritmaları ile Tespit Edilmesi. Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi, 13(2), 57-77.
  • Eşidir, K. A. (2025a). Makine Öğrenimi Modelleri ile Yetişkin Eğitimi Analizi: Modellerin Karşılaştırmalı Performansı. Elektronik Sosyal Bilimler Dergisi, 24(2), 946-964. https://doi.org/10.17755/esosder.1589887
  • Eşidir, K. A. (2025b). TÜİK Mikro Verileri ile Çocuk İşgücü Tahmini: Makine Öğrenimi Modellerinin Performans Analizleri. Fırat Üniversitesi Mühendislik Bilimleri Dergisi, 37(1), 453-466. https://doi.org/10.35234/fumbd.1607609
  • Gür, Y. E. (2024). Stock price forecasting using machine learning and deep learning algorithms: A case study for the aviation industry. Fırat Üniversitesi Mühendislik Bilimleri Dergisi, 36(1), 25-34. https://doi.org/10.35234/fumbd.1357613
  • Gür, Y. E., Eşidir, K. A., & Şimşek, A. İ. (2024). Sağlık İstatistiklerinin Veri Madenciliği Teknikleri İle Analizi: Makine Öğrenmesi Algoritmaları Kullanılarak Genel Sağlık Durumunun Sınıflandırılması. Afyon Kocatepe Üniversitesi Fen ve Mühendislik Bilimleri Dergisi, 24(6), 1364-1381. https://doi.org/10.35414/akufemubid.1491469
  • Karasulu, B., Avcı, E., Strazimiri, T., Cengiz, B. (2024). Arnavutça Konuşma Verilerini Kullanan Derin Öğrenme Tabanlı Duygu Durum Analizi ve Sınıflandırma. Veri Bilimi, 7(2), 30-40.
  • Kazan, S., & Karakoca, H. (2019). Makine Öğrenmesi ile Ürün Kategorisi Sınıflandırma. Sakarya University Journal of Computer and Information Sciences, 2(1), 18-27. https://doi.org/10.35377/saucis.02.01.523139
  • Kara, M. A. (2024). “Makine Öğrenmesi Algoritmalarıyla Konut Fiyatlarının Tahmini: Giresun Örneği”, JSAS, sy. 10, ss. 105–111, doi: 10.52693/jsas.1571979.
  • O. Uslu ve S. Özmen-Akyol, (2021). Türkçe Haber Metinlerinin Makine Öğrenmesi Yöntemleri Kullanılarak Sınıflandırılması, ESTUDAM Bilişim, c. 2, sy. 1, ss. 15–20.
  • Oguine OC ve Oguine MB. (2021). Comparative analysis and forecasting on the death rate of COVID-19 patients in Nigeria using random forest and multinomial Bayesian epidemiological models, Journal of Clinical Case Studies Reviews & Reports, 1-7.
  • Parlak, B.. (2022). Makine Öğrenmesi Algoritmaları ile Türkçe için İstenmeyen SMS Filtreleme. Academic Perspective Procedia, 5 (3), 537-546. DOI: 10.33793/acperpro.05.03.17783
  • Tekerek, A. (2019). Support Vector Machine Based Spam SMS Detection. Politeknik Dergisi, 22(3), 779-784. https://doi.org/10.2339/politeknik.429707
  • Veziroğlu, M., & Bucak, İ. (2025). Haber Sınıflandırma Sistemlerinde Naive Bayes ve Makine Öğrenmesi Algoritmaları Arasında Performans Karşılaştırması. Journal of the Institute of Science and Technology, 15(1), 57-70. https://doi.org/10.21597/jist.1537627

Spam SMS’lerin Tespitinde Makine Öğrenmesi Modellerinin Karşılaştırmalı Performans Analizi

Yıl 2025, Cilt: 6 Sayı: 2, 159 - 171, 23.10.2025

Öz

Mobil iletişim araçlarının yaygınlaşmasıyla birlikte, istenmeyen (spam) SMS trafiği de önemli bir sorun haline gelmiştir. Spam SMS’ler, güvenlik açısından sakıncalar barındırdığı gibi kullanıcılarda bıkkınlık meydana getirmektedir. Çalışmada, spam SMS sınıflandırması için üç farklı makine öğrenmesi modeli (Naive Bayes, Lojistik Regresyon ve Rastgele Orman) kullanılmıştır. Kullanılan veri seti, Kaggle platformunda sunulan "SMS Spam Collection Dataset" başlıklı çalışmadan elde edilmiştir. Yapılan kapsamlı veri ön işleme süreci, veri kalitesini artırarak model doğruluğunun iyileştirilmesine katkı sağlamıştır. Veri setine ilişkin temel dağılımlar, istatistiksel yorum gücünü artırmak amacıyla çeşitli görselleştirme teknikleri ile analiz edilmiştir. 5.574 SMS (4.827 gerçek ve 747 spam) üzerinde TF-IDF vektörleştirme ve sınıf dengesizliği düzeltme teknikleri uygulanmıştır. Performans analizinde doğruluk, AUC, precision, recall ve F1-score kullanılmıştır. Lojistik Regresyon; en yüksek doğruluk (%98) ve AUC (0.988) değerleri ile ön plana çıkmış, spam sınıfında dengeli performans (precision: %93, recall: %92) sergilemiştir. Naive Bayes ve Rastgele Orman modelleri de tatmin edici performans sergilemekle birlikte, spam mesajların saptanmasında nispeten hatalı sınıflandırma yapmıştır. ROC eğrileri ve karmaşıklık matrisleri ile modellerin sınıflandırma hassasiyeti derinlemesine incelenmiştir. Çalışmada ayrıca, özellik mühendisliğinin model başarısına etkileri incelenmiştir. Sonuçlar, makine öğrenmesi modellerinin spam SMS tespitinde etkili olduğunu göstermektedir.

Kaynakça

  • Aslan, K. (2025). Yapay Zekâ Makine Öğrenmesi ve Veri Bilimi Kursu, Sınıfta Yapılan Örnekler ve Özet Notlar, C ve Sistem Programcıları Derneği, İstanbul.
  • Baktır, N., & Atay, Y. (2022). Makine Öğrenmesi Yaklaşımlarının Spam-Mail Sınıflandırma Probleminde Karşılaştırmalı Analizi. Bilişim Teknolojileri Dergisi, 15(3), 349-364. https://doi.org/10.17671/gazibtd.1014764
  • Eryılmaz, E. E., Şahin, D. Ö., & Kılıç, E. (2020). Türkçe İstenmeyen E-postaların Farklı Öznitelik Seçim Yöntemleri Kullanılarak Makine Öğrenmesi Algoritmaları ile Tespit Edilmesi. Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi, 13(2), 57-77.
  • Eşidir, K. A. (2025a). Makine Öğrenimi Modelleri ile Yetişkin Eğitimi Analizi: Modellerin Karşılaştırmalı Performansı. Elektronik Sosyal Bilimler Dergisi, 24(2), 946-964. https://doi.org/10.17755/esosder.1589887
  • Eşidir, K. A. (2025b). TÜİK Mikro Verileri ile Çocuk İşgücü Tahmini: Makine Öğrenimi Modellerinin Performans Analizleri. Fırat Üniversitesi Mühendislik Bilimleri Dergisi, 37(1), 453-466. https://doi.org/10.35234/fumbd.1607609
  • Gür, Y. E. (2024). Stock price forecasting using machine learning and deep learning algorithms: A case study for the aviation industry. Fırat Üniversitesi Mühendislik Bilimleri Dergisi, 36(1), 25-34. https://doi.org/10.35234/fumbd.1357613
  • Gür, Y. E., Eşidir, K. A., & Şimşek, A. İ. (2024). Sağlık İstatistiklerinin Veri Madenciliği Teknikleri İle Analizi: Makine Öğrenmesi Algoritmaları Kullanılarak Genel Sağlık Durumunun Sınıflandırılması. Afyon Kocatepe Üniversitesi Fen ve Mühendislik Bilimleri Dergisi, 24(6), 1364-1381. https://doi.org/10.35414/akufemubid.1491469
  • Karasulu, B., Avcı, E., Strazimiri, T., Cengiz, B. (2024). Arnavutça Konuşma Verilerini Kullanan Derin Öğrenme Tabanlı Duygu Durum Analizi ve Sınıflandırma. Veri Bilimi, 7(2), 30-40.
  • Kazan, S., & Karakoca, H. (2019). Makine Öğrenmesi ile Ürün Kategorisi Sınıflandırma. Sakarya University Journal of Computer and Information Sciences, 2(1), 18-27. https://doi.org/10.35377/saucis.02.01.523139
  • Kara, M. A. (2024). “Makine Öğrenmesi Algoritmalarıyla Konut Fiyatlarının Tahmini: Giresun Örneği”, JSAS, sy. 10, ss. 105–111, doi: 10.52693/jsas.1571979.
  • O. Uslu ve S. Özmen-Akyol, (2021). Türkçe Haber Metinlerinin Makine Öğrenmesi Yöntemleri Kullanılarak Sınıflandırılması, ESTUDAM Bilişim, c. 2, sy. 1, ss. 15–20.
  • Oguine OC ve Oguine MB. (2021). Comparative analysis and forecasting on the death rate of COVID-19 patients in Nigeria using random forest and multinomial Bayesian epidemiological models, Journal of Clinical Case Studies Reviews & Reports, 1-7.
  • Parlak, B.. (2022). Makine Öğrenmesi Algoritmaları ile Türkçe için İstenmeyen SMS Filtreleme. Academic Perspective Procedia, 5 (3), 537-546. DOI: 10.33793/acperpro.05.03.17783
  • Tekerek, A. (2019). Support Vector Machine Based Spam SMS Detection. Politeknik Dergisi, 22(3), 779-784. https://doi.org/10.2339/politeknik.429707
  • Veziroğlu, M., & Bucak, İ. (2025). Haber Sınıflandırma Sistemlerinde Naive Bayes ve Makine Öğrenmesi Algoritmaları Arasında Performans Karşılaştırması. Journal of the Institute of Science and Technology, 15(1), 57-70. https://doi.org/10.21597/jist.1537627
Toplam 15 adet kaynakça vardır.

Ayrıntılar

Birincil Dil Türkçe
Konular Strateji, Yönetim ve Örgütsel Davranış (Diğer)
Bölüm Makaleler
Yazarlar

Kamil Abdullah Eşidir 0000-0002-8106-1758

Yayımlanma Tarihi 23 Ekim 2025
Gönderilme Tarihi 14 Mayıs 2025
Kabul Tarihi 24 Haziran 2025
Yayımlandığı Sayı Yıl 2025 Cilt: 6 Sayı: 2

Kaynak Göster

APA Eşidir, K. A. (2025). Spam SMS’lerin Tespitinde Makine Öğrenmesi Modellerinin Karşılaştırmalı Performans Analizi. Malatya Turgut Özal Üniversitesi İşletme ve Yönetim Bilimleri Dergisi, 6(2), 159-171.