In recent years, the emergence of telecommunication systems has led to an increase in global electronic messaging traffic. Most of this traffic contains unwanted content for the user. In this study, an approach is proposed in which feature vectors generated using DBOW and PV-DM techniques are used for classification as a hybrid for spam SMS detection. In the training and testing of the proposed method, four different datasets (UCI, BEC, Big NUS and DITNUS) that are widely used are combined and used. This dataset is tested with 10 different machine learning algorithms and then a unique stacked ensemble model is proposed to increase the performance. In the tests using the model, accuracy, precision, recall, F-score and AUC values are 98.38%, 98.39%, 98.39%, 98.37% and 96.81%, respectively. When 10-fold cross validation is applied to the obtained results, the standard deviation value is 0.004. The analysis time per sample is 0.087 milliseconds.
Mobile spam filtering Short message service (SMS) Bag of Words (BOW) Doc2Vec hybrid feature vector (HFV)
FKB-2022-1092
This work has been supported by Kayseri University Scientific Research Projects Coordination Unit under grant number #FKB-2022-1092.
Son yıllarda telekomünikasyon sistemlerinin ortaya çıkması, küresel elektronik mesajlaşma trafiğinde (SMS veya e-posta) artışa yol açmıştır. Bu trafiğin çoğu, kullanıcı için istenmeyen içerikler içermektedir. Bu çalışmada, spam SMS tespiti için DBOW ve PV-DM teknikleri kullanılarak üretilen öznitelik vektörlerinin hibrit olarak sınıflandırma için kullanıldığı bir yaklaşım önerilmiştir. Önerilen yöntemin eğitim ve testlerinde yaygın olarak kullanılan dört farklı veri kümesi (UCI, BEC, Big NUS ve DIT NUS) birleştirilerek kullanılmıştır. Bu veriseti 10 farklı makine öğrenmesi algoritması ile test edilmiş daha sonra başarımı artırmak için özgün bir yığılmış topluluk modeli önerilmiştir. Model kullanılarak yapılan testlerde doğruluk, kesinlik, geri çağırma, F-puanı ve AUC değerleri sırasıyla %98.38, %98.39, %98.39, %98.37 ve %96.81 olmuştur. Elde edilen sonuçlara, 10 katlı cross validation yapıldığında elde edilen standart sapma değeri 0,004'tür. Örnek başına analiz süresi 0.087 milisaniyedir. Testler sonucunda hibrit özellik vektörünün kullanımının SMS spam tespiti için başarılı sonuçlar sağladığı ve sistem performansının iyileştirilmesine katkıda bulunduğu gösterilmiştir.
Mobil spam filtreleme Kısa mesaj servisi (SMS) Kelime Torbası (BOW) Doc2Vec hibrit özellik vektörü (HFV)
Kayseri Üniversitesi
FKB-2022-1092
This work has been supported by Kayseri University Scientific Research Projects Coordination Unit under grant number #FKB-2022-1092.
Primary Language | English |
---|---|
Subjects | Information Security and Cryptology, System and Network Security, Software and Application Security |
Journal Section | Articles |
Authors | |
Project Number | FKB-2022-1092 |
Early Pub Date | March 21, 2025 |
Publication Date | |
Submission Date | October 9, 2024 |
Acceptance Date | March 17, 2025 |
Published in Issue | Year 2025 Volume: 14 Issue: 2 |