Spam içeriklerin sosyal medya platformlarındaki bilgi güvenliğini tehdit etmesi ve manuel tespit yöntemlerinin yetersiz kalması nedeniyle, otomatik spam tespit sistemlerinin geliştirilmesi büyük önem taşımaktadır. Makine öğrenmesi ve derin öğrenme teknikleri, spam yorumları yalnızca anahtar kelimelere dayanarak değil, bağlamsal ilişkileri ve dilin anlamını dikkate alarak sınıflandırmada büyük avantajlar sunmaktadır. Bu çalışmada, YouTube yorumlarında spam tespitini otomatik olarak gerçekleştirmek için farklı makine öğrenmesi ve derin öğrenme modellerinin karşılaştırmalı bir analizi sunulmuştur. Çalışmada, LR, RF, SVM, XGBoost ve Bi-LSTM kullanılarak spam yorumları tespit etmek için kapsamlı analizler yapılmıştır. TF-IDF vektörleştirme yöntemi kullanılarak metinler sayısal hale getirilmiş ve modellerin eğitimi için uygun bir veri temsili oluşturulmuştur. Deneysel sonuçlar, metin tabanlı verilerde uzun vadeli bağımlılıkları öğrenme yeteneği sayesinde Bi-LSTM'in %97,1 sınıflandırma doğruluyla karşılaştırılan modellerden daha başarılı olduğunu göstermiştir.
Since spam content threatens information security on social media platforms and manual detection methods are inadequate, the development of automatic spam detection systems is of great importance. Machine learning and deep learning techniques offer great advantages in classifying spam comments not only based on keywords but also by taking into account contextual relationships and language meaning. In this study, a comparative analysis of different machine learning and deep learning models is presented to automatically perform spam detection in YouTube comments. In the study, comprehensive analyses were performed to detect spam comments using LR, RF, SVM, XGBoost and Bi-LSTM. The texts were digitized using the TF-IDF vectorization method and a suitable data representation was created for training the models. Experimental results showed that Bi-LSTM outperformed the compared models with 97.1% classification accuracy thanks to its ability to learn long-term dependencies in text-based data.
| Primary Language | Turkish |
|---|---|
| Subjects | Natural Language Processing |
| Journal Section | Research Article |
| Authors | |
| Submission Date | March 6, 2025 |
| Acceptance Date | May 29, 2025 |
| Publication Date | June 25, 2025 |
| Published in Issue | Year 2025 Volume: 6 Issue: 1 |
This journal is prepared and published by the Bingöl University Technical Sciences journal team.