İnternet kullanımının yaygınlaşması ve sosyal medya platformlarının popülaritesinin artması siber zorbalık olarak adlandırılan eylemlerin hızla yayılmasına neden olmuştur. Dünya genelinde siber zorbalığa maruz kalan kişilerin sayısı her geçen gün artmaktadır ve bu da mağdurlar üzerinde büyük etkiler yaratmaktadır. Bu eylemin tespit edilmesi, yeni mağdurların ortaya çıkmaması ve mevcut mağdurların daha fazla bu eyleme maruz kalmaması açısından büyük önem taşımaktadır. Bu noktada literatürde siber zorbalık tespitine yönelik birçok çalışmanın gerçekleştirildiği görülmüş ancak Türkçe metinlerde yapılan çalışma sayısının çok az olduğu tespit edilmiştir. Bu çalışmada kaggle adlı paylaşım sitesinden elde edilmiş ve manuel olarak oluşturulan 3000 cümlelik hazır Türkçe bir veri seti üzerinde doğal dil işleme yöntemleri kullanılarak siber zorbalık tespiti gerçekleştirilmiştir. Çalışmada kullanılan veri setinin yeni olması ve bildiğimiz kadarıyla bu kadar çok sayıda algoritmanın literatürde test edilmemiş olması nedeniyle bu çalışmanın literatüre katkı sağlayacağı düşünülmektedir. Çalışmada bu veri seti üzerinde Bagging, Boosting, C4.5, Gradient Boosting, K-Means, KNN, LR, NB, ANN, RO, DVM, Stokastik Gradient Descent ve XGBoost algoritmaları karşılaştırmalı olarak ilk kez kullanılmıştır.
Bilgi güvenliği Makine öğrenmesi Siber güvenlik Siber suç Siber zorbalık Veri analizi
Undoubtedly, the widespread use of the internet and the increasing popularity of social media platforms have caused the rapid spread of the actions called cyberbullying. The number of people subjected to cyberbullying throughout the world is increasing day by day and it has a great impact on their victims. Identifying this action is of great importance in terms of preventing the emergence of new victims and not being exposed to this action any more. At this point, it has been observed that many studies have been carried out in the literature on the detection of cyberbullying, but it has been determined that the number of studies in Turkish texts is very low. It is thought that this study will contribute to the literature because the dataset used in the study is new and to the best of our knowledge, such a large number of algorithms have not been tested in the literature. In the study, Bagging, Boosting, C4.5, Gradient Boosting, K-Means, KNN, LR, NB, ANN, RO, DVM, Stochastic Gradient Descent and XGBoost algorithms were used comparatively for the first time on this data set.
Information security Machine learning Cyber security Cyber crime Cyberbullying Data analysis
Birincil Dil | Türkçe |
---|---|
Konular | Mühendislik |
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 15 Nisan 2022 |
Gönderilme Tarihi | 10 Mayıs 2021 |
Kabul Tarihi | 1 Şubat 2022 |
Yayımlandığı Sayı | Yıl 2022 |