With the increase in the use of social media worldwide, the number of cyberbullying and naturally the number of people who are exposed to cyberbullying is increasing at the same rate. It is important to detect cyberbullying in order not to expose the victims to this situation anymore and to prevent new victimizations. While there are many studies on cyberbullying in the literature, there are not many studies that detect cyberbullying by analyzing sentences in Turkish. The difference of this study from existing studies is to both measure the success of detecting cyberbullying by preprocessing on a data set prepared in Turkish, and to find a method that will not reduce the success by reducing the number of features when working with very large documents. For this reason, Whale Optimization algorithm, which is a method that has not yet been tried in Turkish Cyberbullying datasets as feature selector, was used in this study, and the success of detecting cyberbullying was measured with the K-Nearest Neighbor (KNN), Multinomial Naïve Bayes (MNB) and Random Forest (RF) classifier algorithms by performing preprocessing on the dataset. According to the experiments, the number of features decreased and the accuracy value increased significantly when both preprocessing and feature selection were made with the Whale Optimization Algorithm, while the raw data set was classified with all three classifiers. Especially in the data set where all the other preprocessing except the stemming process took place, the accuracy rate increased from 85% to 91% when the RF Algorithm as a classifier and the Whale Optimization Algorithm as a feature selector were used together. This shows that preprocessing and feature selection with Whale Optimization Algorithm significantly reduces the number of features and increases the success in cyberbullying detection.
Whale Optimization Algorithm Preprocessing Feature Selection Cyberbullying Turkish Text
Dünya genelinde sosyal medya kullanımının artması ile siber zorbalığın ve doğal olarak siber zorbalığa maruz kalan kişilerin sayısı da aynı oranda artmaktadır. Mağdurların daha fazla bu duruma maruz kalmaması, aynı zamanda yeni mağduriyetlerin de oluşmaması açısından siber zorbalığın tespiti önem arz etmektedir. Literatürde siber zorbalıkla ilgili birçok çalışma bulunmakta iken, Türkçe dilindeki cümleleri analiz ederek siber zorbalığı tespit eden çok fazla çalışmaya rastlanmamıştır. Bu çalışmanın mevcut çalışmalardan farkı, Türkçe hazırlanmış bir veri seti üzerinde hem önişlem yaparak siber zorbalığın tespitinin başarısını ölçmek hem de çok büyük dokümanlarla çalışıldığında öznitelik sayısını düşürerek başarıyı düşürmeyecek bir yöntem bulmaktır. Bu sebeple öznitelik seçici olarak henüz Türkçe Siber zorbalık veri setlerinde denenmemiş bir yöntem olan Balina Optimizasyon algoritması bu çalışmada kullanılmış olup veri setine önişlemler gerçekleştirilerek K-En Yakın Komşu (KNN), Çok Terimli Naïve Bayes (MNB) ve Rastgele Orman (RF) sınıflandırıcı algoritmaları ile siber zorbalığın tespitinin başarısı ölçülmüştür. Yapılan deneylere göre, her üç sınıflandırıcı ile ham veri setine sınıflandırma işlemi gerçekleştirilirken hem önişlem yapıldığında hem de Balina Optimizasyon Algoritması ile öznitelik seçimi yapıldığında öznitelik sayısı azalmış olup doğruluk değeri büyük oranda artmıştır. Özellikle kök alma işlemi hariç diğer tüm önişlemlerin gerçekleştiği veri setinde sınıflandırıcı olarak RF Algoritması ile öznitelik seçici olarak Balina Optimizasyon Algoritması birlikte kullanıldığında doğruluk oranı %85’ten %91’e yükselmiştir. Bu da gösteriyor ki, önişlem yapma ve Balina Optimizasyon Algoritması ile öznitelik seçimi nitelik sayısını da önemli ölçüde azaltarak siber zorbalık tespitindeki başarıyı arttırmaktadır.
Balina Optimizasyon Algoritması Önişlem Öznitelik Seçme Siber Zorbalık Türkçe Metin
Birincil Dil | Türkçe |
---|---|
Konular | Mühendislik |
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 15 Aralık 2022 |
Yayımlandığı Sayı | Yıl 2022 Cilt: 12 Sayı: 2 |
This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.