İnternet kullanıcıları ve sosyal medya platformları arasında büyük bir etkileşim vardır. Bu etkileşimin sonucu olarak ortaya çıkan devasa boyutlardaki kullanıcı verileri birçok yönden incelenmeye değerdir. Kullanıcı verilerini baz alarak ortaya çıkan araştırma alanlarından birisi de önemli güvenlik problemlerinden biri olan siber zorbalıktır. Bu sorun, siber suçların kaynağı olarak kabul edildiğinden, mikro-blog metinleri üzerinden siber zorbalık saldırılarını/kaynaklarını tespit etmeyi hedefleyen bir sistemin tasarımı önemli bir konudur. Bu alandaki akademik çalışmaların birçoğu İngilizce dilinde yazılmış metinleri ele almaktadır. Bu çalışmanın özgünlüğü Türkçe metinlerde yer alan sanal zorbalık öğelerini en doğru şekilde tespit edebiliyor olmasıdır. Bu amaçla, Twitter’dan toplanan kullanıcı twitleri üzerinde parametreleri Grid Arama Algoritması ile belirlenen, Bayes Lojistik Regresyon denetimli öğrenme algoritması kullanılmıştır. Metin verilerinin makine öğrenmesi algoritmaları için yüksek boyutlu bir eğitim alanı oluşturması sebebi ile Ki-Kare özellik seçim stratejisi kullanılarak en belirleyici özelliklere karar verilmiştir. Sonuç olarak, çalışmamız özellik sayısının minimum hale getirilmiş versiyonu ile, 0.925'lik bir F-ölçüm değeri üretmiştir. Önerilen yöntemimizin sonuçları literatürde sıkça kullanılan makine öğrenme yöntemleri ile karşılaştırılmış ve ilgili bölümlerde sonuçları paylaşılmıştır.
There is a huge interaction between users of various social media platforms. This communication produces enormous amount of user data worth to be analyzed from numerous aspects. One of the research area emerging from the user data is a major security issue known as cyberbullying. Since this problem has been recognized as the source of cybercrimes, design of a system to detect cyberbullying attacks/sources through the micro-blog texts is evident. Most of the academic search of this topic has been conducted in English language. The originality of this paper is that we develop an accurate cyberbullying detection system for Turkish language. We used data from Twitter to develop a supervised machine learning model on top of Bayesian Logistic Regression whose parameters are tuned with the use of grid-search algorithm. Since the text data produces a high dimensional training space for machine learning algorithms, we also used Chi-Squared (CH2) feature selection strategy to obtain best subset of features. The optimized version of the proposed algorithm on top of reduced feature dimension has produced an f-measure value of 0.925. Finally, we also compared the results of the proposed algorithm with the frequently used machine learning methods from literature and we provided the corresponding results in related sections.
Cyberbullying Logistic Bayes Regression Turkish Machine Learning Natural Language Processing
Primary Language | English |
---|---|
Subjects | Engineering |
Journal Section | Articles |
Authors | |
Publication Date | September 28, 2019 |
Submission Date | December 12, 2018 |
Published in Issue | Year 2019 Volume: 7 Issue: 3 |