The growing use of social media has increased online harassment, cyberhate, and the use of offensive language. This poses significant challenges for effectively detecting and addressing such issues. Natural Language Processing (NLP) has seen considerable advancements; however, automatically identifying offensive language remains a complex task due to the ambiguous and informal nature of user-generated content and the social context in which it occurs. In this thesis, our goal is to develop methods for automatic detection of offensive language in social media. Multiple classification algorithms, including Multinomial Naive Bayes, Gaussian Naive Bayes, SVM, Logistic Regression, and LSTM, are implemented and evaluated. Key measures including accuracy, F1 score, and AUC score are used to evaluate how well these algorithms work. Results show that the Random Forest Classifier obtains an AUC score of 0.65 and an accuracy of 0.82 without word2vec. On the other hand, LSTM demonstrates a competitive AUC score of 0.78 when compared to the Random Forest Classifier. These findings provide insights into the effectiveness of different algorithms for offensive language detection. The research contributes to the field by providing valuable tools and insights to enhance Turkish language processing and prioritize online safety, particularly in combating cyberbullying and fostering a tolerant online environment. The findings also pave the way for future research endeavors in natural language processing and have practical implications for protecting individuals and promoting a secure online space.
Sosyal medyanın artan kullanımı, çevrimiçi taciz, siber nefret ve saldırgan dil kullanımını artırmıştır. Bu durum, bu tür sorunların etkili bir şekilde tespit edilmesi ve ele alınması için önemli zorluklar ortaya çıkarmaktadır. Doğal Dil İşleme (NLP) önemli ilerlemeler kaydetmiştir; ancak, kullanıcı tarafından oluşturulan içeriğin belirsiz ve gayri resmi doğası ve meydana geldiği sosyal bağlam nedeniyle saldırgan dili otomatik olarak tanımlamak karmaşık bir görev olmaya devam etmektedir. Bu tezde amacımız, sosyal medyada saldırgan dilin otomatik olarak tespit edilmesi için yöntemler geliştirmektir. Multinomial Naive Bayes, Gaussian Naive Bayes, SVM, Logistic Regression ve LSTM dahil olmak üzere çoklu sınıflandırma algoritmaları uygulanmış ve değerlendirilmiştir. Bu algoritmaların ne kadar iyi çalıştığını değerlendirmek için doğruluk, F1 puanı ve AUC puanı gibi temel ölçütler kullanılır. Sonuçlar, Rastgele Orman Sınıflandırıcısının word2vec olmadan 0,65 AUC puanı ve 0,82 doğruluk elde ettiğini göstermektedir. Öte yandan, LSTM, Rastgele Orman Sınıflandırıcısı ile karşılaştırıldığında 0,78'lik rekabetçi bir AUC puanı göstermektedir. Bu bulgular, saldırgan dil tespiti için farklı algoritmaların etkinliği hakkında fikir vermektedir. Araştırma, Türkçe dil işlemeyi geliştirmek ve özellikle siber zorbalıkla mücadelede ve hoşgörülü bir çevrimiçi ortamı teşvik etmede çevrimiçi güvenliği önceliklendirmek için değerli araçlar ve içgörüler sağlayarak alana katkıda bulunmaktadır. Bulgular ayrıca doğal dil işleme alanında gelecekteki araştırma çabalarının önünü açmakta ve bireylerin korunması ve güvenli bir çevrimiçi alanın teşvik edilmesi için pratik sonuçlar doğurmaktadır.
Primary Language | English |
---|---|
Subjects | Machine Learning (Other), Cybersecurity and Privacy (Other) |
Journal Section | Research Articles |
Authors | |
Early Pub Date | February 12, 2025 |
Publication Date | |
Submission Date | August 25, 2023 |
Acceptance Date | January 12, 2025 |
Published in Issue | Year 2025 Volume: 29 Issue: 1 |