There is an increase in physical and emotional violence towards women in Turkey. However, the development of new mechanisms to prevent this increase cannot catch up. One of the first steps that can be taken to prevent violence towards women using the technological progress in artificial intelligence is to detect the social media posts that support such violence, and then to ban them. This article presents a natural language processing (NLP) study conducted with the mentioned goal in Turkish social media. After selecting a popular social media platform that has been widely used in Turkey for many years, more than five subject titles are selected and the posts below them are scraped, then labeled, constructing a novel Turkish data collection. Following data analyses with various techniques, popular NLP feature extraction techniques and several machine learning models such as bag of words, Random Forests, Gradient Boosting are used to detect posts that support violence towards women. According to the findings, the number of posts containing violence towards women in Turkish are less than those that defend women, and the existing violent posts contain psychological violence and humiliation towards women. During the model evaluation, precision, recall, F1, and AUC (Area Under Curve) metrics are utilized. According to the results, 76% AUC and 77% recall rates can be obtained in detecting violence towards women from social media posts. These findings demonstrate the possibility of applying real-life sensitive measures on social media such as the detection and blocking of emotional violence towards women in Turkey.
Natural language processing social media machine learning violence towards women Turkish language
TÜBİTAK 2209A
1919B012303496
This study was supported by TÜBİTAK 2209A funding grant with project number: 1919B012303496.
Ülkemizde kadına yönelik fiziksel ve duygusal şiddet her geçen gün artmaktadır. Fakat bu artışı engelleyici mekanizmaların üretim ve geliştirilmesi aynı hızı yakalayamamaktadır. Gelişen yapay zekâ teknolojisinden faydalanarak kadına yönelik şiddetin önüne geçebilmek için atılabilecek ilk adımlardan biri, sosyal medya paylaşımlarından kadına yönelik şiddeti olumlayıp destekleyenleri tespit edip, bu kişileri sosyal medya mecralarından engellemektir. Bu makale, bahsedilen ilk adımın atılması amacıyla Türkçe sosyal medya paylaşımları üzerine gerçekleştirilmiş bir doğal dil işleme (DDİ) çalışmasını anlatmaktadır. Öncelikle Türkiye’de geçmiş yıllardan beri halen yaygın olarak kullanılan bir sosyal medya forumu veri kaynağı olarak seçilmiş, sonrasında ise kadına yönelik şiddet olumlaması içeren beşten fazla sayıdaki başlık altındaki paylaşımlar toplanıp işaretlenerek yeni bir Türkçe veri seti oluşturulmuştur. Veri seti farklı yöntemlerle analiz edildikten sonra, DDİ literatüründe sık kullanılan öznitelik çıkarma yöntemleriyle paylaşımlar modellenip kelime çantası, Random Forest, Gradient Boosting gibi çeşitli makine öğrenmesi yöntemleriyle şiddet olumlaması tespiti deneyleri gerçekleştirilmiştir. Bulgulara göre sosyal medya ortamlarında kadına yönelik şiddet içeren paylaşım sayılarının, kadınları savunan paylaşımlardan daha az olduğu tespit edilmiş, var olan şiddet paylaşımlarının da psikolojik şiddet ve aşağılama gibi içeriklerden oluştuğu görülmüştür. Model değerlendirme sürecinde hassasiyet, geri çağırma, F1 ve AUC (Area Under Curve) metrikleri kullanılmıştır. Elde edilen sonuçlara göre, kadına yönelik şiddet içerikli paylaşımların %76 AUC ve %77 geri çağırma oranlarıyla tespit edilebildiği ortaya çıkmıştır. Bu bulgular, sosyal medyada kadına yönelik şiddet içeren paylaşımların otomatik tespit edilip engellenmesi gibi hassas çözümlerin ülkemizde uygulanabilirliğini göstermiştir.
Doğal dil işleme sosyal medya makine öğrenmesi kadına yönelik şiddet Türkçe dili
TÜBİTAK 2209A
1919B012303496
Bu çalışma TÜBİTAK 2209A programı kapsamında desteklenmiştir. Proje numarası: 1919B012303496.
Birincil Dil | Türkçe |
---|---|
Konular | Bağlam Öğrenimi, Derin Öğrenme, Veri Madenciliği ve Bilgi Keşfi, Doğal Dil İşleme |
Bölüm | Araştırma Makalesi |
Yazarlar | |
Proje Numarası | 1919B012303496 |
Yayımlanma Tarihi | 29 Eylül 2025 |
Gönderilme Tarihi | 6 Kasım 2024 |
Kabul Tarihi | 18 Mayıs 2025 |
Yayımlandığı Sayı | Yıl 2025 Cilt: 8 Sayı: 2 |
Zeki Sistemler Teori ve Uygulamaları Dergisi