Sosyal medya ağlarının sayısının ve kullanımının artması beraberinde nefret söylemi içeriklerinin de daha çok paylaşılması problemini doğurmuştur. Gerek kamu otoriteleri gerekse sosyal medya ağlarının kendileri, artan nefret söylemiyle mücadele kapsamında çeşitli politikalar üretmektedir. Kullanıcılar tarafından üretilen verinin hacminin oldukça büyük olması nedeniyle nefret söylemi tespitinde otomatik sistemlere ihtiyaç duyulmaktadır. Özellikle son yıllarda başta İngilizce olmak üzere birçok dil üzerinde otomatik nefret söylemi çalışması yapılmış olmasına rağmen Türkçe üzerine kapsamlı bir çalışma henüz sunulmamıştır. Bu çalışma bu ihtiyaca karşılık vermek amacıyla yapılmıştır. Farklı hedef gruplara dair anahtar kelimelerin geçtiği 1000 adet Türkçe tweet toplanmış ve iki değerlendirici tarafından üç sınıflı (nefret söylemi, saldırgan ifade, hiçbiri) olarak ayrı ayrı etiketlenmiştir. Oluşturulan Türkçe nefret söylemi veri seti sonraki çalışmalarda kullanılabilmesi için kamuya açık olarak paylaşılmıştır. Bu veri seti üzerinde farklı özellik kümeleri ve farklı makine öğrenmesi algoritmaları kullanılarak çeşitli testler gerçekleştirilmiştir. Üç sınıflı veri seti üzerinde en yüksek performans %79,9 F-ölçüm değeri ile SMO (Sıralı Minimal Optimizasyon) algoritmasının kullanıldığı testte elde edilmiştir. Türkçe nefret söylemi tespitinde daha başarılı sonuçlar almak için veri seti boyutunun artırılması gerekirken, sunulan bu çalışmanın gelecekte yapılacak çalışmalara öncü niteliğinde olması beklenmektedir.
The increase in the number and use of social media networks has led to the problem of sharing hate speech content more. Both public authorities and social media networks themselves produce various policies within the scope of combating increasing hate speech. Automated systems are needed to detect hate speech due to the very large volume of the data produced by users. Although, in recent years, automatic hate speech studies have been conducted on many languages, especially English, a comprehensive study on Turkish has not been presented yet. This study was carried out in order to meet this need. 1000 tweets in Turkish with keywords for different target groups were collected and labeled separately in three categories (hate speech, offensive expression, none of them) by two evaluators. The Turkish hate speech data set created was shared publicly for use in future studies. Various tests were carried out on this data set using different feature sets and different machine learning algorithms. The highest performance on the three-class data set was obtained in the test using the SMO (Sequential Minimal Optimization) algorithm with 79.9% F-measure value. While the size of the data set needs to be increased in order to achieve more successful results in detecting Turkish hate speech, this study is expected to be a pioneer for future studies.
Primary Language | Turkish |
---|---|
Subjects | Engineering |
Journal Section | Articles |
Authors | |
Publication Date | April 15, 2021 |
Published in Issue | Year 2021 |