İnsanların çevrimiçi dünyada, özellikle sosyal medya platformlarında iletişim kurmasıyla birlikte, kullanıcılar tarafından oluşturulan içeriklerin internet üzerindeki miktarı artmıştır. Bu platformların anonim yapısı nedeniyle, kullanıcılar hakaret ve nefret içeren düşünceleri paylaşabilmektedir. Bu istenmeyen içerikler, hem bireyler hem de toplumlar üzerinde olumsuz etkilere neden olabilir. Bu nedenle, hakaret ve nefret içeren içeriklerin tespit edilmesi ve filtrelenmesi önemlidir. Bu tür içeriklerin manuel olarak tespit edilmesi zordur, bu yüzden otomatik yöntemlere ihtiyaç duyulmaktadır. Son yıllarda, çevrimiçi hakaret ve nefret söylemlerinin tespitiyle ilgili akademik araştırmalarda artış görülmektedir. BERT gibi transfer öğrenme modelleriyle İngilizce hakaret ve nefret söylemlerinin otomatik tespiti konusunda umut verici sonuçlar elde edilmiştir. Ancak, Türkçe gibi sınırlı kaynaklara sahip dillerde hakaret ve nefret söyleminin otomatik tespiti üzerine yapılan araştırma sayısı oldukça azdır.
Bu çalışmada, Türkçe dili için hakaret ve nefret söylemi otomatik tespit sistemi geliştirme çabalarının sonuçları paylaşılmıştır. İlk olarak, Türkçe veri seti oluşturmak için otomatik etiketleme yöntemi önerilmiş ve bu yöntemle Türkçe hakaret ve nefret söylemi veri seti oluşturulmuştur. Doğal dil işleme alanında en iyi sonuçlar veren BERT modelinin farklı varyantları ve çeşitli Türkçe hakaret ve nefret söylemi veri setleri kullanılarak deneyler gerçekleştirilmiştir. Yapılan deneyler sonucunda, en iyi performansa sahip olan XLM-RoBERTa modeli için hiperparametre optimizasyonu yapılmış ve en kapsamlı veri setleri kullanılarak nihai Türkçe hakaret ve nefret söylemi otomatik tespit sistemi oluşturulmuştur. Oluşturulan Türkçe hakaret ve nefret söylemi otomatik tespit modeli, diğer çalışmalarla aynı test veri setini kullanarak karşılaştırılmıştır.
As a result of people communicating online, especially on social media platforms, the amount of user-generated content on the internet has increased. Due to the anonymous nature of these platforms, users can share content containing offensive language and hate speech. Such undesirable content can have negative effects on both individuals and societies. Therefore, it is important to detect and filter content that contains offensive language and hate speech. Detecting such content manually is challenging, which is why there is a need for automated methods. In recent years, there has been an increase in academic research on the detection of online offensive language and hate speech. Promising results have been achieved in the automatic detection of offensive language and hate speech in English using transfer learning models such as BERT. However, the number of studies on automatic detection of offensive language and hate speech in languages with limited resources such as Turkish is quite limited.
This study presents the results of efforts to develop an automatic detection system for offensive language and hate speech in the Turkish language. Firstly, an automatic labeling method was proposed to create a Turkish dataset, and using this method, a Turkish dataset for hate speech and offensive language was created. Experiments were conducted using various variants of the BERT model, which is considered state-of-the-art in natural language processing, along with various Turkish datasets related to offensive language and hate speech. Through these experiments, the XLM-RoBERTa model, which achieved the best performance, underwent hyperparameter optimization. Subsequently, using the most comprehensive datasets available, the final Turkish automatic detection system for offensive language and hate speech was developed. The developed Turkish automatic detection model for offensive language and hate speech was compared with other studies using the same test dataset.
Primary Language | Turkish |
---|---|
Subjects | Engineering |
Journal Section | Articles |
Authors | |
Publication Date | June 30, 2023 |
Published in Issue | Year 2023 Volume: 6 Issue: 1 |
Dergimizin Tarandığı Dizinler (İndeksler)
Academic Resource Index | Google Scholar | ASOS Index |
Rooting Index | The JournalTOCs Index | General Impact Factor (GIF) Index |
Directory of Research Journals Indexing | I2OR Index
|