Research Article

Türkçe Nefret Söylemi Problemi Analizinde Farklı Sınıflandırma Algoritmalarının ve Özellik Seçimi Yöntemlerinin Performans Karşılaştırması

Number: 53 February 15, 2024
TR EN

Türkçe Nefret Söylemi Problemi Analizinde Farklı Sınıflandırma Algoritmalarının ve Özellik Seçimi Yöntemlerinin Performans Karşılaştırması

Öz

Günümüzde teknolojinin gelişmesine bağlı olarak sosyal medya kullanımı ve sosyal medya ağlarının sayısı gün geçtikçe artmaktadır. Bu durum, sosyal medyada nefret söylemi içeriklerinin sayıca artması ve buna bağlı olarak bu içeriklerin paylaşılması anlamına gelmektedir. Sosyal medya kullanıcılarını olumsuz yönde etkileyen bu paylaşımların önüne geçebilmek adına kamu otoriteleri ve sosyal medya geliştiricileri tarafından alınan önlemler yetersizdir. Bu sebeple, hacimce büyük miktarda üretilen nefret söylemi içeriklerinin tespitini kolaylaştıran otomatik sistemlere ihtiyaç duyulmaktadır. Öte yandan, İngilizce ve diğer pek çok dilde yapılan çalışmalar incelendiğinde, Türkçe’de nefret söylemi içeriklerinin tespitinde yeterli düzeyde çalışmaya henüz varılamamıştır. Mevcut çalışmalar incelendiğinde ise, küçük boyutta veri kümesi kullanımı, özellik seçim yöntemlerinin azlığı ve sınıflandırma algoritmalarının benzerliği görülmüştür. Literatürde bahsedilen tüm bu eksikliklerin giderilmesi için, bu çalışma gerçekleştirilmiştir. Çalışma kapsamında, Türkçe dilinde farklı boyutlarda iki adet tweet veri kümesi (veri kümesi_1k, veri kümesi_2k) kullanılmıştır. Öncelikle veri kümesi üzerinde beş farklı özellik seçimi algoritması uygulanarak özellik sayısı 1.000’e düşürülmüştür. Daha sonra nefret söylemi tespiti için, her bir özellik seçiminden elde edilen 1.000 özellik üzerinde sırası ile makine öğrenmesi algoritmalarından K-En Yakın Komşu (KNN), Rasgele Orman (RF), Naive Bayes (NB), Destek Vektör Makinesi (SVM), Uzun Kısa-Süreli Bellek (LSTM) ve Word2Vec+SVM yöntemleri uygulanmıştır. Deneysel sonuçlarda, başarı ölçütü olarak F-ölçüm değeri kullanılmıştır. Veri kümesi_1k için en iyi sonucu %88,81 F-ölçüm oranıyla oneR özellik seçimi ile NB algoritması vermiştir. Veri kümesi_2k için en iyi sonucu %87,71 F-ölçüm oranıyla InfoGain özellik seçimi ile NB algoritması vermiştir. Beş farklı özellik seçimiyle yapılan deneylerde, LSTM algoritması diğer tüm algoritmalara göre daha başarılı olmuştur.

Anahtar Kelimeler

Supporting Institution

Turkish Scientific and Technological Research Council (TUBITAK)

Project Number

120E187

Ethical Statement

This study is an original study; Scientific ethics principles and rules were followed at all stages of the study, including preparation, data collection, data analysis and presentation of the generated information; All data and information not obtained within the scope of this study are not cited and these sources are not included in the bibliography; I accept that no changes have been made to the data used and declare that ethical duties and responsibilities are complied with.

Thanks

The study we prepared was partially supported by the Scientific and Technological Research Council of Turkey (TÜBİTAK) with the project number 120E187. The views expressed in this study belong to the authors and do not necessarily represent the official position or policies of TÜBİTAK.

References

  1. Akın, A. A. (2007). Zemberek, An Open-Source NLP Framework For Turkish Languages. Structure, 10(2007), 1-5. https://scholar.google.com/citations?view_op=view_citation&hl=tr&user=zCdB2VkAAAAJ&citation_for_view=zCdB2VkAAAAJ:d1gkVwhDpl0C
  2. Beken, M. (2022). Prediction Of Oil Consumption And Oil Access Of Countries In The European Union Region With Machine Learning. International Journal of Smart Grid-IJSmartGrid 6(3), 79-83. https://doi.org/https://doi.org/10.20508/ijsmartgrid.v6i3.250.g242
  3. Beyhan, F. (2022). A Turkish Hate Speech Dataset And Detection System. In İ. Arın, Proceedings of the 13th Conference on Language Resources and Evaluation (LREC 2022) Marseille, France.
  4. Bingöl, H. Y., M. (2021, 25-28 Kasım 2021). Çevrimiçi Sosyal Ağlarda Yapay Zekâ Yöntemleri İle Siber Zorbalık Tespiti Uluslararası Mühendislik, Doğa ve Sosyal Bilimler Sempozyumu, Batman, Türkiye.
  5. Budak, H. (2018). Özellik Seçim Yöntemleri Ve Yeni Bir Yaklaşım. Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü Dergisi 22(Özel Sayı), 21-31. https://doi.org/10.19113/sdufbed.01653
  6. Dinçer, E. Ş. (2022). Metin Madenciliği Ve Duygu Analizi İle Siber Zorbalık Tespiti. Eskişehir Türk Dünyası Uygulama ve Araştırma Merkezi Bilişim Dergisi 3(2), 38-45. https://doi.org/https://doi.org/10.53608/estudambilisim.1070884
  7. Eid, M. (2022). Meta-Heuristic optimization of LSTM-based deep network for Boosting the prediction of monkeypox cases. Mathematics 10(20), 3845. https://doi.org/https://doi.org/10.3390/math10203845
  8. Engindeniz, İ., Özkan, Ş., & Tekin, F. (2018). Medyada Nefret Söylemi Ve Ayrımcı Söylem 2018 Raporu. https://hrantdink.org/tr/asulis/faaliyetler/projeler/medyada-nefret-soylemi/2002-medyada-nefret-soylemi-ve-ayrimci-soylem-2018-raporu-yayimlandi

Details

Primary Language

Turkish

Subjects

Natural Language Processing

Journal Section

Research Article

Early Pub Date

February 11, 2024

Publication Date

February 15, 2024

Submission Date

October 9, 2023

Acceptance Date

December 17, 2023

Published in Issue

Year 2024 Number: 53

APA
Yakar, Ö., Büyüktanır, B., Çil, A. E., & Altınel Girgin, A. B. (2024). Türkçe Nefret Söylemi Problemi Analizinde Farklı Sınıflandırma Algoritmalarının ve Özellik Seçimi Yöntemlerinin Performans Karşılaştırması. Avrupa Bilim Ve Teknoloji Dergisi, 53, 97-111. https://izlik.org/JA79AZ43KN