Araştırma Makalesi

Türkçe Nefret Söylemi Problemi Analizinde Farklı Sınıflandırma Algoritmalarının ve Özellik Seçimi Yöntemlerinin Performans Karşılaştırması

Sayı: 53 15 Şubat 2024
PDF İndir
TR EN

Türkçe Nefret Söylemi Problemi Analizinde Farklı Sınıflandırma Algoritmalarının ve Özellik Seçimi Yöntemlerinin Performans Karşılaştırması

Öz

Günümüzde teknolojinin gelişmesine bağlı olarak sosyal medya kullanımı ve sosyal medya ağlarının sayısı gün geçtikçe artmaktadır. Bu durum, sosyal medyada nefret söylemi içeriklerinin sayıca artması ve buna bağlı olarak bu içeriklerin paylaşılması anlamına gelmektedir. Sosyal medya kullanıcılarını olumsuz yönde etkileyen bu paylaşımların önüne geçebilmek adına kamu otoriteleri ve sosyal medya geliştiricileri tarafından alınan önlemler yetersizdir. Bu sebeple, hacimce büyük miktarda üretilen nefret söylemi içeriklerinin tespitini kolaylaştıran otomatik sistemlere ihtiyaç duyulmaktadır. Öte yandan, İngilizce ve diğer pek çok dilde yapılan çalışmalar incelendiğinde, Türkçe’de nefret söylemi içeriklerinin tespitinde yeterli düzeyde çalışmaya henüz varılamamıştır. Mevcut çalışmalar incelendiğinde ise, küçük boyutta veri kümesi kullanımı, özellik seçim yöntemlerinin azlığı ve sınıflandırma algoritmalarının benzerliği görülmüştür. Literatürde bahsedilen tüm bu eksikliklerin giderilmesi için, bu çalışma gerçekleştirilmiştir. Çalışma kapsamında, Türkçe dilinde farklı boyutlarda iki adet tweet veri kümesi (veri kümesi_1k, veri kümesi_2k) kullanılmıştır. Öncelikle veri kümesi üzerinde beş farklı özellik seçimi algoritması uygulanarak özellik sayısı 1.000’e düşürülmüştür. Daha sonra nefret söylemi tespiti için, her bir özellik seçiminden elde edilen 1.000 özellik üzerinde sırası ile makine öğrenmesi algoritmalarından K-En Yakın Komşu (KNN), Rasgele Orman (RF), Naive Bayes (NB), Destek Vektör Makinesi (SVM), Uzun Kısa-Süreli Bellek (LSTM) ve Word2Vec+SVM yöntemleri uygulanmıştır. Deneysel sonuçlarda, başarı ölçütü olarak F-ölçüm değeri kullanılmıştır. Veri kümesi_1k için en iyi sonucu %88,81 F-ölçüm oranıyla oneR özellik seçimi ile NB algoritması vermiştir. Veri kümesi_2k için en iyi sonucu %87,71 F-ölçüm oranıyla InfoGain özellik seçimi ile NB algoritması vermiştir. Beş farklı özellik seçimiyle yapılan deneylerde, LSTM algoritması diğer tüm algoritmalara göre daha başarılı olmuştur.

Anahtar Kelimeler

Destekleyen Kurum

Türkiye Bilimsel ve Teknolojik Araştırma Kurumu (TÜBİTAK)

Proje Numarası

120E187

Etik Beyan

Bu çalışmanın, özgün bir çalışma olduğunu; çalışmanın hazırlık, veri toplama, veri analizi ve oluşturulan bilgilerin sunumu olmak üzere tüm aşamalarından bilimsel etik ilke ve kurallarına uygun davranıldığını; bu çalışma kapsamında elde edilmeyen tüm veri ve bilgiler için kaynak gösterilmediğini ve bu kaynaklara kaynakçada yer verilmediğini; kullanılan verilerde herhangi bir değişiklik yapılmadığını kabul ederek etik görev ve sorumluluklara riayet edildiğini beyan ederim.

Teşekkür

Hazırladığımız çalışma, Türkiye Bilimsel ve Teknolojik Araştırma Kurumu (TÜBİTAK) tarafından 120E187 numaralı proje ile kısmen desteklenmiştir. Bu çalışmadaki görüşler yazarlara aittir ve TÜBİTAK'ın resmi pozisyonunu veya politikalarını temsil etmeyebilir.

Kaynakça

  1. Akın, A. A. (2007). Zemberek, An Open-Source NLP Framework For Turkish Languages. Structure, 10(2007), 1-5. https://scholar.google.com/citations?view_op=view_citation&hl=tr&user=zCdB2VkAAAAJ&citation_for_view=zCdB2VkAAAAJ:d1gkVwhDpl0C
  2. Beken, M. (2022). Prediction Of Oil Consumption And Oil Access Of Countries In The European Union Region With Machine Learning. International Journal of Smart Grid-IJSmartGrid 6(3), 79-83. https://doi.org/https://doi.org/10.20508/ijsmartgrid.v6i3.250.g242
  3. Beyhan, F. (2022). A Turkish Hate Speech Dataset And Detection System. In İ. Arın, Proceedings of the 13th Conference on Language Resources and Evaluation (LREC 2022) Marseille, France.
  4. Bingöl, H. Y., M. (2021, 25-28 Kasım 2021). Çevrimiçi Sosyal Ağlarda Yapay Zekâ Yöntemleri İle Siber Zorbalık Tespiti Uluslararası Mühendislik, Doğa ve Sosyal Bilimler Sempozyumu, Batman, Türkiye.
  5. Budak, H. (2018). Özellik Seçim Yöntemleri Ve Yeni Bir Yaklaşım. Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü Dergisi 22(Özel Sayı), 21-31. https://doi.org/10.19113/sdufbed.01653
  6. Dinçer, E. Ş. (2022). Metin Madenciliği Ve Duygu Analizi İle Siber Zorbalık Tespiti. Eskişehir Türk Dünyası Uygulama ve Araştırma Merkezi Bilişim Dergisi 3(2), 38-45. https://doi.org/https://doi.org/10.53608/estudambilisim.1070884
  7. Eid, M. (2022). Meta-Heuristic optimization of LSTM-based deep network for Boosting the prediction of monkeypox cases. Mathematics 10(20), 3845. https://doi.org/https://doi.org/10.3390/math10203845
  8. Engindeniz, İ., Özkan, Ş., & Tekin, F. (2018). Medyada Nefret Söylemi Ve Ayrımcı Söylem 2018 Raporu. https://hrantdink.org/tr/asulis/faaliyetler/projeler/medyada-nefret-soylemi/2002-medyada-nefret-soylemi-ve-ayrimci-soylem-2018-raporu-yayimlandi

Ayrıntılar

Birincil Dil

Türkçe

Konular

Doğal Dil İşleme

Bölüm

Araştırma Makalesi

Erken Görünüm Tarihi

11 Şubat 2024

Yayımlanma Tarihi

15 Şubat 2024

Gönderilme Tarihi

9 Ekim 2023

Kabul Tarihi

17 Aralık 2023

Yayımlandığı Sayı

Yıl 2024 Sayı: 53

Kaynak Göster

APA
Yakar, Ö., Büyüktanır, B., Çil, A. E., & Altınel Girgin, A. B. (2024). Türkçe Nefret Söylemi Problemi Analizinde Farklı Sınıflandırma Algoritmalarının ve Özellik Seçimi Yöntemlerinin Performans Karşılaştırması. Avrupa Bilim ve Teknoloji Dergisi, 53, 97-111. https://izlik.org/JA79AZ43KN