Performance Comparison of Different Classification Algorithms and Feature Selection Methods in Turkish Hate Speech Problem Analysis
Yıl 2024,
Sayı: 53, 97 - 111, 15.02.2024
Özlem Yakar
,
Büşra Büyüktanır
,
Abdullah Emir Çil
,
Ayşe Berna Altınel Girgin
Öz
Today, due to the development of technology, use of social media and the number of social media networks are increasing day by day. This means that the number of hate speech contents on social media increases and, accordingly, these contents are shared. The measures taken by public authorities and social media developers to prevent these posts that negatively affect social media users are insufficient. For this reason, automatic systems that facilitate the detection of hate speech content produced in large quantities are needed. On the other hand, when studies conducted in English and many other languages are examined, sufficient studies have not been achieved yet in detecting hate speech content in Turkish. When existing studies are examined, use of small datasets, scarcity of feature selection methods and similarity of classification algorithms are seen. This study is carried out to eliminate all these deficiencies mentioned in the literature. Within the scope of the study, two tweet datasets of different sizes in Turkish (dataset_1k, dataset_2k) are used. First of all, five different feature selection algorithms are applied on these datasets and the number of features is reduced to 1,000. Then, machine learning algorithms are used on 1,000 features obtained from each feature selection to detect hate speech. These algorithms are K-Nearest Neighbor (KNN), Random Forest (RF), Naive Bayes (NB), Support Vector Machine (SVM), Long Short-Term Memory (LSTM) and Word2Vec+SVM methods, respectively. In experimental results, F-measurement value is taken as a criterion of success. In the experimental results, F-measure is used as the performance metric. NB algorithm with oneR feature selection is achieved the best result for Data set_1k with an F-measure of 88.81%. NB algorithm with InfoGain feature selection is achieved the best result for Data set_2k with an F-measure of 87.71%. It has been observed that LSTM algorithm is more successful than all other algorithms in the experiments with five different feature selections.
Etik Beyan
This study is an original study; Scientific ethics principles and rules were followed at all stages of the study, including preparation, data collection, data analysis and presentation of the generated information; All data and information not obtained within the scope of this study are not cited and these sources are not included in the bibliography; I accept that no changes have been made to the data used and declare that ethical duties and responsibilities are complied with.
Destekleyen Kurum
Turkish Scientific and Technological Research Council (TUBITAK)
Teşekkür
The study we prepared was partially supported by the Scientific and Technological Research Council of Turkey (TÜBİTAK) with the project number 120E187. The views expressed in this study belong to the authors and do not necessarily represent the official position or policies of TÜBİTAK.
Kaynakça
- Akın, A. A. (2007). Zemberek, An Open-Source NLP Framework For Turkish Languages. Structure, 10(2007), 1-5. https://scholar.google.com/citations?view_op=view_citation&hl=tr&user=zCdB2VkAAAAJ&citation_for_view=zCdB2VkAAAAJ:d1gkVwhDpl0C
- Beken, M. (2022). Prediction Of Oil Consumption And Oil Access Of Countries In The European Union Region With Machine Learning. International Journal of Smart Grid-IJSmartGrid 6(3), 79-83. https://doi.org/https://doi.org/10.20508/ijsmartgrid.v6i3.250.g242
- Beyhan, F. (2022). A Turkish Hate Speech Dataset And Detection System. In İ. Arın, Proceedings of the 13th Conference on Language Resources and Evaluation (LREC 2022) Marseille, France.
- Bingöl, H. Y., M. (2021, 25-28 Kasım 2021). Çevrimiçi Sosyal Ağlarda Yapay Zekâ Yöntemleri İle Siber Zorbalık Tespiti Uluslararası Mühendislik, Doğa ve Sosyal Bilimler Sempozyumu, Batman, Türkiye.
- Budak, H. (2018). Özellik Seçim Yöntemleri Ve Yeni Bir Yaklaşım. Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü Dergisi 22(Özel Sayı), 21-31. https://doi.org/10.19113/sdufbed.01653
- Dinçer, E. Ş. (2022). Metin Madenciliği Ve Duygu Analizi İle Siber Zorbalık Tespiti. Eskişehir Türk Dünyası Uygulama ve Araştırma Merkezi Bilişim Dergisi 3(2), 38-45. https://doi.org/https://doi.org/10.53608/estudambilisim.1070884
- Eid, M. (2022). Meta-Heuristic optimization of LSTM-based deep network for Boosting the prediction of monkeypox cases. Mathematics 10(20), 3845. https://doi.org/https://doi.org/10.3390/math10203845
- Engindeniz, İ., Özkan, Ş., & Tekin, F. (2018). Medyada Nefret Söylemi Ve Ayrımcı Söylem 2018 Raporu. https://hrantdink.org/tr/asulis/faaliyetler/projeler/medyada-nefret-soylemi/2002-medyada-nefret-soylemi-ve-ayrimci-soylem-2018-raporu-yayimlandi
- Gu, Q. (2012). Generalized Fisher Score For Feature Selection. 1-3. https://doi.org/https://doi.org/10.48550/arXiv.1202.3725
- Hall, M. A. (1999). Correlation-based Feature Selection For Machine learning The University of Waikato]. Hamilton, New Zealand. https://hdl.handle.net/10289/15043 ; https://researchcommons.waikato.ac.nz/handle/10289/15043?show=full
- Kara, A. (2019). Global Solar Irradiance Time Series Prediction Using Long Short-Term Memory Network. Gazi Üniversitesi Fen Bilimleri Dergisi, Part C: Tasarım ve Teknoloji 7(4), 882-892. https://doi.org/10.29109/gujsc.571831
- Karayiğit, H. (2021). Detecting Abusive Instagram Comments In Turkish Using Convolutional Neural Network And Machine Learning Methods. Expert Systems with Applications 174(14). https://doi.org/https://doi.org/10.1016/j.eswa.2021.114802
- Karayiğit, H. (2022). Homophobic And Hate Speech Detection Using Multilingual-BERT Model On Turkish Social Media. Information Technology and Control 51(2), 356-375. https://doi.org/https://doi.org/10.5755/j01.itc.51.2.29988
- Kuş, O. (2021). Kovid-19 Salgını Ve Mültecilere Yönelik Dijital Nefret Söylemi: Büyük Veri Perspektifinden Metin Madenciliği Tekniği İle Kullanıcı Kaynaklı İçeriklerin Analizi. TRT Akademi 6(11), 106-131. https://doi.org/https://doi.org/10.37679/trta.830736
- Mayda, İ. (2021). Türkçe Tweetler Üzerinde Makine Öğrenmesi İle Nefret Söylemi. European Journal of Science and Technology 328-334. https://doi.org/https://doi.org/10.31590/ejosat.903854
- Nergiz, G. (2021). Türkçe Sosyal Medya Yorumlarındaki Siber Zorbalığın Derin Öğrenme İle Tespiti. European Journal of Science and Technology 31(1), 77-84. https://doi.org/https://doi.org/10.31590/ejosat.987259
- Novaković, J. (2011). Toward Optimal Feature Selection Using Ranking Methods And Classification Algorithms. Yugoslav Journal of Operations Research 21(1), 119-135. https://doi.org/10.2298/YJOR1101119N
- Ön, E. P. (2020, 05-07 October 2020). Cyberbullying Detection Using Deep Learning And Word Embedding Analysis 28th Signal Processing and Communications Applications Conference (SIU), Gaziantep, Turkey. https://ieeexplore.ieee.org/document/9302297
- Özçift, A. (2019). Application of Grid Search Parameter Optimized Bayesian Logistic Regression Algorithm To Detect Cyberbullying In Turkish Microblog Data. Academic Platform Journal of Engineering and Science 7(3), 355-361. https://doi.org/10.21541/apjes.496018
- Şahiner Yılmaz, Ş. (2021, 22-25 February 2021). Türkçe Metinlerde Derin Öğrenme Yöntemleri Kullanılarak Duygu Analizi The International Symposium of Scientific Research and Innovative Studies (ISSRIS'21), Bandırma, Balıkesir, Türkiye. https://avesis.gazi.edu.tr/yayin/658f2ce8-a656-480c-91af-96057798fbf9/turkce-metinlerde-derin-ogrenme-yontemleri-kullanilarak-duygu-analizi
- Word2Vec. (5 September 2023). Wikipedia. Retrieved 24 December 2022 from https://en.wikipedia.org/wiki/Word2vec
- Yazğılı, E. (2021). Türkçe Metinlerde Makine Öğrenmesi Yöntemleri İle Siber Zorbalık Tespiti. Gümüşhane Üniversitesi Fen Bilimleri Dergisi 12(2), 443-453. https://doi.org/https://doi.org/10.17714/gumusfenbil.935448
Türkçe Nefret Söylemi Problemi Analizinde Farklı Sınıflandırma Algoritmalarının ve Özellik Seçimi Yöntemlerinin Performans Karşılaştırması
Yıl 2024,
Sayı: 53, 97 - 111, 15.02.2024
Özlem Yakar
,
Büşra Büyüktanır
,
Abdullah Emir Çil
,
Ayşe Berna Altınel Girgin
Öz
Günümüzde teknolojinin gelişmesine bağlı olarak sosyal medya kullanımı ve sosyal medya ağlarının sayısı gün geçtikçe artmaktadır. Bu durum, sosyal medyada nefret söylemi içeriklerinin sayıca artması ve buna bağlı olarak bu içeriklerin paylaşılması anlamına gelmektedir. Sosyal medya kullanıcılarını olumsuz yönde etkileyen bu paylaşımların önüne geçebilmek adına kamu otoriteleri ve sosyal medya geliştiricileri tarafından alınan önlemler yetersizdir. Bu sebeple, hacimce büyük miktarda üretilen nefret söylemi içeriklerinin tespitini kolaylaştıran otomatik sistemlere ihtiyaç duyulmaktadır. Öte yandan, İngilizce ve diğer pek çok dilde yapılan çalışmalar incelendiğinde, Türkçe’de nefret söylemi içeriklerinin tespitinde yeterli düzeyde çalışmaya henüz varılamamıştır. Mevcut çalışmalar incelendiğinde ise, küçük boyutta veri kümesi kullanımı, özellik seçim yöntemlerinin azlığı ve sınıflandırma algoritmalarının benzerliği görülmüştür. Literatürde bahsedilen tüm bu eksikliklerin giderilmesi için, bu çalışma gerçekleştirilmiştir. Çalışma kapsamında, Türkçe dilinde farklı boyutlarda iki adet tweet veri kümesi (veri kümesi_1k, veri kümesi_2k) kullanılmıştır. Öncelikle veri kümesi üzerinde beş farklı özellik seçimi algoritması uygulanarak özellik sayısı 1.000’e düşürülmüştür. Daha sonra nefret söylemi tespiti için, her bir özellik seçiminden elde edilen 1.000 özellik üzerinde sırası ile makine öğrenmesi algoritmalarından K-En Yakın Komşu (KNN), Rasgele Orman (RF), Naive Bayes (NB), Destek Vektör Makinesi (SVM), Uzun Kısa-Süreli Bellek (LSTM) ve Word2Vec+SVM yöntemleri uygulanmıştır. Deneysel sonuçlarda, başarı ölçütü olarak F-ölçüm değeri kullanılmıştır. Veri kümesi_1k için en iyi sonucu %88,81 F-ölçüm oranıyla oneR özellik seçimi ile NB algoritması vermiştir. Veri kümesi_2k için en iyi sonucu %87,71 F-ölçüm oranıyla InfoGain özellik seçimi ile NB algoritması vermiştir. Beş farklı özellik seçimiyle yapılan deneylerde, LSTM algoritması diğer tüm algoritmalara göre daha başarılı olmuştur.
Etik Beyan
Bu çalışmanın, özgün bir çalışma olduğunu; çalışmanın hazırlık, veri toplama, veri analizi ve oluşturulan bilgilerin sunumu olmak üzere tüm aşamalarından bilimsel etik ilke ve kurallarına uygun davranıldığını; bu çalışma kapsamında elde edilmeyen tüm veri ve bilgiler için kaynak gösterilmediğini ve bu kaynaklara kaynakçada yer verilmediğini; kullanılan verilerde herhangi bir değişiklik yapılmadığını kabul ederek etik görev ve sorumluluklara riayet edildiğini beyan ederim.
Destekleyen Kurum
Türkiye Bilimsel ve Teknolojik Araştırma Kurumu (TÜBİTAK)
Teşekkür
Hazırladığımız çalışma, Türkiye Bilimsel ve Teknolojik Araştırma Kurumu (TÜBİTAK) tarafından 120E187 numaralı proje ile kısmen desteklenmiştir. Bu çalışmadaki görüşler yazarlara aittir ve TÜBİTAK'ın resmi pozisyonunu veya politikalarını temsil etmeyebilir.
Kaynakça
- Akın, A. A. (2007). Zemberek, An Open-Source NLP Framework For Turkish Languages. Structure, 10(2007), 1-5. https://scholar.google.com/citations?view_op=view_citation&hl=tr&user=zCdB2VkAAAAJ&citation_for_view=zCdB2VkAAAAJ:d1gkVwhDpl0C
- Beken, M. (2022). Prediction Of Oil Consumption And Oil Access Of Countries In The European Union Region With Machine Learning. International Journal of Smart Grid-IJSmartGrid 6(3), 79-83. https://doi.org/https://doi.org/10.20508/ijsmartgrid.v6i3.250.g242
- Beyhan, F. (2022). A Turkish Hate Speech Dataset And Detection System. In İ. Arın, Proceedings of the 13th Conference on Language Resources and Evaluation (LREC 2022) Marseille, France.
- Bingöl, H. Y., M. (2021, 25-28 Kasım 2021). Çevrimiçi Sosyal Ağlarda Yapay Zekâ Yöntemleri İle Siber Zorbalık Tespiti Uluslararası Mühendislik, Doğa ve Sosyal Bilimler Sempozyumu, Batman, Türkiye.
- Budak, H. (2018). Özellik Seçim Yöntemleri Ve Yeni Bir Yaklaşım. Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü Dergisi 22(Özel Sayı), 21-31. https://doi.org/10.19113/sdufbed.01653
- Dinçer, E. Ş. (2022). Metin Madenciliği Ve Duygu Analizi İle Siber Zorbalık Tespiti. Eskişehir Türk Dünyası Uygulama ve Araştırma Merkezi Bilişim Dergisi 3(2), 38-45. https://doi.org/https://doi.org/10.53608/estudambilisim.1070884
- Eid, M. (2022). Meta-Heuristic optimization of LSTM-based deep network for Boosting the prediction of monkeypox cases. Mathematics 10(20), 3845. https://doi.org/https://doi.org/10.3390/math10203845
- Engindeniz, İ., Özkan, Ş., & Tekin, F. (2018). Medyada Nefret Söylemi Ve Ayrımcı Söylem 2018 Raporu. https://hrantdink.org/tr/asulis/faaliyetler/projeler/medyada-nefret-soylemi/2002-medyada-nefret-soylemi-ve-ayrimci-soylem-2018-raporu-yayimlandi
- Gu, Q. (2012). Generalized Fisher Score For Feature Selection. 1-3. https://doi.org/https://doi.org/10.48550/arXiv.1202.3725
- Hall, M. A. (1999). Correlation-based Feature Selection For Machine learning The University of Waikato]. Hamilton, New Zealand. https://hdl.handle.net/10289/15043 ; https://researchcommons.waikato.ac.nz/handle/10289/15043?show=full
- Kara, A. (2019). Global Solar Irradiance Time Series Prediction Using Long Short-Term Memory Network. Gazi Üniversitesi Fen Bilimleri Dergisi, Part C: Tasarım ve Teknoloji 7(4), 882-892. https://doi.org/10.29109/gujsc.571831
- Karayiğit, H. (2021). Detecting Abusive Instagram Comments In Turkish Using Convolutional Neural Network And Machine Learning Methods. Expert Systems with Applications 174(14). https://doi.org/https://doi.org/10.1016/j.eswa.2021.114802
- Karayiğit, H. (2022). Homophobic And Hate Speech Detection Using Multilingual-BERT Model On Turkish Social Media. Information Technology and Control 51(2), 356-375. https://doi.org/https://doi.org/10.5755/j01.itc.51.2.29988
- Kuş, O. (2021). Kovid-19 Salgını Ve Mültecilere Yönelik Dijital Nefret Söylemi: Büyük Veri Perspektifinden Metin Madenciliği Tekniği İle Kullanıcı Kaynaklı İçeriklerin Analizi. TRT Akademi 6(11), 106-131. https://doi.org/https://doi.org/10.37679/trta.830736
- Mayda, İ. (2021). Türkçe Tweetler Üzerinde Makine Öğrenmesi İle Nefret Söylemi. European Journal of Science and Technology 328-334. https://doi.org/https://doi.org/10.31590/ejosat.903854
- Nergiz, G. (2021). Türkçe Sosyal Medya Yorumlarındaki Siber Zorbalığın Derin Öğrenme İle Tespiti. European Journal of Science and Technology 31(1), 77-84. https://doi.org/https://doi.org/10.31590/ejosat.987259
- Novaković, J. (2011). Toward Optimal Feature Selection Using Ranking Methods And Classification Algorithms. Yugoslav Journal of Operations Research 21(1), 119-135. https://doi.org/10.2298/YJOR1101119N
- Ön, E. P. (2020, 05-07 October 2020). Cyberbullying Detection Using Deep Learning And Word Embedding Analysis 28th Signal Processing and Communications Applications Conference (SIU), Gaziantep, Turkey. https://ieeexplore.ieee.org/document/9302297
- Özçift, A. (2019). Application of Grid Search Parameter Optimized Bayesian Logistic Regression Algorithm To Detect Cyberbullying In Turkish Microblog Data. Academic Platform Journal of Engineering and Science 7(3), 355-361. https://doi.org/10.21541/apjes.496018
- Şahiner Yılmaz, Ş. (2021, 22-25 February 2021). Türkçe Metinlerde Derin Öğrenme Yöntemleri Kullanılarak Duygu Analizi The International Symposium of Scientific Research and Innovative Studies (ISSRIS'21), Bandırma, Balıkesir, Türkiye. https://avesis.gazi.edu.tr/yayin/658f2ce8-a656-480c-91af-96057798fbf9/turkce-metinlerde-derin-ogrenme-yontemleri-kullanilarak-duygu-analizi
- Word2Vec. (5 September 2023). Wikipedia. Retrieved 24 December 2022 from https://en.wikipedia.org/wiki/Word2vec
- Yazğılı, E. (2021). Türkçe Metinlerde Makine Öğrenmesi Yöntemleri İle Siber Zorbalık Tespiti. Gümüşhane Üniversitesi Fen Bilimleri Dergisi 12(2), 443-453. https://doi.org/https://doi.org/10.17714/gumusfenbil.935448