Günümüz teknolojisinde bilgi çevrimiçi sosyal ağlar aracılığıyla hızla yayılarak hayatımızı kolaylaştırmaktadır. Ancak sahte haberler eleştirel bir değerlendirme yapılmadan paylaşıldığında geniş kitlelere kolaylıkla ulaştığı için topluma zarar verebilmekte ve sosyal, politik ve ekonomik yönleri etkileyebilmektedir. Bu noktada içerik doğrulama ve teyit sistemlerinin geliştirilmesi önem arz etmektedir. Bu çalışmada İngilizce ve Almanca haber içeriklerinin yer aldığı çok sınıflı bir veri seti üzerinde tek dilli ve diller arası bir sınıflandırma yapılması amaçlanmıştır. Sınıflandırmadan önce CountVectorizer ve stilometrik özellik çıkarımı da dâhil olmak üzere veri ön işleme uygulanmıştır. Özellik seçimi, doğadaki evrim fikrine dayanan bir algoritma olan genetik algoritma kullanılarak yapılmıştır. Seçilen özellikler Rastgele Orman, Lojistik Regresyon, Multinomial Naive Bayes, Karar Ağacı ve K-En Yakın komşu makine öğrenme algoritmaları ile sınıflandırılmıştır. Sınıflandırma sonucunda tek dilli İngilizce haber metinleri için Multinomial Naive Bayes algoritması ile %58.49 Doğruluk ve %42.97 makro-F1 elde edilirken, İngilizce ve Almanca haber metinleri kullanılarak diller arası sınıflandırmada Lojistik Regresyon algoritması ile %45.39 Doğruluk ve %37.70 makro-F1 elde edilmiştir. Aynı veri seti ile yapılan çalışmalara göre oldukça başarılı sonuçlar elde edildiği gözlemlenmiştir. Ayrıca ISOT veri setine de aynı metodoloji uygulanmıştır. Lojistik Regresyon ve Karar Ağacı algoritmaları ile sırasıyla %99.48 ve %99.62 makro-F1 elde edilmiştir.
Diller arası sınıflandırma Sahte haber tespiti Genetik algoritma Makine öğrenimi Tek dilli sınıflandırma
In today's technology, information spreads quickly through online social networks, making our lives easier. However, when false news is shared without critical evaluation, it can harm society and affect social, political and economic aspects as it reaches a wide audience. At this point, it is important to develop content verification and confirmation systems. In this study, the aim is to conduct monolingual and cross-lingual classification on a multi-class dataset containing English and German news content. We applied data preprocessing, including CountVectorizer and stylometric feature extraction, before classification. Feature selection was made using the genetic algorithm, which is an algorithm based on the idea of evolution in nature. Selected features were classified by Random Forest, Logistic Regression, Multinomial Naive Bayes, Decision Tree and KNearest Neighbors machine learning algorithms. In the classification process, Multinomial Naive Bayes achieved 58.49% Accuracy and 42.97% macro-F1 for monolingual English news texts, while Logistic Regression achieved 45.39% Accuracy and 37.70% macro-F1 in Cross-lingual classification using English and German news texts. Significantly successful results were obtained compared to studies conducted with the same dataset. In addition, the same methodology was applied to the ISOT dataset. 99.48% and 99.62% macro-F1 were obtained by Logistic Regression and Decision Tree algorithms, respectively.
Cross-lingual classification Fake news detection Genetic algorithm Machine learning Monolingual classification
Primary Language | English |
---|---|
Subjects | Natural Language Processing |
Journal Section | Articles |
Authors | |
Publication Date | September 15, 2024 |
Submission Date | November 27, 2023 |
Acceptance Date | May 6, 2024 |
Published in Issue | Year 2024 |