Sosyal medya ve internetin artan kullanımı, çeşitli açılardan analiz edilmesi gereken önemli miktarda bilgi üretmektedir. Bu bağlamda yalan haber, gerçek haber olarak sunulan asılsız haber olarak tanımlanmaktadır. Sahte haberler genellikle bir manipülasyon amacına yönelik olarak üretilir. Sahte haber tespiti, genel olarak bir doğal dil analiz problemidir ve otomatik tahmin ediciler olarak makine öğrenmesi algoritmaları kullanılmaktadır. Naïve Bayes ve Rastgele Orman gibi iyi bilinen makine öğrenme algoritmaları, sahte haber tanımlama sorunu için başarıyla kullanılmaktadır. Türkçe morfolojik olarak zengin bir dildir ve yoğun dil ön işleme adımları ve özellik seçimi gerektiren sondan eklemeli karmaşıklığa sahiptir. Transformer olarak bilinen Çift Yönlü Kodlayıcı Temsilleri (BERT) gibi son zamanlardaki sinirsel dil modelleri, Türkçe benzeri morfolojik olarak zengin diller için doğal dil problemlerinin çözümünde nispeten basit bir metot fırsatı sunmaktadır. Bu çalışmada, NB, RF, Destek Vektör Makinesi, Naïve Bayes Multinomial ve Lojistik Regresyon ile korelasyon tabanlı öznitelik seçimi ve yeni önerilen Türkçe-BERT (BERTurk) ile Türkçe yalan haberlerini tespit etmek için karşılaştırdık. Ön işleme adımları olmaksızın BERTurk ile sahte haber tanımlamada %99,90 doğruluk elde ettik.
Makina öğrenmesi Metin madenciliği Çift yönlü transformatör kodlayıcı temsilleri (BERT) Yalan haber BERTurk
The increasing usage of social media and internet generates a significant amount of information to be analyzed from various perspectives. In particular, fake news is defined as the false news that is presented as factual news. Fake news are in general fabricated toward a manipulation aim. Fake news identification is in general a natural language analysis problem and machine learning algorithms are emerged as automated predictors. Well-known machine learning algorithms such as Naïve Bayes (NB) and Random Forest (RF) are successfully used for fake-news identification problem. Turkish is a morphologically rich language and it has agglutinative complexity that requires dense language pre-processing steps and feature selection. Recent neural language models such as Bidirectional Encoder Representations from Transformers (BERT) proposes an opportunity for Turkish-like morphologically rich languages a relatively straightforward pipeline in the solution of natural language problems. In this work, we compared NB, RF, Support Vector Machine (SVM), Naïve Bayes Multinomial (NBM) and Logistics Regression (LR) on top of correlation based feature selection and newly proposed Turkish-BERT (BERTurk) to identify Turkish fake news. And we obtained 99.90 % accuracy in fake news identification which is a highly efficient model without substantial language pre-processing tasks.
Machine learning Text mining Bidirectional Encoder Representations from Transformers (BERT) Fake news BERTurk
Primary Language | English |
---|---|
Subjects | Engineering |
Journal Section | Research Article |
Authors | |
Publication Date | September 1, 2022 |
Submission Date | September 14, 2021 |
Acceptance Date | August 4, 2022 |
Published in Issue | Year 2022 |