Son dönemde çevrimiçi gazetecilikte yaşanan gelişmeler ışığında, haberlerin çeşitliliği, bolluğu ve erişilebilirliği katlanarak artmıştır. Ancak, çevrimiçi gazeteciliğin büyümesi, özellikle haberin güvenilirliği konusunda sorunları beraberinde getirmektedir. Özellikle ABD başkanlık seçim kampanyası ve İngiltere'deki Brexit referandumu sırasında sosyal medyada geniş çapta paylaşılan haberler kamuoyunda milyonlarca tepkiye neden olmuştur. Bu endişe verici senaryo, hem endüstriyi hem de akademiyi sahte haber sorununu ele almaya yöneltmiştir. Sahte haberlerin tespiti titiz, zaman alıcı ve yoğun emek gerektiren, uzman görüşü gerektiren bir iştir. Bu zorluğu hafifletmek amacıyla bu çalışma, Türkçe sahte haber tespitine yönelik dil temelli bir model önermektedir. Bu veri seti TRT'nin RSS servisinden ve Teyit.org platformundan web kazıma yöntemiyle toplanmıştır. 2015-2023 yılları arasında Türkiye'de yaşanan önemli olaylarla ilgili haber başlıkları ve özetlerini içermektedir. Araştırma, SVM, Lojistik Regresyon, Rastgele Orman, k-NN, Karar Ağacı ve Naive Bayes gibi klasik makine öğrenimi sınıflandırıcılarını, gerçek dünya veri kümelerini kullanan LSTM gibi sinir tabanlı sıralı öğrenme modeliyle karşılaştırmaktadır. Ayrıca araştırma, TF-IDF ve CountVectorizer dahil olmak üzere farklı kelime temsil tekniklerinin ve hiperparametre optimizasyonunun sınıflandırma sonuçları üzerindeki etkilerini incelemektedir. Bulgular, hiperparametre ayarlaması kullanılarak TF-IDF yönteminin SVM modeli üzerinde %93,12 ile en yüksek doğruluk oranını sağladığını ve TF-IDF'nin daha etkili olduğunu ortaya koymuştur.
In light of recent advances in online journalism, the diversity, abundance, and accessibility of news have increased exponentially. However, the growth of online journalism also brings issues, especially regarding the reliability of the news. Notably, news widely shared on social media during the US presidential election campaign and the UK Brexit referendum caused millions of reactions from the public. This concerning scenario prompted industry and academia to address the pressing issue of fake news. Detecting fake news is a meticulous, time consuming, and labor intensive task that requires expert judgment. To mitigate this challenge, this study proposes a linguistic based model for Turkish fake news detection. In this dataset was collected from TRT's RSS service and through web scraping from the Teyit.org platform. It contains news titles and summaries related to significant events in Türkiye between 2015 and 2023. The research compares classical machine learning classifiers including SVM, Logistic Regression, Random Forest, k-NN, Decision Tree, and Naive Bayes, against a neural based sequential learning model such as LSTM using real world datasets. Furthermore, the research investigates the impacts of different word representation techniques, including TF-IDF and CountVectorizer, and also hyperparameter optimization on the classification results. The findings revealed that using hyperparameter tuning, the TF-IDF method yielded the highest accuracy rate of 93.12% on the SVM model and that TF-IDF is more effective.
Primary Language | English |
---|---|
Subjects | Decision Support and Group Support Systems |
Journal Section | Research Articles |
Authors | |
Publication Date | |
Submission Date | August 7, 2024 |
Acceptance Date | December 19, 2024 |
Published in Issue | Year 2025 Volume: 8 Issue: 1 |