Research Article
BibTex RIS Cite

Performance Comparison between Naive Bayes and Machine Learning Algorithms for News Classification Systems

Year 2025, Volume: 15 Issue: 1, 57 - 70, 01.03.2025
https://doi.org/10.21597/jist.1537627

Abstract

The rapid increase in digital content, particularly in text-based tasks like news classification, has significantly amplified the demand for automated classification methods. At this point, Natural Language Processing (NLP) techniques offer the potential to efficiently generate results from large datasets without human intervention. This study presents a Naive Bayes (NB)-based classification system, developed using Python, aimed at categorizing news headlines. NB algorithms are favored for text classification problems due to their simplicity and fast computation. The dataset used, derived from BBC News headlines, covers diverse categories such as technology, business, sports, entertainment, and politics. The data preprocessing phase included steps such as text cleaning, removing stop words, and converting the text into numerical data using Count Vectorization. This process plays a critical role in ensuring accurate and effective classification. Five different NB variants were examined in this study: Gaussian, Multinomial, Complement, Bernoulli, and Tree-Augmented Naive Bayes (TAN). The results showed that Multinomial NB delivered the best performance with an accuracy rate of 98.53%. Complement NB achieved 98.31%, TAN 98.20%, Bernoulli 96.74%, while Gaussian NB ranged between 91.79% and 92.92%. Additionally, NB algorithms were compared with advanced machine learning algorithms such as Logistic Regression, Random Forest, Linear Support Vector Classifier, and Multi-Layer Perceptron. The Multi-Layer Perceptron stood out with an accuracy rate of 98.31%, while the other algorithms also surpassed 97% accuracy. This study demonstrates that NB algorithms provide a robust, reliable, and effective solution for news classification problems, with the Multinomial and Complement variants showing particularly high accuracy. Future research will aim to further enhance the performance of these algorithms using larger datasets and new approaches.

References

  • Albahr, A., & Albahar, M. (2020). An empirical comparison of fake news detection using different machine learning algorithms. International Journal of Advanced Computer Science and Applications, 11(9).
  • Bracewell, D. B., Yan, J., Ren, F., & Kuroiwa, S. (2009). Category classification and topic discovery of japanese and english news articles. Electronic Notes in Theoretical Computer Science, 225, 51-65.
  • Chen, S., Webb, G. I., Liu, L., & Ma, X. (2020). A novel selective naïve Bayes algorithm. Knowledge-Based Systems, 192, 105361.D. M. Powers, "Evaluation: from precision, recall and F-measure to ROC, informedness, markedness and correlation," arXiv preprint arXiv:2010.16061, 2020.
  • Granik, M., & Mesyura, V. (2017, May). Fake news detection using naive Bayes classifier. In 2017 IEEE first Ukraine conference on electrical and computer engineering (UKRCON) (pp. 900-903). IEEE.
  • Greene, D., & Cunningham, P. "BBC Datasets," 2006. [Online]. Available: http://mlg. ucd.ie/datasets/ bbc.html.
  • Mahesh, B. (2020). Machine learning algorithms-a review. International Journal of Science and Research (IJSR).[Internet], 9(1), 381-386.M. I. Rana, S. Khalid, and M. U. Akbar, "News classification based on their headlines: A review," in 17th IEEE International Multi Topic Conference 2014, Karachi, Pakistan, 2014: IEEE, pp. 211-216.
  • Patel, A., & Meehan, K. (2021, June). Fake news detection on reddit utilising countvectorizer and term frequency-inverse document frequency with logistic regression, multinominalnb and support vector machine. In 2021 32nd Irish signals and systems conference (ISSC) (pp. 1-6). IEEE.M. M. Saritas and A. Yasar, "Performance analysis of ANN and Naive Bayes classification algorithm for data classification," International journal of intelligent systems and applications in engineering, vol. 7, no. 2, pp. 88-91, 2019.
  • Shahi, T. B., & Pant, A. K. (2018, February). Nepali news classification using Naive Bayes, support vector machines and neural networks. In 2018 international conference on communication information and computing technology (iccict) (pp. 1-5). IEEE.A. N. Chy, M. H. Seddiqui, and S. Das, "Bangla news classification using naive Bayes classifier," in 16th Int'l Conf. Computer and Information Technology, Khulna, Bangladesh, 2014: IEEE, pp. 366-371.
  • Sristy, N. B., & Somayajulu, D. V. L. N. (2012, December). Semi-supervised Learning of Naive Bayes Classifier with feature constraints. In Proceedings of the First International Workshop on Optimization Techniques for Human Language Technology (pp. 65-78).

Haber Sınıflandırma Sistemlerinde Naive Bayes ve Makine Öğrenmesi Algoritmaları Arasında Performans Karşılaştırması

Year 2025, Volume: 15 Issue: 1, 57 - 70, 01.03.2025
https://doi.org/10.21597/jist.1537627

Abstract

Dijital içerikteki artış, özellikle haber sınıflandırma gibi metin odaklı görevlerde otomatik sınıflandırma yöntemlerine duyulan ihtiyacı büyük ölçüde artırmıştır. Bu noktada Doğal Dil İşleme (DDİ) teknikleri, büyük veri setlerinde insan müdahalesi olmaksızın verimli sonuçlar üretebilme potansiyeline sahiptir. Bu çalışma, haber başlıklarını kategorilere ayırmayı amaçlayan, Python ile geliştirilmiş bir Naive Bayes (NB) tabanlı sınıflandırma sistemini tanıtmaktadır. NB algoritmaları, basitlikleri ve hızlı hesaplama özellikleri nedeniyle metin sınıflandırma problemlerinde öne çıkmaktadır. BBC News başlıklarından oluşan veri kümesi; teknoloji, iş dünyası, spor, eğlence ve siyaset gibi farklı kategorileri kapsamaktadır. Veri ön işleme sürecinde metin temizleme, durdurma kelimelerin çıkarılması ve Sayım Vektörleştirme ile metnin sayısal verilere dönüştürülmesi gibi adımlar yer almıştır. Bu süreç, doğru ve etkili sınıflandırma için kritik bir rol oynamaktadır. Çalışma kapsamında beş farklı NB varyantı incelenmiştir: Gaussian, Multinomial, Complement, Bernoulli ve TAN. Sonuçlar, Multinomial NB’nin %98.53 doğruluk oranıyla en iyi performansı sergilediğini ortaya koymuştur. Complement NB %98.31, TAN %98.20, Bernoulli %96.74, Gaussian NB ise %91.79 ile %92.92 arasında değişen doğruluk oranlarına sahiptir. Bunun yanı sıra NB algoritmaları, Lojistik Regresyon, Rastgele Orman, Doğrusal Destek Vektör Sınıflandırıcısı ve Çok Katmanlı Algılayıcı gibi gelişmiş makine öğrenimi algoritmalarıyla karşılaştırılmıştır. Çok Katmanlı Algılayıcı, %98.31 doğruluk oranı ile öne çıkarken, diğer algoritmalar da %97’nin üzerinde başarı elde etmiştir. Bu çalışma, NB algoritmalarının haber sınıflandırma problemlerinde güçlü, güvenilir ve etkili bir çözüm sunduğunu göstermektedir. Özellikle Multinomial ve Complement NB varyantları, yüksek doğruluk oranları ile dikkat çekmektedir. Gelecekteki araştırmalar, daha geniş veri setleri ve yeni yaklaşımlar ile bu algoritmaların performanslarını daha da geliştirmeyi hedeflemektedir.

References

  • Albahr, A., & Albahar, M. (2020). An empirical comparison of fake news detection using different machine learning algorithms. International Journal of Advanced Computer Science and Applications, 11(9).
  • Bracewell, D. B., Yan, J., Ren, F., & Kuroiwa, S. (2009). Category classification and topic discovery of japanese and english news articles. Electronic Notes in Theoretical Computer Science, 225, 51-65.
  • Chen, S., Webb, G. I., Liu, L., & Ma, X. (2020). A novel selective naïve Bayes algorithm. Knowledge-Based Systems, 192, 105361.D. M. Powers, "Evaluation: from precision, recall and F-measure to ROC, informedness, markedness and correlation," arXiv preprint arXiv:2010.16061, 2020.
  • Granik, M., & Mesyura, V. (2017, May). Fake news detection using naive Bayes classifier. In 2017 IEEE first Ukraine conference on electrical and computer engineering (UKRCON) (pp. 900-903). IEEE.
  • Greene, D., & Cunningham, P. "BBC Datasets," 2006. [Online]. Available: http://mlg. ucd.ie/datasets/ bbc.html.
  • Mahesh, B. (2020). Machine learning algorithms-a review. International Journal of Science and Research (IJSR).[Internet], 9(1), 381-386.M. I. Rana, S. Khalid, and M. U. Akbar, "News classification based on their headlines: A review," in 17th IEEE International Multi Topic Conference 2014, Karachi, Pakistan, 2014: IEEE, pp. 211-216.
  • Patel, A., & Meehan, K. (2021, June). Fake news detection on reddit utilising countvectorizer and term frequency-inverse document frequency with logistic regression, multinominalnb and support vector machine. In 2021 32nd Irish signals and systems conference (ISSC) (pp. 1-6). IEEE.M. M. Saritas and A. Yasar, "Performance analysis of ANN and Naive Bayes classification algorithm for data classification," International journal of intelligent systems and applications in engineering, vol. 7, no. 2, pp. 88-91, 2019.
  • Shahi, T. B., & Pant, A. K. (2018, February). Nepali news classification using Naive Bayes, support vector machines and neural networks. In 2018 international conference on communication information and computing technology (iccict) (pp. 1-5). IEEE.A. N. Chy, M. H. Seddiqui, and S. Das, "Bangla news classification using naive Bayes classifier," in 16th Int'l Conf. Computer and Information Technology, Khulna, Bangladesh, 2014: IEEE, pp. 366-371.
  • Sristy, N. B., & Somayajulu, D. V. L. N. (2012, December). Semi-supervised Learning of Naive Bayes Classifier with feature constraints. In Proceedings of the First International Workshop on Optimization Techniques for Human Language Technology (pp. 65-78).
There are 9 citations in total.

Details

Primary Language Turkish
Subjects Computer Software, Software Engineering (Other)
Journal Section Bilgisayar Mühendisliği / Computer Engineering
Authors

Merve Veziroğlu 0000-0002-4428-1188

İhsan Bucak 0000-0002-9112-3932

Early Pub Date February 20, 2025
Publication Date March 1, 2025
Submission Date August 24, 2024
Acceptance Date October 19, 2024
Published in Issue Year 2025 Volume: 15 Issue: 1

Cite

APA Veziroğlu, M., & Bucak, İ. (2025). Haber Sınıflandırma Sistemlerinde Naive Bayes ve Makine Öğrenmesi Algoritmaları Arasında Performans Karşılaştırması. Journal of the Institute of Science and Technology, 15(1), 57-70. https://doi.org/10.21597/jist.1537627
AMA Veziroğlu M, Bucak İ. Haber Sınıflandırma Sistemlerinde Naive Bayes ve Makine Öğrenmesi Algoritmaları Arasında Performans Karşılaştırması. J. Inst. Sci. and Tech. March 2025;15(1):57-70. doi:10.21597/jist.1537627
Chicago Veziroğlu, Merve, and İhsan Bucak. “Haber Sınıflandırma Sistemlerinde Naive Bayes Ve Makine Öğrenmesi Algoritmaları Arasında Performans Karşılaştırması”. Journal of the Institute of Science and Technology 15, no. 1 (March 2025): 57-70. https://doi.org/10.21597/jist.1537627.
EndNote Veziroğlu M, Bucak İ (March 1, 2025) Haber Sınıflandırma Sistemlerinde Naive Bayes ve Makine Öğrenmesi Algoritmaları Arasında Performans Karşılaştırması. Journal of the Institute of Science and Technology 15 1 57–70.
IEEE M. Veziroğlu and İ. Bucak, “Haber Sınıflandırma Sistemlerinde Naive Bayes ve Makine Öğrenmesi Algoritmaları Arasında Performans Karşılaştırması”, J. Inst. Sci. and Tech., vol. 15, no. 1, pp. 57–70, 2025, doi: 10.21597/jist.1537627.
ISNAD Veziroğlu, Merve - Bucak, İhsan. “Haber Sınıflandırma Sistemlerinde Naive Bayes Ve Makine Öğrenmesi Algoritmaları Arasında Performans Karşılaştırması”. Journal of the Institute of Science and Technology 15/1 (March 2025), 57-70. https://doi.org/10.21597/jist.1537627.
JAMA Veziroğlu M, Bucak İ. Haber Sınıflandırma Sistemlerinde Naive Bayes ve Makine Öğrenmesi Algoritmaları Arasında Performans Karşılaştırması. J. Inst. Sci. and Tech. 2025;15:57–70.
MLA Veziroğlu, Merve and İhsan Bucak. “Haber Sınıflandırma Sistemlerinde Naive Bayes Ve Makine Öğrenmesi Algoritmaları Arasında Performans Karşılaştırması”. Journal of the Institute of Science and Technology, vol. 15, no. 1, 2025, pp. 57-70, doi:10.21597/jist.1537627.
Vancouver Veziroğlu M, Bucak İ. Haber Sınıflandırma Sistemlerinde Naive Bayes ve Makine Öğrenmesi Algoritmaları Arasında Performans Karşılaştırması. J. Inst. Sci. and Tech. 2025;15(1):57-70.