The rapid increase in digital content, particularly in text-based tasks like news classification, has significantly amplified the demand for automated classification methods. At this point, Natural Language Processing (NLP) techniques offer the potential to efficiently generate results from large datasets without human intervention. This study presents a Naive Bayes (NB)-based classification system, developed using Python, aimed at categorizing news headlines. NB algorithms are favored for text classification problems due to their simplicity and fast computation. The dataset used, derived from BBC News headlines, covers diverse categories such as technology, business, sports, entertainment, and politics. The data preprocessing phase included steps such as text cleaning, removing stop words, and converting the text into numerical data using Count Vectorization. This process plays a critical role in ensuring accurate and effective classification. Five different NB variants were examined in this study: Gaussian, Multinomial, Complement, Bernoulli, and Tree-Augmented Naive Bayes (TAN). The results showed that Multinomial NB delivered the best performance with an accuracy rate of 98.53%. Complement NB achieved 98.31%, TAN 98.20%, Bernoulli 96.74%, while Gaussian NB ranged between 91.79% and 92.92%. Additionally, NB algorithms were compared with advanced machine learning algorithms such as Logistic Regression, Random Forest, Linear Support Vector Classifier, and Multi-Layer Perceptron. The Multi-Layer Perceptron stood out with an accuracy rate of 98.31%, while the other algorithms also surpassed 97% accuracy. This study demonstrates that NB algorithms provide a robust, reliable, and effective solution for news classification problems, with the Multinomial and Complement variants showing particularly high accuracy. Future research will aim to further enhance the performance of these algorithms using larger datasets and new approaches.
Naive Bayes Machine learning News classification Natural language processing Data preprocessing
Dijital içerikteki artış, özellikle haber sınıflandırma gibi metin odaklı görevlerde otomatik sınıflandırma yöntemlerine duyulan ihtiyacı büyük ölçüde artırmıştır. Bu noktada Doğal Dil İşleme (DDİ) teknikleri, büyük veri setlerinde insan müdahalesi olmaksızın verimli sonuçlar üretebilme potansiyeline sahiptir. Bu çalışma, haber başlıklarını kategorilere ayırmayı amaçlayan, Python ile geliştirilmiş bir Naive Bayes (NB) tabanlı sınıflandırma sistemini tanıtmaktadır. NB algoritmaları, basitlikleri ve hızlı hesaplama özellikleri nedeniyle metin sınıflandırma problemlerinde öne çıkmaktadır. BBC News başlıklarından oluşan veri kümesi; teknoloji, iş dünyası, spor, eğlence ve siyaset gibi farklı kategorileri kapsamaktadır. Veri ön işleme sürecinde metin temizleme, durdurma kelimelerin çıkarılması ve Sayım Vektörleştirme ile metnin sayısal verilere dönüştürülmesi gibi adımlar yer almıştır. Bu süreç, doğru ve etkili sınıflandırma için kritik bir rol oynamaktadır. Çalışma kapsamında beş farklı NB varyantı incelenmiştir: Gaussian, Multinomial, Complement, Bernoulli ve TAN. Sonuçlar, Multinomial NB’nin %98.53 doğruluk oranıyla en iyi performansı sergilediğini ortaya koymuştur. Complement NB %98.31, TAN %98.20, Bernoulli %96.74, Gaussian NB ise %91.79 ile %92.92 arasında değişen doğruluk oranlarına sahiptir. Bunun yanı sıra NB algoritmaları, Lojistik Regresyon, Rastgele Orman, Doğrusal Destek Vektör Sınıflandırıcısı ve Çok Katmanlı Algılayıcı gibi gelişmiş makine öğrenimi algoritmalarıyla karşılaştırılmıştır. Çok Katmanlı Algılayıcı, %98.31 doğruluk oranı ile öne çıkarken, diğer algoritmalar da %97’nin üzerinde başarı elde etmiştir. Bu çalışma, NB algoritmalarının haber sınıflandırma problemlerinde güçlü, güvenilir ve etkili bir çözüm sunduğunu göstermektedir. Özellikle Multinomial ve Complement NB varyantları, yüksek doğruluk oranları ile dikkat çekmektedir. Gelecekteki araştırmalar, daha geniş veri setleri ve yeni yaklaşımlar ile bu algoritmaların performanslarını daha da geliştirmeyi hedeflemektedir.
Primary Language | Turkish |
---|---|
Subjects | Computer Software, Software Engineering (Other) |
Journal Section | Bilgisayar Mühendisliği / Computer Engineering |
Authors | |
Early Pub Date | February 20, 2025 |
Publication Date | March 1, 2025 |
Submission Date | August 24, 2024 |
Acceptance Date | October 19, 2024 |
Published in Issue | Year 2025 Volume: 15 Issue: 1 |