İnternet haberlerini geçerli belgeler olarak tanıma üzerine birçok araştırma yapılmıştır. Bu çalışma, bir TF-IDF matrisi oluşturmak için metin madenciliği tekniklerinin uygulanmasını ve ardından en uygun küme sayısının otomatik olarak belirlenmesi ve kategorize edilmesini kapsamaktadır. Araştırma, çeşitli saygın yayıncıların makalelerini içeren Kullanıcı Katılımı veri seti ile internet haber makaleleri üzerindeki K-Means belge kümeleme algoritmasının etkisini incelemektedir. K-Means algoritmasını uygulamadan önce, TF-IDF matrisini hazırlamak için çeşitli ön işleme adımları gerçekleştirilmiştir. İçerik özniteliği verilerinin bulunmaması nedeniyle, belge kümeleme için açıklama özniteliği seçilmiştir. Ön işleme sırasında gereksiz ASCII sembolleri, noktalama işaretleri, satır sonları, e-postalar, etiketler, internet uzantıları, durak kelimeler ve 2 ile 21 karakter aralığının dışındaki kelimeler temizlenmiştir. Kelimeler aynı kökün farklı formlarını birleştirmek amacıyla köklerine indirgenmiştir. TF-IDF matrisinde en uygun küme sayısını belirlemek için Elbow yöntemi kullanılmış ve ardından sonuçlar en belirgin kelimeler ve kelime bulutları ile analiz edilmiştir. Sonuç olarak, 797, 408, 89, 364 ve 8755 belge sayısına sahip beş küme belirlenmiştir.
icesconf-00370040
Numerous investigations have focused on recognizing Internet news as valid documents. This study encompasses the application of text mining techniques to generate a TF-IDF matrix and the subsequent automatic identification and categorization of an optimal number of clusters. The research examines the impact of K-Means document clustering on internet news articles, integrating the User Engagement dataset which includes articles from various esteemed publishers. Prior to implementing the K-Means algorithm, several preprocessing steps were undertaken to prepare the TF-IDF matrix. Due to the absence of the content attribute data, the description attribute was selected for document clustering. During preprocessing, extraneous ASCII symbols, punctuation marks, line breaks, emails, mentions, internet extensions, stopwords, and words outside the 2 to 21 character range were removed. Words were stemmed to consolidate different forms of the same root. The Elbow method was employed on the TF-IDF matrix to determine the optimal number of clusters, followed by an analysis of results using prominent words and word clouds. Ultimately, five clusters of document counts 797, 408, 89, 364, and 8755 were identified.
icesconf-00370040
Primary Language | English |
---|---|
Subjects | Computer Software |
Journal Section | Research Article |
Authors | |
Project Number | icesconf-00370040 |
Publication Date | December 31, 2024 |
Submission Date | June 27, 2024 |
Acceptance Date | July 18, 2024 |
Published in Issue | Year 2024 Volume: 04 Issue: 02 |
The journal "Researcher: Social Sciences Studies" (RSSS), which started its publication life in 2013, continues its activities under the name of "Researcher" as of August 2020, under Ankara Bilim University.
It is an internationally indexed, nationally refereed, scientific and electronic journal that publishes original research articles aiming to contribute to the fields of Engineering and Science in 2021 and beyond.
The journal is published twice a year, except for special issues.
Candidate articles submitted for publication in the journal can be written in Turkish and English. Articles submitted to the journal must not have been previously published in another journal or sent to another journal for publication.