İnternet haberlerini geçerli belgeler olarak tanıma üzerine birçok araştırma yapılmıştır. Bu çalışma, bir TF-IDF matrisi oluşturmak için metin madenciliği tekniklerinin uygulanmasını ve ardından en uygun küme sayısının otomatik olarak belirlenmesi ve kategorize edilmesini kapsamaktadır. Araştırma, çeşitli saygın yayıncıların makalelerini içeren Kullanıcı Katılımı veri seti ile internet haber makaleleri üzerindeki K-Means belge kümeleme algoritmasının etkisini incelemektedir. K-Means algoritmasını uygulamadan önce, TF-IDF matrisini hazırlamak için çeşitli ön işleme adımları gerçekleştirilmiştir. İçerik özniteliği verilerinin bulunmaması nedeniyle, belge kümeleme için açıklama özniteliği seçilmiştir. Ön işleme sırasında gereksiz ASCII sembolleri, noktalama işaretleri, satır sonları, e-postalar, etiketler, internet uzantıları, durak kelimeler ve 2 ile 21 karakter aralığının dışındaki kelimeler temizlenmiştir. Kelimeler aynı kökün farklı formlarını birleştirmek amacıyla köklerine indirgenmiştir. TF-IDF matrisinde en uygun küme sayısını belirlemek için Elbow yöntemi kullanılmış ve ardından sonuçlar en belirgin kelimeler ve kelime bulutları ile analiz edilmiştir. Sonuç olarak, 797, 408, 89, 364 ve 8755 belge sayısına sahip beş küme belirlenmiştir.
icesconf-00370040
Numerous investigations have focused on recognizing Internet news as valid documents. This study encompasses the application of text mining techniques to generate a TF-IDF matrix and the subsequent automatic identification and categorization of an optimal number of clusters. The research examines the impact of K-Means document clustering on internet news articles, integrating the User Engagement dataset which includes articles from various esteemed publishers. Prior to implementing the K-Means algorithm, several preprocessing steps were undertaken to prepare the TF-IDF matrix. Due to the absence of the content attribute data, the description attribute was selected for document clustering. During preprocessing, extraneous ASCII symbols, punctuation marks, line breaks, emails, mentions, internet extensions, stopwords, and words outside the 2 to 21 character range were removed. Words were stemmed to consolidate different forms of the same root. The Elbow method was employed on the TF-IDF matrix to determine the optimal number of clusters, followed by an analysis of results using prominent words and word clouds. Ultimately, five clusters of document counts 797, 408, 89, 364, and 8755 were identified.
icesconf-00370040
Birincil Dil | İngilizce |
---|---|
Konular | Bilgisayar Yazılımı |
Bölüm | Araştırma Makalesi |
Yazarlar | |
Proje Numarası | icesconf-00370040 |
Yayımlanma Tarihi | 31 Aralık 2024 |
Gönderilme Tarihi | 27 Haziran 2024 |
Kabul Tarihi | 18 Temmuz 2024 |
Yayımlandığı Sayı | Yıl 2024 Cilt: 04 Sayı: 02 |