Web pages have became a big data repository, with rapid grow in Internet. For these reason, interest to data mining in the field of searching in web pages and analyzing user profile is increased. Document mining is preferred to get necessary knowledge from documents on web pages. In this study, k-means and hyperspherical fuzzy c-means algorithms were applied to web documents and clustering performances were investigated comparatively using three data sets which have web documents. Our results show that clustering feature of hyperspherical fuzzy c-means algorithm is better than k-means algorithm.
Data mining Document mining clustering K-means Hyperspherical Fuzzy c-means
İnternetin gittikçe yaygınlaşması ve boyutlarının çok genişlemesi web sayfalarının büyük bir veri deposu haline gelmesine ve karmaşıklığının artmasına neden olmuştur. Bu nedenlerle web’de arama yapma ve kullanıcı profili çıkarma alanlarında veri madenciliğine ilgi artmıştır. Web sayfalarında bulunan belgeler içinde gerekli bilgiyi elde etmede kullanılan veri madenciliği yöntemlerinden birisi de belge madenciliğidir. Bu çalışmada, web belgesi içeren üç ayrı veri seti kullanılarak k-means ve aşırı küresel bulanık c-means algoritmalarının kümeleme başarıları karşılaştırılmalı olarak incelendi. Aşırı küresel bulanık c-means algoritmasının kümeleme başarısı, k-means algoritmasından daha iyi çıkmıştır.
Veri Madenciliği Belge Madenciliği kümeleme k-means Aşırı Küresel Bulanık c-means
Birincil Dil | Türkçe |
---|---|
Bölüm | Araştırma Makaleleri |
Yazarlar | |
Yayımlanma Tarihi | 26 Kasım 2011 |
Yayımlandığı Sayı | Yıl 2010 Cilt: 22 Sayı: 1 |
Marmara Fen Bilimleri Dergisi
e-ISSN : 2146-5150
MU Fen Bilimleri Enstitüsü
Göztepe Yerleşkesi, 34722 Kadıköy, İstanbul
E-posta: fbedergi@marmara.edu.tr