Web belgeleri kümelemede benzerlik ve uzaklık ölçütleri başarılarının karşılaştırılması
Öz
İnternetteki web sayfalarının boyutları her geçen gün artmaktadır. Bu sayfalar içerisinde bulunan belgelere erişimde ya da bir belgeyi getirmede yeni teknikler geliştirilmektedir. Bu tekniklerden birisi de web belgelerini kümelemedir. Bu çalışmada, web sayfaları kümelemede belgelerin benzerliklerini bulan tekniklerden Öklid, Kosinüs, Pearson ve Genişletilmiş Jaccard iki ayrı veri setinde test edildi ve başarıları araştırıldı. Web belgelerini kümelemede yapılan testlerde, Öklid uzaklığının yüksek hata oranlarına neden olduğu gözlenmiştir. Benzerlik ölçütlerinde en iyi performansı sağlayan Kosinüs ve Genişletilmiş Jaccard benzerlikleridir. Yapılan deneylerin sonuçlarına göre, web belgeleri kümelemede Kosinüs benzerlik ölçütünün kullanılmasının uygun olduğu bulunmuştur.
Anahtar Kelimeler
Kaynakça
- Steinbach, M.; Karypis, G.; Kumar, V.: “A Comparison of Document Clustering Techniques”. In KDD Workshop on Text Mining, 2000.
- Zamir, O.; Etzioni, O.: “Web Document Clustering: A Feasibility Demonstration,” Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 46-54, 1998.
Ayrıntılar
Birincil Dil
Türkçe
Konular
-
Bölüm
-
Yayımlanma Tarihi
25 Kasım 2011
Gönderilme Tarihi
25 Kasım 2011
Kabul Tarihi
-
Yayımlandığı Sayı
Yıl 2008 Cilt: 20 Sayı: 1