BibTex RIS Kaynak Göster

COMPARISION OF SIMILARITY AND DISTANCE MEASURES’ PERFORMANCES IN WEB DOCUMENTS CLUSTERING

Yıl 2008, Cilt: 20 Sayı: 1, 35 - 49, 25.11.2011

Öz

The number of web pages in Internet is increased by day by. New techniques are developed to reach or retrieve information from the documents in those web pages. Clustering is one of techniques used on web documents. In this study, the techniques such as Euclidean, Cosine, Pearson and Extended Jaccard used to find document similarities in web pages were tested by two data sets and performances were studied. In the experiments done for web documents clustering, found that Euclidean distance measure has high fault rates. The best performance in the similarity measures are provided by Cosine and Extended Jaccard measures. According to results of experiments that Cosine similarity measure was found suitable to use in the web documents clustering.

Kaynakça

  • Steinbach, M.; Karypis, G.; Kumar, V.: “A Comparison of Document Clustering Techniques”. In KDD Workshop on Text Mining, 2000.
  • Zamir, O.; Etzioni, O.: “Web Document Clustering: A Feasibility Demonstration,” Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 46-54, 1998.

Web belgeleri kümelemede benzerlik ve uzaklık ölçütleri başarılarının karşılaştırılması

Yıl 2008, Cilt: 20 Sayı: 1, 35 - 49, 25.11.2011

Öz

İnternetteki web sayfalarının boyutları her geçen gün artmaktadır. Bu sayfalar içerisinde bulunan belgelere erişimde ya da bir belgeyi getirmede yeni teknikler geliştirilmektedir. Bu tekniklerden birisi de web belgelerini kümelemedir. Bu çalışmada, web sayfaları kümelemede belgelerin benzerliklerini bulan tekniklerden Öklid, Kosinüs, Pearson ve Genişletilmiş Jaccard iki ayrı veri setinde test edildi ve başarıları araştırıldı. Web belgelerini kümelemede yapılan testlerde, Öklid uzaklığının yüksek hata oranlarına neden olduğu gözlenmiştir. Benzerlik ölçütlerinde en iyi performansı sağlayan Kosinüs ve Genişletilmiş Jaccard benzerlikleridir. Yapılan deneylerin sonuçlarına göre, web belgeleri kümelemede Kosinüs benzerlik ölçütünün kullanılmasının uygun olduğu bulunmuştur.

Kaynakça

  • Steinbach, M.; Karypis, G.; Kumar, V.: “A Comparison of Document Clustering Techniques”. In KDD Workshop on Text Mining, 2000.
  • Zamir, O.; Etzioni, O.: “Web Document Clustering: A Feasibility Demonstration,” Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 46-54, 1998.

Ayrıntılar

Birincil Dil Türkçe
Bölüm Araştırma Makaleleri
Yazarlar

Meltem IŞIK Bu kişi benim

Ali Yılmaz ÇAMURCU Bu kişi benim

Yayımlanma Tarihi 25 Kasım 2011
Yayımlandığı Sayı Yıl 2008 Cilt: 20 Sayı: 1

Kaynak Göster

APA IŞIK, M., & ÇAMURCU, A. Y. (2011). Web belgeleri kümelemede benzerlik ve uzaklık ölçütleri başarılarının karşılaştırılması. Marmara Fen Bilimleri Dergisi, 20(1), 35-49. https://doi.org/10.7240/mufbed.60306
AMA IŞIK M, ÇAMURCU AY. Web belgeleri kümelemede benzerlik ve uzaklık ölçütleri başarılarının karşılaştırılması. MFBD. Kasım 2011;20(1):35-49. doi:10.7240/mufbed.60306
Chicago IŞIK, Meltem, ve Ali Yılmaz ÇAMURCU. “Web Belgeleri kümelemede Benzerlik Ve uzaklık ölçütleri başarılarının karşılaştırılması”. Marmara Fen Bilimleri Dergisi 20, sy. 1 (Kasım 2011): 35-49. https://doi.org/10.7240/mufbed.60306.
EndNote IŞIK M, ÇAMURCU AY (01 Kasım 2011) Web belgeleri kümelemede benzerlik ve uzaklık ölçütleri başarılarının karşılaştırılması. Marmara Fen Bilimleri Dergisi 20 1 35–49.
IEEE M. IŞIK ve A. Y. ÇAMURCU, “Web belgeleri kümelemede benzerlik ve uzaklık ölçütleri başarılarının karşılaştırılması”, MFBD, c. 20, sy. 1, ss. 35–49, 2011, doi: 10.7240/mufbed.60306.
ISNAD IŞIK, Meltem - ÇAMURCU, Ali Yılmaz. “Web Belgeleri kümelemede Benzerlik Ve uzaklık ölçütleri başarılarının karşılaştırılması”. Marmara Fen Bilimleri Dergisi 20/1 (Kasım 2011), 35-49. https://doi.org/10.7240/mufbed.60306.
JAMA IŞIK M, ÇAMURCU AY. Web belgeleri kümelemede benzerlik ve uzaklık ölçütleri başarılarının karşılaştırılması. MFBD. 2011;20:35–49.
MLA IŞIK, Meltem ve Ali Yılmaz ÇAMURCU. “Web Belgeleri kümelemede Benzerlik Ve uzaklık ölçütleri başarılarının karşılaştırılması”. Marmara Fen Bilimleri Dergisi, c. 20, sy. 1, 2011, ss. 35-49, doi:10.7240/mufbed.60306.
Vancouver IŞIK M, ÇAMURCU AY. Web belgeleri kümelemede benzerlik ve uzaklık ölçütleri başarılarının karşılaştırılması. MFBD. 2011;20(1):35-49.

Marmara Fen Bilimleri Dergisi

e-ISSN : 2146-5150

 

 

MU Fen Bilimleri Enstitüsü

Göztepe Yerleşkesi, 34722 Kadıköy, İstanbul
E-posta: fbedergi@marmara.edu.tr