BibTex RIS Kaynak Göster

Bölümleyici kümeleme algoritmalarının farklı veri yoğunluklarında karşılaştırılması

Yıl 2014, Cilt: 30 Sayı: 1, 56 - 62, 01.02.2014

Öz

Teknolojinin yaygın kullanılmasının neticesinde hacmi her geçen gün artan büyük veri yığınları ortaya çıkmaya başlamıştır . Bu k adar büyük boyutta verinin analizi ve içindeki herhangi bir bilgiye ulaşmak basit inceleme yöntemleriyle oldukça zor olduğundan veri madenciliği devreye girmiştir . Veri madenciliği , çok büyük veri tabanlarından , önceden bilinemeyen , geçerli ve kullanılabilir bilginin çıkarılma işlemi olarak ifade edilmektedir . Başka bir deyişle veri madenciliği , çok büyük veri tabanlarındaki ya da veri ambarlarındaki veriler arasında bulunan ilişkiler , örüntüler , değişiklikler , sa pma ve eğilimler , belirli yapılar gibi ilginç bilgilerin ortaya çıkarılması işlemidir . Veri madenciliği alanında son zamanlarda yaygın bir şekilde kullanılan yöntemlerden biri kümeleme yöntemidir. Kümeleme, veri kümesi ndeki bilgileri farklı kümelere ayırarak küme içindeki verilerin özelliklerinin benzerlik oranı minimum ve kümeler arasında benzerlik oranını maksimum yapmaktadır. Bu çalışmada bölümleyici kümeleme yöntemleri ele alınarak farklı dağılımlı veri setleri üzerinde bölümleyici kümeleme algoritmalarının karşılaştırması gerçekleştirilmiştir. Bölümleyici kümeleme algoritmaları arasından " k - ortalama " ve " çekirdek k - ortalama " algoritmaları seçilmiştir. Farklı dağılımlı veri setlerini kümeleyerek iki algoritmanın hızı, küm eleme kalitesi ve bellek kaplaması açısından bilgiler elde edilmiş ve bu bilgiler ışığında iki algoritmanın karşılaştırma sonuçları sunulmuştur.

Kaynakça

  • Keselj, V. and Liu , H., 2007. Combined mining of Web server logs and web contents for classifying user navigation patterns and predicting users future requests, ScinceDirect digital library,61(2),304-330.
  • Dujovne, E., Huillier, G. and Vela´squez, D., 2007. Extracting significant Website Key Objects: A Semantic Web mining approach, ScinceDirect digital library, 24(8), 1532-1541.
  • Internet: Istanbul Üniversitesi “Veri Tabanlarında Bilgi Keşfi http://www.istanbul.edu.tr/isletme/dergi/nisan2000/1.HT M. Madenciliği”, 13.12.2012.
  • Bouveyron, C. and Brunet-Saumard, C., 2012. Model- based clustering of high-dimensional data: A review, Elsevier.
  • Isa, N.A.M, and Noraini Sulaiman, S., 2010. Adaptive Fuzzy- Clustering Algorithm for Image Segmentation, IEEE digital library, 56(4), 2661 – 2668.
  • Su, X. and Wang, J., 2011. An improved k-ortalama clustering algorithm, IEEE digital library, 12229842(978- 1-61284-485-5), 44-46.
  • Fan, A. and Ren, S., 2011. k-ortalama Clustering Algorithm Based On Coefficient Of Variation, IEEE digital library, 12439403(978-1-4244-9304-3), 2076 – 2079.
  • Chen, J., Li, D. and Shen, H., 2009. A Fast k-ortalama Clustering Algorithm Based on Grid Data Reduction, IEEE digital library, 9980042(1095-323X), 1 – 6.
  • Eswara Reddy, B., Viswanath , P. and Hitendra Sarma, T., 2012. A hybrid approach to speed-up the k-ortalama clustering method, Springer-Verlag , 4(2), 107-117.
  • Chang, D. and Xian, W., 2009. A genetic algorithm with gene rearrangement for k-ortalama clustering. Pattern Recognition, IEEE digital library, 42(7), 1210-1222.
  • Bagirov, A.M., Ugon, J. and Webb, D., 2011. Fast modified global k-ortalama algorithm for incremental cluster SinceDirect,36(2), 451-461. Pattern Recognition,
  • Binti, W., Herawan, T., Maseri, W., Mohd, A.H. and K.F.Rabbi, 2011. An Improved Parameter less Data Clustering Technique based on Maximum Distance of Data and Lioyd k-ortalama Algorithm, SinceDirect, 1, 367-371.
  • Jana Prasanta and K.,Reddy, D., 2012. Initialization for k- ortalama clustering using Voronoi diagram, Elsevier Ltd., 4, 395–400.
  • Brunsch, T., Röglin, H., 2012. A bad instance for k- ortalama++, in press, Elsevier.
  • Mozafari, B., Thakkar, H. and Zaniolo, C., 2008. A Data Stream Mining System, IEEE digital library, 978-0-7695- 3503-6 (10453400), 987 – 990.
  • Kaya, H. ve Köymen, K., 2008. Veri Madenciliği Kavramı Ve Uygulama Alanları, Maltepe ünüversitesi-istanbul.
  • Na, S., Xumin, L., and Yong, G., 2010. Research on k- ortalama Clustering Algorithm An Improved k-ortalama Clustering Algorithm, IEEE digital library, 978-1-4244- 6730-3(11261758), 63 – 67.
  • Jiawei, H., 2006. Cluster Analysis, Data Mining: Concepts and Techniques, 13, Elsevier Inc., U.S.A, 383-464.
  • Albayrak S., and Tekbir, M., 2010. Recursive-Partitioned DBSCAN, 3(11688290), 113 – 116. library, 978-1-4244-9672
  • Su, X. and Wang J., 2011. An improved k-ortalama clustering algorithm, IEEE digital library, 978-1-61284-485- 5(12229842), 44 – 46.
  • Foresti, G.L., Piciarelli, C., Micheloni, C., 2013. Çekirdek- based clustering, IET digital library, 19(42), 113-114.
  • Eswara Reddy, B., Hitendra Sarma, T., Viswanath, P., 2012. Speeding-up the çekirdek k-ortalama clustering method: A prototype based hybrid approach, SinceDirect, 34(5), 564- 573.
  • Eswara Reddy, B., Hitendra Sarma, T., Viswanath, P., 2012. A Fast Approximate Çekirdek k-ortalama Clustering Method For Large Data sets, IEEE digital library, 978-1-4244-9477 (11), 545-550.
  • Hirschberg J., and Rosenberg, A., 2007. V-Measure: A conditional entropy-based external cluster evaluation Measure, citeseer,410–420.

Comparison of partitioning-based clustering algorithms on differently distributed data

Yıl 2014, Cilt: 30 Sayı: 1, 56 - 62, 01.02.2014

Öz

As a result of widespread use of technology , large volumes of collected data began to emerge . It is impossible to discover and analyze any information in large data like this , so in this case data mining comes into play . Data mining is a process that discovers unpredictable and usable knowledge from databases. In other words, data mining is defined as the process of finding relation patterns, changes, deviations and trends, as well as interesting in formation specific structures from large databases. One of the widely used data mining methods is a method of clustering. Clustering divides the data set into different clusters, and it tries to make the likelihood ratio as minimum inside the cluster and a s maximum among other clusters depending on the options in the database. In this study, partitioning - based clustering methods are discussed by applying them on data sets with different distribution patterns. We used "k - means" and "kernel k - means" partition ing algorithms for clustering data sets. By applying clustering operations on differently distributed data sets, we compared the speed, clustering quality and the size of memory usage for these algorithms. The information that we gathered by this compariso n is presented and discussed in the related sections of this paper.

Kaynakça

  • Keselj, V. and Liu , H., 2007. Combined mining of Web server logs and web contents for classifying user navigation patterns and predicting users future requests, ScinceDirect digital library,61(2),304-330.
  • Dujovne, E., Huillier, G. and Vela´squez, D., 2007. Extracting significant Website Key Objects: A Semantic Web mining approach, ScinceDirect digital library, 24(8), 1532-1541.
  • Internet: Istanbul Üniversitesi “Veri Tabanlarında Bilgi Keşfi http://www.istanbul.edu.tr/isletme/dergi/nisan2000/1.HT M. Madenciliği”, 13.12.2012.
  • Bouveyron, C. and Brunet-Saumard, C., 2012. Model- based clustering of high-dimensional data: A review, Elsevier.
  • Isa, N.A.M, and Noraini Sulaiman, S., 2010. Adaptive Fuzzy- Clustering Algorithm for Image Segmentation, IEEE digital library, 56(4), 2661 – 2668.
  • Su, X. and Wang, J., 2011. An improved k-ortalama clustering algorithm, IEEE digital library, 12229842(978- 1-61284-485-5), 44-46.
  • Fan, A. and Ren, S., 2011. k-ortalama Clustering Algorithm Based On Coefficient Of Variation, IEEE digital library, 12439403(978-1-4244-9304-3), 2076 – 2079.
  • Chen, J., Li, D. and Shen, H., 2009. A Fast k-ortalama Clustering Algorithm Based on Grid Data Reduction, IEEE digital library, 9980042(1095-323X), 1 – 6.
  • Eswara Reddy, B., Viswanath , P. and Hitendra Sarma, T., 2012. A hybrid approach to speed-up the k-ortalama clustering method, Springer-Verlag , 4(2), 107-117.
  • Chang, D. and Xian, W., 2009. A genetic algorithm with gene rearrangement for k-ortalama clustering. Pattern Recognition, IEEE digital library, 42(7), 1210-1222.
  • Bagirov, A.M., Ugon, J. and Webb, D., 2011. Fast modified global k-ortalama algorithm for incremental cluster SinceDirect,36(2), 451-461. Pattern Recognition,
  • Binti, W., Herawan, T., Maseri, W., Mohd, A.H. and K.F.Rabbi, 2011. An Improved Parameter less Data Clustering Technique based on Maximum Distance of Data and Lioyd k-ortalama Algorithm, SinceDirect, 1, 367-371.
  • Jana Prasanta and K.,Reddy, D., 2012. Initialization for k- ortalama clustering using Voronoi diagram, Elsevier Ltd., 4, 395–400.
  • Brunsch, T., Röglin, H., 2012. A bad instance for k- ortalama++, in press, Elsevier.
  • Mozafari, B., Thakkar, H. and Zaniolo, C., 2008. A Data Stream Mining System, IEEE digital library, 978-0-7695- 3503-6 (10453400), 987 – 990.
  • Kaya, H. ve Köymen, K., 2008. Veri Madenciliği Kavramı Ve Uygulama Alanları, Maltepe ünüversitesi-istanbul.
  • Na, S., Xumin, L., and Yong, G., 2010. Research on k- ortalama Clustering Algorithm An Improved k-ortalama Clustering Algorithm, IEEE digital library, 978-1-4244- 6730-3(11261758), 63 – 67.
  • Jiawei, H., 2006. Cluster Analysis, Data Mining: Concepts and Techniques, 13, Elsevier Inc., U.S.A, 383-464.
  • Albayrak S., and Tekbir, M., 2010. Recursive-Partitioned DBSCAN, 3(11688290), 113 – 116. library, 978-1-4244-9672
  • Su, X. and Wang J., 2011. An improved k-ortalama clustering algorithm, IEEE digital library, 978-1-61284-485- 5(12229842), 44 – 46.
  • Foresti, G.L., Piciarelli, C., Micheloni, C., 2013. Çekirdek- based clustering, IET digital library, 19(42), 113-114.
  • Eswara Reddy, B., Hitendra Sarma, T., Viswanath, P., 2012. Speeding-up the çekirdek k-ortalama clustering method: A prototype based hybrid approach, SinceDirect, 34(5), 564- 573.
  • Eswara Reddy, B., Hitendra Sarma, T., Viswanath, P., 2012. A Fast Approximate Çekirdek k-ortalama Clustering Method For Large Data sets, IEEE digital library, 978-1-4244-9477 (11), 545-550.
  • Hirschberg J., and Rosenberg, A., 2007. V-Measure: A conditional entropy-based external cluster evaluation Measure, citeseer,410–420.
Toplam 24 adet kaynakça vardır.

Ayrıntılar

Diğer ID JA79PZ32TN
Bölüm Makaleler
Yazarlar

Hüssein Ridha Ali Alzand Bu kişi benim

Hacer Karacan Bu kişi benim

Yayımlanma Tarihi 1 Şubat 2014
Yayımlandığı Sayı Yıl 2014 Cilt: 30 Sayı: 1

Kaynak Göster

APA Alzand, H. R. A., & Karacan, H. (2014). Bölümleyici kümeleme algoritmalarının farklı veri yoğunluklarında karşılaştırılması. Erciyes Üniversitesi Fen Bilimleri Enstitüsü Fen Bilimleri Dergisi, 30(1), 56-62.
AMA Alzand HRA, Karacan H. Bölümleyici kümeleme algoritmalarının farklı veri yoğunluklarında karşılaştırılması. Erciyes Üniversitesi Fen Bilimleri Enstitüsü Fen Bilimleri Dergisi. Şubat 2014;30(1):56-62.
Chicago Alzand, Hüssein Ridha Ali, ve Hacer Karacan. “Bölümleyici kümeleme algoritmalarının Farklı Veri yoğunluklarında karşılaştırılması”. Erciyes Üniversitesi Fen Bilimleri Enstitüsü Fen Bilimleri Dergisi 30, sy. 1 (Şubat 2014): 56-62.
EndNote Alzand HRA, Karacan H (01 Şubat 2014) Bölümleyici kümeleme algoritmalarının farklı veri yoğunluklarında karşılaştırılması. Erciyes Üniversitesi Fen Bilimleri Enstitüsü Fen Bilimleri Dergisi 30 1 56–62.
IEEE H. R. A. Alzand ve H. Karacan, “Bölümleyici kümeleme algoritmalarının farklı veri yoğunluklarında karşılaştırılması”, Erciyes Üniversitesi Fen Bilimleri Enstitüsü Fen Bilimleri Dergisi, c. 30, sy. 1, ss. 56–62, 2014.
ISNAD Alzand, Hüssein Ridha Ali - Karacan, Hacer. “Bölümleyici kümeleme algoritmalarının Farklı Veri yoğunluklarında karşılaştırılması”. Erciyes Üniversitesi Fen Bilimleri Enstitüsü Fen Bilimleri Dergisi 30/1 (Şubat 2014), 56-62.
JAMA Alzand HRA, Karacan H. Bölümleyici kümeleme algoritmalarının farklı veri yoğunluklarında karşılaştırılması. Erciyes Üniversitesi Fen Bilimleri Enstitüsü Fen Bilimleri Dergisi. 2014;30:56–62.
MLA Alzand, Hüssein Ridha Ali ve Hacer Karacan. “Bölümleyici kümeleme algoritmalarının Farklı Veri yoğunluklarında karşılaştırılması”. Erciyes Üniversitesi Fen Bilimleri Enstitüsü Fen Bilimleri Dergisi, c. 30, sy. 1, 2014, ss. 56-62.
Vancouver Alzand HRA, Karacan H. Bölümleyici kümeleme algoritmalarının farklı veri yoğunluklarında karşılaştırılması. Erciyes Üniversitesi Fen Bilimleri Enstitüsü Fen Bilimleri Dergisi. 2014;30(1):56-62.

✯ Etik kurul izni gerektiren, tüm bilim dallarında yapılan araştırmalar için etik kurul onayı alınmış olmalı, bu onay makalede belirtilmeli ve belgelendirilmelidir.
✯ Etik kurul izni gerektiren araştırmalarda, izinle ilgili bilgilere (kurul adı, tarih ve sayı no) yöntem bölümünde, ayrıca makalenin ilk/son sayfalarından birinde; olgu sunumlarında, bilgilendirilmiş gönüllü olur/onam formunun imzalatıldığına dair bilgiye makalede yer verilmelidir.
✯ Dergi web sayfasında, makalelerde Araştırma ve Yayın Etiğine uyulduğuna dair ifadeye yer verilmelidir.
✯ Dergi web sayfasında, hakem, yazar ve editör için ayrı başlıklar altında etik kurallarla ilgili bilgi verilmelidir.
✯ Dergide ve/veya web sayfasında, ulusal ve uluslararası standartlara atıf yaparak, dergide ve/veya web sayfasında etik ilkeler ayrı başlık altında belirtilmelidir. Örneğin; dergilere gönderilen bilimsel yazılarda, ICMJE (International Committee of Medical Journal Editors) tavsiyeleri ile COPE (Committee on Publication Ethics)’un Editör ve Yazarlar için Uluslararası Standartları dikkate alınmalıdır.
✯ Kullanılan fikir ve sanat eserleri için telif hakları düzenlemelerine riayet edilmesi gerekmektedir.