R Programlama Dili ile Kümeleme Analizi

Cem Gürler

doi:10.18037/ausbd.1227364

Araştırma Makalesi

R Programlama Dili ile Kümeleme Analizi

Yıl 2022, Cilt: 22 Sayı: Özel Sayı 2, 341 - 366, 31.12.2022

Cem Gürler

https://doi.org/10.18037/ausbd.1227364

Cited By: 2

Öz

Kümeleme analizi sıklıkla kullanılan, temelde, birbirine benzeyen gözlemleri bir araya gruplamayı amaçlayan çok değişkenli bir istatistik yöntemidir. Kümeleme analizi, hiyerarşik ve hiyerarşik olmayan algoritmalar şeklinde iki ana başlık altında toplanabilir. Bu iki başlık arasındaki farklardan biri, hiyerarşik olmayan algoritmaların, analiz öncesinde küme sayısına ihtiyaç duymasıdır. Ayrıca, hiyerarşik algoritmalarla oluşan küme üyelikleri nihaidir ve değişmezler. Hiyerarşik olmayan algoritmalarda ise, küme üyelikleri, sabit kalana kadar değişmektedir. İstatistiksel yöntemlerde, özellikle son yıllarda açık kaynak kodlu programların ve programlama dillerinin kullanımı yaygınlaşmıştır. Mevcut çalışmada, R programlama dili kullanılarak, hiyerarşik ve hiyerarşik olmayan kümeleme algoritmalarına yönelik uygulamaların gösterilmesi amaçlanmıştır. Ayrıca, kümeleme analizi öncesinde küme sayısının nasıl belirlenebileceği de R programlamayla gösterilmiştir. Küme sayısının belirlenmesi için literatürde sıklıkla kullanılan Elbow, ortalama Silhouette ve GAP istatistiği yöntemleri kullanılmıştır. Çalışmada analizler için factoextra() ve cluster() paketleri kullanılmıştır. Ayrıca çalışmada kullanılan kodların ve görsellerin gösterimi RMarkdown’da üretilmiştir. Kümeleme sonuçlarının nasıl yorumlandığının gösterimi için k-ortalamalar sonucunda oluşan kümeler yorumlanmıştır.

Anahtar Kelimeler

Hiyerarşik Kümeleme , Hiyerarşik Olmayan Kümeleme , K-Ortalamalar , R Programlama

Kaynakça

Arora, P., Deepali, D. ve Varshney, S. (2016). Analysis of k-means and k-medoids algorithm for big data. Procedia Computer Science, 78, 507-512. doi: 10.1016/j.procs.2016.02.095
Berry, M. J. ve Linoff, G. S. (2004). Data mining techniques: for marketing, sales, and customer relationship management. New York: John Wiley & Sons.
Bholowalia, P.ve Kumar, A. (2014). EBK-means: A clustering technique based on elbow method and k-means in WSN. International Journal of Computer Applications, 105(9), 17-24. Erişim adresi: https://research.ijcaonline.org/volume105/number9/pxc3899674.pdf
Brock, G., Pihur, V., Datta, S. ve Datta, S. (2008). clValid: An R package for cluster validation. Journal of Statistical Software, 25, 1-22. Erişim adresi: https://www.jstatsoft.org/article/view/v025i04
Celebi, M. E., Kingravi, H. A. ve Vela, P. A. (2013). A comparative study of efficient initialization methods for the k-means clustering algorithm. Expert systems with applications, 40(1), 200-210. doi:10.1016/j.eswa.2012.07.021
Cohen-Addad, V., Kanade, V., Mallmann-Trenn, F. ve Mathieu, C. (2019). Hierarchical clustering: Objective functions and algorithms. Journal of the ACM (JACM), 66(4), 1-42. doi:10.1145/3321386
Day, W. H. ve Edelsbrunner, H. (1984). Efficient algorithms for agglomerative hierarchical clustering methods. Journal of classification, 1(1), 7-24. Erişim adresi: https://link.springer.com/article/10.1007/bf01890115
Dehariya, V. K., Shrivastava, S. K.ve Jain, R. C. (2010, November). Clustering of image data set using k-means and fuzzy k-means algorithms. In 2010 International conference on computational intelligence and communication networks (pp. 386-391). IEEE. doi: 10.1109/CICN.2010.80
Everitt, B. S., Landau, S., Leese, M. ve Stahl, D. (2011). Cluster Analysis (5th edition). Chichester, UK: John Wiley & Sons.
Hair, J. F. ve Black, W. C. (2000). Cluster Analysis. L. G. Grimm & P. R. Yarnold (Eds.), In Reading and understanding MORE multivariate statistics. (pp. 147–206). American Psychological Association. Erişim adresi: https://psycnet.apa.org/record/2000-00427-000
Hair, J. F., Black, W. C., Babin, B. J. ve Anderson, R. E. (2010). Multivariate data analysis (Vol. 7). London: Pearson.
Han, J., Pei, J. ve Kamber, M. (2011). Data mining: concepts and techniques. Elsevier.
Kassambara, A. ve Mundt, F. (2017). Package ‘factoextra’. Extract and visualize the results of multivariate data analyses, [Veri seti ve kodlama çizelgesi]. Erişim adresi: https://cran.microsoft.com/snapshot/2016-11-30/web/packages/factoextra/factoextra.pdf
Kaufman, L. ve Rousseeuw, P. J. (2009). Finding groups in data: an introduction to cluster analysis. New York: John Wiley & Sons.
Maechler, M., Rousseeuw, P., Struyf, A., Hubert, M., Hornik, K. ve Studer, M. (2013). Package ‘cluster’. [Veri seti ve kodlama çizelgesi]. Erişim adresi: https://cran.microsoft.com/snapshot/2014-10-10/web/packages/cluster/cluster.pdf
Milligan, G. W. ve Cooper, M. C. (1987). Methodology review: Clustering methods. Applied psychological measurement, 11(4), 329-354. doi: 10.1177/014662168701100401
Milligan, G. W. ve Cooper, M. C. (1988). A study of standardization of variables in cluster analysis. Journal of classification, 5(2), 181-204. Erişim adresi: https://link.springer.com/article/10.1007/BF01897163
Mohamad, I. B.ve Usman, D. (2013). Standardization and its effects on K-means clustering algorithm. Research Journal of Applied Sciences, Engineering and Technology, 6(17), 3299-3303. doi: 10.19026/rjaset.6.3638
Nanjundan, S., Sankaran, S., Arjun, C. R. ve Anand, G. P. (basım aşamasında). Identifying the number of clusters for K-Means: A hypersphere density based approach. arXiv preprint arXiv:1912.00643. doi: 10.48550/arXiv.1912.00643
Önder, E. (2020). Sağlıkta gelişmekte olan teknolojiler yapay zekâ & R programlama dili ile makine öğrenimi uygulamaları. Bursa: Dora Yayınevi.
Park, H. S. ve Jun, C. H. (2009). A simple and fast algorithm for K-medoids clustering. Expert systems with applications, 36(2), 3336-3341. doi: 10.1016/j.eswa.2008.01.039
Wu, J. D., Milton, D. K., Hammond, S. K. ve Spear, R. C. (1999). Hierarchical cluster analysis applied to workers exposures in fiberglass insulation manufacturing. Annals of Occupational Hygiene, 43(1), 43-55. doi: 10.1093/annhyg/43.1.43
Žalik, K. R. (2008). An efficient k′-means clustering algorithm. Pattern Recognition Letters, 29(9), 1385-1391. doi: 10.1016/j.patrec.2008.02.014

Yıl 2022, Cilt: 22 Sayı: Özel Sayı 2, 341 - 366, 31.12.2022

Cem Gürler

https://doi.org/10.18037/ausbd.1227364

Cited By: 2

Öz

Anahtar Kelimeler

Hiyerarşik Kümeleme , Hiyerarşik Olmayan Kümeleme , K-Ortalamalar , R Programlama

Kaynakça

Arora, P., Deepali, D. ve Varshney, S. (2016). Analysis of k-means and k-medoids algorithm for big data. Procedia Computer Science, 78, 507-512. doi: 10.1016/j.procs.2016.02.095
Berry, M. J. ve Linoff, G. S. (2004). Data mining techniques: for marketing, sales, and customer relationship management. New York: John Wiley & Sons.
Bholowalia, P.ve Kumar, A. (2014). EBK-means: A clustering technique based on elbow method and k-means in WSN. International Journal of Computer Applications, 105(9), 17-24. Erişim adresi: https://research.ijcaonline.org/volume105/number9/pxc3899674.pdf
Brock, G., Pihur, V., Datta, S. ve Datta, S. (2008). clValid: An R package for cluster validation. Journal of Statistical Software, 25, 1-22. Erişim adresi: https://www.jstatsoft.org/article/view/v025i04
Celebi, M. E., Kingravi, H. A. ve Vela, P. A. (2013). A comparative study of efficient initialization methods for the k-means clustering algorithm. Expert systems with applications, 40(1), 200-210. doi:10.1016/j.eswa.2012.07.021
Cohen-Addad, V., Kanade, V., Mallmann-Trenn, F. ve Mathieu, C. (2019). Hierarchical clustering: Objective functions and algorithms. Journal of the ACM (JACM), 66(4), 1-42. doi:10.1145/3321386
Day, W. H. ve Edelsbrunner, H. (1984). Efficient algorithms for agglomerative hierarchical clustering methods. Journal of classification, 1(1), 7-24. Erişim adresi: https://link.springer.com/article/10.1007/bf01890115
Dehariya, V. K., Shrivastava, S. K.ve Jain, R. C. (2010, November). Clustering of image data set using k-means and fuzzy k-means algorithms. In 2010 International conference on computational intelligence and communication networks (pp. 386-391). IEEE. doi: 10.1109/CICN.2010.80
Everitt, B. S., Landau, S., Leese, M. ve Stahl, D. (2011). Cluster Analysis (5th edition). Chichester, UK: John Wiley & Sons.
Hair, J. F. ve Black, W. C. (2000). Cluster Analysis. L. G. Grimm & P. R. Yarnold (Eds.), In Reading and understanding MORE multivariate statistics. (pp. 147–206). American Psychological Association. Erişim adresi: https://psycnet.apa.org/record/2000-00427-000
Hair, J. F., Black, W. C., Babin, B. J. ve Anderson, R. E. (2010). Multivariate data analysis (Vol. 7). London: Pearson.
Han, J., Pei, J. ve Kamber, M. (2011). Data mining: concepts and techniques. Elsevier.
Kassambara, A. ve Mundt, F. (2017). Package ‘factoextra’. Extract and visualize the results of multivariate data analyses, [Veri seti ve kodlama çizelgesi]. Erişim adresi: https://cran.microsoft.com/snapshot/2016-11-30/web/packages/factoextra/factoextra.pdf
Kaufman, L. ve Rousseeuw, P. J. (2009). Finding groups in data: an introduction to cluster analysis. New York: John Wiley & Sons.
Maechler, M., Rousseeuw, P., Struyf, A., Hubert, M., Hornik, K. ve Studer, M. (2013). Package ‘cluster’. [Veri seti ve kodlama çizelgesi]. Erişim adresi: https://cran.microsoft.com/snapshot/2014-10-10/web/packages/cluster/cluster.pdf
Milligan, G. W. ve Cooper, M. C. (1987). Methodology review: Clustering methods. Applied psychological measurement, 11(4), 329-354. doi: 10.1177/014662168701100401
Milligan, G. W. ve Cooper, M. C. (1988). A study of standardization of variables in cluster analysis. Journal of classification, 5(2), 181-204. Erişim adresi: https://link.springer.com/article/10.1007/BF01897163
Mohamad, I. B.ve Usman, D. (2013). Standardization and its effects on K-means clustering algorithm. Research Journal of Applied Sciences, Engineering and Technology, 6(17), 3299-3303. doi: 10.19026/rjaset.6.3638
Nanjundan, S., Sankaran, S., Arjun, C. R. ve Anand, G. P. (basım aşamasında). Identifying the number of clusters for K-Means: A hypersphere density based approach. arXiv preprint arXiv:1912.00643. doi: 10.48550/arXiv.1912.00643
Önder, E. (2020). Sağlıkta gelişmekte olan teknolojiler yapay zekâ & R programlama dili ile makine öğrenimi uygulamaları. Bursa: Dora Yayınevi.
Park, H. S. ve Jun, C. H. (2009). A simple and fast algorithm for K-medoids clustering. Expert systems with applications, 36(2), 3336-3341. doi: 10.1016/j.eswa.2008.01.039
Wu, J. D., Milton, D. K., Hammond, S. K. ve Spear, R. C. (1999). Hierarchical cluster analysis applied to workers exposures in fiberglass insulation manufacturing. Annals of Occupational Hygiene, 43(1), 43-55. doi: 10.1093/annhyg/43.1.43
Žalik, K. R. (2008). An efficient k′-means clustering algorithm. Pattern Recognition Letters, 29(9), 1385-1391. doi: 10.1016/j.patrec.2008.02.014

Toplam 23 adet kaynakça vardır.

Ayrıntılar

Birincil Dil	Türkçe
Bölüm	Makaleler
Yazarlar	Cem Gürler
Yayımlanma Tarihi	31 Aralık 2022
Gönderilme Tarihi	12 Kasım 2022
Yayımlandığı Sayı	Yıl 2022 Cilt: 22 Sayı: Özel Sayı 2

Kaynak Göster

APA	Gürler, C. (2022). R Programlama Dili ile Kümeleme Analizi. Anadolu Üniversitesi Sosyal Bilimler Dergisi, 22(Özel Sayı 2), 341-366. https://doi.org/10.18037/ausbd.1227364

Cited By

Jamovi'de Kümeleme Analizi ve Sınıftaki Gruplar

Araştırma ve Deneyim Dergisi

https://doi.org/10.47214/adeder.1569973

Análisis exploratorio de la heterogeneidad del desempleo en el Departamento de Antioquia, Colombia

Sociedad y Economía

https://doi.org/10.25100/sye.v0i53.13008

Kapak Resmi İndir

Makale Dosyaları

Tam Metin

20750

Bu eser Creative Commons Atıf-GayriTicari 4.0 Uluslararası Lisansı ile lisanslanmıştır.