Research Article
BibTex RIS Cite

Veri Madenciliğinde Kullanılan Kümeleme Algoritmalarının Karşılaştırılması Üzerine Bir İnceleme

Year 2019, , 1671 - 1685, 31.07.2019
https://doi.org/10.29130/dubited.551531

Abstract

Günümüz dünyasında veri
madenciliği, yaşanan olayların anlaşılabilmesi, yorumlanabilmesi ve geleceğe
dair tahminlerin yapılabilmesi için büyük önem arz etmektedir. Bu nedenle,
istatistik teknikleri her geçen gün değişmekte ve yenilenmektedir. Özellikle, günümüzde
büyük verilerin anlaşılabilmesi amacıyla makine öğrenme teknikleri sıklıkla
kullanılmaktadır. Bu çalışmada, literatürde yoğun olarak kullanılan k-ortalama
kümeleme algoritması çeşitlerinden klasik, bulanık ve torbalı k-ortalamalar
yöntemlerinin kümeleme performanslarının karşılaştırılması amaçlanmaktadır. Bu
doğrultuda veri setine ulaşılabilen 132 ülke beşeri sermaye özellikleri
doğrultusunda kümelenmiştir. Çalışmanın sonucunda, torbalı küme algoritmasının
zaman açısından diğerlerinden daha yavaş olduğu ancak daha başarılı kümeleme
yaptığı bulgusuna ulaşılmıştır. Benzer şekilde, bulanık k-ortalama
algoritmasının klasik k-ortalamalara göre daha başarılı olduğu görülmüştür.

References

  • [1] Koyuncugil, A.,ve Özgülbaş, N. “Veri madenciliği: Tıp ve sağlık hizmetlerinde kullanımı ve uygulamaları,” Bilişim Teknolojileri Dergisi, c.2, s.2, ss. 21-33, 2009.
  • [2] Dudoit, S., & Fridlyand, J. “A Prediction-Based Resampling Method For Estimating The Number Of Clusters in a Dataset,” Genome biology, Vol. 3, No. 7, 2002
  • [3] MacQueen, “Some methods for classification and analysis of multivariate observations,” The fifth Berkeley symposium on mathematical statistics and probability, vol.1, no. 14, pp. 281-29, 1967.
  • [4] Topchy, A., Minaei-Bidgoli, B., Jain, A. K., & Punch, W. F. “Adaptive clustering ensembles,” In Proceedings of the 17th International Conference on Pattern Recognition, vol. 1, pp. 272-275, 2004
  • [5] Dunn, J. C. “A fuzzy relative of the ISODATA process and its use in detecting compact, well-separated clusters,” Journal of Cybernet, vol. 3, no. 3, pp. 32–57, 1974
  • [6] Leisch, F., and Hornik, K. (1999). “Stabilization of k-means with bagged clustering,” Joint Statistical Meetings, Statistical Computing Section, pp. 174-179, 1999
  • [7] Abbas O. “Comparisons Between Data Clustering Algorithms,” The International Arab Journal of Information Technology, vol. 5 no.3 ss.320-235, 2008
  • [8] Sarıman G. “Veri Madenciliğinde Kümeleme Teknikleri Üzerine Bir Çalışma: K-Means ve K-Medoid Kümeleme Algoritmalarının Karşılaştırılması,” Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü Dergisi, c.15, s.3, ss.192-202, 2011
  • [9] Greene, D., Tsymbal, A., Bolshakova, N. and Cunningham, P. “Ensemble clustering in medical diagnostics,” 17th IEEE Symposium on Computer-Based Medical Systems, Jyväskylä, Finland, pp. 576-581, 2004
  • [10] Graff Zivin, J., Hsiang, S. M., and Neidell, M. “ Temperature and human capital in the short and long run,” Journal of the Association of Environmental and Resource Economists, vol. 5, no.1, 77-10, 2018
  • [11] Wang, T. and Zatzick, C. D. “Human Capital Acquisition and Organizational Innovation: A Temporal Perspective,” Academy of Management Journal, vol.62, no.1, pp.99-116, 2019
  • [12] Weller, I., Hymer, C. B., Nyberg, A. J. and Ebert, J. “How matching creates value: Cogs and wheels for human capital resources research,” Academy of Management Annals, vol.13, no.1, pp.188-214, 2019
  • [13] Liu, X., Zhu, X., Li, M., Wang, L., Zhu, E., Liu, T., ... and Gao, W.”Multiple kernel k-means with incomplete kernels,” Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence IEEE transactions on pattern analysis and machine intelligence, USA, 2019
  • [14] Tunalı D. ve Aytekin D. “Türkiye Dış Ticaretinin Kümeleme Analizi ile İncelenmesi” Eskişehir Osmangazi Üniversitesi İİBF Dergisi, c. 12, s.3, ss:103-116, 2017
  • [15] Wang, P., Shi, H., Yang, X. and Mi, J. “Three-way k-means: integrating k-means and three-way decision”. International Journal of Machine Learning and Cybernetics, pp.1-11, DOI: https://doi.org/10.1007/s13042-018-0901-y, 2019
  • [16] Ünal Y. Ekim U.ve Köklü M. “Üniversite Öğrencilerin Ortak Zorunlu Derslerdeki Başarılarının K-Means Algoritması ile İncelenmesi,” e-Journal of New World Sciences Academy, c.6, s.1, ss.342-347, 2011
  • [17] Kangallı, S. G., Uyar, U. ve Buyrukoğlu, S. “OECD Ülkelerinde Ekonomik Özgürlük: Bir Kümeleme Analizi,” Journal of Alanya Faculty of Business/Alanya İşletme Fakültesi Dergisi, c. 6, s.3, ss. 95-109, 2014
  • [18] Yılancı V. “Bulanık Kümeleme Analizi İle Türkiye’deki İllerin Sosyoekonomik Açıdan Sınıflandırılması” Süleyman Demirel Üniversitesi İİBF Dergisi, c.15, s.3, ss. 453-470, 2010
  • [19] Giray, S. “Ülkelerin Turizm İstatistikleri Bakımından Farklı Kümeleme Analizi Metotları ile Sınıflandırılması ve Türkiye’nin Bu Oluşumdaki Yeri,” International Conference on Eurasian Economies, pp. 17-18, 2013 [20] Kılıç, İ., Lenger, Ö.F. ve Bozkurt, Z., “Bulanık Kümeleme Analizi ile Türkiye’deki İllerin Hayvancılık İstatistikleri Bakımından Sınıflandırılması,” Kocatepe Veteriner Dergisi, c. 5, s.1,ss.21-28, 2012
  • [21] Sönmez, H., Er, F., “Türkiye’ de İllere Göre İç Göç Hareketlerinin Modern Kümeleme Teknikleri ile İncelenmesi,” Eskişehir Osmangazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi, c.20, s.1, ss.141-160, 2012
  • [22] Şahin, M., Hamarat, B., “G10-Avrupa Birliği ve OECD Ülkelerinin Sosyoekonomik Benzerliklerinin Fuzzy Kümeleme Analizi ile Belirlenmesi,” ODTÜ Uluslararası Ekonomi Kongresi, c.6, ss.11-14, 2002
  • [23] Yıldız, Z., “Banka Müşterilerinin Demografik ve Sosyo-Ekonomik Özellikler Bakımından Gruplandırılmasında Kümeleme Çözümlemesi ve Bir Uygulama” Yüksek lisans tezi, Anadolu Üniversitesi, Türkiye, 2002
  • [24] Prayag G. Disegna M., Cohen S. A., Yan H., “Segmenting markets by bagged clustering: Young Chinese travelers to Western Europe, Journal of Travel Research, Vol.54, no.2, pp.234-250, 2015
  • [25] D’Urso, P., De Giovanni, L., Disegna, M., and Massari, R. “ Bagged clustering and its application to tourism market segmentation”. Expert Systems with Applications, Vol.12, pp.4944-4956, 2013
  • [26] Kılıç, I., and Özbeyaz, C. “Classification of Karayaka and Bafra (Chios x Karayaka B1) sheep according to body measurements by different clustering methods”. Ankara Üniv. Vet. Fak. Derg, Vol.58, pp.203-208, 2011
  • [27] Cebezi Z., Yıldız F., Kayaalp T., “K-Ortalamalar Kümelemesinde Optimum K Değeri Seçilmesi” 2.Ulusal Yönetim Bilişim Sistemleri Kongresi, Erzurum, Bildiriler Kitabı, ss:231-242, 2015.
Year 2019, , 1671 - 1685, 31.07.2019
https://doi.org/10.29130/dubited.551531

Abstract

References

  • [1] Koyuncugil, A.,ve Özgülbaş, N. “Veri madenciliği: Tıp ve sağlık hizmetlerinde kullanımı ve uygulamaları,” Bilişim Teknolojileri Dergisi, c.2, s.2, ss. 21-33, 2009.
  • [2] Dudoit, S., & Fridlyand, J. “A Prediction-Based Resampling Method For Estimating The Number Of Clusters in a Dataset,” Genome biology, Vol. 3, No. 7, 2002
  • [3] MacQueen, “Some methods for classification and analysis of multivariate observations,” The fifth Berkeley symposium on mathematical statistics and probability, vol.1, no. 14, pp. 281-29, 1967.
  • [4] Topchy, A., Minaei-Bidgoli, B., Jain, A. K., & Punch, W. F. “Adaptive clustering ensembles,” In Proceedings of the 17th International Conference on Pattern Recognition, vol. 1, pp. 272-275, 2004
  • [5] Dunn, J. C. “A fuzzy relative of the ISODATA process and its use in detecting compact, well-separated clusters,” Journal of Cybernet, vol. 3, no. 3, pp. 32–57, 1974
  • [6] Leisch, F., and Hornik, K. (1999). “Stabilization of k-means with bagged clustering,” Joint Statistical Meetings, Statistical Computing Section, pp. 174-179, 1999
  • [7] Abbas O. “Comparisons Between Data Clustering Algorithms,” The International Arab Journal of Information Technology, vol. 5 no.3 ss.320-235, 2008
  • [8] Sarıman G. “Veri Madenciliğinde Kümeleme Teknikleri Üzerine Bir Çalışma: K-Means ve K-Medoid Kümeleme Algoritmalarının Karşılaştırılması,” Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü Dergisi, c.15, s.3, ss.192-202, 2011
  • [9] Greene, D., Tsymbal, A., Bolshakova, N. and Cunningham, P. “Ensemble clustering in medical diagnostics,” 17th IEEE Symposium on Computer-Based Medical Systems, Jyväskylä, Finland, pp. 576-581, 2004
  • [10] Graff Zivin, J., Hsiang, S. M., and Neidell, M. “ Temperature and human capital in the short and long run,” Journal of the Association of Environmental and Resource Economists, vol. 5, no.1, 77-10, 2018
  • [11] Wang, T. and Zatzick, C. D. “Human Capital Acquisition and Organizational Innovation: A Temporal Perspective,” Academy of Management Journal, vol.62, no.1, pp.99-116, 2019
  • [12] Weller, I., Hymer, C. B., Nyberg, A. J. and Ebert, J. “How matching creates value: Cogs and wheels for human capital resources research,” Academy of Management Annals, vol.13, no.1, pp.188-214, 2019
  • [13] Liu, X., Zhu, X., Li, M., Wang, L., Zhu, E., Liu, T., ... and Gao, W.”Multiple kernel k-means with incomplete kernels,” Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence IEEE transactions on pattern analysis and machine intelligence, USA, 2019
  • [14] Tunalı D. ve Aytekin D. “Türkiye Dış Ticaretinin Kümeleme Analizi ile İncelenmesi” Eskişehir Osmangazi Üniversitesi İİBF Dergisi, c. 12, s.3, ss:103-116, 2017
  • [15] Wang, P., Shi, H., Yang, X. and Mi, J. “Three-way k-means: integrating k-means and three-way decision”. International Journal of Machine Learning and Cybernetics, pp.1-11, DOI: https://doi.org/10.1007/s13042-018-0901-y, 2019
  • [16] Ünal Y. Ekim U.ve Köklü M. “Üniversite Öğrencilerin Ortak Zorunlu Derslerdeki Başarılarının K-Means Algoritması ile İncelenmesi,” e-Journal of New World Sciences Academy, c.6, s.1, ss.342-347, 2011
  • [17] Kangallı, S. G., Uyar, U. ve Buyrukoğlu, S. “OECD Ülkelerinde Ekonomik Özgürlük: Bir Kümeleme Analizi,” Journal of Alanya Faculty of Business/Alanya İşletme Fakültesi Dergisi, c. 6, s.3, ss. 95-109, 2014
  • [18] Yılancı V. “Bulanık Kümeleme Analizi İle Türkiye’deki İllerin Sosyoekonomik Açıdan Sınıflandırılması” Süleyman Demirel Üniversitesi İİBF Dergisi, c.15, s.3, ss. 453-470, 2010
  • [19] Giray, S. “Ülkelerin Turizm İstatistikleri Bakımından Farklı Kümeleme Analizi Metotları ile Sınıflandırılması ve Türkiye’nin Bu Oluşumdaki Yeri,” International Conference on Eurasian Economies, pp. 17-18, 2013 [20] Kılıç, İ., Lenger, Ö.F. ve Bozkurt, Z., “Bulanık Kümeleme Analizi ile Türkiye’deki İllerin Hayvancılık İstatistikleri Bakımından Sınıflandırılması,” Kocatepe Veteriner Dergisi, c. 5, s.1,ss.21-28, 2012
  • [21] Sönmez, H., Er, F., “Türkiye’ de İllere Göre İç Göç Hareketlerinin Modern Kümeleme Teknikleri ile İncelenmesi,” Eskişehir Osmangazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi, c.20, s.1, ss.141-160, 2012
  • [22] Şahin, M., Hamarat, B., “G10-Avrupa Birliği ve OECD Ülkelerinin Sosyoekonomik Benzerliklerinin Fuzzy Kümeleme Analizi ile Belirlenmesi,” ODTÜ Uluslararası Ekonomi Kongresi, c.6, ss.11-14, 2002
  • [23] Yıldız, Z., “Banka Müşterilerinin Demografik ve Sosyo-Ekonomik Özellikler Bakımından Gruplandırılmasında Kümeleme Çözümlemesi ve Bir Uygulama” Yüksek lisans tezi, Anadolu Üniversitesi, Türkiye, 2002
  • [24] Prayag G. Disegna M., Cohen S. A., Yan H., “Segmenting markets by bagged clustering: Young Chinese travelers to Western Europe, Journal of Travel Research, Vol.54, no.2, pp.234-250, 2015
  • [25] D’Urso, P., De Giovanni, L., Disegna, M., and Massari, R. “ Bagged clustering and its application to tourism market segmentation”. Expert Systems with Applications, Vol.12, pp.4944-4956, 2013
  • [26] Kılıç, I., and Özbeyaz, C. “Classification of Karayaka and Bafra (Chios x Karayaka B1) sheep according to body measurements by different clustering methods”. Ankara Üniv. Vet. Fak. Derg, Vol.58, pp.203-208, 2011
  • [27] Cebezi Z., Yıldız F., Kayaalp T., “K-Ortalamalar Kümelemesinde Optimum K Değeri Seçilmesi” 2.Ulusal Yönetim Bilişim Sistemleri Kongresi, Erzurum, Bildiriler Kitabı, ss:231-242, 2015.
There are 26 citations in total.

Details

Primary Language Turkish
Subjects Engineering
Journal Section Articles
Authors

Ömer Faruk Rençber 0000-0001-8020-2750

Publication Date July 31, 2019
Published in Issue Year 2019

Cite

APA Rençber, Ö. F. (2019). Veri Madenciliğinde Kullanılan Kümeleme Algoritmalarının Karşılaştırılması Üzerine Bir İnceleme. Duzce University Journal of Science and Technology, 7(3), 1671-1685. https://doi.org/10.29130/dubited.551531
AMA Rençber ÖF. Veri Madenciliğinde Kullanılan Kümeleme Algoritmalarının Karşılaştırılması Üzerine Bir İnceleme. DÜBİTED. July 2019;7(3):1671-1685. doi:10.29130/dubited.551531
Chicago Rençber, Ömer Faruk. “Veri Madenciliğinde Kullanılan Kümeleme Algoritmalarının Karşılaştırılması Üzerine Bir İnceleme”. Duzce University Journal of Science and Technology 7, no. 3 (July 2019): 1671-85. https://doi.org/10.29130/dubited.551531.
EndNote Rençber ÖF (July 1, 2019) Veri Madenciliğinde Kullanılan Kümeleme Algoritmalarının Karşılaştırılması Üzerine Bir İnceleme. Duzce University Journal of Science and Technology 7 3 1671–1685.
IEEE Ö. F. Rençber, “Veri Madenciliğinde Kullanılan Kümeleme Algoritmalarının Karşılaştırılması Üzerine Bir İnceleme”, DÜBİTED, vol. 7, no. 3, pp. 1671–1685, 2019, doi: 10.29130/dubited.551531.
ISNAD Rençber, Ömer Faruk. “Veri Madenciliğinde Kullanılan Kümeleme Algoritmalarının Karşılaştırılması Üzerine Bir İnceleme”. Duzce University Journal of Science and Technology 7/3 (July 2019), 1671-1685. https://doi.org/10.29130/dubited.551531.
JAMA Rençber ÖF. Veri Madenciliğinde Kullanılan Kümeleme Algoritmalarının Karşılaştırılması Üzerine Bir İnceleme. DÜBİTED. 2019;7:1671–1685.
MLA Rençber, Ömer Faruk. “Veri Madenciliğinde Kullanılan Kümeleme Algoritmalarının Karşılaştırılması Üzerine Bir İnceleme”. Duzce University Journal of Science and Technology, vol. 7, no. 3, 2019, pp. 1671-85, doi:10.29130/dubited.551531.
Vancouver Rençber ÖF. Veri Madenciliğinde Kullanılan Kümeleme Algoritmalarının Karşılaştırılması Üzerine Bir İnceleme. DÜBİTED. 2019;7(3):1671-85.