Research Article
BibTex RIS Cite

Büyük Veride Hiyerarşik Kümeleme Yöntemlerinin Kofenetik Korelasyon Katsayısı ile Karşılaştırılması

Year 2022, Volume: 22 Issue: 3, 552 - 559, 30.06.2022
https://doi.org/10.35414/akufemubid.1018302

Abstract

Bu çalışmanın amacı büyük veri söz konusu olduğunda hiyerarşik kümeleme yöntemlerini Kofenetik korelasyon katsayı ise karşılaştırmaktır. Bu amaçla büyük veri, kümeleme yöntemleri ve Kofenetik korelasyon katsayısı hakkında bilgiler verildikten sonra ele alınan veri seti için analizler gerçekleştirilmiştir. Çalışmanın uygulama kısmında kullanılan ve büyük veri olarak ABD ulaştırma bakanlığı tarafından yayınlanan 2015 yılı hava seyahat tüketici raporu kullanılmıştır. Veri analizi için açık kaynaklı büyük veri teknolojilerini içeren Amazon bulut sunucusuna kurulan Python programlama diline ait kütüphanelerden yararlanılmıştır. Çalışmada büyük veri söz konusu olduğundan, zamandan ve maliyetten tasarruf amacıyla çalışmada kullanılan değişkenler ilk olarak özellik seçimi yöntemi ile indirgenmiş, standardize edilmiş ve nihai 4 farklı veri seti üzerinden çözümlemeye gidilmiştir. Kümeleme analiz sonucunda bu dört farklı veri setinin tamamı için en yüksek Kofenetik korelasyon katsayısının ortalama bağlantı kümeleme yöntemi ile elde edildiği gözlemlenmiştir.

References

  • Backer, E., 1995. Computer-Assisted Reasoning in Cluster Analysis. Prentice Hall, Hertfordshire, 214.
  • Budak, H., 2018. Özellik Seçim Yöntemleri ve Yeni Bir Yaklaşım: Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü Dergisi, 22, 21-31.
  • Carvalho, P.R., Munita, C.S. and Lapolli, A.L., 2019. Validity Studies Among Hierarchical Methods of Cluster Analysis Using Cophenetic Correlation Coefficient. Brazilian Journal of Radiation Sciences, 7, 1-14.
  • Çelik, S., 2017. Büyük Veri Teknolojilerinin İşletmeler İçin Önemi. Social Sciences Studies Journal, 3(6), 873-883.
  • Demirtaş, B. and Argan, M., 2018. Büyük Veri ve Pazarlamadaki Dönüşüm: Kuramsal Bir Yaklaşım. Pazarlama ve Pazarlama Araştırmaları Dergisi, 8(15), 1-21.
  • Emhan, Ö. and Akın, M., 2019. Filtreleme Tabanlı Öz Nitelik Seçme Yöntemlerinin Anomali Tabanlı Ağ Saldırısı Tespit Sistemlerine Etkisi. Dicle Üniversitesi Mühendislik Fakültesi Mühendislik Dergisi, 10(2), 549-559.
  • Everitt, B.S., Landau, S., Leese, M. and Stahl, D., 2011. Cluster analysis. London: Edward, 73-169.
  • Florek, K., Lukaszewıez, L. and Perkal, L., 1951. Sur la liaison et la division des points d’un ensemble fini. Colloquium Mathematicum, 2, 282-285.
  • Gazeloğlu, C., 2020. Prediction of heart disease by classifying with feature selection and machine learning methods. Progress in Nutrition, 22(2), 660-670.
  • Guyon, I. and Elisseeff, A., 2003. An Introduction to Variable and Feature Selection. The Journal of Machine Learning Research, 3, 1157-1182.
  • Johnson, S.C., 1967. Hierarchical clustering schemes. Psychometrika, 32, 241–254.
  • Kazaz N.M.E., 2019. Veri Madenciliğinde Kümeleme Analizi Yöntemlerinin İncelenmesi Ve Sağlik Bilimleri Alanindaki Uygulamalari. Yüksek Lisans Tezi, İstanbul Ünversitesi, Sağlık Bilimleri Enstitüsü, İstanbul, 45.
  • Kokkinos, P., Varvarigou, T.A., Kretsis, A., Soumplis, P. and Varvarigos, E.A., 2015. SuMo: Analysis and Optimization of Amazon EC2 Instances. J Grid Computing, 13, 255-274.
  • Kumar, C. and Toshniwal, D., 2016. Analysis Of Hourly Road Accident Counts Using Hierarchical Clustering and Cophenetic Correlation Coefficient (CPCC). Journal Big Data, 3(13), 2–11.
  • Mardia, K.V., Kent, J.T. and Bibby, J. M., 1989. Multivariate Analysis. London: Academic Press, 385.
  • Murtagh, F. and Contreras, P., 2012. Methods of Hierarchical Clustering, Data Mining and Knowledge Discovery. Wiley-Interscience, 2(1), 86-97.
  • Ponde, P., Shirwaikar, S. and Gore, S., 2016. Hierarchical Cluster Analysis on Security Design Patterns. Association for Computing Machinery, 92, 1-6.
  • Rong, M., Gong, D. and Gao, X., 2019. Feature Selection and its Use in Big Data: Challenges, Methods, and Trends, IEEE Access, 7, 19709–19725.
  • Rubistein, I.S., 2013. Big Data: The end of privacy or a new beginning? International Data Privacy, 3(2), 74-86.
  • Sakarya, B., 2007. From Delphi to Scenario by Using Cluster Analysis: Turkish Foresight Case, Middle east technical university. Doctoral dissertation, 119.
  • Saraçlı, S., Dogan, N. and Dogan, I., 2013. Comparison of Hierarchical Cluster Analysis Methodsby Cophenetic Correlation. Journal of inequalities and Applications, 203, 1-8.
  • Silva, A.R. and Dias, C.T.S., 2013. A cophenetic correlation coefficient for Tocher's method. Pesquisa Agropecuária Brasileira, 48(6), 589-596.
  • Sneath, P.H.A., 1957. The application of computers to taxonomy. J. General Microbiology, 17, 201-226.
  • Takcı, H. and Aydemir, N., 2018. Büyük Veri Yaklaşımıyla Birden Çok Bilgi Erişim Merkezinin Kolektif Kullanımı. Bilişim Teknolojileri Dergisi, 11(2), 123–129.
  • Vinod, B., 2013. Leveraging big data for competitive advantage in travel. Journal of revenue and pricing management, 12(1), 96-100.
  • Yılmaz, Ş. and Patır, S., 2011. Kümeleme Analizi ve Pazarlamada Kullanımı. Akademik Yaklaşımlar Dergisi, 2(1), 91–113.
  • Ziviani, A., Fdida, S., Ezende, J.F. and Duarte, M.B., 2004. Toward a Measurement Based Geographic Location Service. Lecture Notes in Computer Science, 3015, 43-52.

Comparison of Hierarchic Clustering Methods with Cophenetic Correlation Coefficient in Big Data

Year 2022, Volume: 22 Issue: 3, 552 - 559, 30.06.2022
https://doi.org/10.35414/akufemubid.1018302

Abstract

The aim of this study is to compare hierarchical clustering methods by Cophenetic Correlation Coefficient (CCC) when there is a big data. For this purpose, after giving information about big data, clustering methods and CCC, analyzes are carried out for the related data set. The 2015 air travel consumer report, which was used in the application part of the study and published by the US Ministry of Transport, was used as big data. Libraries of the Python programming language installed on the Amazon cloud server, which includes open-source big data technologies, were used for data analysis. Since there is big data in the study, in order to save time and economy, the variables used in the study were first reduced by feature selection method, standardized and analyzed over the final 4 different data sets. As a result of the clustering analysis, it was observed that the highest CCC was obtained with the Average clustering method for all of these four different data sets.

References

  • Backer, E., 1995. Computer-Assisted Reasoning in Cluster Analysis. Prentice Hall, Hertfordshire, 214.
  • Budak, H., 2018. Özellik Seçim Yöntemleri ve Yeni Bir Yaklaşım: Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü Dergisi, 22, 21-31.
  • Carvalho, P.R., Munita, C.S. and Lapolli, A.L., 2019. Validity Studies Among Hierarchical Methods of Cluster Analysis Using Cophenetic Correlation Coefficient. Brazilian Journal of Radiation Sciences, 7, 1-14.
  • Çelik, S., 2017. Büyük Veri Teknolojilerinin İşletmeler İçin Önemi. Social Sciences Studies Journal, 3(6), 873-883.
  • Demirtaş, B. and Argan, M., 2018. Büyük Veri ve Pazarlamadaki Dönüşüm: Kuramsal Bir Yaklaşım. Pazarlama ve Pazarlama Araştırmaları Dergisi, 8(15), 1-21.
  • Emhan, Ö. and Akın, M., 2019. Filtreleme Tabanlı Öz Nitelik Seçme Yöntemlerinin Anomali Tabanlı Ağ Saldırısı Tespit Sistemlerine Etkisi. Dicle Üniversitesi Mühendislik Fakültesi Mühendislik Dergisi, 10(2), 549-559.
  • Everitt, B.S., Landau, S., Leese, M. and Stahl, D., 2011. Cluster analysis. London: Edward, 73-169.
  • Florek, K., Lukaszewıez, L. and Perkal, L., 1951. Sur la liaison et la division des points d’un ensemble fini. Colloquium Mathematicum, 2, 282-285.
  • Gazeloğlu, C., 2020. Prediction of heart disease by classifying with feature selection and machine learning methods. Progress in Nutrition, 22(2), 660-670.
  • Guyon, I. and Elisseeff, A., 2003. An Introduction to Variable and Feature Selection. The Journal of Machine Learning Research, 3, 1157-1182.
  • Johnson, S.C., 1967. Hierarchical clustering schemes. Psychometrika, 32, 241–254.
  • Kazaz N.M.E., 2019. Veri Madenciliğinde Kümeleme Analizi Yöntemlerinin İncelenmesi Ve Sağlik Bilimleri Alanindaki Uygulamalari. Yüksek Lisans Tezi, İstanbul Ünversitesi, Sağlık Bilimleri Enstitüsü, İstanbul, 45.
  • Kokkinos, P., Varvarigou, T.A., Kretsis, A., Soumplis, P. and Varvarigos, E.A., 2015. SuMo: Analysis and Optimization of Amazon EC2 Instances. J Grid Computing, 13, 255-274.
  • Kumar, C. and Toshniwal, D., 2016. Analysis Of Hourly Road Accident Counts Using Hierarchical Clustering and Cophenetic Correlation Coefficient (CPCC). Journal Big Data, 3(13), 2–11.
  • Mardia, K.V., Kent, J.T. and Bibby, J. M., 1989. Multivariate Analysis. London: Academic Press, 385.
  • Murtagh, F. and Contreras, P., 2012. Methods of Hierarchical Clustering, Data Mining and Knowledge Discovery. Wiley-Interscience, 2(1), 86-97.
  • Ponde, P., Shirwaikar, S. and Gore, S., 2016. Hierarchical Cluster Analysis on Security Design Patterns. Association for Computing Machinery, 92, 1-6.
  • Rong, M., Gong, D. and Gao, X., 2019. Feature Selection and its Use in Big Data: Challenges, Methods, and Trends, IEEE Access, 7, 19709–19725.
  • Rubistein, I.S., 2013. Big Data: The end of privacy or a new beginning? International Data Privacy, 3(2), 74-86.
  • Sakarya, B., 2007. From Delphi to Scenario by Using Cluster Analysis: Turkish Foresight Case, Middle east technical university. Doctoral dissertation, 119.
  • Saraçlı, S., Dogan, N. and Dogan, I., 2013. Comparison of Hierarchical Cluster Analysis Methodsby Cophenetic Correlation. Journal of inequalities and Applications, 203, 1-8.
  • Silva, A.R. and Dias, C.T.S., 2013. A cophenetic correlation coefficient for Tocher's method. Pesquisa Agropecuária Brasileira, 48(6), 589-596.
  • Sneath, P.H.A., 1957. The application of computers to taxonomy. J. General Microbiology, 17, 201-226.
  • Takcı, H. and Aydemir, N., 2018. Büyük Veri Yaklaşımıyla Birden Çok Bilgi Erişim Merkezinin Kolektif Kullanımı. Bilişim Teknolojileri Dergisi, 11(2), 123–129.
  • Vinod, B., 2013. Leveraging big data for competitive advantage in travel. Journal of revenue and pricing management, 12(1), 96-100.
  • Yılmaz, Ş. and Patır, S., 2011. Kümeleme Analizi ve Pazarlamada Kullanımı. Akademik Yaklaşımlar Dergisi, 2(1), 91–113.
  • Ziviani, A., Fdida, S., Ezende, J.F. and Duarte, M.B., 2004. Toward a Measurement Based Geographic Location Service. Lecture Notes in Computer Science, 3015, 43-52.
There are 27 citations in total.

Details

Primary Language English
Journal Section Articles
Authors

Sinan Saraçlı 0000-0003-4662-8031

Murat Akşit 0000-0002-1982-4849

Publication Date June 30, 2022
Submission Date November 19, 2021
Published in Issue Year 2022 Volume: 22 Issue: 3

Cite

APA Saraçlı, S., & Akşit, M. (2022). Comparison of Hierarchic Clustering Methods with Cophenetic Correlation Coefficient in Big Data. Afyon Kocatepe Üniversitesi Fen Ve Mühendislik Bilimleri Dergisi, 22(3), 552-559. https://doi.org/10.35414/akufemubid.1018302
AMA Saraçlı S, Akşit M. Comparison of Hierarchic Clustering Methods with Cophenetic Correlation Coefficient in Big Data. Afyon Kocatepe Üniversitesi Fen Ve Mühendislik Bilimleri Dergisi. June 2022;22(3):552-559. doi:10.35414/akufemubid.1018302
Chicago Saraçlı, Sinan, and Murat Akşit. “Comparison of Hierarchic Clustering Methods With Cophenetic Correlation Coefficient in Big Data”. Afyon Kocatepe Üniversitesi Fen Ve Mühendislik Bilimleri Dergisi 22, no. 3 (June 2022): 552-59. https://doi.org/10.35414/akufemubid.1018302.
EndNote Saraçlı S, Akşit M (June 1, 2022) Comparison of Hierarchic Clustering Methods with Cophenetic Correlation Coefficient in Big Data. Afyon Kocatepe Üniversitesi Fen Ve Mühendislik Bilimleri Dergisi 22 3 552–559.
IEEE S. Saraçlı and M. Akşit, “Comparison of Hierarchic Clustering Methods with Cophenetic Correlation Coefficient in Big Data”, Afyon Kocatepe Üniversitesi Fen Ve Mühendislik Bilimleri Dergisi, vol. 22, no. 3, pp. 552–559, 2022, doi: 10.35414/akufemubid.1018302.
ISNAD Saraçlı, Sinan - Akşit, Murat. “Comparison of Hierarchic Clustering Methods With Cophenetic Correlation Coefficient in Big Data”. Afyon Kocatepe Üniversitesi Fen Ve Mühendislik Bilimleri Dergisi 22/3 (June 2022), 552-559. https://doi.org/10.35414/akufemubid.1018302.
JAMA Saraçlı S, Akşit M. Comparison of Hierarchic Clustering Methods with Cophenetic Correlation Coefficient in Big Data. Afyon Kocatepe Üniversitesi Fen Ve Mühendislik Bilimleri Dergisi. 2022;22:552–559.
MLA Saraçlı, Sinan and Murat Akşit. “Comparison of Hierarchic Clustering Methods With Cophenetic Correlation Coefficient in Big Data”. Afyon Kocatepe Üniversitesi Fen Ve Mühendislik Bilimleri Dergisi, vol. 22, no. 3, 2022, pp. 552-9, doi:10.35414/akufemubid.1018302.
Vancouver Saraçlı S, Akşit M. Comparison of Hierarchic Clustering Methods with Cophenetic Correlation Coefficient in Big Data. Afyon Kocatepe Üniversitesi Fen Ve Mühendislik Bilimleri Dergisi. 2022;22(3):552-9.