Big data reduction and visualization using the K-means algorithm

Hakan Akyol; Hale Sema Kızılduman; Tansel Dökeroğlu

doi:10.55185/researcher.1135824

İnceleme Makalesi

Big data reduction and visualization using the K-means algorithm

Yıl 2022, Cilt: 02 Sayı: 01, 40 - 45, 31.07.2022

Hakan Akyol , Hale Sema Kızılduman , Tansel Dökeroğlu

Öz

A huge amount of data is being produced every day in our era. In addition to high-performance processing approaches, efficiently visualizing this quantity of data (up to Terabytes) remains a major difficulty. In this study, we use the well-known clustering method K-means as a data reduction strategy that keeps the visual quality of the provided huge data as high as possible. The centroids of the dataset are used to display the distribution properties of data in a straightforward manner. Our data comes from a recent Kaggle big data set (Click Through Rate), and it is displayed using Box plots on reduced datasets, compared to the original plots. It is discovered that K-means is an effective strategy for reducing the amount of huge data in order to view the original data without sacrificing its distribution information quality.

Anahtar Kelimeler

big data , data reduction , visualization , k-means

Kaynakça

[1] Friendly, M. (2008). A brief history of data visualization. In Handbook of data visualization (pp. 15-56). Springer, Berlin, Heidelberg.
[2] Keim, D., Qu, H., & Ma, K. L. (2013). Big-data visualization. IEEE Computer Graphics and Applications, 33(4), 20-21.
[3] Andrienko, G., Andrienko, N., Drucker, S., Fekete, J. D., Fisher, D., Idreos, S., ... & Sharaf, M. (2020, March). Big data visualization and analytics: Future research challenges and emerging applications. In BigVis 2020-3rd International Workshop on Big Data Visual Exploration and Analytics.
[4] Agrawal, R., Kadadi, A., Dai, X., & Andres, F. (2015). Challenges and opportunities with big data visualization. In Proceedings of the 7th International Conference on Management of computational and collective intElligence in Digital EcoSystems (pp. 169-173).
[5] Ali, S. M., Gupta, N., Nayak, G. K., & Lenka, R. K. (2016). Big data visualization: Tools and challenges. In 2016 2nd International Conference on Contemporary Computing and Informatics (IC3I) (pp. 656-660). IEEE.
[6] Likas, A., Vlassis, N., & Verbeek, J. J. (2003). The global k-means clustering algorithm. Pattern recognition, 36(2), 451-461.
[7] Dokeroglu, T., Deniz, A., & Kiziloz, H. E. (2022). A Comprehensive Survey on Recent Metaheuristics for Feature Selection. Neurocomputing.
[8] Click-Through Rate (CTR), https://www.kaggle.com/datasets/louischen7/2020-digix-advertisement-ctr- prediction, 2022.

Big data reduction and visualization using the K-means algorithm

Yıl 2022, Cilt: 02 Sayı: 01, 40 - 45, 31.07.2022

Hakan Akyol , Hale Sema Kızılduman , Tansel Dökeroğlu

Öz

Çağımızda her gün çok büyük miktarda veri üretiliyor. Yüksek performanslı işleme yaklaşımlarına ek olarak, bu veri miktarını (Terabayt'a kadar) verimli bir şekilde görselleştirmek büyük bir zorluk olmaya devam ediyor. Bu çalışmada, sağlanan büyük verilerin görsel kalitesini mümkün olduğunca yüksek tutan bir veri azaltma stratejisi olarak iyi bilinen kümeleme yöntemi K-araçlarını kullanıyoruz. Veri kümesinin merkezleri, verilerin dağıtım özelliklerini basit bir şekilde görüntülemek için kullanılır. Verilerimiz yeni bir Kaggle büyük veri setinden (Tıklama Oranı) gelir ve orijinal grafiklere kıyasla azaltılmış veri kümelerinde Box grafikleri kullanılarak görüntülenir. K-araçlarının, dağıtım bilgisi kalitesinden ödün vermeden orijinal verileri görüntülemek için büyük veri miktarını azaltmak için etkili bir strateji olduğu keşfedildi.

Anahtar Kelimeler

büyük veri , veri azaltma , görselleştirme

Kaynakça

[1] Friendly, M. (2008). A brief history of data visualization. In Handbook of data visualization (pp. 15-56). Springer, Berlin, Heidelberg.
[2] Keim, D., Qu, H., & Ma, K. L. (2013). Big-data visualization. IEEE Computer Graphics and Applications, 33(4), 20-21.
[3] Andrienko, G., Andrienko, N., Drucker, S., Fekete, J. D., Fisher, D., Idreos, S., ... & Sharaf, M. (2020, March). Big data visualization and analytics: Future research challenges and emerging applications. In BigVis 2020-3rd International Workshop on Big Data Visual Exploration and Analytics.
[4] Agrawal, R., Kadadi, A., Dai, X., & Andres, F. (2015). Challenges and opportunities with big data visualization. In Proceedings of the 7th International Conference on Management of computational and collective intElligence in Digital EcoSystems (pp. 169-173).
[5] Ali, S. M., Gupta, N., Nayak, G. K., & Lenka, R. K. (2016). Big data visualization: Tools and challenges. In 2016 2nd International Conference on Contemporary Computing and Informatics (IC3I) (pp. 656-660). IEEE.
[6] Likas, A., Vlassis, N., & Verbeek, J. J. (2003). The global k-means clustering algorithm. Pattern recognition, 36(2), 451-461.
[7] Dokeroglu, T., Deniz, A., & Kiziloz, H. E. (2022). A Comprehensive Survey on Recent Metaheuristics for Feature Selection. Neurocomputing.
[8] Click-Through Rate (CTR), https://www.kaggle.com/datasets/louischen7/2020-digix-advertisement-ctr- prediction, 2022.

Toplam 8 adet kaynakça vardır.

Ayrıntılar

Birincil Dil	İngilizce
Konular	Bilgisayar Yazılımı
Bölüm	Araştırma Makalesi
Yazarlar	Hakan Akyol 0000-0002-5695-8790 Hale Sema Kızılduman 0000-0002-5695-8790 Tansel Dökeroğlu 0000-0003-1665-5928
Yayımlanma Tarihi	31 Temmuz 2022
Yayımlandığı Sayı	Yıl 2022 Cilt: 02 Sayı: 01

Kaynak Göster

IEEE	H. Akyol, H. S. Kızılduman, ve T. Dökeroğlu, “Big data reduction and visualization using the K-means algorithm”, Researcher, c. 02, sy. 01, ss. 40–45, 2022, doi: 10.55185/researcher.1135824.

Kapak Resmi İndir

Makale Dosyaları

Tam Metin

Yayın hayatına 2013 yılında başlamış olan "Researcher: Social Sciences Studies" (RSSS) dergisi, 2020 Ağustos ayı itibariyle "Researcher" ismiyle Ankara Bilim Üniversitesi bünyesinde faaliyetlerini sürdürmektedir.
2021 yılı ve sonrasında Mühendislik ve Fen Bilimleri alanlarında katkıda bulunmayı hedefleyen özgün araştırma makalelerinin yayımlandığı uluslararası indeksli, ulusal hakemli, bilimsel ve elektronik bir dergidir.
Dergi özel sayılar dışında yılda iki kez yayımlanmaktadır. Amaçları doğrultusunda dergimizin yayın odağında; Endüstri Mühendisliği, Yazılım Mühendisliği, Bilgisayar Mühendisliği ve Elektrik Elektronik Mühendisliği alanları bulunmaktadır.
Dergide yayımlanmak üzere gönderilen aday makaleler Türkçe ve İngilizce dillerinde yazılabilir. Dergiye gönderilen makalelerin daha önce başka bir dergide yayımlanmamış veya yayımlanmak üzere başka bir dergiye gönderilmemiş olması gerekmektedir.