Veri Madenciliğinde Karar Ağaçları İndükleyicilerinin Likert Ölçekli Verilerde Sınıflandırma Performansı

Ozer Ozdemir; Ferdi Karakütük; Aslı Kaya Karakütük

doi:10.19113/sdufenbed.1596624

EN TR

Classification Performance of Decision Tree Inducers in Data Mining on Likert Scale Data

Öz

Data mining, which has a similar meaning to the term mining, is the process of analyzing enormous amounts of information and data sets and discovering useful intelligence to help solve problems, predict trends, mitigate risks and find new opportunities. This study aims to utilize the enormous capabilities of data mining for knowledge discovery in Likert-scale data types. To compare the classification success of different data mining techniques on Likert-scale data types, the Turkish Family Structure Survey (TFSS) was selected as the data set. On the data set, which is imbalanced due to its structure, firstly, classification was performed without removing the imbalance, then the imbalance between classes was removed and its effect on the classification analysis was observed. In order to eliminate the imbalance between classes, three different data sets were created by changing the total sample volume with resampling and data completion method. It was observed that the algorithm with the highest classification success in the created data sets was the CART algorithm. RepTree algorithm was found to produce more successful results in the classification without removing the imbalance.

Anahtar Kelimeler

Veri Madenciliğinde Karar Ağaçları İndükleyicilerinin Likert Ölçekli Verilerde Sınıflandırma Performansı

Öz

Madencilik terimi ile benzer anlam taşıyan veri madenciliği, sorunların çözülmesine, eğilimlerin tahmin edilmesine, risklerin azaltılmasına ve yeni fırsatlar bulunmasına yardımcı olmak için muazzam miktarda bilgi ve veri setini analiz etme, yararlı zekayı keşfetme sürecidir. Bu çalışmada veri madenciliğinin muazzam yeteneklerinden faydalanarak Likert ölçekli veri tiplerinde bilgi keşfi yapılması amaçlanmıştır. Farklı veri madenciliği tekniklerinin Likert ölçekli veri türleri üzerinde sınıflandırma başarısını karşılaştırmak üzere veri seti olarak Türkiye Aile Yapısı Araştırması (TAYA) seçilmiştir. Yapısı gereği dengesiz olan veri seti üzerinde ilk olarak dengesizlik giderilmeden sınıflandırma yapılmış ardından sınıflar arası dengesizlik giderilmiş ve sınıflama analizine etkisi gözlemlenmiştir. Sınıflar arası dengesizliği giderebilmek amacıyla yeniden örnekleme ve veri tamamlama yöntemi ile toplam örnek hacmi değiştirilerek üç farklı veri seti oluşturulmuştur. Oluşturulan veri setlerinde sınıflandırma başarısı en yüksek olan algoritmanın CART algoritması olduğu görülmüştür. Dengesizlik giderilmeden yapılan sınıflandırmada ise RepTree algoritmasının daha başarılı sonuçlar ürettiği görülmüştür.

Anahtar Kelimeler

Teşekkür

Veri setinin çalışmada kullanılmasına olanak sağladığı için Türkiye İstatistik Kurumu Başkanlığı’na teşekkür ederiz.

Kaynakça

[1] Salzberg, S. L., Searls, D. B., Kasif, S. 1998. Computational Methods in Molecular Biology. Amsterdam: Elsevier Sciences B.V.,368.
[2] Gundecha, P., Liu, H. 2012. Mining Social Media: A Brief Introduction, In Informs TutORials in Operations Research, 1-17.
[3] Tan, P. N., Steinbach, M., Kumar, V. 2006. Introduction to Data Mining. Pearson: 1st Edition, Wesley, Boston, 719.
[4] Zaki, M. J., Meira, Jr. W. 2014. Data Mining and Analysis: Fundamental Concepts and Algorithms. 1st Edition, Cambridge: Cambridge University Press, 660.
[5] Ozer, P., Sprinkhuizen-Kuyper, I. G. 2008. Data algorithms for classification. Radboud University Nijmegen, Artificial Intelligence, BSc Thesis, Netherlands.
[6] García, E., Romero, C., Ventura, S., Calders, T. 2007. Drawbacks and solutions of applying association rule mining in learning management systems. CEUR Workshop Proceedings, 305, 13-22.
[7] Srivastava, A., Han, E. H., Kumar, V., Singh, V. 1999. Parallel Formulations of Decision-Tree Classification Algorithms. Data Mining and Knowledge Discovery, 3, 237–261.
[8] Bresfelean, V. 2007. Analysis and Predictions on Students' Behavior Using Decision Trees in Weka Environment, 29th International Conference on Information Technology Interfaces, Cavtat, Croatia, 51- 56.

[9] Mardikyan, S., Badur, B. 2011. Analyzing Teaching Performance of Instructors Using Data Mining Techniques. Informatics in Education, 10 (2), 245–257.
[10] Kuzey, C. 2012. Veri madenciliğinde destek vektör makinaları ve karar ağaçları yöntemlerini kullanarak bilgi çalışanlarının kurum performansı üzerine etkisinin ölçülmesi ve bir uygulama. İstanbul Üniversitesi, Sosyal Bilimler Enstitüsü, Doktora Tezi, İstanbul.
[11] Şehribanoğlu, S., Diler, S. 2016. Veri madenciliği süreçleri ve karar ağaçlari algoritmalari ile bir uygulama. Van Yüzüncü Yıl Üniversitesi, Fen Bilimleri Enstitüsü, Yüksek Lisans Tezi, Van.
[12] Beernaert, B. 2021. Using machine learning techniques for analyzing survey data. Ghent University, Faculty of Science, Master Thesis, Belgium.
[13] Bezek-Gürü, Ö., Şevgin, H., Kayri, M. 2023. Reviewing the Factors Affecting PISA Reading Skills by Using Random Forest and MARS Methods. International Journal of Contemporary Educational Research, 10(1), 181-196.
[14] Ogedengbe M. T., Junaidu S. B., Kana A. F. D., 2024. Association Rule Mining on Likert’s Scale Data using a Novel Attributes Pruning Technique. International Journal of Scientific Research in Computer Science and Engineering, 12(4), 54-65.
[15] Aile, Çalışma ve Sosyal Hizmetler Bakanlığı. 2018. Türkiye Aile Yapısı İleri İstatistik Analizi, Ankara.
[16] Silahtaroğlu, G. 2013. Veri Madenciliği Kavram ve Algoritmaları. Papatya Yayınevi, 333.
[17] Sullivan, W. 2017. Machine Learning for Beginners Guide Algorithms: Supervised & Unsupervised Learning. Decision Tree & Random Forest Introduction. CreateSpace Independent Publishing Platform.
[18] Damanik, I. S., Windarto, A. P., Wanto, A., Andani, S. R., Saputra, W. 2018. Decision Tree Optimization in C4.5 Algorithm Using Genetic Algorithm. The International Conference on Computer Science and Applied Mathematics, October 10-12, Indonesia.
[19] Gupta, G. 2014. A Self-Explanatory Review of Decision Tree Classifiers. IEEE International Conference on Recent Advances and Innovations in Engineering (ICRAIE-2014), May 09-11, India, 1–7.
[20] Gavankar, S. S., Sawarkar, S. D. 2017. Eager Decision Tree. 2nd International Conference for Convergence in Technology (I2CT), 07-09 April, Mumbai, 837–840.
[21] Lu, Z., Wu, X., Bongard, J. C. 2015. Active Learning through Adaptive Heterogeneous Ensembling. IEEE Transactions on Knowledge and Data Engineering, 27(2), 368–81.
[22] Lim, T. S., Loh, W. Y., Shih, Y. S. 2000. A comparison of prediction accuracy, complexity, and training time of thirty-three old and new classification algorithms. Machine Learning, 40(3), 203–28.
[23] Hssina, B., Merbouha, A., Ezzikouri, H., Erritali, M. 2014. A Comparative Study of Decision Tree ID3 and C4.5. International Journal of Advanced Computer Science and Applications, 4(2),13-19.
[24] García Laencina, P. J., Abreu, P. H., Abreu, M. H., Afonso, N. 2015. Missing Data Imputation on the 5-Year Survival Prediction of Breast Cancer Patients with Unknown Discrete Values. Computers in Biology and Medicine, 59, 125–33, Doi: 10.1016/j.compbiomed.2015.02.006.
[25] Behera, H. S., Mohapatra, D. P. 2015. Computational Intelligence in Data Mining. Volume 1: Proceedings of the International Conference on CIDM, 5-6 December, 410s.
[26] Kass, G. V. 1980. An Exploratory Technique for Investigating Large Quantities of Categorical Data. Applied Statistics, 29(2), 119–127.
[27] Kohavi, R. 1996. Scaling up the Accuracy of Naive Bayes Classifiers: A Decision-Tree Hybrid. Proceedings of the Second International Conference on Knowledge Discovery and Data Mining, AAAI Press, 202–207.
[28] Nor, W. M. H., Salleh, M., Omar, A. H. 2013. A Comparative Study of Reduced Error Pruning Method in Decision Tree Algorithms. IEEE International Conference on Control System, Computing and Engineering (ICCSCE), 392–397.
[29] Pfahringer, B. 2010. Random Model Trees: An Effective and Scalable Regression Method. University of Waikato, Department of Computer Science, Working Paper, New Zealand.

Ayrıntılar

Birincil Dil

Türkçe

Konular

Hesaplamalı İstatistik, İstatistiksel Analiz, İstatistiksel Veri Bilimi, Uygulamalı İstatistik, İstatistik (Diğer)

Bölüm

Araştırma Makalesi

Yazarlar

Ozer Ozdemir ^*
0000-0003-2446-5139
Türkiye

Ferdi Karakütük
0000-0001-9505-7891
Türkiye

Aslı Kaya Karakütük
0000-0003-2155-9391
Türkiye

Yayımlanma Tarihi

25 Nisan 2025

Gönderilme Tarihi

5 Aralık 2024

Kabul Tarihi

2 Mart 2025

Yayımlandığı Sayı

Yıl 2025 Cilt: 29 Sayı: 1

DOI

https://doi.org/10.19113/sdufenbed.1596624

IZ

https://izlik.org/JA56AZ76HL

Kaynak Göster

RIS / Bibtex

APA

Ozdemir, O., Karakütük, F., & Kaya Karakütük, A. (2025). Veri Madenciliğinde Karar Ağaçları İndükleyicilerinin Likert Ölçekli Verilerde Sınıflandırma Performansı. Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü Dergisi, 29(1), 72-83. https://doi.org/10.19113/sdufenbed.1596624

AMA

1.Ozdemir O, Karakütük F, Kaya Karakütük A. Veri Madenciliğinde Karar Ağaçları İndükleyicilerinin Likert Ölçekli Verilerde Sınıflandırma Performansı. Süleyman Demirel Üniv. Fen Bilim. Enst. Derg. 2025;29(1):72-83. doi:10.19113/sdufenbed.1596624

Chicago

Ozdemir, Ozer, Ferdi Karakütük, ve Aslı Kaya Karakütük. 2025. “Veri Madenciliğinde Karar Ağaçları İndükleyicilerinin Likert Ölçekli Verilerde Sınıflandırma Performansı”. Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü Dergisi 29 (1): 72-83. https://doi.org/10.19113/sdufenbed.1596624.

EndNote

Ozdemir O, Karakütük F, Kaya Karakütük A (01 Nisan 2025) Veri Madenciliğinde Karar Ağaçları İndükleyicilerinin Likert Ölçekli Verilerde Sınıflandırma Performansı. Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü Dergisi 29 1 72–83.

IEEE

[1]O. Ozdemir, F. Karakütük, ve A. Kaya Karakütük, “Veri Madenciliğinde Karar Ağaçları İndükleyicilerinin Likert Ölçekli Verilerde Sınıflandırma Performansı”, Süleyman Demirel Üniv. Fen Bilim. Enst. Derg., c. 29, sy 1, ss. 72–83, Nis. 2025, doi: 10.19113/sdufenbed.1596624.

ISNAD

Ozdemir, Ozer - Karakütük, Ferdi - Kaya Karakütük, Aslı. “Veri Madenciliğinde Karar Ağaçları İndükleyicilerinin Likert Ölçekli Verilerde Sınıflandırma Performansı”. Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü Dergisi 29/1 (01 Nisan 2025): 72-83. https://doi.org/10.19113/sdufenbed.1596624.

JAMA

1.Ozdemir O, Karakütük F, Kaya Karakütük A. Veri Madenciliğinde Karar Ağaçları İndükleyicilerinin Likert Ölçekli Verilerde Sınıflandırma Performansı. Süleyman Demirel Üniv. Fen Bilim. Enst. Derg. 2025;29:72–83.

MLA

Ozdemir, Ozer, vd. “Veri Madenciliğinde Karar Ağaçları İndükleyicilerinin Likert Ölçekli Verilerde Sınıflandırma Performansı”. Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü Dergisi, c. 29, sy 1, Nisan 2025, ss. 72-83, doi:10.19113/sdufenbed.1596624.

Vancouver

1.Ozer Ozdemir, Ferdi Karakütük, Aslı Kaya Karakütük. Veri Madenciliğinde Karar Ağaçları İndükleyicilerinin Likert Ölçekli Verilerde Sınıflandırma Performansı. Süleyman Demirel Üniv. Fen Bilim. Enst. Derg. 01 Nisan 2025;29(1):72-83. doi:10.19113/sdufenbed.1596624

Cited By

The Classification of Individual Attitudes Toward the Hourly Minimum Wage Using Machine and Deep Learning

Ankara Hacı Bayram Veli Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi

https://doi.org/10.26745/ahbvuibfd.1764260