Research Article
BibTex RIS Cite

Classification Performance of Decision Tree Inducers in Data Mining on Likert Scale Data

Year 2025, Volume: 29 Issue: 1, 72 - 83, 25.04.2025
https://doi.org/10.19113/sdufenbed.1596624

Abstract

Data mining, which has a similar meaning to the term mining, is the process of analyzing enormous amounts of information and data sets and discovering useful intelligence to help solve problems, predict trends, mitigate risks and find new opportunities. This study aims to utilize the enormous capabilities of data mining for knowledge discovery in Likert-scale data types. To compare the classification success of different data mining techniques on Likert-scale data types, the Turkish Family Structure Survey (TFSS) was selected as the data set. On the data set, which is imbalanced due to its structure, firstly, classification was performed without removing the imbalance, then the imbalance between classes was removed and its effect on the classification analysis was observed. In order to eliminate the imbalance between classes, three different data sets were created by changing the total sample volume with resampling and data completion method. It was observed that the algorithm with the highest classification success in the created data sets was the CART algorithm. RepTree algorithm was found to produce more successful results in the classification without removing the imbalance.

References

  • [1] Salzberg, S. L., Searls, D. B., Kasif, S. 1998. Computational Methods in Molecular Biology. Amsterdam: Elsevier Sciences B.V.,368.
  • [2] Gundecha, P., Liu, H. 2012. Mining Social Media: A Brief Introduction, In Informs TutORials in Operations Research, 1-17.
  • [3] Tan, P. N., Steinbach, M., Kumar, V. 2006. Introduction to Data Mining. Pearson: 1st Edition, Wesley, Boston, 719.
  • [4] Zaki, M. J., Meira, Jr. W. 2014. Data Mining and Analysis: Fundamental Concepts and Algorithms. 1st Edition, Cambridge: Cambridge University Press, 660.
  • [5] Ozer, P., Sprinkhuizen-Kuyper, I. G. 2008. Data algorithms for classification. Radboud University Nijmegen, Artificial Intelligence, BSc Thesis, Netherlands.
  • [6] García, E., Romero, C., Ventura, S., Calders, T. 2007. Drawbacks and solutions of applying association rule mining in learning management systems. CEUR Workshop Proceedings, 305, 13-22.
  • [7] Srivastava, A., Han, E. H., Kumar, V., Singh, V. 1999. Parallel Formulations of Decision-Tree Classification Algorithms. Data Mining and Knowledge Discovery, 3, 237–261.
  • [8] Bresfelean, V. 2007. Analysis and Predictions on Students' Behavior Using Decision Trees in Weka Environment, 29th International Conference on Information Technology Interfaces, Cavtat, Croatia, 51- 56.
  • [9] Mardikyan, S., Badur, B. 2011. Analyzing Teaching Performance of Instructors Using Data Mining Techniques. Informatics in Education, 10 (2), 245–257.
  • [10] Kuzey, C. 2012. Veri madenciliğinde destek vektör makinaları ve karar ağaçları yöntemlerini kullanarak bilgi çalışanlarının kurum performansı üzerine etkisinin ölçülmesi ve bir uygulama. İstanbul Üniversitesi, Sosyal Bilimler Enstitüsü, Doktora Tezi, İstanbul.
  • [11] Şehribanoğlu, S., Diler, S. 2016. Veri madenciliği süreçleri ve karar ağaçlari algoritmalari ile bir uygulama. Van Yüzüncü Yıl Üniversitesi, Fen Bilimleri Enstitüsü, Yüksek Lisans Tezi, Van.
  • [12] Beernaert, B. 2021. Using machine learning techniques for analyzing survey data. Ghent University, Faculty of Science, Master Thesis, Belgium.
  • [13] Bezek-Gürü, Ö., Şevgin, H., Kayri, M. 2023. Reviewing the Factors Affecting PISA Reading Skills by Using Random Forest and MARS Methods. International Journal of Contemporary Educational Research, 10(1), 181-196.
  • [14] Ogedengbe M. T., Junaidu S. B., Kana A. F. D., 2024. Association Rule Mining on Likert’s Scale Data using a Novel Attributes Pruning Technique. International Journal of Scientific Research in Computer Science and Engineering, 12(4), 54-65.
  • [15] Aile, Çalışma ve Sosyal Hizmetler Bakanlığı. 2018. Türkiye Aile Yapısı İleri İstatistik Analizi, Ankara.
  • [16] Silahtaroğlu, G. 2013. Veri Madenciliği Kavram ve Algoritmaları. Papatya Yayınevi, 333.
  • [17] Sullivan, W. 2017. Machine Learning for Beginners Guide Algorithms: Supervised & Unsupervised Learning. Decision Tree & Random Forest Introduction. CreateSpace Independent Publishing Platform.
  • [18] Damanik, I. S., Windarto, A. P., Wanto, A., Andani, S. R., Saputra, W. 2018. Decision Tree Optimization in C4.5 Algorithm Using Genetic Algorithm. The International Conference on Computer Science and Applied Mathematics, October 10-12, Indonesia.
  • [19] Gupta, G. 2014. A Self-Explanatory Review of Decision Tree Classifiers. IEEE International Conference on Recent Advances and Innovations in Engineering (ICRAIE-2014), May 09-11, India, 1–7.
  • [20] Gavankar, S. S., Sawarkar, S. D. 2017. Eager Decision Tree. 2nd International Conference for Convergence in Technology (I2CT), 07-09 April, Mumbai, 837–840.
  • [21] Lu, Z., Wu, X., Bongard, J. C. 2015. Active Learning through Adaptive Heterogeneous Ensembling. IEEE Transactions on Knowledge and Data Engineering, 27(2), 368–81.
  • [22] Lim, T. S., Loh, W. Y., Shih, Y. S. 2000. A comparison of prediction accuracy, complexity, and training time of thirty-three old and new classification algorithms. Machine Learning, 40(3), 203–28.
  • [23] Hssina, B., Merbouha, A., Ezzikouri, H., Erritali, M. 2014. A Comparative Study of Decision Tree ID3 and C4.5. International Journal of Advanced Computer Science and Applications, 4(2),13-19.
  • [24] García Laencina, P. J., Abreu, P. H., Abreu, M. H., Afonso, N. 2015. Missing Data Imputation on the 5-Year Survival Prediction of Breast Cancer Patients with Unknown Discrete Values. Computers in Biology and Medicine, 59, 125–33, Doi: 10.1016/j.compbiomed.2015.02.006.
  • [25] Behera, H. S., Mohapatra, D. P. 2015. Computational Intelligence in Data Mining. Volume 1: Proceedings of the International Conference on CIDM, 5-6 December, 410s.
  • [26] Kass, G. V. 1980. An Exploratory Technique for Investigating Large Quantities of Categorical Data. Applied Statistics, 29(2), 119–127.
  • [27] Kohavi, R. 1996. Scaling up the Accuracy of Naive Bayes Classifiers: A Decision-Tree Hybrid. Proceedings of the Second International Conference on Knowledge Discovery and Data Mining, AAAI Press, 202–207.
  • [28] Nor, W. M. H., Salleh, M., Omar, A. H. 2013. A Comparative Study of Reduced Error Pruning Method in Decision Tree Algorithms. IEEE International Conference on Control System, Computing and Engineering (ICCSCE), 392–397.
  • [29] Pfahringer, B. 2010. Random Model Trees: An Effective and Scalable Regression Method. University of Waikato, Department of Computer Science, Working Paper, New Zealand.

Veri Madenciliğinde Karar Ağaçları İndükleyicilerinin Likert Ölçekli Verilerde Sınıflandırma Performansı

Year 2025, Volume: 29 Issue: 1, 72 - 83, 25.04.2025
https://doi.org/10.19113/sdufenbed.1596624

Abstract

Madencilik terimi ile benzer anlam taşıyan veri madenciliği, sorunların çözülmesine, eğilimlerin tahmin edilmesine, risklerin azaltılmasına ve yeni fırsatlar bulunmasına yardımcı olmak için muazzam miktarda bilgi ve veri setini analiz etme, yararlı zekayı keşfetme sürecidir. Bu çalışmada veri madenciliğinin muazzam yeteneklerinden faydalanarak Likert ölçekli veri tiplerinde bilgi keşfi yapılması amaçlanmıştır. Farklı veri madenciliği tekniklerinin Likert ölçekli veri türleri üzerinde sınıflandırma başarısını karşılaştırmak üzere veri seti olarak Türkiye Aile Yapısı Araştırması (TAYA) seçilmiştir. Yapısı gereği dengesiz olan veri seti üzerinde ilk olarak dengesizlik giderilmeden sınıflandırma yapılmış ardından sınıflar arası dengesizlik giderilmiş ve sınıflama analizine etkisi gözlemlenmiştir. Sınıflar arası dengesizliği giderebilmek amacıyla yeniden örnekleme ve veri tamamlama yöntemi ile toplam örnek hacmi değiştirilerek üç farklı veri seti oluşturulmuştur. Oluşturulan veri setlerinde sınıflandırma başarısı en yüksek olan algoritmanın CART algoritması olduğu görülmüştür. Dengesizlik giderilmeden yapılan sınıflandırmada ise RepTree algoritmasının daha başarılı sonuçlar ürettiği görülmüştür.

Thanks

Veri setinin çalışmada kullanılmasına olanak sağladığı için Türkiye İstatistik Kurumu Başkanlığı’na teşekkür ederiz.

References

  • [1] Salzberg, S. L., Searls, D. B., Kasif, S. 1998. Computational Methods in Molecular Biology. Amsterdam: Elsevier Sciences B.V.,368.
  • [2] Gundecha, P., Liu, H. 2012. Mining Social Media: A Brief Introduction, In Informs TutORials in Operations Research, 1-17.
  • [3] Tan, P. N., Steinbach, M., Kumar, V. 2006. Introduction to Data Mining. Pearson: 1st Edition, Wesley, Boston, 719.
  • [4] Zaki, M. J., Meira, Jr. W. 2014. Data Mining and Analysis: Fundamental Concepts and Algorithms. 1st Edition, Cambridge: Cambridge University Press, 660.
  • [5] Ozer, P., Sprinkhuizen-Kuyper, I. G. 2008. Data algorithms for classification. Radboud University Nijmegen, Artificial Intelligence, BSc Thesis, Netherlands.
  • [6] García, E., Romero, C., Ventura, S., Calders, T. 2007. Drawbacks and solutions of applying association rule mining in learning management systems. CEUR Workshop Proceedings, 305, 13-22.
  • [7] Srivastava, A., Han, E. H., Kumar, V., Singh, V. 1999. Parallel Formulations of Decision-Tree Classification Algorithms. Data Mining and Knowledge Discovery, 3, 237–261.
  • [8] Bresfelean, V. 2007. Analysis and Predictions on Students' Behavior Using Decision Trees in Weka Environment, 29th International Conference on Information Technology Interfaces, Cavtat, Croatia, 51- 56.
  • [9] Mardikyan, S., Badur, B. 2011. Analyzing Teaching Performance of Instructors Using Data Mining Techniques. Informatics in Education, 10 (2), 245–257.
  • [10] Kuzey, C. 2012. Veri madenciliğinde destek vektör makinaları ve karar ağaçları yöntemlerini kullanarak bilgi çalışanlarının kurum performansı üzerine etkisinin ölçülmesi ve bir uygulama. İstanbul Üniversitesi, Sosyal Bilimler Enstitüsü, Doktora Tezi, İstanbul.
  • [11] Şehribanoğlu, S., Diler, S. 2016. Veri madenciliği süreçleri ve karar ağaçlari algoritmalari ile bir uygulama. Van Yüzüncü Yıl Üniversitesi, Fen Bilimleri Enstitüsü, Yüksek Lisans Tezi, Van.
  • [12] Beernaert, B. 2021. Using machine learning techniques for analyzing survey data. Ghent University, Faculty of Science, Master Thesis, Belgium.
  • [13] Bezek-Gürü, Ö., Şevgin, H., Kayri, M. 2023. Reviewing the Factors Affecting PISA Reading Skills by Using Random Forest and MARS Methods. International Journal of Contemporary Educational Research, 10(1), 181-196.
  • [14] Ogedengbe M. T., Junaidu S. B., Kana A. F. D., 2024. Association Rule Mining on Likert’s Scale Data using a Novel Attributes Pruning Technique. International Journal of Scientific Research in Computer Science and Engineering, 12(4), 54-65.
  • [15] Aile, Çalışma ve Sosyal Hizmetler Bakanlığı. 2018. Türkiye Aile Yapısı İleri İstatistik Analizi, Ankara.
  • [16] Silahtaroğlu, G. 2013. Veri Madenciliği Kavram ve Algoritmaları. Papatya Yayınevi, 333.
  • [17] Sullivan, W. 2017. Machine Learning for Beginners Guide Algorithms: Supervised & Unsupervised Learning. Decision Tree & Random Forest Introduction. CreateSpace Independent Publishing Platform.
  • [18] Damanik, I. S., Windarto, A. P., Wanto, A., Andani, S. R., Saputra, W. 2018. Decision Tree Optimization in C4.5 Algorithm Using Genetic Algorithm. The International Conference on Computer Science and Applied Mathematics, October 10-12, Indonesia.
  • [19] Gupta, G. 2014. A Self-Explanatory Review of Decision Tree Classifiers. IEEE International Conference on Recent Advances and Innovations in Engineering (ICRAIE-2014), May 09-11, India, 1–7.
  • [20] Gavankar, S. S., Sawarkar, S. D. 2017. Eager Decision Tree. 2nd International Conference for Convergence in Technology (I2CT), 07-09 April, Mumbai, 837–840.
  • [21] Lu, Z., Wu, X., Bongard, J. C. 2015. Active Learning through Adaptive Heterogeneous Ensembling. IEEE Transactions on Knowledge and Data Engineering, 27(2), 368–81.
  • [22] Lim, T. S., Loh, W. Y., Shih, Y. S. 2000. A comparison of prediction accuracy, complexity, and training time of thirty-three old and new classification algorithms. Machine Learning, 40(3), 203–28.
  • [23] Hssina, B., Merbouha, A., Ezzikouri, H., Erritali, M. 2014. A Comparative Study of Decision Tree ID3 and C4.5. International Journal of Advanced Computer Science and Applications, 4(2),13-19.
  • [24] García Laencina, P. J., Abreu, P. H., Abreu, M. H., Afonso, N. 2015. Missing Data Imputation on the 5-Year Survival Prediction of Breast Cancer Patients with Unknown Discrete Values. Computers in Biology and Medicine, 59, 125–33, Doi: 10.1016/j.compbiomed.2015.02.006.
  • [25] Behera, H. S., Mohapatra, D. P. 2015. Computational Intelligence in Data Mining. Volume 1: Proceedings of the International Conference on CIDM, 5-6 December, 410s.
  • [26] Kass, G. V. 1980. An Exploratory Technique for Investigating Large Quantities of Categorical Data. Applied Statistics, 29(2), 119–127.
  • [27] Kohavi, R. 1996. Scaling up the Accuracy of Naive Bayes Classifiers: A Decision-Tree Hybrid. Proceedings of the Second International Conference on Knowledge Discovery and Data Mining, AAAI Press, 202–207.
  • [28] Nor, W. M. H., Salleh, M., Omar, A. H. 2013. A Comparative Study of Reduced Error Pruning Method in Decision Tree Algorithms. IEEE International Conference on Control System, Computing and Engineering (ICCSCE), 392–397.
  • [29] Pfahringer, B. 2010. Random Model Trees: An Effective and Scalable Regression Method. University of Waikato, Department of Computer Science, Working Paper, New Zealand.
There are 29 citations in total.

Details

Primary Language Turkish
Subjects Computational Statistics, Statistical Analysis, Statistical Data Science, Applied Statistics, Statistics (Other)
Journal Section Articles
Authors

Ozer Ozdemir 0000-0003-2446-5139

Ferdi Karakütük 0000-0001-9505-7891

Aslı Kaya Karakütük 0000-0003-2155-9391

Publication Date April 25, 2025
Submission Date December 5, 2024
Acceptance Date March 2, 2025
Published in Issue Year 2025 Volume: 29 Issue: 1

Cite

APA Ozdemir, O., Karakütük, F., & Kaya Karakütük, A. (2025). Veri Madenciliğinde Karar Ağaçları İndükleyicilerinin Likert Ölçekli Verilerde Sınıflandırma Performansı. Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü Dergisi, 29(1), 72-83. https://doi.org/10.19113/sdufenbed.1596624
AMA Ozdemir O, Karakütük F, Kaya Karakütük A. Veri Madenciliğinde Karar Ağaçları İndükleyicilerinin Likert Ölçekli Verilerde Sınıflandırma Performansı. J. Nat. Appl. Sci. April 2025;29(1):72-83. doi:10.19113/sdufenbed.1596624
Chicago Ozdemir, Ozer, Ferdi Karakütük, and Aslı Kaya Karakütük. “Veri Madenciliğinde Karar Ağaçları İndükleyicilerinin Likert Ölçekli Verilerde Sınıflandırma Performansı”. Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü Dergisi 29, no. 1 (April 2025): 72-83. https://doi.org/10.19113/sdufenbed.1596624.
EndNote Ozdemir O, Karakütük F, Kaya Karakütük A (April 1, 2025) Veri Madenciliğinde Karar Ağaçları İndükleyicilerinin Likert Ölçekli Verilerde Sınıflandırma Performansı. Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü Dergisi 29 1 72–83.
IEEE O. Ozdemir, F. Karakütük, and A. Kaya Karakütük, “Veri Madenciliğinde Karar Ağaçları İndükleyicilerinin Likert Ölçekli Verilerde Sınıflandırma Performansı”, J. Nat. Appl. Sci., vol. 29, no. 1, pp. 72–83, 2025, doi: 10.19113/sdufenbed.1596624.
ISNAD Ozdemir, Ozer et al. “Veri Madenciliğinde Karar Ağaçları İndükleyicilerinin Likert Ölçekli Verilerde Sınıflandırma Performansı”. Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü Dergisi 29/1 (April2025), 72-83. https://doi.org/10.19113/sdufenbed.1596624.
JAMA Ozdemir O, Karakütük F, Kaya Karakütük A. Veri Madenciliğinde Karar Ağaçları İndükleyicilerinin Likert Ölçekli Verilerde Sınıflandırma Performansı. J. Nat. Appl. Sci. 2025;29:72–83.
MLA Ozdemir, Ozer et al. “Veri Madenciliğinde Karar Ağaçları İndükleyicilerinin Likert Ölçekli Verilerde Sınıflandırma Performansı”. Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü Dergisi, vol. 29, no. 1, 2025, pp. 72-83, doi:10.19113/sdufenbed.1596624.
Vancouver Ozdemir O, Karakütük F, Kaya Karakütük A. Veri Madenciliğinde Karar Ağaçları İndükleyicilerinin Likert Ölçekli Verilerde Sınıflandırma Performansı. J. Nat. Appl. Sci. 2025;29(1):72-83.

e-ISSN :1308-6529
Linking ISSN (ISSN-L): 1300-7688

All published articles in the journal can be accessed free of charge and are open access under the Creative Commons CC BY-NC (Attribution-NonCommercial) license. All authors and other journal users are deemed to have accepted this situation. Click here to access detailed information about the CC BY-NC license.