Veri Madenciliğinde Kullanılan Öğrenme Yöntemlerinin Farklı Koşullar Altında Karşılaştırılması
Abstract
Bu çalışmada veri madenciliği ve makine öğrenme yaklaşımının eğitim alanında kullanılması ve bu algoritmalara dayalı olarak elde edilen sonuçların güvenirlik ve geçerlik değerlerinin ne düzeyde olduğu belirlenmeye çalışılmıştır. PISA 2015 Türkiye ortalamasına göre öğrencilerin başarılı ve başarısız olarak sınıflandığı çalışmada farklı öğrenme yöntemleri kullanılarak fen okuryazarlığı bakımından öğrencilerin hangi sınıfta yer alacağı tahmin edilmiş ve bu aşamada elde edilen sonuçların güvenirlik ve geçerlik ölçütleri incelenmiştir. Çalışma kapsamında ele alınan 8 farklı öğrenme yönteminden doğru sınıflama sayısı, doğru sınıflama oranı, kappa istatistiği, karekök hata ve göreceli karekök hata değerleri bakımından en iyi sonuçların Random Forest yöntemiyle elde edilirken Ridge lojistik regresyon, Lojistik model ve Hoefding tree yöntemlerinin en başarılı diğer yöntemler olduğu belirlenmiştir. Çapraz geçerleme yöntemi kullanılmadan tüm veri setinin eğitim ve test veri seti olarak ayrılması durumunda Lojistik model, Random Forest ve Ridge Regresyon yöntemlerinin farklı büyüklükteki test verilerinde en düşük hata değerlerini verirken Random Tree ve J.48 yönteminlerinin en yüksek hata değerlerine sahip olduğu belirlenmiştir. Ridge regresyon, Random forest ve Lojistik model tarafından elde edilen hata değerlerinin de farklı yüzdelikteki test verilerinde oldukça tutarlı olduğu sonucuna ulaşılmıştır. Farklı yöntemler yardımıyla elde edilen ölçme sonuçlarının veri setini test ve eğitim verisi olarak ayırmayıp aynı veri seti üzerinden hem öğrenme yöntemini eğitip hem de test ettiğimiz taktirde özellikle Random tree ve J.48 öğrenme yöntemlerinin gerçek performanslarından daha yüksek doğru sınıflama oranına sahip oldukları belirlenmiştir.
Keywords
References
- Ahmed, A. B., & Elaraby, I. S. (2014) Data Mining: A prediction for student's performance using classification method. World Journal of Computer Application and Technology, 2 (2), 43-47.
- Boss, D. D. (2003). Introduction to the Bootstrap World, Statistical Science, 18 (2), 168-174.
- Bramer, M. (2013). Principles of Data Mining (2nd ed.), London: Springer-Verlag.
- Brown, M. S. (2014). Data Mining For Dummies, Hoboken, New Jersey: John Wiley & Sons.
- Chamatkar, A. J., & Butey, P. K. (2014) Importance of data mining with different types of data applications and challenging areas, Journal of Engineering Research and Applications, 4 (5), 38-41.
- Chen, S. X. and J. S. Liu (1997). Statistical applications of the Poisson-binomial and conditional Bernoulli distributions. Statistica Sinica 7, 875–892.
- Dekking, F. M., Kraaikamp, C., Lopuhaa, H. P. & Meester, L. E. (2005) A modern ıntroduction to probability and statistics: understanding why and how, United States of America: Springer Science+Business Media.
- Domingos, P. (2012), A few useful things to know about machine learning, Communications of the ACM, 55 (10), 78–87.
Details
Primary Language
Turkish
Subjects
Studies on Education
Journal Section
Research Article
Publication Date
December 1, 2018
Submission Date
September 26, 2018
Acceptance Date
November 10, 2018
Published in Issue
Year 2018 Volume: 51 Number: 3
Cited By
The Effect of the Normalization Method Used in Different Sample Sizes on the Success of Artificial Neural Network Model
International Journal of Assessment Tools in Education
https://doi.org/10.21449/ijate.479404PISA 2018’de Okuduğunu Anlama Başarısını Yordayan Değişkenlerin Veri Madenciliği İle Belirlenmesi
Celal Bayar Üniversitesi Sosyal Bilimler Dergisi
https://doi.org/10.18026/cbayarsos.959609Classification of Students’ Mathematical Literacy Score Using Educational Data Mining: PISA 2015 Turkey Application
Cumhuriyet Science Journal
https://doi.org/10.17776/csj.1136733Reviewing the Factors Affecting PISA Reading Skills by Using Random Forest and MARS Methods
International Journal of Contemporary Educational Research
https://doi.org/10.33200/ijcer.1192590Predicting science achievement scores with machine learning algorithms: a case study of OECD PISA 2015–2018 data
Neural Computing and Applications
https://doi.org/10.1007/s00521-023-08901-6Machine-Learning Applications in Predicting Students’ Non-Cognitive Skills: Evidence from PISA 2022
Fudan Journal of the Humanities and Social Sciences
https://doi.org/10.1007/s40647-026-00459-6