Eğitimsel veri madenciliği, eğitim verilerindeki gizli örüntüleri keşfeden bir araştırma alanıdır. Bu çalışmada öğrencilerin final not performanslarını tahmin etmek amacıyla en temel özelliklerden oluşan bir veri setine makine öğrenmesi algoritmaları uygulanmıştır. Böylece en önemli özellikler ve en yüksek performanslı makine öğrenmesi algoritması da tespit edilmeye çalışılmıştır. Bu amaçla özellik seçim sürecinde tek değişkenli özellik seçimi, ağaç tabanlı özellik seçimi ve L1 tabanlı özellik seçimi yöntemleri kullanılmıştır. Öğrenme modellerini oluşturmak için sınıflandırma ve regresyon ağaçları, k-en yakın komşular, naive Bayes, rastgele orman ve destek vektör makineleri kullanılmıştır. L1 tabanlı özellik seçimi ve sınıflandırma ve regresyon ağaçları, sırasıyla özellik seçimi ve model oluşturma süreçlerinde en iyi performansı sağlamıştır. Deneysel sonuçlar, önerilen modelin ortalama 0,7700 sınıflandırma doğruluğuna ve 0,7888 F1 puanına ulaştığını göstermektedir. L1 tabanlı özellik seçme yönteminde yalnızca 4 özellik seçilmiştir: bunlar burs türü, toplam maaş, üniversiteye ulaşım ve son yarıyıldaki genel not ortalamasıdır. Sonuç olarak öğrencilerin akademik başarılarını etkileyen pek çok gösterge mevcut olup, ölçme süreci sonrasında ortaya çıkan başarı ya da başarısızlık, bu özellikler dikkate alınarak önceden tahmin edilebilmektedir. Böyle bir görev, eğitimsel girdi ve çıktılar arasındaki ilişki mekanizmasının anlaşılmasını sağlayacak ve eğitim sürecine ilişkin eksiklikleri ortadan kaldıracaktır.
Educational data mining is a research field that probes undercover patterns in educational data. In this paper, machine learning algorithms have been applied to the dataset that consists of major features so as to predict students’ final grade performances. Thus, the most significant features and the highest-performance machine learning algorithm have been also tried to be detected. To this end, univariate feature selection, tree-based feature selection, and L1-based feature selection methods have been used for the feature selection process. Classification and regression trees, k-nearest neighbors, naive Bayes, random forest, and support vector machines have been employed to build the learning models. The L1-based feature selection and classification and regression trees have delivered the best performance for the feature selection and the model creation processes, respectively. The experimental results demonstrate that the proposed model reached a classification accuracy of 0.7700 and an F1-score of 0.7888 on average. The L1-based feature selection method has selected only 4 features: these are scholarship type, total salary, transportation to the university, and cumulative grade point average in the last semester. In consequence, there exist lots of indicators that impact students' academic successes, the success or failure that emerges after the measurement process can be estimated by regarding these features in advance. Such a task will enable the relationship mechanism between the educational inputs and outputs to be understandable and eliminate shortcomings concerning the education process.
Academic performance academic achievement artificial intelligence educational data mining feature selection
Primary Language | English |
---|---|
Subjects | Higher Education Studies (Other) |
Journal Section | Articles |
Authors | |
Publication Date | January 29, 2025 |
Submission Date | November 13, 2023 |
Acceptance Date | October 13, 2024 |
Published in Issue | Year 2025 Volume: 14 Issue: 1 |
All the articles published in the journal are open access and distributed under the conditions of CommonsAttribution-NonCommercial 4.0 International License
Bartın University Journal of Faculty of Education