Preserving Rare Tasks in the KDD Cup 2010 Educational Dataset: A Task-Aware Coverage-Based Sampling Method
Abstract
Large-scale educational datasets inevitably require data reduction due to the sheer volume of student–task interactions they contain. However, most existing data reduction and sampling strategies focus on preserving global data distributions or label-level class balance, while largely overlooking the structural representation of rare yet pedagogically critical tasks. This limitation often leads to unreliable predictions and poor generalization performance, particularly for sparsely observed learning objectives. In this study, we propose a Task-Aware Coverage Sampling framework designed to explicitly preserve the structural coverage of rare tasks under aggressive data reduction. The proposed approach identifies rare tasks using task-specific statistics and constructs compact yet representative training subsets by enforcing structural coverage independently within each task. Unlike random and stratified sampling methods, the framework prioritizes task-level representativeness rather than global class balance. We further compare the proposed method against a geometry-based farthest-first sampling strategy, which promotes global diversity in the feature space but does not explicitly account for task structure. The method is evaluated on the Algebra I 2008–2009 dataset from the KDD Cup 2010 Educational Data Mining Challenge, which contains over 20 million student–task interactions. From this large-scale corpus, we identify 5,171 interactions associated with rare knowledge components. Notably, the proposed approach is able to model rare tasks effectively in representative rare-task configurations using as few as 22 samples, corresponding to less than 0.5% of the task-specific data, without compromising predictive stability. Experiments are conducted using logistic regression, random forests, and linear support vector machines, with the area under the precision–recall curve as the primary evaluation metric. The results show that, even when less than one percent of the original task-level training data is retained, the proposed method achieves competitive average performance and exhibits substantially greater stability in worst-case task scenarios compared to random, stratified, and geometry-based sampling baselines. These findings demonstrate that reliable learning on rare educational tasks can be achieved in large-scale educational datasets without requiring exhaustive access to the full training data.
Keywords
KDD Cup 2010 Eğitim Veri Kümesinde Nadir Görevlerin Korunması: Görev Duyarlı Kapsama Tabanlı Örnekleme Yöntemi
Abstract
Büyük ölçekli eğitim veri kümeleri, milyonlarca öğrenci–görev etkileşimi içermeleri nedeniyle veri azaltımını kaçınılmaz hâle getirmektedir. Ancak mevcut veri azaltma ve örnekleme yaklaşımları çoğunlukla küresel veri dağılımını veya etiket düzeyindeki sınıf dengesini korumaya odaklanırken, nadir ancak pedagojik açıdan kritik görevlerin yapısal olarak temsil edilmesini büyük ölçüde göz ardı etmektedir. Bu durum, özellikle seyrek gözlemlenen görevlerde güvenilmez tahminlere ve zayıf genelleme performansına yol açmaktadır. Bu çalışmada, büyük ölçekli eğitim verilerinde agresif veri azaltımı gerçekleştirirken nadir görevlerin yapısal kapsamasını açık biçimde korumayı amaçlayan Görev Farkındalıklı Kapsama Örneklemesi adlı bir çerçeve önerilmektedir. Önerilen yöntem, görev-özel istatistikler kullanarak nadir görevleri tanımlamakta ve her bir görev içerisinde yapısal kapsama zorlaması uygulayarak kompakt fakat temsil gücü yüksek eğitim alt kümeleri oluşturmaktadır. Rastgele ve tabakalı örnekleme yaklaşımlarından farklı olarak, yöntem küresel sınıf dengesini değil, görev düzeyinde temsiliyeti veri azaltımının birincil hedefi olarak ele almaktadır. Ayrıca önerilen yaklaşım, özellik uzayında küresel çeşitliliği maksimize etmeyi amaçlayan ancak görev yapısını açık biçimde dikkate almayan, geometri tabanlı en uzak-önce örnekleme stratejisi ile karşılaştırmalı olarak değerlendirilmiştir. Yöntem, KDD Kupası 2010 Eğitim Veri Madenciliği Yarışması kapsamında sunulan Algebra I 2008–2009 veri kümesi üzerinde test edilmiştir. Söz konusu veri kümesi 20 milyondan fazla öğrenci–görev etkileşimi içermekte olup, bu büyük ölçek içerisinden nadir görevleri temsil eden 5.171 etkileşim belirlenmiştir. Önerilen yaklaşım, tahminsel kararlılıktan ödün vermeden, bu nadir görevleri yalnızca 22 temsilci örnek ile etkili biçimde modelleyebilmekte; bu sayı, nadir görev verisinin yüzde 0,5’inden daha azına karşılık gelmektedir. Deneyler lojistik regresyon, rastgele ormanlar ve doğrusal destek vektör makineleri kullanılarak gerçekleştirilmiş; temel değerlendirme ölçütü olarak hassasiyet–geri çağırım eğrisi altında kalan alan tercih edilmiştir. Elde edilen sonuçlar, özgün görev-düzeyli eğitim verisinin yüzde birinden daha azı kullanıldığında dahi, önerilen yaklaşımın rekabetçi ortalama performans sağladığını ve özellikle en kötü durumdaki görev senaryolarında rastgele, tabakalı ve geometri tabanlı örnekleme yöntemlerine kıyasla daha yüksek kararlılık sunduğunu göstermektedir. Bu bulgular, büyük ölçekli eğitim veri kümelerinde nadir görevler için güvenilir öğrenmenin, tam eğitim veri setinin tamamına ihtiyaç duyulmadan sağlanabileceğini ortaya koymaktadır.
Keywords