Kümeleme, karmaşık veri setlerinde desenleri ortaya çıkarmak ve bireyleri gruplayabilmek için yaygın olarak kullanılan bir tekniktir. Özellikle akademik ve bağlamsal değişkenlerin önemli olduğu eğitim alanında sıklıkla kullanılmaktadır. Bu çalışma, R yazılımında üretilmiş hipotetik bir öğrenci bursu veri seti kullanılarak, öğrencilerin burs uygunluk gruplarına sınıflandırılmasında altı kümeleme yönteminin temellerini tanıtmayı ve performansını incelemeyi amaçlamaktadır. Veri seti, tipik burs değerlendirme ölçütlerini yansıtan iki sayısal değişken (GNO ve Bursluluk Sınavı Sonucu) ile dört kategorik değişkenden değişkenden (Maddi İhtiyaç Durumu, Çalışan Ebeveyn Sayısı, Öğrencinin Çalışma Durumu ve Konaklama Türü) oluşmaktadır. Öğrenciler "Asil Adaylar", "Yedek Adaylar" ve "Reddedilen Adaylar" olarak etiketlenmiş ve kümeleme yöntemlerininn (K-Ortalamalar, K-Modlar, K-Prototipler, Medoidlere Bölme, Gizil Sınıf Analizi ve Karma Verilerle Faktör Analizi sonrasında K-Ortalamalar) bu etiketleri ne ölçüde doğru biçimde yeniden ürettikleri açısından değerlendirilmiştir. Bulgular, özellikle K-Prototipler (%95,6) ve Medoidlere Bölme (%92,5) gibi hibrit yaklaşımların en yüksek doğruluğa ulaştığını göstermektedir. Karma Verilerle Faktör Analizi sonrasında K-Ortalamalar (%93,9) boyut indirgeme yoluyla güçlü bir alternatif sunarken, Gizil Sınıf Analizi %85,9 doğruluk sağlamıştır. Bulgular, kümeleme uygulamalarında kategorik değişkenlerin değerini ortaya koymakta ve özellikle burs seçimi gibi yüksek riskli bağlamlarda karma tipte eğitim verileri için uygun kümeleme tekniklerinin seçilmesinin önemini vurgulamaktadır.
Karma veri ile kümeleme K-ortalamalar K-prototipler Gizil sınıf analizi Karma veri ile faktör analizi
Clustering is a widely used technique for uncovering patterns and grouping individuals within complex datasets, particularly in fields like education where both academic and contextual variables are essential. This study aims to introduce the basics and explore the performance of six clustering methods in classifying students into scholarship eligibility groups using a hypothetical student scholarship dataset generated in R software. The dataset consists of two numerical variables (GPA and Scholarship Exam Result) and four categorical variables (Financial Need, Number of Parents Employed, Employment Status, and Accommodation), reflecting typical criteria in educational funding decisions. Students were labeled as Primary, Secondary, or Rejected Candidates, and the clustering methods—K-Means, K-Modes, K-Prototypes, Partitioning Around Medoids (PAM), Latent Class Analysis (LCA), and Factor Analysis for Mixed Data (FAMD) followed by K-Means—were assessed based on how accurately they reproduced these labels. Results indicate that hybrid approaches, particularly K-Prototypes (95.6%) and PAM (92.5%), achieved the highest accuracy. FAMD + K-Means (93.9%) offered a robust alternative through dimensionality reduction while LCA produced an 85.9% accuracy. The findings highlight the value of categorical variables in clustering applications, and it also demonstrates the importance of selecting suitable clustering techniques for mixed-type educational data, especially in high-stakes contexts such as scholarship selection.
Clustering mixed data K-Means K-Prototypes Latent Class Analysis Factor Analysis with Mixed Data
Primary Language | English |
---|---|
Subjects | Measurement and Evaluation in Education (Other) |
Journal Section | Research Articles |
Authors | |
Early Pub Date | October 1, 2025 |
Publication Date | October 13, 2025 |
Submission Date | April 12, 2025 |
Acceptance Date | May 26, 2025 |
Published in Issue | Year 2025 Issue: 59 |
Content of this journal is licensed under a Creative Commons Attribution NonCommercial 4.0 International License