Bu çalışma, üniversitelerde uygulanan açık uçlu sınavların güvenirliğini Genellenebilirlik Kuramı (GK) çerçevesinde inceleyerek ölçme hatasının temel kaynaklarını belirlemeyi amaçlamaktadır. Tam çapraz p × i × r (kişi × madde × puanlayıcı) desenine göre tasarlanan araştırmada, 76 öğrenciye uygulanan beş maddelik yazılı sınav iki puanlayıcı tarafından değerlendirilmiştir. Genellenebilirlik çalışması (G-Study) sonucunda toplam varyansın en büyük kısmının bireysel öğrenci farklılıklarından (%62,2) ve kişi × madde etkileşiminden (%30,7) kaynaklandığı, buna karşın madde (%3,9) ve puanlayıcı (%1,5) kaynaklı varyans bileşenlerinin oldukça düşük olduğu görülmüştür. Bu bulgular, sınavın bireysel performans farklarını etkili biçimde yansıttığını ve madde kapsamının artırılmasının ölçme hatasını önemli ölçüde azaltabileceğini göstermektedir. Karar çalışması (D-Study) kapsamında madde sayısının 4’ten 10’a, puanlayıcı sayısının ise 1’den 5’e çıkarılması hem bağıl (σ²δ) hem de mutlak hata varyanslarını azaltmış; buna paralel olarak genellenebilirlik katsayısı (Eρ²) ve Phi katsayısı (Φ) 0,81’den 0,95’e yükselmiştir. Puanlayıcı varyansının düşük olması, ayrıntılı puanlama anahtarları ve puanlayıcı eğitimlerinin tutarlı puanlamaya katkı sunduğunu göstermektedir. Ayrıca artık varyansın %1,6 gibi düşük bir düzeyde olması, modelin büyük ölçüde yeterli olduğunu göstermektedir. Uygulama açısından, güvenilirliği artırmak için öncelikle madde sayısının sekize çıkarılması ve ardından en az üç puanlayıcının görevlendirilmesi önerilmektedir. Çalışma, GK’nin çoklu hata kaynaklarını çözümlemedeki gücünü ortaya koymakta ve yükseköğretimde değerlendirme süreçlerinin kalitesini artırmaya yönelik somut öneriler sunmaktadır.
Genellenebilirlik kuramı ölçme ve değerlendirme yazılı sınav güvenirlik
This study examines the reliability of open-ended university exams through the lens of Generalizability Theory (GT), aiming to identify key sources of measurement error. Using a fully crossed person × item × rater (p × i × r) design, a five-item written exam administered to 76 students was scored by two raters. The Generalizability Study (G-Study) revealed that the largest portion of total score variance stemmed from individual student differences (62.2%) and the person × item interaction (30.7%), while item-related (3.9%) and rater-related (1.5%) variance components were relatively minor. These results suggest that the exam effectively captures individual performance differences, and that increasing item coverage may significantly reduce measurement error. Findings from the Decision Study (D-Study) indicated that expanding the number of items from 4 to 10 and raters from 1 to 5 led to substantial improvements in both relative (σ²δ) and absolute (σ²Δ) error variances. Correspondingly, generalizability and Phi coefficients increased from 0.81 to 0.95. The low rater variance implies that the use of detailed scoring rubrics and rater training contributed to consistent scoring. Moreover, residual error was minimal (1.6%), suggesting strong model fit. From a practical standpoint, results recommend increasing item count to at least eight and involving at least three raters to optimize reliability. The study demonstrates the effectiveness of GT in dissecting multiple sources of error and offers guidance for improving assessment quality in higher education. Emphasizing item diversity, rater standardization, and data-informed decision-making can strengthen the validity and fairness of exam-based evaluations.
Generalizability theory measurement and evaluation written test reliability.
| Birincil Dil | İngilizce |
|---|---|
| Konular | Eğitimde ve Psikolojide Ölçme Teorileri ve Uygulamaları |
| Bölüm | Makaleler |
| Yazarlar | |
| Yayımlanma Tarihi | 24 Ekim 2025 |
| Gönderilme Tarihi | 12 Temmuz 2025 |
| Kabul Tarihi | 29 Eylül 2025 |
| Yayımlandığı Sayı | Yıl 2025 Cilt: 12 Sayı: 24 |