Assessing the Reliability of Open-Ended Exams: A Generalizability Theory Approach to Item and Rater Variance

Mustafa Köroğlu

doi:10.29129/inujgse.1740879

Araştırma Makalesi

Açık Uçlu Sınavların Güvenirliğinin Değerlendirilmesi: Madde ve Puanlayıcı Varyansına Yönelik Genellenebilirlik Kuramı Yaklaşımı

Yıl 2025, Cilt: 12 Sayı: 24, 56 - 69, 24.10.2025

Mustafa Köroğlu

https://doi.org/10.29129/inujgse.1740879

Öz

Bu çalışma, üniversitelerde uygulanan açık uçlu sınavların güvenirliğini Genellenebilirlik Kuramı (GK) çerçevesinde inceleyerek ölçme hatasının temel kaynaklarını belirlemeyi amaçlamaktadır. Tam çapraz p × i × r (kişi × madde × puanlayıcı) desenine göre tasarlanan araştırmada, 76 öğrenciye uygulanan beş maddelik yazılı sınav iki puanlayıcı tarafından değerlendirilmiştir. Genellenebilirlik çalışması (G-Study) sonucunda toplam varyansın en büyük kısmının bireysel öğrenci farklılıklarından (%62,2) ve kişi × madde etkileşiminden (%30,7) kaynaklandığı, buna karşın madde (%3,9) ve puanlayıcı (%1,5) kaynaklı varyans bileşenlerinin oldukça düşük olduğu görülmüştür. Bu bulgular, sınavın bireysel performans farklarını etkili biçimde yansıttığını ve madde kapsamının artırılmasının ölçme hatasını önemli ölçüde azaltabileceğini göstermektedir. Karar çalışması (D-Study) kapsamında madde sayısının 4’ten 10’a, puanlayıcı sayısının ise 1’den 5’e çıkarılması hem bağıl (σ²δ) hem de mutlak hata varyanslarını azaltmış; buna paralel olarak genellenebilirlik katsayısı (Eρ²) ve Phi katsayısı (Φ) 0,81’den 0,95’e yükselmiştir. Puanlayıcı varyansının düşük olması, ayrıntılı puanlama anahtarları ve puanlayıcı eğitimlerinin tutarlı puanlamaya katkı sunduğunu göstermektedir. Ayrıca artık varyansın %1,6 gibi düşük bir düzeyde olması, modelin büyük ölçüde yeterli olduğunu göstermektedir. Uygulama açısından, güvenilirliği artırmak için öncelikle madde sayısının sekize çıkarılması ve ardından en az üç puanlayıcının görevlendirilmesi önerilmektedir. Çalışma, GK’nin çoklu hata kaynaklarını çözümlemedeki gücünü ortaya koymakta ve yükseköğretimde değerlendirme süreçlerinin kalitesini artırmaya yönelik somut öneriler sunmaktadır.

Anahtar Kelimeler

Genellenebilirlik kuramı , ölçme ve değerlendirme , yazılı sınav , güvenirlik

Kaynakça

Atılgan, H. (2005). A sample application for the theory of generalizability and inter-rater reliability. Educational Sciences and Practice, 4(7), 95–108.,
Baker, F. B. (2001). The basics of item response theory (2nd ed.). ERIC Clearinghouse on Assessment and Evaluation.
Baykul, Y. (2021). Measurement in Education and Psychology: Classical Test Theory and Practice. Pegem Akademi Publishing.

Assessing the Reliability of Open-Ended Exams: A Generalizability Theory Approach to Item and Rater Variance

Yıl 2025, Cilt: 12 Sayı: 24, 56 - 69, 24.10.2025

Mustafa Köroğlu

https://doi.org/10.29129/inujgse.1740879

Öz

This study examines the reliability of open-ended university exams through the lens of Generalizability Theory (GT), aiming to identify key sources of measurement error. Using a fully crossed person × item × rater (p × i × r) design, a five-item written exam administered to 76 students was scored by two raters. The Generalizability Study (G-Study) revealed that the largest portion of total score variance stemmed from individual student differences (62.2%) and the person × item interaction (30.7%), while item-related (3.9%) and rater-related (1.5%) variance components were relatively minor. These results suggest that the exam effectively captures individual performance differences, and that increasing item coverage may significantly reduce measurement error. Findings from the Decision Study (D-Study) indicated that expanding the number of items from 4 to 10 and raters from 1 to 5 led to substantial improvements in both relative (σ²δ) and absolute (σ²Δ) error variances. Correspondingly, generalizability and Phi coefficients increased from 0.81 to 0.95. The low rater variance implies that the use of detailed scoring rubrics and rater training contributed to consistent scoring. Moreover, residual error was minimal (1.6%), suggesting strong model fit. From a practical standpoint, results recommend increasing item count to at least eight and involving at least three raters to optimize reliability. The study demonstrates the effectiveness of GT in dissecting multiple sources of error and offers guidance for improving assessment quality in higher education. Emphasizing item diversity, rater standardization, and data-informed decision-making can strengthen the validity and fairness of exam-based evaluations.

Anahtar Kelimeler

Generalizability theory , measurement and evaluation , written test , reliability.

Kaynakça

Atılgan, H. (2005). A sample application for the theory of generalizability and inter-rater reliability. Educational Sciences and Practice, 4(7), 95–108.,
Baker, F. B. (2001). The basics of item response theory (2nd ed.). ERIC Clearinghouse on Assessment and Evaluation.
Baykul, Y. (2021). Measurement in Education and Psychology: Classical Test Theory and Practice. Pegem Akademi Publishing.

Toplam 3 adet kaynakça vardır.

Ayrıntılar

Birincil Dil	İngilizce
Konular	Eğitimde ve Psikolojide Ölçme Teorileri ve Uygulamaları
Bölüm	Makaleler
Yazarlar	Mustafa Köroğlu 0000-0001-9610-8523
Yayımlanma Tarihi	24 Ekim 2025
Gönderilme Tarihi	12 Temmuz 2025
Kabul Tarihi	29 Eylül 2025
Yayımlandığı Sayı	Yıl 2025 Cilt: 12 Sayı: 24

Kaynak Göster

APA	Köroğlu, M. (2025). Assessing the Reliability of Open-Ended Exams: A Generalizability Theory Approach to Item and Rater Variance. İnönü Üniversitesi Eğitim Bilimleri Enstitüsü Dergisi, 12(24), 56-69. https://doi.org/10.29129/inujgse.1740879

Kapak Resmi İndir

Makale Dosyaları

Tam Metin