TY - JOUR T1 - Assessing the Reliability of Open-Ended Exams: A Generalizability Theory Approach to Item and Rater Variance TT - Açık Uçlu Sınavların Güvenirliğinin Değerlendirilmesi: Madde ve Puanlayıcı Varyansına Yönelik Genellenebilirlik Kuramı Yaklaşımı AU - Köroğlu, Mustafa PY - 2025 DA - October Y2 - 2025 DO - 10.29129/inujgse.1740879 JF - İnönü Üniversitesi Eğitim Bilimleri Enstitüsü Dergisi JO - Inonu University Journal of the Graduate School of Education PB - İnönü Üniversitesi WT - DergiPark SN - 2547-9393 SP - 56 EP - 69 VL - 12 IS - 24 LA - en AB - This study examines the reliability of open-ended university exams through the lens of Generalizability Theory (GT), aiming to identify key sources of measurement error. Using a fully crossed person × item × rater (p × i × r) design, a five-item written exam administered to 76 students was scored by two raters. The Generalizability Study (G-Study) revealed that the largest portion of total score variance stemmed from individual student differences (62.2%) and the person × item interaction (30.7%), while item-related (3.9%) and rater-related (1.5%) variance components were relatively minor. These results suggest that the exam effectively captures individual performance differences, and that increasing item coverage may significantly reduce measurement error. Findings from the Decision Study (D-Study) indicated that expanding the number of items from 4 to 10 and raters from 1 to 5 led to substantial improvements in both relative (σ²δ) and absolute (σ²Δ) error variances. Correspondingly, generalizability and Phi coefficients increased from 0.81 to 0.95. The low rater variance implies that the use of detailed scoring rubrics and rater training contributed to consistent scoring. Moreover, residual error was minimal (1.6%), suggesting strong model fit. From a practical standpoint, results recommend increasing item count to at least eight and involving at least three raters to optimize reliability. The study demonstrates the effectiveness of GT in dissecting multiple sources of error and offers guidance for improving assessment quality in higher education. Emphasizing item diversity, rater standardization, and data-informed decision-making can strengthen the validity and fairness of exam-based evaluations. KW - Generalizability theory KW - measurement and evaluation KW - written test KW - reliability. N2 - Bu çalışma, üniversitelerde uygulanan açık uçlu sınavların güvenirliğini Genellenebilirlik Kuramı (GK) çerçevesinde inceleyerek ölçme hatasının temel kaynaklarını belirlemeyi amaçlamaktadır. Tam çapraz p × i × r (kişi × madde × puanlayıcı) desenine göre tasarlanan araştırmada, 76 öğrenciye uygulanan beş maddelik yazılı sınav iki puanlayıcı tarafından değerlendirilmiştir. Genellenebilirlik çalışması (G-Study) sonucunda toplam varyansın en büyük kısmının bireysel öğrenci farklılıklarından (%62,2) ve kişi × madde etkileşiminden (%30,7) kaynaklandığı, buna karşın madde (%3,9) ve puanlayıcı (%1,5) kaynaklı varyans bileşenlerinin oldukça düşük olduğu görülmüştür. Bu bulgular, sınavın bireysel performans farklarını etkili biçimde yansıttığını ve madde kapsamının artırılmasının ölçme hatasını önemli ölçüde azaltabileceğini göstermektedir. Karar çalışması (D-Study) kapsamında madde sayısının 4’ten 10’a, puanlayıcı sayısının ise 1’den 5’e çıkarılması hem bağıl (σ²δ) hem de mutlak hata varyanslarını azaltmış; buna paralel olarak genellenebilirlik katsayısı (Eρ²) ve Phi katsayısı (Φ) 0,81’den 0,95’e yükselmiştir. Puanlayıcı varyansının düşük olması, ayrıntılı puanlama anahtarları ve puanlayıcı eğitimlerinin tutarlı puanlamaya katkı sunduğunu göstermektedir. Ayrıca artık varyansın %1,6 gibi düşük bir düzeyde olması, modelin büyük ölçüde yeterli olduğunu göstermektedir. Uygulama açısından, güvenilirliği artırmak için öncelikle madde sayısının sekize çıkarılması ve ardından en az üç puanlayıcının görevlendirilmesi önerilmektedir. Çalışma, GK’nin çoklu hata kaynaklarını çözümlemedeki gücünü ortaya koymakta ve yükseköğretimde değerlendirme süreçlerinin kalitesini artırmaya yönelik somut öneriler sunmaktadır. CR - Atılgan, H. (2005). A sample application for the theory of generalizability and inter-rater reliability. Educational Sciences and Practice, 4(7), 95–108., CR - Baker, F. B. (2001). The basics of item response theory (2nd ed.). ERIC Clearinghouse on Assessment and Evaluation. CR - Baykul, Y. (2021). Measurement in Education and Psychology: Classical Test Theory and Practice. Pegem Akademi Publishing. UR - https://doi.org/10.29129/inujgse.1740879 L1 - https://dergipark.org.tr/tr/download/article-file/5048874 ER -