Assessing the Reliability of Open-Ended Exams: A Generalizability Theory Approach to Item and Rater Variance

Mustafa Köroğlu

doi:10.29129/inujgse.1740879

TR EN

Açık Uçlu Sınavların Güvenirliğinin Değerlendirilmesi: Madde ve Puanlayıcı Varyansına Yönelik Genellenebilirlik Kuramı Yaklaşımı

Öz

Bu çalışma, üniversitelerde uygulanan açık uçlu sınavların güvenirliğini Genellenebilirlik Kuramı (GK) çerçevesinde inceleyerek ölçme hatasının temel kaynaklarını belirlemeyi amaçlamaktadır. Tam çapraz p × i × r (kişi × madde × puanlayıcı) desenine göre tasarlanan araştırmada, 76 öğrenciye uygulanan beş maddelik yazılı sınav iki puanlayıcı tarafından değerlendirilmiştir. Genellenebilirlik çalışması (G-Study) sonucunda toplam varyansın en büyük kısmının bireysel öğrenci farklılıklarından (%62,2) ve kişi × madde etkileşiminden (%30,7) kaynaklandığı, buna karşın madde (%3,9) ve puanlayıcı (%1,5) kaynaklı varyans bileşenlerinin oldukça düşük olduğu görülmüştür. Bu bulgular, sınavın bireysel performans farklarını etkili biçimde yansıttığını ve madde kapsamının artırılmasının ölçme hatasını önemli ölçüde azaltabileceğini göstermektedir. Karar çalışması (D-Study) kapsamında madde sayısının 4’ten 10’a, puanlayıcı sayısının ise 1’den 5’e çıkarılması hem bağıl (σ²δ) hem de mutlak hata varyanslarını azaltmış; buna paralel olarak genellenebilirlik katsayısı (Eρ²) ve Phi katsayısı (Φ) 0,81’den 0,95’e yükselmiştir. Puanlayıcı varyansının düşük olması, ayrıntılı puanlama anahtarları ve puanlayıcı eğitimlerinin tutarlı puanlamaya katkı sunduğunu göstermektedir. Ayrıca artık varyansın %1,6 gibi düşük bir düzeyde olması, modelin büyük ölçüde yeterli olduğunu göstermektedir. Uygulama açısından, güvenilirliği artırmak için öncelikle madde sayısının sekize çıkarılması ve ardından en az üç puanlayıcının görevlendirilmesi önerilmektedir. Çalışma, GK’nin çoklu hata kaynaklarını çözümlemedeki gücünü ortaya koymakta ve yükseköğretimde değerlendirme süreçlerinin kalitesini artırmaya yönelik somut öneriler sunmaktadır.

Anahtar Kelimeler

Assessing the Reliability of Open-Ended Exams: A Generalizability Theory Approach to Item and Rater Variance

Abstract

This study examines the reliability of open-ended university exams through the lens of Generalizability Theory (GT), aiming to identify key sources of measurement error. Using a fully crossed person × item × rater (p × i × r) design, a five-item written exam administered to 76 students was scored by two raters. The Generalizability Study (G-Study) revealed that the largest portion of total score variance stemmed from individual student differences (62.2%) and the person × item interaction (30.7%), while item-related (3.9%) and rater-related (1.5%) variance components were relatively minor. These results suggest that the exam effectively captures individual performance differences, and that increasing item coverage may significantly reduce measurement error. Findings from the Decision Study (D-Study) indicated that expanding the number of items from 4 to 10 and raters from 1 to 5 led to substantial improvements in both relative (σ²δ) and absolute (σ²Δ) error variances. Correspondingly, generalizability and Phi coefficients increased from 0.81 to 0.95. The low rater variance implies that the use of detailed scoring rubrics and rater training contributed to consistent scoring. Moreover, residual error was minimal (1.6%), suggesting strong model fit. From a practical standpoint, results recommend increasing item count to at least eight and involving at least three raters to optimize reliability. The study demonstrates the effectiveness of GT in dissecting multiple sources of error and offers guidance for improving assessment quality in higher education. Emphasizing item diversity, rater standardization, and data-informed decision-making can strengthen the validity and fairness of exam-based evaluations.

Keywords

Kaynakça

Atılgan, H. (2005). A sample application for the theory of generalizability and inter-rater reliability. Educational Sciences and Practice, 4(7), 95–108.,
Baker, F. B. (2001). The basics of item response theory (2nd ed.). ERIC Clearinghouse on Assessment and Evaluation.
Baykul, Y. (2021). Measurement in Education and Psychology: Classical Test Theory and Practice. Pegem Akademi Publishing.

Ayrıntılar

Birincil Dil

İngilizce

Konular

Eğitimde ve Psikolojide Ölçme Teorileri ve Uygulamaları

Bölüm

Araştırma Makalesi

Yazarlar

Mustafa Köroğlu ^*
0000-0001-9610-8523
Türkiye

Yayımlanma Tarihi

24 Ekim 2025

Gönderilme Tarihi

12 Temmuz 2025

Kabul Tarihi

29 Eylül 2025

Yayımlandığı Sayı

Yıl 2025 Cilt: 12 Sayı: 24

DOI

https://doi.org/10.29129/inujgse.1740879

IZ

https://izlik.org/JA82LZ68GS

Kaynak Göster

RIS / Bibtex

APA

Köroğlu, M. (2025). Assessing the Reliability of Open-Ended Exams: A Generalizability Theory Approach to Item and Rater Variance. İnönü Üniversitesi Eğitim Bilimleri Enstitüsü Dergisi, 12(24), 56-69. https://doi.org/10.29129/inujgse.1740879