Akran Değerlendirmesinde Puanlayıcı Katılığı Kayması
Abstract
Akran
değerlendirmesinde elde edilen puanların geçerliği ve güvenirliği hakkında
sağlam psikometrik dayanağı olan ve özellikle puanlayıcı etkisine değinen
yeteri kadar çalışma bulunmamaktadır. Bu çalışmada puanlayıcı etkilerinden olan
puanlayıcı katılık kaymasının (rater severity drift), akran değerlendirmede ne
derece görüldüğü araştırılmıştır. Eğitim fakültesindeki bir ders kapsamında
öğrenciler tarafından gerçekleştirilen sözlü sunum performansları aynı dersi
alan 29 akran tarafından dereceli puanlama anahtarı kullanılarak puanlanmıştır.
İlk üç gün iki sunum, dördüncü gün üç sunum olmak üzere toplam dokuz sunum dört
ayrı günde gerçekleştirilmiştir. Puanlayıcı kayması iki farklı çok yüzeyli
Rasch ölçme modeli (ayrı modeller ve kukla zaman ) yardımıyla incelenmiştir.
Her gün için hesaplanan puanlayıcı kestirimlerinden standartlaştırılmış farklar
indeksi ve kukla zaman modelinden etkileşim terimleri hesaplanmıştır.
Puanlayıcı kayması analizinde, Gün-1
temel gün alınmış, Gün-1’den diğer günlere (Gün-2, 3 ve 4) değişimler
incelenmiştir. Analizler genel olarak akran puanlayıcıların arkadaşlarını
oldukça cömert bir biçimde puanladıklarını göstermiştir. Puanlayıcılar kendi
aralarında kıyaslandığında ise katılık/cömertlik seviyelerinin birbirlerinden
farklı olduğu görülmüştür. Sunumlar puanlayıcılar tarafından tutarlı bir
şekilde niteliklerine göre sıralandırılmıştır. Puanlayıcı kaymasını incelemek
için kullanılan iki yöntem benzer sonuçlar vermiştir. Gün-1 ve 2 arasında
puanlayıcı kestirimlerinde bir farklılık görülmemektedir. Her ne kadar
ortalamada puanlayıcılar daha cömert puanlama yapsa da, kaymalar istatistiksel olarak
anlamlı değildir. Gün-1 ve 3 arasında puanlayıcıların kestirimlerinde önemli
kaymaların olduğu puanlayıcıların oranı %38,10’dur. İki yönteme göre de
puanlayıcılar ortalamada yaklaşık 0,14 logit kayma gösterip daha katı puanlama
davranışı sergilemiştir. Gün-1 ve 4 arasında puanlayıcıların kestirimlerinde
önemli kaymaların olduğu puanlayıcıların sayısı standartlaştırılmış farklar
yöntemiyle üçgen, etkileşim terimi yöntemiyle birdir. Ortalamada iki yöntemle
de puanlayıcılar daha katılaşmıştır. Ortalamada kaymanın en yüksek olduğu Gün-4’tür.
Keywords
References
- Bond, T. G., & Fox, C. M. (2015). Applying the Rasch Model: Fundamental Measurement in the Human Sciences. Mahwah, NJ: Lawrence Erlbaum.
- Eckes,T. (2011). Introduction to Many-Facet Rasch Measurement. Analyzing and Evaluating Rater-Mediated Assessments. Frankfurt am Main: Peter Lang.
- Braun, H. I. (1988). Understanding scoring reliability: Experiments in calibrating essay readers. Journal of Educational Statistics, 13, 1–18.
- Braun, H. I., & Wainer, H. (1989). Making essay test scores fairer with statistics. In J. Tanur, F. Mosteller,W. H. Kruskal, E. L. Lehmann, R. F. Link, R. S. Pieters & G. S. Rising (Eds.), Statistics: A guide to the unknown (3rd ed., pp. 178–188). Pacific Grove, CA: Wadsworth.
- Casabianca, J. M., Lockwood, J. R., & McCaffrey, D. F. (2015). Trends in classroom observation scores. Educational and Psychological Measurement, 75(2), 311–337. Congdon, P. J., & McQueen, J. (2000). The stability of rater severity in large-scale assessment programs. Journal of Educational Measurement, 37, 163-178.
- Demirbilek, M. (2015). Social media and peer feedback: What do students really think about using Wiki and Facebook as platforms for peer feedback? Active Learning in Higher Education, 16(3) 211–224
- Dochy, F. Segers, M., & Sluijsmans, D. (1999). The use of self-, peer and coassessment in higher education: A review. Studies in Higher Education, 24(3), 331-350
- Engelhard, G. (1994). Examining rater errors in the assessment of written composition with a many‐faceted Rasch model. Journal of Educational Measurement 31 (2), 93-112.
Details
Primary Language
English
Subjects
-
Journal Section
Research Article
Authors
Bengu Börkan
Türkiye
Publication Date
December 29, 2017
Submission Date
July 12, 2017
Acceptance Date
November 21, 2017
Published in Issue
Year 2017 Volume: 8 Number: 4
Cited By
Can patient-physician interview skills be implemented with peer simulated patients?
Medical Education Online
https://doi.org/10.1080/10872981.2022.2045670Examining The Rater Drift in The Assessment of Presentation Skills in Secondary School Context
Eğitimde ve Psikolojide Ölçme ve Değerlendirme Dergisi
https://doi.org/10.21031/epod.1213969The Role of Time on Performance Assessment (Self, Peer and Teacher) in Higher Education: Rater Drift
Participatory Educational Research
https://doi.org/10.17275/per.23.77.10.5