Examination of the Reliability of the Measurements Regarding the Written Expression Skills According to Different Test Theories

Merve Yıldırım Seheryeli; Şeref Tan

doi:10.21031/epod.559470

EN TR

Examination of the Reliability of the Measurements Regarding the Written Expression Skills According to Different Test Theories

Abstract

The aim of the study is to examine the reliability estimations of written expression skills analytical rubric based on the Classical Test Theory (CTT), Generalizability Theory (GT) and Item Response Theory (IRT) which differ in their field of study. In this descriptive study, the stories of the 523 students in the study group were scored by seven raters. CTT results showed that Eta coefficient revealed that there was no difference between the scoring of the raters (η = .926); Cronbach Alpha coefficients were over .88. GT results showed that G and Phi coefficients were over .97. The students’ expected differentiation emerged, the difficulty levels of the criteria did not change from one student to another, and the consistency between the scores among raters was excellent. In the Item Response Theory, parameters were estimated according to Samejima’s (1969) Graded Response Model and item discrimination differed according to the different raters. According to b parameters, for all the raters; individuals are expected to be at least -2.35, -0.80, 0.41 ability level in order to be scored higher than 0, 1 or 2 categories respectively with .50 probability. Marginal reliability coefficients were quite high (around .93). The Fisher Z’ statistic was calculated for the significance of the difference between all reliability estimates. GT revealed more detailed information than CTT in the explanation of error variance sources and determination of reliability; while IRT provided more detailed information than CTT in determining the item-level error estimations and the ability level. There was a significant difference between the estimated parameters of CTT and GT in interrater reliability (p < .05); there was no significant difference between the parameters predicted according to CTT and IRT (p > .05).

Keywords

Classical test theory,generalizability theory,item response theory,interrater reliability,reliability,rubric

Abstract

Araştırmanın amacı, çalışma alanlarına göre farklılaşan Klasik Test Kuramı (KTK), Genellenebilirlik Kuramı (GK) ve Madde Tepki Kuramlarının (MTK) yazılı anlatım becerisi analitik puanlama anahtarı kullanılarak elde edilen ölçümlere ilişkin güvenirlik kestirimlerinin incelenmesidir. Betimsel tasarlanan bu araştırmada çalışma grubunu oluşturan 523 öğrencinin hikâyeleri, yedi puanlayıcı tarafından puanlanmıştır. SPSS 22 programı kullanılarak elde edilen KTK bulgularında Eta korelasyon katsayısı incelendiğinde puanlayıcıların puanlamaları arasında bir farklılaşma olmadığı (η=0.926); Cronbach Alfa katsayılarının 0.88’in üzerinde olduğu bulunmuştur. Edu-G 6.1e programı kullanılarak elde edilen GK bulgularında G ve Phi katsayılarının 0.97’nin üzerinde olduğu görülmüştür. Öğrencilerde beklenen farklılaşma ortaya çıkmış, ölçütlerin güçlük düzeyleri bir öğrenciden diğerine değişmemiş, puanlayıcılar arasındaki puanlama tutarlılığı mükemmel seviyede bulunmuştur. Multilog 7.03 programı kullanılarak elde edilen Madde Tepki Kuramı bulgularında Samejima’nın (1969) Derecelendirilmiş Tepki modeline göre kestirilen a parametreleri farklı puanlayıcılara göre maddelerin ayırt ediciliğinin farklılaştığını göstermektedir. b parametrelerine göre tüm puanlayıcılar için bireylerin 0.50 ihtimalle 0’dan yüksek puan almaları için -2.35, 1’den yüksek puan almaları için -0.80, 2’den yüksek puan almaları için 0.41 yetenek düzeylerinin üzerinde bulunmaları gerekmektedir. Marjinal güvenirlik katsayıları incelendiğinde ise güvenirliğin oldukça yüksek (0,93 civarında) olduğu görülmüştür. Tüm güvenirlik kestirimlerinin arasındaki farkın manidarlığı için Microsoft Excel 2016 programında Fisher Z’ istatistiği hesaplanmıştır. Hata varyansı kaynaklarını açıklamada ve güvenirlik belirlemede GK, madde bazında hata kestirimlerinde ve yetenek düzeyi belirlemede MTK, KTK’den daha ayrıntılı bilgiler ortaya koymuştur. Puanlayıcılar arası güvenirlikte ise KTK ile GK’ye göre kestirilen parametreler arasında anlamlı bir fark bulunurken (p < 0.05); KTK ile MTK’ye göre göre kestirilen parametreler arasında anlamlı bir fark saptanmamıştır (p > 0.05).

Keywords

Klasik test kuramı,genellenebilirlik kuramı,madde tepki kuramı,puanlayıcılar arası uyum,güvenirlik,rubrik

References

Arsan, N. (2012). Buz pateninde hakem değerlendirmelerinin genellenebilirlik kuramı ve Rasch modeli ile incelenmesi. Doktora Tezi, Hacettepe Üniversitesi Sosyal Bilimler Enstitüsü, Ankara.
Atılgan, H. (2005). Genellenebilirlik Kuramı ve Puanlayıcılar Arası Güvenirlik İçin Örnek Bir Uygulama. Eğitim Bilimleri ve Uygulama, 4(7), 95-108.
Ayala, R. J. (2009). The Theory and Practice of Item Response Theory. USA: The Guildford Press.
Bağcı, V. (2015). Matematiksel Muhakeme Becerisinin Ölçülmesinde Klasik Test Kuramı ile Genellenebilirlik Kuramındaki Farklı Desenlerin Karşılaştırılması (Yüksek Lisans Tezi). Yüksek Lisans Tezi, Gazi Üniversitesi Eğitim Bilimleri Enstitüsü, Ankara.
Baker, F. B. (2016). Madde Tepki Kuramının Temelleri. (N. Güler, Dü., & M. İlhan, Çev.) Ankara: Pegem Akademi.
Baykul, Y. (2010). Eğitimde ve psikolojide ölçme: Klasik test teorisi ve uygulaması. Ankara: Pegem Akademi.
Brennan, R. L. (2011). Generalizability theory and classical test theory. Applied Measurement And Education, 24, 1-21.
Büyükkıdık, S. (2012). Problem çözme becerisinin değerlendirilmesinde puanlayıcılar arası güvenirliğin klasik test kuramı ve genellenebilirlik kuramına göre karşılaştırılması. Yüksek Lisans Tezi, Hacettepe Üniversitesi Sosyal Bilimler Enstitüsü, Ankara.

Cardinet, J., Johnson, S., & Pini, G. (2010). Applying generalizability theory using EduG. USA: Routledge-Taylor & Francis Group.
Crocker, L., & Algina, J. (2006). Introduction to classical and modern test theory. USA: Cengage Learning.
Çelen, Ü., & Aybek, E. C. (2013). Öğrenci başarısının öğretmen yapımı bir testle klasik test kuramı ve madde tepki kuramı yöntemleriyle elde edilen puanlara göre karşılaştırılması. Eğitimde ve Psikolojide Ölçme ve Değerlendirme Dergisi, 4(2), 64-75.
Çokluk, Ö., Şekercioğlu, G., & Büyüköztürk, Ş. (2014). Sosyal Bilimler İçin Çok Değişkenli İstatistik SPSS ve LISREL Uyglamaları. Ankara: Pegem Akademi.
Deliceoğlu, G. (2009). Futbol yetilerine ilişkin dereceleme ölçeğinin genellenebilirlik ve klasik test kuramına dayalı güvenirliklerinin karşılaştırılması. Doktora Tezi, Ankara Üniversitesi Eğitim Bilimleri Enstitüsü, Ankara.
DeMars, C. (2016). Madde Tepki Kuramı. E. H. Özberk, & H. Kelecioğlu (Dü.) içinde, Bölüm 1. Giriş (s. 1-30). Ankara: Nobel Akademi.
Doğan, N., & Tezbaşaran, A. A. (2003). Klasik test kuramının ve örtük özellikler kuramının örneklemler bağlamında karşılaştırılması. Hacettepe Üniversitesi Eğitim Fakültesi Dergisi, 25, 58-67.
Erkuş, A. (2017). Bilimsel araştırma süreci. Ankara: Seçkin.
Erkuş, A., Sünbül, Ö., Ömür Sünbül, S., Aşiret, S., & Yormaz, S. (2017). Psikolojide ölçme ve ölçek geliştirme. Ankara: Pegem Akademi.
Gelbal, S. (1994). p Madde güçlük indeksi ile Rasch modelinin b parametresi ve bunlara dayalı yetenek ölçüleri üzerine bir karşılaştırma. Hacettepe Üniversitesi Eğitim Fakültesi Dergisi, 10, 85-94.
Gulliksen, H. (1950). Theory of Mental Tests. USA: John Wiley & Sons.
Güler, N. (2008). Klasik test kuramı genellenebilirlik kuramı ve Rasch modeli üzerine bir araştırma. Doktora Tezi, Hacettepe Üniversitesi Sosyal Bilimler Enstitüsü, Ankara.
Güler, N. (2011). Rastgele veriler üzerinde genellenebilirlik kuramı ve klasik test kuramına göre güvenirliğin karşılaştırılması. Eğitim ve Bilim, 36(162), 225-234.
Güler, N., Kaya Uyanık, G., & Taşdelen Teker, G. (2012). Genellenebilirlik kuramı. Ankara: Pegem Akademi.
Hambleton, R. K., & Jones, R. W. (1993). Comparison of classical test theory and item response theory and their applications to test development. Educational Measurement(12), 38-47.
Hambleton, R. K., Swaminathan, H., & Rogers, H. J. (1991). Fundamentals of Item Response Theory. USA: Sage Publications.
İlhan, M. (2016). Açık uçlu sorularla yapılan ölçmelerde klasik test kuramı ve çok yüzeyli Rasch modeline göre hesaplanan yetenek kestirimlerinin karşılaştırılması. Hacettepe Üniversitesi Eğitim Fakültesi Dergisi, 31(2), 346-368.
Kan, A. (2006). Klasik test teorisine ve örtük özellikler teorisine göre kestirilen madde parametrelerinin karşılaştırılması üzerine ampirik bir çalışma. Mersin Üniversitesi Eğitim Fakültesi Dergisi, 2(2), 227-235.
Karatay, H. (2015). Süreç temelli yazma modelleri: 4+1 Planlı yazma ve değerlendirme modeli. M. Özbay (Dü.) içinde, Yazma eğitimi (s. 21-48). Ankara: Pegem Akademi.
Kelecioğlu, H. (2001). Örtük özellikler teorisindeki b ve a parametreleri ile klasik test teorisindeki p ve r istatistikleri arasındaki ilişki. Hacettepe Üniversitesi Eğitim Fakültesi Dergisi, 20, 104-110.
Kim, S., & Feldt, L. S. (2010). The estimation of the IRT reliability coefﬁcient and its lower and upper bounds, with comparisons to CTT reliability statistics. Asia Pacific Education Review Journal, 11, 179-188.
Kim, S., & Wilson, M. (2009). A comparative analysis of the ratings in performance assessment using generalizability theory and many-facet rasch measurement. Journal of Applied Measurement, 10(4), 408-422.
Koch, W. R. (1983). Likert scaling using the graded response latent trait model. Applied Psychological Measurement, 7(1), 15-32.
Köse, A. (2014). Ölçmede Güvenirlik. R. N. Demirtaşlı (Dü.) içinde, Eğitimde ölçme ve değerlendirme (s. 86-109). Ankara: Edge Akademi.
Köse, A. (2015). Aşamalı tepki modeli ve klasik test kuramı altında elde edilen test ve madde parametrelerinin karşılaştırılması. Abant İzzet Baysal Üniversitesi Eğitim Fakültesi Dergisi, 15(2), 184-197.
Kutlu, Ö., Doğan, C., & Karakaya, İ. (2014). Ölçme ve değerlendirme performansa ve portfolyoya dayalı durum belirleme. Ankara: Pegem Akademi.
Lee, Y.-S., Torre, J. d., & Park, Y. S. (2012). Relationships between cognitive diagnosis, CTT, and IRT indices: an empirical investigation. Asia Pacific Educ. Rev.(13), 333–345.
Morales, R. A. (2009). Evaluation of Mathematics Achievement Test: A Comparison between CTT and IRT. The International Journal of Educational and Psychological Assessment, 1(1), 19-26.
Nartgün, Z. (2002). Aynı tutumu ölçmeye yönelik likert tipi ölçek ile metrik ölçeğin madde ve ölçek özelliklerinin klasik test kuramı ve örtük özellikler kuramına göre incelenmesi. Doktora Tezi, Hacettepe Üniversitesi Sosyal Bilimler Enstitüsü, Ankara.
Ostini, R., & Nering, M. L. (2006). Polytomous item response theory models. USA: Sage Publication.
Özdemir, D. (2004). Çoktan seçmeli testlerin klasik test teorisi ve örtük özellikler teorisine göre hesaplanan psikometrik özelliklerinin iki kategorili ve ağırlıklandırılmış puanlanması yönünden karşılaştırılması. Hacettepe Üniversitesi Eğitim Fakültesi Dergisi, 26, 117-123.
Özer Özkan, Y. (2012). Öğrenci başarılarının belirlenmesi sınavından (ÖBBS) klasik test kuramı, tek boyutlu ve çok boyutlu madde tepki kuramı modelleri ile kestirilen başarı puanlarının karşılaştırılması. Doktora Tezi, Ankara Üniversitesi Eğitim Bilimleri Enstitüsü, Ankara.
Öztürk, M. E. (2011). Voleybol becerileri gözlem formu ile elde edilen puanların genellenebilirlik ve klasik test kuramına göre karşılaştırılması. . Yüksek Lisans Tezi, Hacettepe Üniversitesi Sosyal Bilimler Enstitüsü, Ankara.
R.L.Brennan. (2000). Performance assessments from the perspective of generalizability theory. Applied Psychological Measurement, 24(4), 339–353.
Samejima, F. (1969). Estimation of latent ability using a response pattern of graded scores(Psychometric Monograph No. 17). USA: Psychometric Society.
Sebille, V., Hardouin, J.-B., Neel, T. L., Kubis, G., Boyer, F., Guillemin, F., & Falissard, B. (2010). Methodological issues regarding power of classical test theory (CTT) and item response theory (IRT)-based approaches for the comparison of patient-reported outcomes in two groups of patients - a simulation study. BMC Medical Research Methodology(10), 24.
Shavelson, R. J., & Webb, N. M. (1991). Generalizability Theory: A Primer. USA: Sage Publications.
Sünbül, Ö. (2011). Çeşitli boyutluluk özelliklerine sahip yapılarda, madde parametrelerinin değişmezliğinin klasik test teorisi, tek boyutlu madde tepki kuramı ve çok boyutlu madde tepki kuramı çerçevesinde incelenmesi. Doktora tezi, Mersin Üniversitesi Eğitim Bilimleri Enstitüsü, Mersin.
Şalgam, A. (2016). Kısa cevaplı matematik yazılı sınavının genellenebilirlik kuramı ve test tekrar test yöntemiyle güvenirliğinin kıyaslanması. . Yüksek Lisans Tezi, Gazi Üniversitesi Eğitim Bilimleri Enstitüsü, Ankara.
Ure, A. C. (2011). The effect of raters and rating conditions on the reliability of the missionary teaching assessment. Master Thesis, University of Brigham Young, USA.
Uyar, Ş., Öztürk Gübeş, N., & Kelecioğlu, H. (2013). PISA 2009 tutum anketi madde puanlarının aşamalı tepki modeli ile incelenmesi. Eğitim ve Öğretim Araştırmaları Dergisi, 2(4), 125-134.
Yelboğa, A., & Tavşancıl, E. (2010). Klasik Test ve Genellenebilirlik Kuramına Göre Güvenirliğin Bir İş Performansı Ölçeği Üzerinde İncelenmesi. Kuram ve Uygulamada Eğitim Bilimleri, 10(3), 1825-1854.

Details

Primary Language

English

Subjects

-

Journal Section

Research Article

Authors

Merve Yıldırım Seheryeli ^*
0000-0002-1106-5358
Türkiye

Şeref Tan
0000-0002-9892-3369
Türkiye

Publication Date

September 4, 2019

Submission Date

April 30, 2019

Acceptance Date

July 22, 2019

Published in Issue

Year 2019 Volume: 10 Number: 3

DOI

https://doi.org/10.21031/epod.559470

IZ

https://izlik.org/JA24EP39ML

Cite

RIS / Bibtex

APA

Yıldırım Seheryeli, M., & Tan, Ş. (2019). Examination of the Reliability of the Measurements Regarding the Written Expression Skills According to Different Test Theories. Journal of Measurement and Evaluation in Education and Psychology, 10(3), 327-347. https://doi.org/10.21031/epod.559470

AMA

1.Yıldırım Seheryeli M, Tan Ş. Examination of the Reliability of the Measurements Regarding the Written Expression Skills According to Different Test Theories. JMEEP. 2019;10(3):327-347. doi:10.21031/epod.559470

Chicago

Yıldırım Seheryeli, Merve, and Şeref Tan. 2019. “Examination of the Reliability of the Measurements Regarding the Written Expression Skills According to Different Test Theories”. Journal of Measurement and Evaluation in Education and Psychology 10 (3): 327-47. https://doi.org/10.21031/epod.559470.

EndNote

Yıldırım Seheryeli M, Tan Ş (September 1, 2019) Examination of the Reliability of the Measurements Regarding the Written Expression Skills According to Different Test Theories. Journal of Measurement and Evaluation in Education and Psychology 10 3 327–347.

IEEE

[1]M. Yıldırım Seheryeli and Ş. Tan, “Examination of the Reliability of the Measurements Regarding the Written Expression Skills According to Different Test Theories”, JMEEP, vol. 10, no. 3, pp. 327–347, Sept. 2019, doi: 10.21031/epod.559470.

ISNAD

Yıldırım Seheryeli, Merve - Tan, Şeref. “Examination of the Reliability of the Measurements Regarding the Written Expression Skills According to Different Test Theories”. Journal of Measurement and Evaluation in Education and Psychology 10/3 (September 1, 2019): 327-347. https://doi.org/10.21031/epod.559470.

JAMA

1.Yıldırım Seheryeli M, Tan Ş. Examination of the Reliability of the Measurements Regarding the Written Expression Skills According to Different Test Theories. JMEEP. 2019;10:327–347.

MLA

Yıldırım Seheryeli, Merve, and Şeref Tan. “Examination of the Reliability of the Measurements Regarding the Written Expression Skills According to Different Test Theories”. Journal of Measurement and Evaluation in Education and Psychology, vol. 10, no. 3, Sept. 2019, pp. 327-4, doi:10.21031/epod.559470.

Vancouver

1.Merve Yıldırım Seheryeli, Şeref Tan. Examination of the Reliability of the Measurements Regarding the Written Expression Skills According to Different Test Theories. JMEEP. 2019 Sep. 1;10(3):327-4. doi:10.21031/epod.559470