Examination of the Reliability of the Measurements Regarding the Written Expression Skills According to Different Test Theories

Merve Yıldırım Seheryeli; Şeref Tan

doi:10.21031/epod.559470

Research Article

Examination of the Reliability of the Measurements Regarding the Written Expression Skills According to Different Test Theories

Year 2019, Volume: 10 Issue: 3, 327 - 347, 04.09.2019

Merve Yıldırım Seheryeli , Şeref Tan

https://doi.org/10.21031/epod.559470

Abstract

The aim of
the study is to examine the reliability estimations of written expression
skills analytical rubric based on the Classical Test Theory (CTT),
Generalizability Theory (GT) and Item Response Theory (IRT) which differ in
their field of study. In this descriptive study, the stories of the 523
students in the study group were scored by seven raters. CTT results showed
that Eta coefficient revealed that there was no difference between the scoring
of the raters (η = .926); Cronbach Alpha coefficients were over .88. GT results
showed that G and Phi coefficients were over .97. The students’ expected
differentiation emerged, the difficulty levels of the criteria did not change
from one student to another, and the consistency between the scores among
raters was excellent. In the Item Response Theory, parameters were estimated
according to Samejima’s (1969) Graded Response Model and item discrimination
differed according to the different raters. According to b parameters, for all
the raters; individuals are expected to be at least -2.35, -0.80, 0.41 ability
level in order to be scored higher than 0, 1 or 2 categories respectively with
.50 probability. Marginal reliability coefficients were quite high (around
.93). The Fisher Z’ statistic was calculated for the significance of the
difference between all reliability estimates. GT revealed more detailed
information than CTT in the explanation of error variance sources and
determination of reliability; while IRT provided more detailed information than
CTT in determining the item-level error estimations and the ability level.
There was a significant difference between the estimated parameters of CTT and
GT in interrater reliability (p < .05); there was no significant difference
between the parameters predicted according to CTT and IRT (p > .05).

Keywords

Classical test theory, generalizability theory, item response theory, interrater reliability, reliability, rubric

References

Arsan, N. (2012). Buz pateninde hakem değerlendirmelerinin genellenebilirlik kuramı ve Rasch modeli ile incelenmesi. Doktora Tezi, Hacettepe Üniversitesi Sosyal Bilimler Enstitüsü, Ankara.
Atılgan, H. (2005). Genellenebilirlik Kuramı ve Puanlayıcılar Arası Güvenirlik İçin Örnek Bir Uygulama. Eğitim Bilimleri ve Uygulama, 4(7), 95-108.
Ayala, R. J. (2009). The Theory and Practice of Item Response Theory. USA: The Guildford Press.
Bağcı, V. (2015). Matematiksel Muhakeme Becerisinin Ölçülmesinde Klasik Test Kuramı ile Genellenebilirlik Kuramındaki Farklı Desenlerin Karşılaştırılması (Yüksek Lisans Tezi). Yüksek Lisans Tezi, Gazi Üniversitesi Eğitim Bilimleri Enstitüsü, Ankara.
Baker, F. B. (2016). Madde Tepki Kuramının Temelleri. (N. Güler, Dü., & M. İlhan, Çev.) Ankara: Pegem Akademi.
Baykul, Y. (2010). Eğitimde ve psikolojide ölçme: Klasik test teorisi ve uygulaması. Ankara: Pegem Akademi.
Brennan, R. L. (2011). Generalizability theory and classical test theory. Applied Measurement And Education, 24, 1-21.
Büyükkıdık, S. (2012). Problem çözme becerisinin değerlendirilmesinde puanlayıcılar arası güvenirliğin klasik test kuramı ve genellenebilirlik kuramına göre karşılaştırılması. Yüksek Lisans Tezi, Hacettepe Üniversitesi Sosyal Bilimler Enstitüsü, Ankara.
Cardinet, J., Johnson, S., & Pini, G. (2010). Applying generalizability theory using EduG. USA: Routledge-Taylor & Francis Group.
Crocker, L., & Algina, J. (2006). Introduction to classical and modern test theory. USA: Cengage Learning.
Çelen, Ü., & Aybek, E. C. (2013). Öğrenci başarısının öğretmen yapımı bir testle klasik test kuramı ve madde tepki kuramı yöntemleriyle elde edilen puanlara göre karşılaştırılması. Eğitimde ve Psikolojide Ölçme ve Değerlendirme Dergisi, 4(2), 64-75.
Çokluk, Ö., Şekercioğlu, G., & Büyüköztürk, Ş. (2014). Sosyal Bilimler İçin Çok Değişkenli İstatistik SPSS ve LISREL Uyglamaları. Ankara: Pegem Akademi.
Deliceoğlu, G. (2009). Futbol yetilerine ilişkin dereceleme ölçeğinin genellenebilirlik ve klasik test kuramına dayalı güvenirliklerinin karşılaştırılması. Doktora Tezi, Ankara Üniversitesi Eğitim Bilimleri Enstitüsü, Ankara.
DeMars, C. (2016). Madde Tepki Kuramı. E. H. Özberk, & H. Kelecioğlu (Dü.) içinde, Bölüm 1. Giriş (s. 1-30). Ankara: Nobel Akademi.
Doğan, N., & Tezbaşaran, A. A. (2003). Klasik test kuramının ve örtük özellikler kuramının örneklemler bağlamında karşılaştırılması. Hacettepe Üniversitesi Eğitim Fakültesi Dergisi, 25, 58-67.
Erkuş, A. (2017). Bilimsel araştırma süreci. Ankara: Seçkin.
Erkuş, A., Sünbül, Ö., Ömür Sünbül, S., Aşiret, S., & Yormaz, S. (2017). Psikolojide ölçme ve ölçek geliştirme. Ankara: Pegem Akademi.
Gelbal, S. (1994). p Madde güçlük indeksi ile Rasch modelinin b parametresi ve bunlara dayalı yetenek ölçüleri üzerine bir karşılaştırma. Hacettepe Üniversitesi Eğitim Fakültesi Dergisi, 10, 85-94.
Gulliksen, H. (1950). Theory of Mental Tests. USA: John Wiley & Sons.
Güler, N. (2008). Klasik test kuramı genellenebilirlik kuramı ve Rasch modeli üzerine bir araştırma. Doktora Tezi, Hacettepe Üniversitesi Sosyal Bilimler Enstitüsü, Ankara.
Güler, N. (2011). Rastgele veriler üzerinde genellenebilirlik kuramı ve klasik test kuramına göre güvenirliğin karşılaştırılması. Eğitim ve Bilim, 36(162), 225-234.
Güler, N., Kaya Uyanık, G., & Taşdelen Teker, G. (2012). Genellenebilirlik kuramı. Ankara: Pegem Akademi.
Hambleton, R. K., & Jones, R. W. (1993). Comparison of classical test theory and item response theory and their applications to test development. Educational Measurement(12), 38-47.
Hambleton, R. K., Swaminathan, H., & Rogers, H. J. (1991). Fundamentals of Item Response Theory. USA: Sage Publications.
İlhan, M. (2016). Açık uçlu sorularla yapılan ölçmelerde klasik test kuramı ve çok yüzeyli Rasch modeline göre hesaplanan yetenek kestirimlerinin karşılaştırılması. Hacettepe Üniversitesi Eğitim Fakültesi Dergisi, 31(2), 346-368.
Kan, A. (2006). Klasik test teorisine ve örtük özellikler teorisine göre kestirilen madde parametrelerinin karşılaştırılması üzerine ampirik bir çalışma. Mersin Üniversitesi Eğitim Fakültesi Dergisi, 2(2), 227-235.
Karatay, H. (2015). Süreç temelli yazma modelleri: 4+1 Planlı yazma ve değerlendirme modeli. M. Özbay (Dü.) içinde, Yazma eğitimi (s. 21-48). Ankara: Pegem Akademi.
Kelecioğlu, H. (2001). Örtük özellikler teorisindeki b ve a parametreleri ile klasik test teorisindeki p ve r istatistikleri arasındaki ilişki. Hacettepe Üniversitesi Eğitim Fakültesi Dergisi, 20, 104-110.
Kim, S., & Feldt, L. S. (2010). The estimation of the IRT reliability coefﬁcient and its lower and upper bounds, with comparisons to CTT reliability statistics. Asia Pacific Education Review Journal, 11, 179-188.
Kim, S., & Wilson, M. (2009). A comparative analysis of the ratings in performance assessment using generalizability theory and many-facet rasch measurement. Journal of Applied Measurement, 10(4), 408-422.
Koch, W. R. (1983). Likert scaling using the graded response latent trait model. Applied Psychological Measurement, 7(1), 15-32.
Köse, A. (2014). Ölçmede Güvenirlik. R. N. Demirtaşlı (Dü.) içinde, Eğitimde ölçme ve değerlendirme (s. 86-109). Ankara: Edge Akademi.
Köse, A. (2015). Aşamalı tepki modeli ve klasik test kuramı altında elde edilen test ve madde parametrelerinin karşılaştırılması. Abant İzzet Baysal Üniversitesi Eğitim Fakültesi Dergisi, 15(2), 184-197.
Kutlu, Ö., Doğan, C., & Karakaya, İ. (2014). Ölçme ve değerlendirme performansa ve portfolyoya dayalı durum belirleme. Ankara: Pegem Akademi.
Lee, Y.-S., Torre, J. d., & Park, Y. S. (2012). Relationships between cognitive diagnosis, CTT, and IRT indices: an empirical investigation. Asia Pacific Educ. Rev.(13), 333–345.
Morales, R. A. (2009). Evaluation of Mathematics Achievement Test: A Comparison between CTT and IRT. The International Journal of Educational and Psychological Assessment, 1(1), 19-26.
Nartgün, Z. (2002). Aynı tutumu ölçmeye yönelik likert tipi ölçek ile metrik ölçeğin madde ve ölçek özelliklerinin klasik test kuramı ve örtük özellikler kuramına göre incelenmesi. Doktora Tezi, Hacettepe Üniversitesi Sosyal Bilimler Enstitüsü, Ankara.
Ostini, R., & Nering, M. L. (2006). Polytomous item response theory models. USA: Sage Publication.
Özdemir, D. (2004). Çoktan seçmeli testlerin klasik test teorisi ve örtük özellikler teorisine göre hesaplanan psikometrik özelliklerinin iki kategorili ve ağırlıklandırılmış puanlanması yönünden karşılaştırılması. Hacettepe Üniversitesi Eğitim Fakültesi Dergisi, 26, 117-123.
Özer Özkan, Y. (2012). Öğrenci başarılarının belirlenmesi sınavından (ÖBBS) klasik test kuramı, tek boyutlu ve çok boyutlu madde tepki kuramı modelleri ile kestirilen başarı puanlarının karşılaştırılması. Doktora Tezi, Ankara Üniversitesi Eğitim Bilimleri Enstitüsü, Ankara.
Öztürk, M. E. (2011). Voleybol becerileri gözlem formu ile elde edilen puanların genellenebilirlik ve klasik test kuramına göre karşılaştırılması. . Yüksek Lisans Tezi, Hacettepe Üniversitesi Sosyal Bilimler Enstitüsü, Ankara.
R.L.Brennan. (2000). Performance assessments from the perspective of generalizability theory. Applied Psychological Measurement, 24(4), 339–353.
Samejima, F. (1969). Estimation of latent ability using a response pattern of graded scores(Psychometric Monograph No. 17). USA: Psychometric Society.
Sebille, V., Hardouin, J.-B., Neel, T. L., Kubis, G., Boyer, F., Guillemin, F., & Falissard, B. (2010). Methodological issues regarding power of classical test theory (CTT) and item response theory (IRT)-based approaches for the comparison of patient-reported outcomes in two groups of patients - a simulation study. BMC Medical Research Methodology(10), 24.
Shavelson, R. J., & Webb, N. M. (1991). Generalizability Theory: A Primer. USA: Sage Publications.
Sünbül, Ö. (2011). Çeşitli boyutluluk özelliklerine sahip yapılarda, madde parametrelerinin değişmezliğinin klasik test teorisi, tek boyutlu madde tepki kuramı ve çok boyutlu madde tepki kuramı çerçevesinde incelenmesi. Doktora tezi, Mersin Üniversitesi Eğitim Bilimleri Enstitüsü, Mersin.
Şalgam, A. (2016). Kısa cevaplı matematik yazılı sınavının genellenebilirlik kuramı ve test tekrar test yöntemiyle güvenirliğinin kıyaslanması. . Yüksek Lisans Tezi, Gazi Üniversitesi Eğitim Bilimleri Enstitüsü, Ankara.
Ure, A. C. (2011). The effect of raters and rating conditions on the reliability of the missionary teaching assessment. Master Thesis, University of Brigham Young, USA.
Uyar, Ş., Öztürk Gübeş, N., & Kelecioğlu, H. (2013). PISA 2009 tutum anketi madde puanlarının aşamalı tepki modeli ile incelenmesi. Eğitim ve Öğretim Araştırmaları Dergisi, 2(4), 125-134.
Yelboğa, A., & Tavşancıl, E. (2010). Klasik Test ve Genellenebilirlik Kuramına Göre Güvenirliğin Bir İş Performansı Ölçeği Üzerinde İncelenmesi. Kuram ve Uygulamada Eğitim Bilimleri, 10(3), 1825-1854.

Year 2019, Volume: 10 Issue: 3, 327 - 347, 04.09.2019

Merve Yıldırım Seheryeli , Şeref Tan

https://doi.org/10.21031/epod.559470

Abstract

Araştırmanın amacı, çalışma alanlarına göre
farklılaşan Klasik Test Kuramı (KTK), Genellenebilirlik Kuramı (GK) ve Madde
Tepki Kuramlarının (MTK) yazılı anlatım becerisi analitik puanlama anahtarı
kullanılarak elde edilen ölçümlere ilişkin güvenirlik kestirimlerinin incelenmesidir.
Betimsel tasarlanan bu araştırmada çalışma grubunu oluşturan 523 öğrencinin
hikâyeleri, yedi puanlayıcı tarafından puanlanmıştır. SPSS 22 programı
kullanılarak elde edilen KTK bulgularında Eta korelasyon katsayısı
incelendiğinde puanlayıcıların puanlamaları arasında bir farklılaşma olmadığı
(η=0.926); Cronbach Alfa katsayılarının 0.88’in üzerinde olduğu bulunmuştur.
Edu-G 6.1e programı kullanılarak elde edilen GK bulgularında G ve Phi
katsayılarının 0.97’nin üzerinde olduğu görülmüştür. Öğrencilerde beklenen
farklılaşma ortaya çıkmış, ölçütlerin güçlük düzeyleri bir öğrenciden diğerine
değişmemiş, puanlayıcılar arasındaki puanlama tutarlılığı mükemmel seviyede
bulunmuştur. Multilog 7.03 programı kullanılarak elde edilen Madde Tepki Kuramı
bulgularında Samejima’nın (1969) Derecelendirilmiş Tepki modeline göre
kestirilen a parametreleri farklı puanlayıcılara göre maddelerin ayırt
ediciliğinin farklılaştığını göstermektedir. b
parametrelerine göre tüm puanlayıcılar için bireylerin 0.50 ihtimalle 0’dan yüksek
puan almaları için -2.35, 1’den yüksek puan almaları için -0.80, 2’den yüksek
puan almaları için 0.41 yetenek düzeylerinin üzerinde bulunmaları
gerekmektedir. Marjinal güvenirlik katsayıları incelendiğinde ise güvenirliğin
oldukça yüksek (0,93 civarında) olduğu görülmüştür. Tüm güvenirlik
kestirimlerinin arasındaki farkın manidarlığı için Microsoft Excel 2016
programında Fisher Z’ istatistiği hesaplanmıştır. Hata varyansı kaynaklarını
açıklamada ve güvenirlik belirlemede GK, madde bazında hata kestirimlerinde ve
yetenek düzeyi belirlemede MTK, KTK’den daha ayrıntılı bilgiler ortaya
koymuştur. Puanlayıcılar arası güvenirlikte ise KTK ile GK’ye göre kestirilen
parametreler arasında anlamlı bir fark bulunurken (p < 0.05); KTK ile MTK’ye
göre göre kestirilen parametreler arasında anlamlı bir fark saptanmamıştır (p
> 0.05).

Keywords

Klasik test kuramı, genellenebilirlik kuramı, madde tepki kuramı, puanlayıcılar arası uyum, güvenirlik, rubrik

References

Arsan, N. (2012). Buz pateninde hakem değerlendirmelerinin genellenebilirlik kuramı ve Rasch modeli ile incelenmesi. Doktora Tezi, Hacettepe Üniversitesi Sosyal Bilimler Enstitüsü, Ankara.
Atılgan, H. (2005). Genellenebilirlik Kuramı ve Puanlayıcılar Arası Güvenirlik İçin Örnek Bir Uygulama. Eğitim Bilimleri ve Uygulama, 4(7), 95-108.
Ayala, R. J. (2009). The Theory and Practice of Item Response Theory. USA: The Guildford Press.
Bağcı, V. (2015). Matematiksel Muhakeme Becerisinin Ölçülmesinde Klasik Test Kuramı ile Genellenebilirlik Kuramındaki Farklı Desenlerin Karşılaştırılması (Yüksek Lisans Tezi). Yüksek Lisans Tezi, Gazi Üniversitesi Eğitim Bilimleri Enstitüsü, Ankara.
Baker, F. B. (2016). Madde Tepki Kuramının Temelleri. (N. Güler, Dü., & M. İlhan, Çev.) Ankara: Pegem Akademi.
Baykul, Y. (2010). Eğitimde ve psikolojide ölçme: Klasik test teorisi ve uygulaması. Ankara: Pegem Akademi.
Brennan, R. L. (2011). Generalizability theory and classical test theory. Applied Measurement And Education, 24, 1-21.
Büyükkıdık, S. (2012). Problem çözme becerisinin değerlendirilmesinde puanlayıcılar arası güvenirliğin klasik test kuramı ve genellenebilirlik kuramına göre karşılaştırılması. Yüksek Lisans Tezi, Hacettepe Üniversitesi Sosyal Bilimler Enstitüsü, Ankara.
Cardinet, J., Johnson, S., & Pini, G. (2010). Applying generalizability theory using EduG. USA: Routledge-Taylor & Francis Group.
Crocker, L., & Algina, J. (2006). Introduction to classical and modern test theory. USA: Cengage Learning.
Çelen, Ü., & Aybek, E. C. (2013). Öğrenci başarısının öğretmen yapımı bir testle klasik test kuramı ve madde tepki kuramı yöntemleriyle elde edilen puanlara göre karşılaştırılması. Eğitimde ve Psikolojide Ölçme ve Değerlendirme Dergisi, 4(2), 64-75.
Çokluk, Ö., Şekercioğlu, G., & Büyüköztürk, Ş. (2014). Sosyal Bilimler İçin Çok Değişkenli İstatistik SPSS ve LISREL Uyglamaları. Ankara: Pegem Akademi.
Deliceoğlu, G. (2009). Futbol yetilerine ilişkin dereceleme ölçeğinin genellenebilirlik ve klasik test kuramına dayalı güvenirliklerinin karşılaştırılması. Doktora Tezi, Ankara Üniversitesi Eğitim Bilimleri Enstitüsü, Ankara.
DeMars, C. (2016). Madde Tepki Kuramı. E. H. Özberk, & H. Kelecioğlu (Dü.) içinde, Bölüm 1. Giriş (s. 1-30). Ankara: Nobel Akademi.
Doğan, N., & Tezbaşaran, A. A. (2003). Klasik test kuramının ve örtük özellikler kuramının örneklemler bağlamında karşılaştırılması. Hacettepe Üniversitesi Eğitim Fakültesi Dergisi, 25, 58-67.
Erkuş, A. (2017). Bilimsel araştırma süreci. Ankara: Seçkin.
Erkuş, A., Sünbül, Ö., Ömür Sünbül, S., Aşiret, S., & Yormaz, S. (2017). Psikolojide ölçme ve ölçek geliştirme. Ankara: Pegem Akademi.
Gelbal, S. (1994). p Madde güçlük indeksi ile Rasch modelinin b parametresi ve bunlara dayalı yetenek ölçüleri üzerine bir karşılaştırma. Hacettepe Üniversitesi Eğitim Fakültesi Dergisi, 10, 85-94.
Gulliksen, H. (1950). Theory of Mental Tests. USA: John Wiley & Sons.
Güler, N. (2008). Klasik test kuramı genellenebilirlik kuramı ve Rasch modeli üzerine bir araştırma. Doktora Tezi, Hacettepe Üniversitesi Sosyal Bilimler Enstitüsü, Ankara.
Güler, N. (2011). Rastgele veriler üzerinde genellenebilirlik kuramı ve klasik test kuramına göre güvenirliğin karşılaştırılması. Eğitim ve Bilim, 36(162), 225-234.
Güler, N., Kaya Uyanık, G., & Taşdelen Teker, G. (2012). Genellenebilirlik kuramı. Ankara: Pegem Akademi.
Hambleton, R. K., & Jones, R. W. (1993). Comparison of classical test theory and item response theory and their applications to test development. Educational Measurement(12), 38-47.
Hambleton, R. K., Swaminathan, H., & Rogers, H. J. (1991). Fundamentals of Item Response Theory. USA: Sage Publications.
İlhan, M. (2016). Açık uçlu sorularla yapılan ölçmelerde klasik test kuramı ve çok yüzeyli Rasch modeline göre hesaplanan yetenek kestirimlerinin karşılaştırılması. Hacettepe Üniversitesi Eğitim Fakültesi Dergisi, 31(2), 346-368.
Kan, A. (2006). Klasik test teorisine ve örtük özellikler teorisine göre kestirilen madde parametrelerinin karşılaştırılması üzerine ampirik bir çalışma. Mersin Üniversitesi Eğitim Fakültesi Dergisi, 2(2), 227-235.
Karatay, H. (2015). Süreç temelli yazma modelleri: 4+1 Planlı yazma ve değerlendirme modeli. M. Özbay (Dü.) içinde, Yazma eğitimi (s. 21-48). Ankara: Pegem Akademi.
Kelecioğlu, H. (2001). Örtük özellikler teorisindeki b ve a parametreleri ile klasik test teorisindeki p ve r istatistikleri arasındaki ilişki. Hacettepe Üniversitesi Eğitim Fakültesi Dergisi, 20, 104-110.
Kim, S., & Feldt, L. S. (2010). The estimation of the IRT reliability coefﬁcient and its lower and upper bounds, with comparisons to CTT reliability statistics. Asia Pacific Education Review Journal, 11, 179-188.
Kim, S., & Wilson, M. (2009). A comparative analysis of the ratings in performance assessment using generalizability theory and many-facet rasch measurement. Journal of Applied Measurement, 10(4), 408-422.
Koch, W. R. (1983). Likert scaling using the graded response latent trait model. Applied Psychological Measurement, 7(1), 15-32.
Köse, A. (2014). Ölçmede Güvenirlik. R. N. Demirtaşlı (Dü.) içinde, Eğitimde ölçme ve değerlendirme (s. 86-109). Ankara: Edge Akademi.
Köse, A. (2015). Aşamalı tepki modeli ve klasik test kuramı altında elde edilen test ve madde parametrelerinin karşılaştırılması. Abant İzzet Baysal Üniversitesi Eğitim Fakültesi Dergisi, 15(2), 184-197.
Kutlu, Ö., Doğan, C., & Karakaya, İ. (2014). Ölçme ve değerlendirme performansa ve portfolyoya dayalı durum belirleme. Ankara: Pegem Akademi.
Lee, Y.-S., Torre, J. d., & Park, Y. S. (2012). Relationships between cognitive diagnosis, CTT, and IRT indices: an empirical investigation. Asia Pacific Educ. Rev.(13), 333–345.
Morales, R. A. (2009). Evaluation of Mathematics Achievement Test: A Comparison between CTT and IRT. The International Journal of Educational and Psychological Assessment, 1(1), 19-26.
Nartgün, Z. (2002). Aynı tutumu ölçmeye yönelik likert tipi ölçek ile metrik ölçeğin madde ve ölçek özelliklerinin klasik test kuramı ve örtük özellikler kuramına göre incelenmesi. Doktora Tezi, Hacettepe Üniversitesi Sosyal Bilimler Enstitüsü, Ankara.
Ostini, R., & Nering, M. L. (2006). Polytomous item response theory models. USA: Sage Publication.
Özdemir, D. (2004). Çoktan seçmeli testlerin klasik test teorisi ve örtük özellikler teorisine göre hesaplanan psikometrik özelliklerinin iki kategorili ve ağırlıklandırılmış puanlanması yönünden karşılaştırılması. Hacettepe Üniversitesi Eğitim Fakültesi Dergisi, 26, 117-123.
Özer Özkan, Y. (2012). Öğrenci başarılarının belirlenmesi sınavından (ÖBBS) klasik test kuramı, tek boyutlu ve çok boyutlu madde tepki kuramı modelleri ile kestirilen başarı puanlarının karşılaştırılması. Doktora Tezi, Ankara Üniversitesi Eğitim Bilimleri Enstitüsü, Ankara.
Öztürk, M. E. (2011). Voleybol becerileri gözlem formu ile elde edilen puanların genellenebilirlik ve klasik test kuramına göre karşılaştırılması. . Yüksek Lisans Tezi, Hacettepe Üniversitesi Sosyal Bilimler Enstitüsü, Ankara.
R.L.Brennan. (2000). Performance assessments from the perspective of generalizability theory. Applied Psychological Measurement, 24(4), 339–353.
Samejima, F. (1969). Estimation of latent ability using a response pattern of graded scores(Psychometric Monograph No. 17). USA: Psychometric Society.
Sebille, V., Hardouin, J.-B., Neel, T. L., Kubis, G., Boyer, F., Guillemin, F., & Falissard, B. (2010). Methodological issues regarding power of classical test theory (CTT) and item response theory (IRT)-based approaches for the comparison of patient-reported outcomes in two groups of patients - a simulation study. BMC Medical Research Methodology(10), 24.
Shavelson, R. J., & Webb, N. M. (1991). Generalizability Theory: A Primer. USA: Sage Publications.
Sünbül, Ö. (2011). Çeşitli boyutluluk özelliklerine sahip yapılarda, madde parametrelerinin değişmezliğinin klasik test teorisi, tek boyutlu madde tepki kuramı ve çok boyutlu madde tepki kuramı çerçevesinde incelenmesi. Doktora tezi, Mersin Üniversitesi Eğitim Bilimleri Enstitüsü, Mersin.
Şalgam, A. (2016). Kısa cevaplı matematik yazılı sınavının genellenebilirlik kuramı ve test tekrar test yöntemiyle güvenirliğinin kıyaslanması. . Yüksek Lisans Tezi, Gazi Üniversitesi Eğitim Bilimleri Enstitüsü, Ankara.
Ure, A. C. (2011). The effect of raters and rating conditions on the reliability of the missionary teaching assessment. Master Thesis, University of Brigham Young, USA.
Uyar, Ş., Öztürk Gübeş, N., & Kelecioğlu, H. (2013). PISA 2009 tutum anketi madde puanlarının aşamalı tepki modeli ile incelenmesi. Eğitim ve Öğretim Araştırmaları Dergisi, 2(4), 125-134.
Yelboğa, A., & Tavşancıl, E. (2010). Klasik Test ve Genellenebilirlik Kuramına Göre Güvenirliğin Bir İş Performansı Ölçeği Üzerinde İncelenmesi. Kuram ve Uygulamada Eğitim Bilimleri, 10(3), 1825-1854.

There are 50 citations in total.

Details

Primary Language	English
Journal Section	Articles
Authors	Merve Yıldırım Seheryeli 0000-0002-1106-5358 Şeref Tan 0000-0002-9892-3369
Publication Date	September 4, 2019
Acceptance Date	July 22, 2019
Published in Issue	Year 2019 Volume: 10 Issue: 3

Cite

APA	Yıldırım Seheryeli, M., & Tan, Ş. (2019). Examination of the Reliability of the Measurements Regarding the Written Expression Skills According to Different Test Theories. Journal of Measurement and Evaluation in Education and Psychology, 10(3), 327-347. https://doi.org/10.21031/epod.559470

Download Cover Image

Article Files

Full Text