Açık Uçlu Maddelerde Farklı Yaklaşımlarla Elde Edilen Puanlayıcılar Arası Güvenirliğin Değerlendirilmesi

Neşe Güler; Gülşen Taşdelen Teker

doi:10.21031/epod.63041

-

Yıl 2015, Cilt: 6 Sayı: 1, 12 - 24, 26.12.2015

Neşe Güler Gülşen Taşdelen Teker

https://doi.org/10.21031/epod.63041

Cited By: 13

Öz

In this study, four approaches to the estimation of interrater reliability are studied: correlation, comparison of means, percentage of agreement, and generalizability theory. For the data- composed of ratings for 43 students on ten items by two raters- the reliability estimates varied because of the situation that the ranges of the obtained values by used approaches and different calculation processes. The highest estimate was 0.90 which is estimated by G theory. Besides this result, it was obtained that there was positive and high correlation coefficient (0.74). The estimate of percentage of exact matches of agreement between the two raters was found as 58.9 %. Finally, although there were no statistically differences between general mean of scores, there were statistical differences among three of the items by means of rater scoring. Although G theory seems more complex than the other methods illustrated in the study, it yields more information than the other methods because of handling multiple sources of error at the same time. Therefore, it is proposed to be used when estimating interrater reliability

Anahtar Kelimeler

interrater reliability, correlation, comparison of means, percentage of agreement, generalizability theory

Kaynakça

Aiken, L. R. (2000). Psychological Testing and Assessment. Boston: Allyn and Bacon.
American Educational Research Association (AERA), American Psychological Association (APA) ve National Council on Measurement in Education (NCME). (2004). Standards for educational and psychological testing. Washington, DC: American Educational Research Association.
Anastasi, A. ve Urbina, S. (1997). Psychological Testing. Upper Saddle
River, N.J.: Prentice Hall.
Atılgan, H., Kan, A. ve Doğan, N. (2011). Eğitimde Ölçme ve Değerlendirme. 5. Baskı, Ankara: Anı Yayıncılık.
Atılgan, H. (2008). Using Generalizability theory to assess the score reliability of the Special Ability Selection Examinations for music education programs in higher education. International Journal of Research & Method in Education, Volume 31, Issue 1.
Atılgan, H. (2005). Genellenebilirlik Kuramı ve Puanlayıcılar Arası Güvenirlik için Örnek Bir Uygulama. Eğitim Bilimleri ve Uygulama, 4(7), 95-108.
Atmaz, G. (2009). Puanlama Yönergesi (Rubrik) Kullanılması Durumunda Puanlayıcı Güvenirliğinin İncelenmesi. Yayınlanmamış yüksek lisans tezi, Mersin Üniversitesi, Mersin.
Balcı, A. (2001) Sosyal Bilimlerde Araştırma: Yöntem, Yeti ve İlkeler, Ankara: Pegem Yayıncılık.
Baykul, Y. (2000) Eğitimde ve Psikolojide Ölçme: Klasik Test Teorisi ve Uygulaması. Ankara: ÖSYM Yayınları.
Brennan, R. L. (2001). Generalizability Theory. New-York: Springer-Verlag.
Brennan, R. L. (1992). Elements of generalizability theory. Iowa City, IA. American College Testing.
Büyüköztürk, Ş., Çokluk Bökeoğlu, Ö. ve Köklü, N. (2009). Sosyal Bilimler için İstatistik. Ankara: Pegem Akademi.
Cohen, J. (1960). A Coefficient of Agreement for Nominal Scales. Educational and Psychological Measurement, 20, 37-46.
Crocker, L. M. ve Algina, L. (1986). Introduction to Classical and Modern Test Theory. New York: Holt, Rinehart and Winson.
Cronbach, L. J., Gleser, G. C., Nanda, H. ve Rajaratnam, N. (1972). The Dependability of Behavioral Measurements: Theory of Generalizability for Scores and Profiles. New York: Wiley.
Çakıcı Eser, D. ve Gelbal, S. (2012). Genellenebilirlik Kuramı ve Lojistik Regresyona Dayalı Hesaplanan Puanlayıcılar Arası Tutarlığın Karşılaştırılması. Kastamonu Eğitim Dergisi. 21 (2),423-438.
Deliceoğlu, G. (2009). Futbol Yetilerine İlişkin Dereceleme Ölçeğinin Genellenebilirlik ve Klasik Test Kuramına Dayalı Güvenirliklerinin Karşılaştırılması. Yayınlanmamış Doktora Tezi, Ankara Üniversitesi, Ankara.
Fleiss, J. L. (1971). Measuring nominal scale agreement among many raters. Psychological Bulletin. 76(5), 378-382.
Fleiss, J. L. ve Cohen, J. (1973). The equivalence of weighted kappa and the intraclass correlation coefficient as measures of reliability. Educational and Psychological Measurement, 33, 613-619.
Gage, N. A., Prykanowski, D. ve Hirn, R. (2014). Increasing Reliability of Direct Observation Measurement Approaches in Emotional and/or Behavioral Disorders Research Using Generalizability Theory. Behavioral Disorders, 39(4), 228-244.
Glass, G. V. ve Hopkins, K. D. (1984). Statistical Methods in Education and Psychology. NJ: Prentice-Hall.
Goodwin, L. D. ve Goodwin, W. L. (1991). Using Generalizability Theory in Early Childhood Special Education. Journal of Early Intervention, 193-204.
Goodwin, L. D., Sands, D. J. ve Kozleski, E. B. (1991). Estimating Interviewer Reliability for Interview Schedules Used in Special Education Research. The Journal of Special Education, Volume 25, Issue1, 73-89.
Goodwin, L. D. (2001). Interrater Agreement and Reliability. Measurement in Physical education and Exercise Science, 5 (1), 13-14.
Gugiu,M. R., Gugiu, P. C. ve Baldus, R. (2012). Utilizing Generalizability Theory to Investigate the Reliability of Grades Assigned to Undergraduate Research Papers. Journal of Multi-Disciplinary Evaluation, v8 n19 p26-40.
Güler, N. ve Gelbal, S. (2010). Açık Uçlu Matematik Sorularının Güvenirliğinin Klasik Test Kuramı ve Genellenebilirlik Kuramına Göre İncelenmesi. Kuram ve Uygulamada Eğitim Bilimleri, 10 (2), 989-1019.
Haertel, E. H. (2006). Reliability. In R. L. Brennan (Ed.), Educational measurement (4th edn, pp. 65–110). Westport, CT: Praeger Publishers.
Hill, H. C., Charalambous, C. Y. ve Kraft, M. A. (2012). When Rater Reliability Is Not Enough: Teacher Observation and a Case for the Generalizability Study. Educational Researcher, Volume 41, Issue 2, 56-64.
Hughes, M. A. ve Garrett, D. E. (1990). Intercoder Reliability Estimation Approaches in Marketing: A Generalizability Theory Framework for Quantitative Data. Journal of Marketing Research, Volume 27, 185-195.
Kan, A. (2001). Yazılı yoklamaların puanlanmasında puanlama cetveli ve yanıt anahtarı kullanımının puanlamaya ve puanlayıcı güvenirliğine etkisi. Yayınlanmamış yüksek lisans tezi, Hacettepe Üniversitesi, Ankara.
Krippendorff, K. (2004). Measuring the reliability of qualitative text analysis data. Humanities, Social Sciences and Law, 38(6), 787-800.
Lord, F. M. ve Novick, M. R. (1968) Statistical Theory of Mental Test Scores. New Jersey: Addison-Wesley. Co.
Martinez, J. F., Goldschmidt, P., Niemi, D., Baker, E. L. ve Sylvester, R. (2007). Language Arts Performance Assignments: Generalizability Studies of Local and Central Ratings. Educatıonal Assessment, 12(3&4), 267–282.
Meyer, G. J. (1999). Simple Procedures to Estimate Chance Agreement and Kappa for the Interrater Reliability of Response Segments Using the Rasch Comprehensive System. Journal of Personality Assessment, 72, 230-255.
Shavelson, R. J. ve Webb, N. M. (1991). Generalizability Theory: A Primer. USA: SAGE Publications.
Şencan, H. (2005) Sosyal ve Davranışsal Ölçmelerde Güvenirlik ve Geçerlik. Ankara: Sözkesen Matbaacılık.
Taşdelen, G., Kelecioğlu, H. ve Güler, N. (2010). Nedelsky ve Angoff Standart Belirleme Yöntemleri ile Elde Edilen Kesme Puanlarının Genellenebilirlik Kuramı ile Karşılaştırılması. Eğitimde ve Psikolojide Ölçme ve Değerlendirme Dergisi, 1(1), 22-28.
Turgut, M. F. (1993). Eğitimde Ölçme ve Değerlendirme Metotları. Ankara: Saydam Matbaacılık.
Yin, Y. ve Shavelson, R. J. (2004). Generalizability Analysis for Concept Mapping Assessment of Students’ Science Achievement. Paper presented at the annual meeting of the AERA, San Diego, CA.

Açık Uçlu Maddelerde Farklı Yaklaşımlarla Elde Edilen Puanlayıcılar Arası Güvenirliğin Değerlendirilmesi

Yıl 2015, Cilt: 6 Sayı: 1, 12 - 24, 26.12.2015

Neşe Güler Gülşen Taşdelen Teker

https://doi.org/10.21031/epod.63041

Cited By: 13

Öz

Bu araştırmada puanlayıcılar arası güvenirliğin belirlenmesinde kullanılabilecek dört farklı yaklaşım üzerinde durulmuştur: korelasyon, ortalamaların karşılaştırılması, uyuşma yüzdesi ve genellenebilirlik kuramı. Bu bağlamda 43 öğrencinin on açık uçlu maddeye verdikleri cevapların iki puanlayıcı tarafından puanlanmasıyla oluşturulan veri setine uygulanan yaklaşımlar ile elde edilen güvenirlik değerlerinin, değer aralıkları ve hesaplanma farklılıklarından dolayı farklılaştığı görülmüştür. Çalışma kapsamında ele alınan yaklaşımlar ile elde edilen güvenirlik kestirimlerindeki en yüksek değer 0,90 olarak genellenebilirlik kuramı ile elde edilmiştir. Bu sonucun yanı sıra, hesaplanan basit korelasyonda yüksek düzeyde ve pozitif yönlü (0,74) bir ilişki ortaya çıkmıştır. Puanlayıcılar arası uyuşma yüzdesiyle kestirilen tam uyum % 58,9 olarak belirlenmiştir. Son olarak, maddeler ayrı ayrı incelendiğinde; puanlayıcıların ortalamaları arasında üç maddede anlamlı bir farklılık çıkmakla beraber genel ortalamada anlamlı bir fark çıkmamıştır. Araştırma kapsamında ele alınan yaklaşımlar içerisinde en karmaşık görünen genellenebilirlik kuramı olmasına rağmen, bu yöntemin pek çok hata kaynağını aynı anda ele alabilme özelliği, diğer yöntemlere göre bir avantaj olarak düşünülebilir. Bu sebeple, özellikle puanlayıcı güvenirliğinin belirlenmesinde kullanılması önerilebilir.

Anahtar Kelimeler

puanlayıcılar arası güvenirlik, korelasyon, ortalama karşılaştırması, uyuşma yüzdesi, genellenebilirlik kuramı

Kaynakça

Aiken, L. R. (2000). Psychological Testing and Assessment. Boston: Allyn and Bacon.
American Educational Research Association (AERA), American Psychological Association (APA) ve National Council on Measurement in Education (NCME). (2004). Standards for educational and psychological testing. Washington, DC: American Educational Research Association.
Anastasi, A. ve Urbina, S. (1997). Psychological Testing. Upper Saddle
River, N.J.: Prentice Hall.
Atılgan, H., Kan, A. ve Doğan, N. (2011). Eğitimde Ölçme ve Değerlendirme. 5. Baskı, Ankara: Anı Yayıncılık.
Atılgan, H. (2008). Using Generalizability theory to assess the score reliability of the Special Ability Selection Examinations for music education programs in higher education. International Journal of Research & Method in Education, Volume 31, Issue 1.
Atılgan, H. (2005). Genellenebilirlik Kuramı ve Puanlayıcılar Arası Güvenirlik için Örnek Bir Uygulama. Eğitim Bilimleri ve Uygulama, 4(7), 95-108.
Atmaz, G. (2009). Puanlama Yönergesi (Rubrik) Kullanılması Durumunda Puanlayıcı Güvenirliğinin İncelenmesi. Yayınlanmamış yüksek lisans tezi, Mersin Üniversitesi, Mersin.
Balcı, A. (2001) Sosyal Bilimlerde Araştırma: Yöntem, Yeti ve İlkeler, Ankara: Pegem Yayıncılık.
Baykul, Y. (2000) Eğitimde ve Psikolojide Ölçme: Klasik Test Teorisi ve Uygulaması. Ankara: ÖSYM Yayınları.
Brennan, R. L. (2001). Generalizability Theory. New-York: Springer-Verlag.
Brennan, R. L. (1992). Elements of generalizability theory. Iowa City, IA. American College Testing.
Büyüköztürk, Ş., Çokluk Bökeoğlu, Ö. ve Köklü, N. (2009). Sosyal Bilimler için İstatistik. Ankara: Pegem Akademi.
Cohen, J. (1960). A Coefficient of Agreement for Nominal Scales. Educational and Psychological Measurement, 20, 37-46.
Crocker, L. M. ve Algina, L. (1986). Introduction to Classical and Modern Test Theory. New York: Holt, Rinehart and Winson.
Cronbach, L. J., Gleser, G. C., Nanda, H. ve Rajaratnam, N. (1972). The Dependability of Behavioral Measurements: Theory of Generalizability for Scores and Profiles. New York: Wiley.
Çakıcı Eser, D. ve Gelbal, S. (2012). Genellenebilirlik Kuramı ve Lojistik Regresyona Dayalı Hesaplanan Puanlayıcılar Arası Tutarlığın Karşılaştırılması. Kastamonu Eğitim Dergisi. 21 (2),423-438.
Deliceoğlu, G. (2009). Futbol Yetilerine İlişkin Dereceleme Ölçeğinin Genellenebilirlik ve Klasik Test Kuramına Dayalı Güvenirliklerinin Karşılaştırılması. Yayınlanmamış Doktora Tezi, Ankara Üniversitesi, Ankara.
Fleiss, J. L. (1971). Measuring nominal scale agreement among many raters. Psychological Bulletin. 76(5), 378-382.
Fleiss, J. L. ve Cohen, J. (1973). The equivalence of weighted kappa and the intraclass correlation coefficient as measures of reliability. Educational and Psychological Measurement, 33, 613-619.
Gage, N. A., Prykanowski, D. ve Hirn, R. (2014). Increasing Reliability of Direct Observation Measurement Approaches in Emotional and/or Behavioral Disorders Research Using Generalizability Theory. Behavioral Disorders, 39(4), 228-244.
Glass, G. V. ve Hopkins, K. D. (1984). Statistical Methods in Education and Psychology. NJ: Prentice-Hall.
Goodwin, L. D. ve Goodwin, W. L. (1991). Using Generalizability Theory in Early Childhood Special Education. Journal of Early Intervention, 193-204.
Goodwin, L. D., Sands, D. J. ve Kozleski, E. B. (1991). Estimating Interviewer Reliability for Interview Schedules Used in Special Education Research. The Journal of Special Education, Volume 25, Issue1, 73-89.
Goodwin, L. D. (2001). Interrater Agreement and Reliability. Measurement in Physical education and Exercise Science, 5 (1), 13-14.
Gugiu,M. R., Gugiu, P. C. ve Baldus, R. (2012). Utilizing Generalizability Theory to Investigate the Reliability of Grades Assigned to Undergraduate Research Papers. Journal of Multi-Disciplinary Evaluation, v8 n19 p26-40.
Güler, N. ve Gelbal, S. (2010). Açık Uçlu Matematik Sorularının Güvenirliğinin Klasik Test Kuramı ve Genellenebilirlik Kuramına Göre İncelenmesi. Kuram ve Uygulamada Eğitim Bilimleri, 10 (2), 989-1019.
Haertel, E. H. (2006). Reliability. In R. L. Brennan (Ed.), Educational measurement (4th edn, pp. 65–110). Westport, CT: Praeger Publishers.
Hill, H. C., Charalambous, C. Y. ve Kraft, M. A. (2012). When Rater Reliability Is Not Enough: Teacher Observation and a Case for the Generalizability Study. Educational Researcher, Volume 41, Issue 2, 56-64.
Hughes, M. A. ve Garrett, D. E. (1990). Intercoder Reliability Estimation Approaches in Marketing: A Generalizability Theory Framework for Quantitative Data. Journal of Marketing Research, Volume 27, 185-195.
Kan, A. (2001). Yazılı yoklamaların puanlanmasında puanlama cetveli ve yanıt anahtarı kullanımının puanlamaya ve puanlayıcı güvenirliğine etkisi. Yayınlanmamış yüksek lisans tezi, Hacettepe Üniversitesi, Ankara.
Krippendorff, K. (2004). Measuring the reliability of qualitative text analysis data. Humanities, Social Sciences and Law, 38(6), 787-800.
Lord, F. M. ve Novick, M. R. (1968) Statistical Theory of Mental Test Scores. New Jersey: Addison-Wesley. Co.
Martinez, J. F., Goldschmidt, P., Niemi, D., Baker, E. L. ve Sylvester, R. (2007). Language Arts Performance Assignments: Generalizability Studies of Local and Central Ratings. Educatıonal Assessment, 12(3&4), 267–282.
Meyer, G. J. (1999). Simple Procedures to Estimate Chance Agreement and Kappa for the Interrater Reliability of Response Segments Using the Rasch Comprehensive System. Journal of Personality Assessment, 72, 230-255.
Shavelson, R. J. ve Webb, N. M. (1991). Generalizability Theory: A Primer. USA: SAGE Publications.
Şencan, H. (2005) Sosyal ve Davranışsal Ölçmelerde Güvenirlik ve Geçerlik. Ankara: Sözkesen Matbaacılık.
Taşdelen, G., Kelecioğlu, H. ve Güler, N. (2010). Nedelsky ve Angoff Standart Belirleme Yöntemleri ile Elde Edilen Kesme Puanlarının Genellenebilirlik Kuramı ile Karşılaştırılması. Eğitimde ve Psikolojide Ölçme ve Değerlendirme Dergisi, 1(1), 22-28.
Turgut, M. F. (1993). Eğitimde Ölçme ve Değerlendirme Metotları. Ankara: Saydam Matbaacılık.
Yin, Y. ve Shavelson, R. J. (2004). Generalizability Analysis for Concept Mapping Assessment of Students’ Science Achievement. Paper presented at the annual meeting of the AERA, San Diego, CA.

Toplam 40 adet kaynakça vardır.

Ayrıntılar

Birincil Dil	Türkçe
Bölüm	Makaleler
Yazarlar	Neşe Güler Bu kişi benim Gülşen Taşdelen Teker
Yayımlanma Tarihi	26 Aralık 2015
Yayımlandığı Sayı	Yıl 2015 Cilt: 6 Sayı: 1

Kaynak Göster

APA	Güler, N., & Taşdelen Teker, G. (2015). Açık Uçlu Maddelerde Farklı Yaklaşımlarla Elde Edilen Puanlayıcılar Arası Güvenirliğin Değerlendirilmesi. Journal of Measurement and Evaluation in Education and Psychology, 6(1), 12-24. https://doi.org/10.21031/epod.63041