Puanlayıcılar Arası Güvenirlik Belirleme Tekniklerinin Karşılaştırılması

Özge Bıkmaz Bilgen; Nuri Doğan

doi:10.21031/epod.294847

Puanlayıcılar Arası Güvenirlik Belirleme Tekniklerinin Karşılaştırılması

Abstract

Bu araştırmada dereceli puanlama anahtarı türü ve puanlayıcı sayısı değişiminin, puanlayıcı güvenirliğini belirlemede kullanılan tekniklerden elde edilen sonuçlar üzerindeki etkisi incelenmiştir. Araştırmanın çalışma grubu, 50 öğrenci ve puanlama yapan 10 öğretmenden oluşmaktadır. Betimsel nitelik taşıyan araştırmada puanlayıcı güvenirliğini belirlemede Kappa istatistik tekniği, log linear analiz tekniği ve Krippendorff alfa tekniği kullanılmıştır. Puanlayıcı sayısı değişiminin puanlayıcı güvenirliğine etkisini incelemek adına belirtilen üç teknik kullanılarak iki, beş ve on puanlayıcı arasındaki uyum düzeyleri hesaplanmıştır. Araştırmada üç teknikten elde edilen analiz sonuçlarında, analitik puanlama anahtarı kullanımıyla elde edilen puanlarda, puanlayıcı sayısı artışının güvenirlik düzeyini düşürdüğü tespit edilmiştir. Üç teknikle yapılan analizlerde, en yüksek güvenirlik değerleri iki puanlayıcı kullanıldığında elde edilmiş, puanlayıcı sayısı artırıldıkça güvenirliğin düştüğü saptanmıştır. Analitik puanlama anahtarını oluşturan kategoriler incelendiğinde kategoriler arasında objektiflik düzeyine dayalı olarak, puanlayıcıların uyum düzeylerinde değişkenlik olduğu saptanmıştır. Araştırmanın sonucunda, kullanılan tekniklerden Kappa tekniği ve Krippendorff alfa tekniğinin paralel sonuçlar verdiği görülmüştür. Bununla birlikte Krippendorff alfa tekniğinin puanlayıcı sayısı değişiminden Kappa tekniğine göre daha az etkilendiği belirlenmiştir. Log-linear analiz tekniğinin ise değişkenler arasındaki etkileşimleri ve uyumsuzluk kaynağını gösteren daha kapsamlı ve geniş bilgi sağladığı tespit edilmiştir. Sonuç olarak, daha detaylı ölçme sonuçları elde edilmek istendiğinde alt kategorilerden oluşan analitik puanlama anahtarı kullanılarak toplanan puanların, kategorik veri analizi için uygun olan log-linear analiz tekniğinin; daha genel ölçme sonuçlarına ulaşılmak istendiğinde ise bütünsel puanlama anahtarı ile elde edilen puanların Krippendorff alfa tekniğinin kullanılmasının uygun olduğu düşünülmektedir.

Keywords

kappa istatistiği,log-linear analiz tekniği,krippendorff alfa

References

Airasian, P. W. (1994). Classroom assessment. New York: McGraw-Hill.
Agresti, A. (1996). An introduction to categorical data analysis. New York: John Wiley & Sons, INC.
Akgül, A. (2005). Tıbbi araştırmalarda istatistiksel analiz teknikleri, SPSS uygulamaları. (3. Baskı). Ankara: Emek Ofset.
Anthony, J., Viere, M. D., ve Garrett, P.D. (2005). Understanding interobserver agreement: The kappa statistic. Family Medicine, 37(5), 360-362.
Atılgan, H., Kan, A. ve Doğan, N. (2007). Eğitimde ölçme ve değerlendirme. (2. Basım). Ankara: Anı Yayıncılık.
Baykul, Y. (2000). Eğitim ve Psikolojide Ölçme: Klasik Test Teorisi ve Uygulaması. Ankara: ÖSYM.
Brennen, R. L. ve Prediger, D. J. (1981). Coefficient kappa: Some Uses, misuses, and alternatives. Educational and Psychological Measurement, 41(1981), 687-699.
Burry-Stock, J. A., Shaw, D. G., Laurie, C., ve Chissom, B. S. (1996). Rater agreement indexies for performance assessment. Educational and Psychological Measurement, 56(2), 251-262.

Cohen. J. R., Swerdlik E. M. ve Phillips, S. M. (1996). Psychological testing and assessment. (3th ed). London: Mayfield Publishing Compony.
Cohen, J. (1960). A coefficient of agreement for nominal scales. Educational and Psychological Measurement, 20(1), 37-46.
Crawforth, K. (2001). Measuring the interrater reliability of a data collection instrument developed to evaluate anesthetic outcomes. Doctoral Dissertation. Available from Proquest Dissertations and Theses database. (UMI No. 3037063)
Crocker, L. ve Algina, J. (2008). Introduction to classical and modern test theory. Ohio: Centage Learning.
Fitzpatrick, R. ve Morrison, E. J. (1971). Performance and product evaluation. In R. L. Thorndike (Ed.), Educational Measurement (2), 237–270. Washington DC: American Council on Education.
Fleiss, J. L. (1971). Measuring nominal scale agreement among many raters. Psychological Bulletin. 76(5), 378-382.
Goodrich, H. (1997). Understanding rubric. Educational Leadership, 54(4), 14-17.
Goodwin, L. D. (2001). Interrater agreement and reliability. Measurement in Psychical Education and Exercises Science, 5(1), 13-14.
Haladyna, M. T. (1997). Writing test items to evaluate higher order thinking. Needham Heights: Allyn and Bacon.
Johnson, A. ve Swingly, G. (2007) . The use of scoring rubrics: Reliability, validity and educational consequences. Educational Research Rewiew. 2(2007), 130-144.
Korkmaz, H. (2004). Fen ve teknoloji eğitiminde alternatif değerlendirme yaklaşımları. Ankara: Yeryüzü Yayınevi.
Krippendorff, K. (1995). On the reliability of unitizing continuous data. Sociological Methodology, 25, 47-76.
Krippendorff, K. (2004b). Measuring the reliability of qualitative text analysis data.
Humanities, Social Sciences and Law, 38(6), 787-800.
Kutlu, Ö., Doğan, D. C. ve Karakaya, Ġ. (2009). Öğrenci başarısının belirlenmesi: performansa ve portfolyaya dayalı durum belirleme. Ankara: Pegem Akademi.
Landis, J, R. ve Koch, G. (1977). The measurement of observer agreement for categorical data. Biometrics. 33, 159-174.
Mertler, C. A. (2001). Designing scoring rubrics for your classroom. Pratical Assessment Research and Evaluation, 7(25).
Moskal, B. M. (2000). Scoring rubrics: What, when and how?. Practical Assessment Research and Evaluation, 7(3).
Nitko, A. J. (2001). Educational assessment of students. (3th ed). New Jersey: Prentice Hall.
Sim, J. ve Wright, C. C. (2005) The kappa statistic in reliability studies: use, interpretation, and sample size requirements. Physical Theraphy, 85(3), 258-268.
Tanner, M. A. ve Young, M. A. (1988). Modeling agreement among raters. Journal of the American Statistical Association, 80(389). 175-180.
Von Eye, A. ve Mun, E. Y. (2005). Analyzing rater agreement: Manifest variable methods. New Jersey: Lawrence Erlbaum Associates.

Details

Primary Language

English

Subjects

-

Journal Section

Research Article

Authors

Özge Bıkmaz Bilgen
ADNAN MENDERES UNIV
Türkiye

Nuri Doğan
HACETTEPE UNIV
Türkiye

Publication Date

April 3, 2017

Submission Date

February 23, 2017

Acceptance Date

March 8, 2017

Published in Issue

Year 2017 Volume: 8 Number: 1

DOI

https://doi.org/10.21031/epod.294847

IZ

https://izlik.org/JA75LY49GT

Cite

RIS / Bibtex

APA

Bıkmaz Bilgen, Ö., & Doğan, N. (2017). Puanlayıcılar Arası Güvenirlik Belirleme Tekniklerinin Karşılaştırılması. Journal of Measurement and Evaluation in Education and Psychology, 8(1), 63-78. https://doi.org/10.21031/epod.294847

AMA

1.Bıkmaz Bilgen Ö, Doğan N. Puanlayıcılar Arası Güvenirlik Belirleme Tekniklerinin Karşılaştırılması. JMEEP. 2017;8(1):63-78. doi:10.21031/epod.294847

Chicago

Bıkmaz Bilgen, Özge, and Nuri Doğan. 2017. “Puanlayıcılar Arası Güvenirlik Belirleme Tekniklerinin Karşılaştırılması”. Journal of Measurement and Evaluation in Education and Psychology 8 (1): 63-78. https://doi.org/10.21031/epod.294847.

EndNote

Bıkmaz Bilgen Ö, Doğan N (March 1, 2017) Puanlayıcılar Arası Güvenirlik Belirleme Tekniklerinin Karşılaştırılması. Journal of Measurement and Evaluation in Education and Psychology 8 1 63–78.

IEEE

[1]Ö. Bıkmaz Bilgen and N. Doğan, “Puanlayıcılar Arası Güvenirlik Belirleme Tekniklerinin Karşılaştırılması”, JMEEP, vol. 8, no. 1, pp. 63–78, Mar. 2017, doi: 10.21031/epod.294847.

ISNAD

Bıkmaz Bilgen, Özge - Doğan, Nuri. “Puanlayıcılar Arası Güvenirlik Belirleme Tekniklerinin Karşılaştırılması”. Journal of Measurement and Evaluation in Education and Psychology 8/1 (March 1, 2017): 63-78. https://doi.org/10.21031/epod.294847.

JAMA

1.Bıkmaz Bilgen Ö, Doğan N. Puanlayıcılar Arası Güvenirlik Belirleme Tekniklerinin Karşılaştırılması. JMEEP. 2017;8:63–78.

MLA

Bıkmaz Bilgen, Özge, and Nuri Doğan. “Puanlayıcılar Arası Güvenirlik Belirleme Tekniklerinin Karşılaştırılması”. Journal of Measurement and Evaluation in Education and Psychology, vol. 8, no. 1, Mar. 2017, pp. 63-78, doi:10.21031/epod.294847.

Vancouver

1.Özge Bıkmaz Bilgen, Nuri Doğan. Puanlayıcılar Arası Güvenirlik Belirleme Tekniklerinin Karşılaştırılması. JMEEP. 2017 Mar. 1;8(1):63-78. doi:10.21031/epod.294847