TY  - JOUR
T1  - Reliability of Essay Ratings: A Study on Generalizability Theory
TT  - Kompozisyon Puanlarının Güvenirliği: Genellenebilirlik Kuramı Çalışması
AU  - Atılgan, Hakan
PY  - 2019
DA  - February
JF  - Eurasian Journal of Educational Research
PB  - Özer DAŞCAN
WT  - DergiPark
SN  - 1302-597X
SP  - 133
EP  - 150
VL  - 19
IS  - 80
LA  - en
AB  - Purpose:This study intended to examine the generalizability and reliability of essayratings within the scope of the generalizability (G) theory. Specifically, theeffect of raters on the generalizability and reliability of students’ essayratings was examined. Furthermore, variations of the generalizability andreliability coefficients with respect to the number of raters and optimalnumber of raters for obtaining optimal reliability of the rating of the writingability of a student, which is considered to be an implicit trait as a wholeand in its sub-dimensions of wording/writing, paragraph construction, and titleselection, were determined.&amp;nbsp;Research Methods: The student sampleof the study comprised 443 students who were selected via random clustersampling, and rater sample of this study comprised four Turkish teachers. Allthe essays written by the students in the sample were independently rated on a writing skill scale (WSS), which is an ordinalscale comprising 20 items, by four trainedteachers. In this study, data analysis was performed using the multivariate                               &amp;nbsp;design of the Gtheory. Finding: In the G studies that wereperformed, variances of the rater (r)as well as item and rater (ixr) werelow in all sub-dimensions; however, variance of the object of measurement andrater (pxr) was relatively high. Thepresence of trained raters increased the reliability of the ratings. Implications for Research and Practice:In the decision (D) study analyses of the original study conducted using fourraters, the G and Phi coefficients for the combined measurement were observedto be .95 and .94, respectively. Further, the G and Phi coefficients were .91and .90, respectively, for the alternative D studies that were conducted by twotrained raters. Thus, rating of essays by two trained raters may be consideredto be satisfactory.&amp;nbsp;
KW  - Generalizability Theory
KW  - generalizability
KW  - reliability
KW  - essay rating
KW  - essay rater reliability
KW  - writing ratings
N2  - Problem Durumu: Kompozisyonların puanlanmasında puanlayıcılararasındaki bu farklılaşmaların ölçme hatalarına neden olması puanlarıntutarsızlığı ve güvenirliğin düşmesi ile sonuçlanır. Kompozisyon tipisınavlarla ölçülen becerilerin ne derece doğrulukla puanlanabildiğininbelirlenmesi varyans kaynaklarından gelen ölçme hatalarının ortaya konulmasınabağlıdır. Aynı zamanda ölçme sonuçlarına karışan bu tür ölçme hatalarınınazaltılması için de bu hata kaynaklarının doğru şekilde bilinmesi ve ölçmedurumunun ona göre desenlenmesi gerekir. Araştırmanın Amacı: BuÇalışmada çok değişkenli G Kuramı kapsamında bireylerin Türkçe anadilde yazmabecerilerin ölçüldüğü kompozisyon puanlarının genellenebilirliği ve güvenirliğiincelenmiştir. Bu bağlamda kompozisyon puanlarının genellenebilirliği vegüvenirliği üzerine yukarıda belirtildiği gibi daha etkili olduğu bilinenpuanlama konusunda eğitilmiş puanlayıcıların etkisi üzerine odaklanılmıştır.Örtük özellik olan yazma becerisinin tümü ve alt boyutları olarak başlık bulma,paragraf oluşturma, anlatım-yazma boyutlarında puanlamada puanlayıcı sayısınagöre genellenebilirlik ve güvenirlik katsayılarının nasıl değiştiği ve optimalbir güvenirlik için en uygun puanlayıcı sayısının ne olabileceği ortayakonulmaya çalışılmıştır. Böylece kompozisyon yazma becerilerinindeğerlendirilmesi konusunda bilgimizi genişletmek ve kompozisyonların yeterincegüvenilir puanlanması için referans oluşturmak amaçlanmıştır. Araştırmanın Yöntemi: Çalışmada kullanılan okul örneklemi; Türkiye’de İzmiril merkezinden önce üç ilçe, sonra bu üç ilçenin her birinden birer okul yansızküme örneklem olarak seçilmiştir. Örnekleme seçilen okulların 8. sınıföğrencilerinin tamamı öğrenci örneklemini oluşturmuştur. Öğrenci örneklemi 443öğrenciden oluşmaktadır. Puanlayıcı örneklemi ise konusunda uzman olan Türkçe dersiöğretmenleri arasından seçilen dört öğretmenden oluşturulmuştur. Öğrencilerinkompozisyonlarını puanlamak için Yazma Becerileri Ölçeği (YBÖ) kullanılmıştır.Dereceleme ölçeği olan bu ölçekte 20 madde bulunmaktadır. Her bir madde dörtlüdereceleme ölçeği şeklinde puanlanmaktadır. Dört puanlayıcının kompozisyonlarıntümünü birbirlerinden bağımsız puanlamaları sağlanmıştır. AraştırmadaG Kuramının çok değişkenli                               &amp;nbsp;deseni kullanılmıştır.G Kuramının  &amp;nbsp;çok değişkenlideseniyle uygulanan G çalışmasında varyans bileşenleri alt boyutlar içinkestirilmiştir. Araştırmada bağıl ölçmeler için Genellenebilirlik katsayısı  , mutlak ölçmeler için güvenirlik katsayısı ( ) alt boyutlar ve birleşik ölçme içinhesaplanmıştır. Alternatif D çalışması ile  &amp;nbsp;and  &amp;nbsp;katsayıları puanlayıcı sayısının artırılmasıve azaltılması senaryoları ile alt boyutlar ve birleşik ölçme içinhesaplanmıştır.AraştırmanınBulguları: G Kuramının  &amp;nbsp;çok değişkenli deseniGenellenebilirlik (G) çalışması ile her bir alt boyut için üç ana (p, i,r) ve dört ortak etki varyansı (pxi, pxr,ixr, pxixr,e) kestirilmiştir. Başlık bulma, paragrafoluşturma ve anlatım/yazma alt boyutunda birey (p) sırasıyla %73.90, %75.51 ve %49.88olarak hesaplanan varyanslar toplam varyanslar içindeki en büyük varyansasahiptir. Bu sonuç bireylerin yazdıkları kompozisyonlarda “başlık bulma” becerifarklılıklarının ortaya konulabildiğini göstermektedir. Başlık bulma, paragrafoluşturma ve anlatım/yazma alt boyutlarının madde (i) varyansı toplam varyanslarısırasıyla %5.12, %0.10 ve %4.87 olarak bulunmuştur. Paragraf oluşturma altboyutu dışında nispeten büyük olan bu varyans yüzdesi; başlık bulma ve anlatım/yazma altboyutunda maddelerin farklılaştığı biçiminde yorumlanabilir. Bu çalışmanın odaknoktası olan puanlayıcı (r) varyansıbaşlık bulma, paragraf oluşturma veanlatım/yazma alt boyutunda toplam varyansın sırasıyla%2.75, %2.05 ve %1.59 olarak hesaplanmıştır. Toplam varyansların nispeten küçükbir kısmını oluşturan puanlayıcı varyansları; puanlayıcıların alt boyutundapuanlamaları arasında tutarsızlıklarının az olduğunu göstermektedir. Başlıkbulma, paragraf oluşturma ve anlatım/yazma altboyutları için kestirilen birey ve madde (pxi)ortak etkisi toplam varyansların sırasıyla %4.31, %.08 ve %4.84’üdür. Başlıkbulma, paragraf oluşturma ve anlatım/yazma altboyutlarında varyansların nispeten büyük oluşu, bireylerin bu alt boyutundamaddeler arasında bağıl durumlarının farklılaştığını göstermektedir. Birey vepuanlayıcı (pxr) arasındaki ortaketkisi varyansı başlık bulma, paragrafoluşturma ve anlatım/yazma alt boyutlarında toplamvaryansın sırasıyla %7.35, %17.36 ve %12.83’ünü oluşturmaktadır. Bu sonuç altboyutlara belli puanlayıcıların belli bireyler için daha katı ya da daha cömertpuanlama yaptıklarını göstermektedir. Madde ve puanlayıcı (ixr) arasındaki ortak etki varyansı başlık bulma, paragrafoluşturma ve anlatım/yazma alt boyutlarında toplamvaryansın %.71, %.14 ve %3.60’ı olarak hesaplanmıştır. Başlık bulma ve paragrafoluşturma alt boyutlarında bu varyansların toplamvaryansları içindeki payının sıfıra yakın olması, puanlayıcıların öğrencileribir maddeden diğerine kararlı puanladıkları biçiminde yorumlanabilirken,anlatım/yama alt boyutunda aynı kararlığın olmadığını göstermektedir. Birey,puanlayıcı, madde arasında üç yönlü ortak etki ile hata varyansları (pxrxi,e) başlık bulma, paragrafoluşturma ve anlatım/yazma alt boyutlarında toplamvaryansların %5.86, %4.76 ve %22.39’u olarak kestirilmiştir. Alt boyutlarda,özellikle anlatım/yazma alt boyutunda büyük olan bu varyanslar bireylerin bağılkonumlarının; birey, puanlayıcı, madde üç yönlü ortak etki varyansının Gçalışmasında hesaba katılmayan diğer hata kaynaklarının büyüklüğünügöstermektedir. G Kuramının  &amp;nbsp;çokdeğişkenli deseni Karar (D) Çalışması ile her bir alt boyut vebütün ölçek için G ve Phi katsayıları çalışmanın orijinalinde puanlama yapandört puanlayıcı için ve alternatif olarak daha az ve daha çok puanlayıcısayıları için hesaplanmıştır. Bağıl ölçmeleriçin hesaplanan G katsayısı  &amp;nbsp;çalışmada puanlama yapan dört puanlayıcı için “başlık bulma”, “paragraf oluşturma” ve “anlatım/yazma”alt boyutları için sırasıyla .95, .94, .93 birleşik ölçme için ise .95olarak elde edilmiştir. Mutlak ölçmeler için puanlarıngüvenirliğinin bir ölçüsü olan Phi ( )katsayısı çalışmada puanlama yapan dört puanlayıcı için “başlıkbulma”, “paragraf oluşturma” ve “anlatım/yazma” alt boyutları için sırasıyla.92, .93, .91 ve birleşik ölçme için ise .94 olarak hesaplanmıştır.&amp;nbsp; Puanlayıcı sayısının beş puanlayıcıyaçıkarılması alt boyutlar ve birleşik ölçme için G ve Phi katsayılarında çok azkazanç sağladığı gibi, üç puanlayıcıya indirildiğinde ise kayıp çok az olmakta vetüm katsayılar .89 ve üzerinde olmaktadır. Puanlayıcı sayısı ikiyeindirildiğinden alt boyutlar ve birleşik ölçme için G ve Phi katsayılarındakayıp biraz daha artmakta ancak başlık bulma, paragraf oluşturma veanlatım/yazma alt boyutları için sırasıyla G katsayıları .92, .89, .87; Phikatsayıları .89, .88, .85 ve birleşik ölçme için G katsayısı .91, Phi katsayısı.90 olarak elde edilmektedir. AraştırmanınSonuç ve Önerileri: Yapılan Gçalışmalarında başlık bulma, paragraf oluşturma anlatım/yazma alt boyutlarındahesaplanan birey varyansı da en büyük paya sahiptir. Puanlayıcı ana etkisivaryansları alt boyutlarda göreli olarak küçük bulunmuştur. Bu sonuçliteratürde yazma becerilerinin puanlanmasına ilişkin pek çok çalışmadapuanlayıcı varyansının küçük ve puanlayıcıların birbirleri ile tutarlıpuanlamalar yaptıkları bulguları ile benzerdir. Madde ve puanlayıcı (ixr) arasındaki ortak etki varyansıyüzdesinin tüm alt boyutlarda küçük olması puanlayıcıların maddeleri puanlamadatutalı oldukları şeklinde yorumlanabilir. Elde edilen bu sonuçlar puanlamayapacak kişilerin puanlama yapacakları konunun uzmanlarından seçilmesi,eğitilmesi ve bu eğitimlerde neyin nasıl puanlanması gerektiği, puanlamakriterlerinin verilmesi durumunda puanların güvenirliğinin yüksek olacağınıgöstermiştir. Ancak birey ve puanlayıcı (pxr)ortak etki varyansı yüzdelerinin tüm alt boyutlarda yüksek oluşu bellipuanlayıcıların belli bireyleri puanlamalarında daha katı ya da cömertolduklarını göstermektedir. Bu bağlamda birey ve puanlayıcı (pxr) arasındaki ortak etki varyansınınküçültülebilmesi ve böylece belli puanlayıcıların belli bireyleripuanlamalarında katılık ya da cömertlik bakımından farklılıkların olmaması içinkompozisyon puanlayacak uzmanların eğitiminde bu konunun dikkate alınmasıyerinde olacaktır. Ayrıca puanlama yapacak uzman ve eğitimli puanlayıcılarınpuanlama deneyimlerinin artması ile bu sorunun da azalacağı düşünülebilir.&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; Kçalışması analizlerinde, orijinali dört puanlayıcıyla yürütülen çalışmadabirleşik ölçme için G katsayısının .95 vePhi katsayısının.94 olduğu, tüm alt ölçeklerde bu katsayıların .90’ın üzerinde ve oldukçayüksek olduğu görülmüştür. Alternatif K çalışmaları ile puanlayıcı sayısınınartırılması uzman ve eğitimli dört puanlayıcı ile elde edilen katsayılarda çokaz kazanç sağlamıştır. Bununla birlikte uzman ve eğitimli puanlayıcı sayısınıniki olması durumunda ise G katsayısı .91, Phi katsayısı .90 olarak eldeedilmiştir. Bu sonuç .90 üzerinde bir güvenirliğe ulaşmak için ikipuanlayıcının yeterli olduğunu göstermiştir.&amp;nbsp;
CR  - Atilgan, H. (2008). Using generalizability theory to assess the score reliability of the special ability selection examinations for music education programs in higher education. International Journal of Research &amp; Method in Education, 31(1), 63-76. https://doi.org/10.1080/17437270801919925.
CR  - Atılgan, H., Kan, A., &amp; Aydin, B. (2017). Egitimde olcme ve degerlendirme [Measurement and evaluation in education]. Ankara: Anı Yayıncılık.
CR  - Baykul, Y. (2000). Egitimde ve psikolojide olcme: Klasik Test Teorisi ve uygulamasi [Measurement in education and psychology: Classical Test Theory and application]. Ankara: OSYM.
CR  - Bereiter, C. (2003). Foreword. In M. D. Shermis, &amp; J. C. Burstein (Ed.), Automated essay (pp. 7-9). NJ: LEA: Mahwah.
CR  - Blok, H. (1985). Estimating the reliability, validity, and invalidity of essay ratings. Journal of Educational Measurement, 22, 41-52. https://doi.org/10.1111/j.1745-3984.1985.tb01048.x.
CR  - Bouwer, R., Beguin, A., Sanders, T., &amp; van den Berg, H. (2015). Effect of genre on the generalizability of writing scores. Language Testing, 32(1) 83-100. https://doi.org/10.1177/0265532214542994.
CR  - Brennan, R. L. (2001a). Generalizability Theory. New York: Springer-Verlag.
CR  - Brennan, R. L. (2001b). Manual for mGENOVA (version2.1). Iowa Testing Programmes, Occasional Papers Number 50. Iowa City, IA: University of Iowa.
CR  - Cohen, R. J., Swerdlik, M. E., &amp; Philips, S. M. (1996). Pyschological testing and assessment: An inroduct on to test and measurement (3th Edition). California: Mayfield 
Publishing Company.
CR  - Cooper, P. L. (1984). The assessment of writing ability: A review of research. Princeton, NJ: Educational Testing Service. GRE Board Research Report GREB No. 82-15R=ETS Research Report 84-12.
CR  - Crocker, L., &amp; Algina, J. (1986). Introduction to Classical and Modern Test Theory. New York: Holt, Rinehart, and Winston.
CR  - Cronbach, J. L. (1984). Essentials of psychological testing. New York: Happers&amp;Row Publishers.
CR  - Cronbach, L. J., Gleser, G., Nanda, H., &amp; Rajaratnam, N. (1972). The dependability of behavioral measurements: Theory of generalizability of scores and profiles. New York, NY: Wiley.
CR  - Cronbach, L. J., Rajaratnam, N., &amp; Gleser, G. C. (1963). Theory of Generalizability: A liberalization of reliability theory. British Journal of Statistical Psychology, 16, 137-163. https://doi.org/10.1111/j.2044-8317.1963.tb00206.x.
CR  - Cumming, A., Kantor, R., &amp; Powers, D. E. (2002). Decision making while rating ESL/EFL writing tasks: A descriptive framework. The Modern Language Journal, 86, 67–96. https://doi.org/10.1111/1540-4781.00137.
CR  - Doğan, N. (2015). Yazılı yoklamalar [Written examinations]. In H. Atılgan (Ed.), Eğitimde ölçme ve değerlendirme [Measurement and evaluation in education] (pp. 145-168). Ankara: Anı Yayıncılık.
CR  - Doğan, C. D., &amp; Uluman, M. (2017). A comparison of rubrics and graded category rating scales with various methods regarding raters’ reliability. Educational Sciences: Theory &amp; Practice, 7, 631–651. http://dx.doi.org/10.12738/estp.2017.2.0321.
CR  - Eckes, T. (2008). Rater types in writing performance assessments: A classiﬁcation approach to rater. Language Testing, 25, 155–185. https://doi.org/10.1177/0265532207086780.
CR  - Gebril, A. (2009). Score generalizability of academic writing tasks: Does one test method ﬁt it all? Language Testing, 26, 507–531. https://doi.org/10.1177/0265532209340188.
CR  - Graham, S. (2006). Writing. In P. Alexander, &amp; P. Winne (Ed.), Handbook of educational psychology (pp. 457-478). NJ: Erlbaum: Mahwah.
CR  - Graham, S., Harris, K., &amp; Hebert, M. (2011). Informing writing: The beneﬁts of formative assessment. A carnegie Corporation Time to Act report. Washington, DC: Alliance for Excellent Education.
CR  - Kan, A. (2007). Effects of using a scoring guide on essay scores: Generalizability theory. Perceptual and Motor Skills, 105, 891-905. https://doi.org/10.2466/pms.105.3.891-905.
CR  - Kim, Y.-S. G., Schatschneider, C., Wanzek, J., Gatlin, B., &amp; Otaiba, S. A. (2017). Writing evaluation: rater and task effects on the reliability of writing scores for children in Grades 3 and 4. Read Writ, 30, 1287-1310.
CR  - Kondo-Brown, K. (2002). A facets analysis of rater bias in measuring Japanese second language writing. Language Testing, 19, 3–31. https://doi.org/10.1191/0265532202lt218oa.
CR  - Lord, F., &amp; Novick, M. (1968). Statistical Theory of mental test score. California: Addison-Wesley Publishing Company.
CR  - Miller, D. M., Linn, R. L., &amp; Gronlund, N. E. (2009). Measurement assessment in teaching. New Jersey: Pearson Education Inc.
CR  - Nitko, A. J., &amp; Brookhart, S. M. (2011). Educational assessment of student. Boston, MA: Pearson Education.
CR  - Nunnally, J., &amp; Bernstein, I. (1994). Psychometric Theory (3rd Edition). New York: McGraw-Hill, Inc..
CR  - Schoonen, R. (2005). Generalizability of writing scores: an application of structural equation modeling. Language Testing, 22(1) 1-30. https://doi.org/10.1191/0265532205lt295oa.
CR  - Schoonen, R. (2012). The validity and generalizability of writing scores: The effect of rater, task and language. In E. Van Steendam, M. Tillema, G. Rijlaarsdam, &amp; H. van
CR  - den Berg (Ed.), Measuring writing: Recent insights into theory, methodology and practice (pp. 1-22). Leiden, The Netherlands: Brill.
CR  - Schoonen, R., Vergeer, M., &amp; Eiting, M. (1997). The assessment of writing ability: Expert readers versus lay readers. Language Testing, 14, 157-84 https://doi.org/10.1177/026553229701400203.
CR  - Shavelson, R. J., &amp; Webb, M. N. (1991). Generalizability Theory Aprime. California: SAge Publication.
CR  - Shavelson, R. J., Baxter, G. P., &amp; Gao, X. (1993). Sampling variability of performance assessments. Journal of Educational Measurement, 30, 215-232.
CR  - Sudweeks, R. R., Reeve, S., &amp; Bradshaw, W. S. (2005). A comparison of generalizability theory and many-facet Rasch measurement in an analysis of college sophomore writing. Assessing Writing, 239-261. https://doi.org/10.1016/j.asw.2004.11.001.
CR  - Swartz, C. W., Hooper, S. R., Montgomery, J. W., Wakely, M. B., de Kruif, R. E., Reed, M., Brown, T. T., Levine, M. D., &amp; White, K. P. (1999). Using generalizability theory to estimate the reliability of writing scores derived from holistic and analytical scoring methods. Education and Psychological Measurement, 59, 492–506. https://doi.org/10.1177/00131649921970008.
CR  - Thordike, L. R. (1971). Educational measurement (2nd. Edition). Washington: American Council on Education.
CR  - Tugut, F. (1995). Egitimde olcme ve degerlendirme metodları [Measurement and evaluation methods in education]. Ankara: Nüve Matbaası.
CR  - Turgut, M., &amp; Baykul, Y. (2010). Egitimde olcme ve degerlendirme [Measurement and evaluation in education]. Ankara: Pegem Akademi.
CR  - Weigle, S. C. (1998). Using FACETS to model rater training effects. Language Testing, 15, 263-287. https://doi.org/10.1177/026553229801500205.
CR  - Weilgle, S. C. (1994). Effects of training on raters of ESL compositions. Language Testing, 197-223. https://doi.org/10.1177/026553229401100206.
UR  - https://dergipark.org.tr/tr/pub/ejer/article/548921
L1  - https://dergipark.org.tr/tr/download/article-file/687511
ER  -