Reliability of Essay Ratings: A Study on Generalizability Theory

Hakan Atılgan

Araştırma Makalesi

Kompozisyon Puanlarının Güvenirliği: Genellenebilirlik Kuramı Çalışması

Yıl 2019, Cilt: 19 Sayı: 80, 133 - 150, 15.02.2019

Hakan Atılgan

Öz

Problem Durumu: Kompozisyonların puanlanmasında puanlayıcılar
arasındaki bu farklılaşmaların ölçme hatalarına neden olması puanların
tutarsızlığı ve güvenirliğin düşmesi ile sonuçlanır. Kompozisyon tipi
sınavlarla ölçülen becerilerin ne derece doğrulukla puanlanabildiğinin
belirlenmesi varyans kaynaklarından gelen ölçme hatalarının ortaya konulmasına
bağlıdır. Aynı zamanda ölçme sonuçlarına karışan bu tür ölçme hatalarının
azaltılması için de bu hata kaynaklarının doğru şekilde bilinmesi ve ölçme
durumunun ona göre desenlenmesi gerekir.

Araştırmanın Amacı: Bu
Çalışmada çok değişkenli G Kuramı kapsamında bireylerin Türkçe anadilde yazma
becerilerin ölçüldüğü kompozisyon puanlarının genellenebilirliği ve güvenirliği
incelenmiştir. Bu bağlamda kompozisyon puanlarının genellenebilirliği ve
güvenirliği üzerine yukarıda belirtildiği gibi daha etkili olduğu bilinen
puanlama konusunda eğitilmiş puanlayıcıların etkisi üzerine odaklanılmıştır.
Örtük özellik olan yazma becerisinin tümü ve alt boyutları olarak başlık bulma,
paragraf oluşturma, anlatım-yazma boyutlarında puanlamada puanlayıcı sayısına
göre genellenebilirlik ve güvenirlik katsayılarının nasıl değiştiği ve optimal
bir güvenirlik için en uygun puanlayıcı sayısının ne olabileceği ortaya
konulmaya çalışılmıştır. Böylece kompozisyon yazma becerilerinin
değerlendirilmesi konusunda bilgimizi genişletmek ve kompozisyonların yeterince
güvenilir puanlanması için referans oluşturmak amaçlanmıştır.

Araştırmanın Yöntemi: Çalışmada kullanılan okul örneklemi; Türkiye’de İzmir
il merkezinden önce üç ilçe, sonra bu üç ilçenin her birinden birer okul yansız
küme örneklem olarak seçilmiştir. Örnekleme seçilen okulların 8. sınıf
öğrencilerinin tamamı öğrenci örneklemini oluşturmuştur. Öğrenci örneklemi 443
öğrenciden oluşmaktadır. Puanlayıcı örneklemi ise konusunda uzman olan Türkçe dersi
öğretmenleri arasından seçilen dört öğretmenden oluşturulmuştur. Öğrencilerin
kompozisyonlarını puanlamak için Yazma Becerileri Ölçeği (YBÖ) kullanılmıştır.
Dereceleme ölçeği olan bu ölçekte 20 madde bulunmaktadır. Her bir madde dörtlü
dereceleme ölçeği şeklinde puanlanmaktadır. Dört puanlayıcının kompozisyonların
tümünü birbirlerinden bağımsız puanlamaları sağlanmıştır. Araştırmada
G Kuramının çok değişkenli

deseni kullanılmıştır.
G Kuramının

çok değişkenli
deseniyle uygulanan G çalışmasında varyans bileşenleri alt boyutlar için
kestirilmiştir. Araştırmada bağıl ölçmeler için Genellenebilirlik katsayısı

, mutlak ölçmeler için güvenirlik katsayısı (

) alt boyutlar ve birleşik ölçme için
hesaplanmıştır. Alternatif D çalışması ile

and

katsayıları puanlayıcı sayısının artırılması
ve azaltılması senaryoları ile alt boyutlar ve birleşik ölçme için
hesaplanmıştır.

Araştırmanın
Bulguları: G Kuramının

çok değişkenli deseni
Genellenebilirlik (G) çalışması ile her bir alt boyut için üç ana (p, i,
r) ve dört ortak etki varyansı (pxi, pxr,
ixr, pxixr,e) kestirilmiştir. Başlık bulma, paragraf
oluşturma ve anlatım/yazma alt boyutunda birey (p) sırasıyla %73.90, %75.51 ve %49.88
olarak hesaplanan varyanslar toplam varyanslar içindeki en büyük varyansa
sahiptir. Bu sonuç bireylerin yazdıkları kompozisyonlarda “başlık bulma” beceri
farklılıklarının ortaya konulabildiğini göstermektedir. Başlık bulma, paragraf
oluşturma ve anlatım/yazma alt boyutlarının madde (i) varyansı toplam varyansları
sırasıyla %5.12, %0.10 ve %4.87 olarak bulunmuştur. Paragraf oluşturma alt
boyutu dışında nispeten büyük olan bu varyans yüzdesi; başlık bulma ve anlatım/yazma alt
boyutunda maddelerin farklılaştığı biçiminde yorumlanabilir. Bu çalışmanın odak
noktası olan puanlayıcı (r) varyansı
başlık bulma, paragraf oluşturma ve
anlatım/yazma alt boyutunda toplam varyansın sırasıyla
%2.75, %2.05 ve %1.59 olarak hesaplanmıştır. Toplam varyansların nispeten küçük
bir kısmını oluşturan puanlayıcı varyansları; puanlayıcıların alt boyutunda
puanlamaları arasında tutarsızlıklarının az olduğunu göstermektedir. Başlık
bulma, paragraf oluşturma ve anlatım/yazma alt
boyutları için kestirilen birey ve madde (pxi)
ortak etkisi toplam varyansların sırasıyla %4.31, %.08 ve %4.84’üdür. Başlık
bulma, paragraf oluşturma ve anlatım/yazma alt
boyutlarında varyansların nispeten büyük oluşu, bireylerin bu alt boyutunda
maddeler arasında bağıl durumlarının farklılaştığını göstermektedir. Birey ve
puanlayıcı (pxr) arasındaki ortak
etkisi varyansı başlık bulma, paragraf
oluşturma ve anlatım/yazma alt boyutlarında toplam
varyansın sırasıyla %7.35, %17.36 ve %12.83’ünü oluşturmaktadır. Bu sonuç alt
boyutlara belli puanlayıcıların belli bireyler için daha katı ya da daha cömert
puanlama yaptıklarını göstermektedir. Madde ve puanlayıcı (ixr) arasındaki ortak etki varyansı başlık bulma, paragraf
oluşturma ve anlatım/yazma alt boyutlarında toplam
varyansın %.71, %.14 ve %3.60’ı olarak hesaplanmıştır. Başlık bulma ve paragraf
oluşturma alt boyutlarında bu varyansların toplam
varyansları içindeki payının sıfıra yakın olması, puanlayıcıların öğrencileri
bir maddeden diğerine kararlı puanladıkları biçiminde yorumlanabilirken,
anlatım/yama alt boyutunda aynı kararlığın olmadığını göstermektedir. Birey,
puanlayıcı, madde arasında üç yönlü ortak etki ile hata varyansları (pxrxi,e) başlık bulma, paragraf
oluşturma ve anlatım/yazma alt boyutlarında toplam
varyansların %5.86, %4.76 ve %22.39’u olarak kestirilmiştir. Alt boyutlarda,
özellikle anlatım/yazma alt boyutunda büyük olan bu varyanslar bireylerin bağıl
konumlarının; birey, puanlayıcı, madde üç yönlü ortak etki varyansının G
çalışmasında hesaba katılmayan diğer hata kaynaklarının büyüklüğünü
göstermektedir.

G Kuramının

çok
değişkenli deseni Karar (D) Çalışması ile her bir alt boyut ve
bütün ölçek için G ve Phi katsayıları çalışmanın orijinalinde puanlama yapan
dört puanlayıcı için ve alternatif olarak daha az ve daha çok puanlayıcı
sayıları için hesaplanmıştır. Bağıl ölçmeler
için hesaplanan G katsayısı

çalışmada puanlama yapan dört puanlayıcı için “başlık bulma”, “paragraf oluşturma” ve “anlatım/yazma”
alt boyutları için sırasıyla .95, .94, .93 birleşik ölçme için ise .95
olarak elde edilmiştir. Mutlak ölçmeler için puanların
güvenirliğinin bir ölçüsü olan Phi (

)
katsayısı çalışmada puanlama yapan dört puanlayıcı için “başlık
bulma”, “paragraf oluşturma” ve “anlatım/yazma” alt boyutları için sırasıyla
.92, .93, .91 ve birleşik ölçme için ise .94 olarak hesaplanmıştır. Puanlayıcı sayısının beş puanlayıcıya
çıkarılması alt boyutlar ve birleşik ölçme için G ve Phi katsayılarında çok az
kazanç sağladığı gibi, üç puanlayıcıya indirildiğinde ise kayıp çok az olmakta ve
tüm katsayılar .89 ve üzerinde olmaktadır. Puanlayıcı sayısı ikiye
indirildiğinden alt boyutlar ve birleşik ölçme için G ve Phi katsayılarında
kayıp biraz daha artmakta ancak başlık bulma, paragraf oluşturma ve
anlatım/yazma alt boyutları için sırasıyla G katsayıları .92, .89, .87; Phi
katsayıları .89, .88, .85 ve birleşik ölçme için G katsayısı .91, Phi katsayısı
.90 olarak elde edilmektedir.

Araştırmanın
Sonuç ve Önerileri: Yapılan G
çalışmalarında başlık bulma, paragraf oluşturma anlatım/yazma alt boyutlarında
hesaplanan birey varyansı da en büyük paya sahiptir. Puanlayıcı ana etkisi
varyansları alt boyutlarda göreli olarak küçük bulunmuştur. Bu sonuç
literatürde yazma becerilerinin puanlanmasına ilişkin pek çok çalışmada
puanlayıcı varyansının küçük ve puanlayıcıların birbirleri ile tutarlı
puanlamalar yaptıkları bulguları ile benzerdir. Madde ve puanlayıcı (ixr) arasındaki ortak etki varyansı
yüzdesinin tüm alt boyutlarda küçük olması puanlayıcıların maddeleri puanlamada
tutalı oldukları şeklinde yorumlanabilir. Elde edilen bu sonuçlar puanlama
yapacak kişilerin puanlama yapacakları konunun uzmanlarından seçilmesi,
eğitilmesi ve bu eğitimlerde neyin nasıl puanlanması gerektiği, puanlama
kriterlerinin verilmesi durumunda puanların güvenirliğinin yüksek olacağını
göstermiştir. Ancak birey ve puanlayıcı (pxr)
ortak etki varyansı yüzdelerinin tüm alt boyutlarda yüksek oluşu belli
puanlayıcıların belli bireyleri puanlamalarında daha katı ya da cömert
olduklarını göstermektedir. Bu bağlamda birey ve puanlayıcı (pxr) arasındaki ortak etki varyansının
küçültülebilmesi ve böylece belli puanlayıcıların belli bireyleri
puanlamalarında katılık ya da cömertlik bakımından farklılıkların olmaması için
kompozisyon puanlayacak uzmanların eğitiminde bu konunun dikkate alınması
yerinde olacaktır. Ayrıca puanlama yapacak uzman ve eğitimli puanlayıcıların
puanlama deneyimlerinin artması ile bu sorunun da azalacağı düşünülebilir.

K
çalışması analizlerinde, orijinali dört puanlayıcıyla yürütülen çalışmada
birleşik ölçme için G katsayısının .95 ve
Phi katsayısının
.94 olduğu, tüm alt ölçeklerde bu katsayıların .90’ın üzerinde ve oldukça
yüksek olduğu görülmüştür. Alternatif K çalışmaları ile puanlayıcı sayısının
artırılması uzman ve eğitimli dört puanlayıcı ile elde edilen katsayılarda çok
az kazanç sağlamıştır. Bununla birlikte uzman ve eğitimli puanlayıcı sayısının
iki olması durumunda ise G katsayısı .91, Phi katsayısı .90 olarak elde
edilmiştir. Bu sonuç .90 üzerinde bir güvenirliğe ulaşmak için iki
puanlayıcının yeterli olduğunu göstermiştir.

Anahtar Kelimeler

Genellenebilirlik Kuramı, genellenebilirlik, güvenirlik, kompozisyon puanlama, kompozisyon puanlama güvenirliği, puanlayıcı güvenirliği, yazma puanlaması

Kaynakça

Atilgan, H. (2008). Using generalizability theory to assess the score reliability of the special ability selection examinations for music education programs in higher education. International Journal of Research & Method in Education, 31(1), 63-76. https://doi.org/10.1080/17437270801919925.
Atılgan, H., Kan, A., & Aydin, B. (2017). Egitimde olcme ve degerlendirme [Measurement and evaluation in education]. Ankara: Anı Yayıncılık.
Baykul, Y. (2000). Egitimde ve psikolojide olcme: Klasik Test Teorisi ve uygulamasi [Measurement in education and psychology: Classical Test Theory and application]. Ankara: OSYM.
Bereiter, C. (2003). Foreword. In M. D. Shermis, & J. C. Burstein (Ed.), Automated essay (pp. 7-9). NJ: LEA: Mahwah.
Blok, H. (1985). Estimating the reliability, validity, and invalidity of essay ratings. Journal of Educational Measurement, 22, 41-52. https://doi.org/10.1111/j.1745-3984.1985.tb01048.x.
Bouwer, R., Beguin, A., Sanders, T., & van den Berg, H. (2015). Effect of genre on the generalizability of writing scores. Language Testing, 32(1) 83-100. https://doi.org/10.1177/0265532214542994.
Brennan, R. L. (2001a). Generalizability Theory. New York: Springer-Verlag.
Brennan, R. L. (2001b). Manual for mGENOVA (version2.1). Iowa Testing Programmes, Occasional Papers Number 50. Iowa City, IA: University of Iowa.
Cohen, R. J., Swerdlik, M. E., & Philips, S. M. (1996). Pyschological testing and assessment: An inroduct on to test and measurement (3th Edition). California: Mayfield Publishing Company.
Cooper, P. L. (1984). The assessment of writing ability: A review of research. Princeton, NJ: Educational Testing Service. GRE Board Research Report GREB No. 82-15R=ETS Research Report 84-12.
Crocker, L., & Algina, J. (1986). Introduction to Classical and Modern Test Theory. New York: Holt, Rinehart, and Winston.
Cronbach, J. L. (1984). Essentials of psychological testing. New York: Happers&Row Publishers.
Cronbach, L. J., Gleser, G., Nanda, H., & Rajaratnam, N. (1972). The dependability of behavioral measurements: Theory of generalizability of scores and profiles. New York, NY: Wiley.
Cronbach, L. J., Rajaratnam, N., & Gleser, G. C. (1963). Theory of Generalizability: A liberalization of reliability theory. British Journal of Statistical Psychology, 16, 137-163. https://doi.org/10.1111/j.2044-8317.1963.tb00206.x.
Cumming, A., Kantor, R., & Powers, D. E. (2002). Decision making while rating ESL/EFL writing tasks: A descriptive framework. The Modern Language Journal, 86, 67–96. https://doi.org/10.1111/1540-4781.00137.
Doğan, N. (2015). Yazılı yoklamalar [Written examinations]. In H. Atılgan (Ed.), Eğitimde ölçme ve değerlendirme [Measurement and evaluation in education] (pp. 145-168). Ankara: Anı Yayıncılık.
Doğan, C. D., & Uluman, M. (2017). A comparison of rubrics and graded category rating scales with various methods regarding raters’ reliability. Educational Sciences: Theory & Practice, 7, 631–651. http://dx.doi.org/10.12738/estp.2017.2.0321.
Eckes, T. (2008). Rater types in writing performance assessments: A classiﬁcation approach to rater. Language Testing, 25, 155–185. https://doi.org/10.1177/0265532207086780.
Gebril, A. (2009). Score generalizability of academic writing tasks: Does one test method ﬁt it all? Language Testing, 26, 507–531. https://doi.org/10.1177/0265532209340188.
Graham, S. (2006). Writing. In P. Alexander, & P. Winne (Ed.), Handbook of educational psychology (pp. 457-478). NJ: Erlbaum: Mahwah.
Graham, S., Harris, K., & Hebert, M. (2011). Informing writing: The beneﬁts of formative assessment. A carnegie Corporation Time to Act report. Washington, DC: Alliance for Excellent Education.
Kan, A. (2007). Effects of using a scoring guide on essay scores: Generalizability theory. Perceptual and Motor Skills, 105, 891-905. https://doi.org/10.2466/pms.105.3.891-905.
Kim, Y.-S. G., Schatschneider, C., Wanzek, J., Gatlin, B., & Otaiba, S. A. (2017). Writing evaluation: rater and task effects on the reliability of writing scores for children in Grades 3 and 4. Read Writ, 30, 1287-1310.
Kondo-Brown, K. (2002). A facets analysis of rater bias in measuring Japanese second language writing. Language Testing, 19, 3–31. https://doi.org/10.1191/0265532202lt218oa.
Lord, F., & Novick, M. (1968). Statistical Theory of mental test score. California: Addison-Wesley Publishing Company.
Miller, D. M., Linn, R. L., & Gronlund, N. E. (2009). Measurement assessment in teaching. New Jersey: Pearson Education Inc.
Nitko, A. J., & Brookhart, S. M. (2011). Educational assessment of student. Boston, MA: Pearson Education.
Nunnally, J., & Bernstein, I. (1994). Psychometric Theory (3rd Edition). New York: McGraw-Hill, Inc..
Schoonen, R. (2005). Generalizability of writing scores: an application of structural equation modeling. Language Testing, 22(1) 1-30. https://doi.org/10.1191/0265532205lt295oa.
Schoonen, R. (2012). The validity and generalizability of writing scores: The effect of rater, task and language. In E. Van Steendam, M. Tillema, G. Rijlaarsdam, & H. van
den Berg (Ed.), Measuring writing: Recent insights into theory, methodology and practice (pp. 1-22). Leiden, The Netherlands: Brill.
Schoonen, R., Vergeer, M., & Eiting, M. (1997). The assessment of writing ability: Expert readers versus lay readers. Language Testing, 14, 157-84 https://doi.org/10.1177/026553229701400203.
Shavelson, R. J., & Webb, M. N. (1991). Generalizability Theory Aprime. California: SAge Publication.
Shavelson, R. J., Baxter, G. P., & Gao, X. (1993). Sampling variability of performance assessments. Journal of Educational Measurement, 30, 215-232.
Sudweeks, R. R., Reeve, S., & Bradshaw, W. S. (2005). A comparison of generalizability theory and many-facet Rasch measurement in an analysis of college sophomore writing. Assessing Writing, 239-261. https://doi.org/10.1016/j.asw.2004.11.001.
Swartz, C. W., Hooper, S. R., Montgomery, J. W., Wakely, M. B., de Kruif, R. E., Reed, M., Brown, T. T., Levine, M. D., & White, K. P. (1999). Using generalizability theory to estimate the reliability of writing scores derived from holistic and analytical scoring methods. Education and Psychological Measurement, 59, 492–506. https://doi.org/10.1177/00131649921970008.
Thordike, L. R. (1971). Educational measurement (2nd. Edition). Washington: American Council on Education.
Tugut, F. (1995). Egitimde olcme ve degerlendirme metodları [Measurement and evaluation methods in education]. Ankara: Nüve Matbaası.
Turgut, M., & Baykul, Y. (2010). Egitimde olcme ve degerlendirme [Measurement and evaluation in education]. Ankara: Pegem Akademi.
Weigle, S. C. (1998). Using FACETS to model rater training effects. Language Testing, 15, 263-287. https://doi.org/10.1177/026553229801500205.
Weilgle, S. C. (1994). Effects of training on raters of ESL compositions. Language Testing, 197-223. https://doi.org/10.1177/026553229401100206.

Reliability of Essay Ratings: A Study on Generalizability Theory

Yıl 2019, Cilt: 19 Sayı: 80, 133 - 150, 15.02.2019

Hakan Atılgan

Öz

Purpose:
This study intended to examine the generalizability and reliability of essay
ratings within the scope of the generalizability (G) theory. Specifically, the
effect of raters on the generalizability and reliability of students’ essay
ratings was examined. Furthermore, variations of the generalizability and
reliability coefficients with respect to the number of raters and optimal
number of raters for obtaining optimal reliability of the rating of the writing
ability of a student, which is considered to be an implicit trait as a whole
and in its sub-dimensions of wording/writing, paragraph construction, and title
selection, were determined.

Research Methods: The student sample
of the study comprised 443 students who were selected via random cluster
sampling, and rater sample of this study comprised four Turkish teachers. All
the essays written by the students in the sample were independently rated on a writing skill scale (WSS), which is an ordinal
scale comprising 20 items, by four trained
teachers. In this study, data analysis was performed using the multivariate

design of the G
theory.

Finding: In the G studies that were
performed, variances of the rater (r)
as well as item and rater (ixr) were
low in all sub-dimensions; however, variance of the object of measurement and
rater (pxr) was relatively high. The
presence of trained raters increased the reliability of the ratings.

Implications for Research and Practice:
In the decision (D) study analyses of the original study conducted using four
raters, the G and Phi coefficients for the combined measurement were observed
to be .95 and .94, respectively. Further, the G and Phi coefficients were .91
and .90, respectively, for the alternative D studies that were conducted by two
trained raters. Thus, rating of essays by two trained raters may be considered
to be satisfactory.

Anahtar Kelimeler

Generalizability Theory, generalizability, reliability, essay rating, essay rater reliability, writing ratings

Kaynakça

Atilgan, H. (2008). Using generalizability theory to assess the score reliability of the special ability selection examinations for music education programs in higher education. International Journal of Research & Method in Education, 31(1), 63-76. https://doi.org/10.1080/17437270801919925.
Atılgan, H., Kan, A., & Aydin, B. (2017). Egitimde olcme ve degerlendirme [Measurement and evaluation in education]. Ankara: Anı Yayıncılık.
Baykul, Y. (2000). Egitimde ve psikolojide olcme: Klasik Test Teorisi ve uygulamasi [Measurement in education and psychology: Classical Test Theory and application]. Ankara: OSYM.
Bereiter, C. (2003). Foreword. In M. D. Shermis, & J. C. Burstein (Ed.), Automated essay (pp. 7-9). NJ: LEA: Mahwah.
Blok, H. (1985). Estimating the reliability, validity, and invalidity of essay ratings. Journal of Educational Measurement, 22, 41-52. https://doi.org/10.1111/j.1745-3984.1985.tb01048.x.
Bouwer, R., Beguin, A., Sanders, T., & van den Berg, H. (2015). Effect of genre on the generalizability of writing scores. Language Testing, 32(1) 83-100. https://doi.org/10.1177/0265532214542994.
Brennan, R. L. (2001a). Generalizability Theory. New York: Springer-Verlag.
Brennan, R. L. (2001b). Manual for mGENOVA (version2.1). Iowa Testing Programmes, Occasional Papers Number 50. Iowa City, IA: University of Iowa.
Cohen, R. J., Swerdlik, M. E., & Philips, S. M. (1996). Pyschological testing and assessment: An inroduct on to test and measurement (3th Edition). California: Mayfield Publishing Company.
Cooper, P. L. (1984). The assessment of writing ability: A review of research. Princeton, NJ: Educational Testing Service. GRE Board Research Report GREB No. 82-15R=ETS Research Report 84-12.
Crocker, L., & Algina, J. (1986). Introduction to Classical and Modern Test Theory. New York: Holt, Rinehart, and Winston.
Cronbach, J. L. (1984). Essentials of psychological testing. New York: Happers&Row Publishers.
Cronbach, L. J., Gleser, G., Nanda, H., & Rajaratnam, N. (1972). The dependability of behavioral measurements: Theory of generalizability of scores and profiles. New York, NY: Wiley.
Cronbach, L. J., Rajaratnam, N., & Gleser, G. C. (1963). Theory of Generalizability: A liberalization of reliability theory. British Journal of Statistical Psychology, 16, 137-163. https://doi.org/10.1111/j.2044-8317.1963.tb00206.x.
Cumming, A., Kantor, R., & Powers, D. E. (2002). Decision making while rating ESL/EFL writing tasks: A descriptive framework. The Modern Language Journal, 86, 67–96. https://doi.org/10.1111/1540-4781.00137.
Doğan, N. (2015). Yazılı yoklamalar [Written examinations]. In H. Atılgan (Ed.), Eğitimde ölçme ve değerlendirme [Measurement and evaluation in education] (pp. 145-168). Ankara: Anı Yayıncılık.
Doğan, C. D., & Uluman, M. (2017). A comparison of rubrics and graded category rating scales with various methods regarding raters’ reliability. Educational Sciences: Theory & Practice, 7, 631–651. http://dx.doi.org/10.12738/estp.2017.2.0321.
Eckes, T. (2008). Rater types in writing performance assessments: A classiﬁcation approach to rater. Language Testing, 25, 155–185. https://doi.org/10.1177/0265532207086780.
Gebril, A. (2009). Score generalizability of academic writing tasks: Does one test method ﬁt it all? Language Testing, 26, 507–531. https://doi.org/10.1177/0265532209340188.
Graham, S. (2006). Writing. In P. Alexander, & P. Winne (Ed.), Handbook of educational psychology (pp. 457-478). NJ: Erlbaum: Mahwah.
Graham, S., Harris, K., & Hebert, M. (2011). Informing writing: The beneﬁts of formative assessment. A carnegie Corporation Time to Act report. Washington, DC: Alliance for Excellent Education.
Kan, A. (2007). Effects of using a scoring guide on essay scores: Generalizability theory. Perceptual and Motor Skills, 105, 891-905. https://doi.org/10.2466/pms.105.3.891-905.
Kim, Y.-S. G., Schatschneider, C., Wanzek, J., Gatlin, B., & Otaiba, S. A. (2017). Writing evaluation: rater and task effects on the reliability of writing scores for children in Grades 3 and 4. Read Writ, 30, 1287-1310.
Kondo-Brown, K. (2002). A facets analysis of rater bias in measuring Japanese second language writing. Language Testing, 19, 3–31. https://doi.org/10.1191/0265532202lt218oa.
Lord, F., & Novick, M. (1968). Statistical Theory of mental test score. California: Addison-Wesley Publishing Company.
Miller, D. M., Linn, R. L., & Gronlund, N. E. (2009). Measurement assessment in teaching. New Jersey: Pearson Education Inc.
Nitko, A. J., & Brookhart, S. M. (2011). Educational assessment of student. Boston, MA: Pearson Education.
Nunnally, J., & Bernstein, I. (1994). Psychometric Theory (3rd Edition). New York: McGraw-Hill, Inc..
Schoonen, R. (2005). Generalizability of writing scores: an application of structural equation modeling. Language Testing, 22(1) 1-30. https://doi.org/10.1191/0265532205lt295oa.
Schoonen, R. (2012). The validity and generalizability of writing scores: The effect of rater, task and language. In E. Van Steendam, M. Tillema, G. Rijlaarsdam, & H. van
den Berg (Ed.), Measuring writing: Recent insights into theory, methodology and practice (pp. 1-22). Leiden, The Netherlands: Brill.
Schoonen, R., Vergeer, M., & Eiting, M. (1997). The assessment of writing ability: Expert readers versus lay readers. Language Testing, 14, 157-84 https://doi.org/10.1177/026553229701400203.
Shavelson, R. J., & Webb, M. N. (1991). Generalizability Theory Aprime. California: SAge Publication.
Shavelson, R. J., Baxter, G. P., & Gao, X. (1993). Sampling variability of performance assessments. Journal of Educational Measurement, 30, 215-232.
Sudweeks, R. R., Reeve, S., & Bradshaw, W. S. (2005). A comparison of generalizability theory and many-facet Rasch measurement in an analysis of college sophomore writing. Assessing Writing, 239-261. https://doi.org/10.1016/j.asw.2004.11.001.
Swartz, C. W., Hooper, S. R., Montgomery, J. W., Wakely, M. B., de Kruif, R. E., Reed, M., Brown, T. T., Levine, M. D., & White, K. P. (1999). Using generalizability theory to estimate the reliability of writing scores derived from holistic and analytical scoring methods. Education and Psychological Measurement, 59, 492–506. https://doi.org/10.1177/00131649921970008.
Thordike, L. R. (1971). Educational measurement (2nd. Edition). Washington: American Council on Education.
Tugut, F. (1995). Egitimde olcme ve degerlendirme metodları [Measurement and evaluation methods in education]. Ankara: Nüve Matbaası.
Turgut, M., & Baykul, Y. (2010). Egitimde olcme ve degerlendirme [Measurement and evaluation in education]. Ankara: Pegem Akademi.
Weigle, S. C. (1998). Using FACETS to model rater training effects. Language Testing, 15, 263-287. https://doi.org/10.1177/026553229801500205.
Weilgle, S. C. (1994). Effects of training on raters of ESL compositions. Language Testing, 197-223. https://doi.org/10.1177/026553229401100206.

Toplam 41 adet kaynakça vardır.

Ayrıntılar

Birincil Dil	İngilizce
Bölüm	Makaleler
Yazarlar	Hakan Atılgan
Yayımlanma Tarihi	15 Şubat 2019
Yayımlandığı Sayı	Yıl 2019 Cilt: 19 Sayı: 80

Kaynak Göster

APA	Atılgan, H. (2019). Reliability of Essay Ratings: A Study on Generalizability Theory. Eurasian Journal of Educational Research, 19(80), 133-150.
AMA	Atılgan H. Reliability of Essay Ratings: A Study on Generalizability Theory. Eurasian Journal of Educational Research. Şubat 2019;19(80):133-150.
Chicago	Atılgan, Hakan. “Reliability of Essay Ratings: A Study on Generalizability Theory”. Eurasian Journal of Educational Research 19, sy. 80 (Şubat 2019): 133-50.
EndNote	Atılgan H (01 Şubat 2019) Reliability of Essay Ratings: A Study on Generalizability Theory. Eurasian Journal of Educational Research 19 80 133–150.
IEEE	H. Atılgan, “Reliability of Essay Ratings: A Study on Generalizability Theory”, Eurasian Journal of Educational Research, c. 19, sy. 80, ss. 133–150, 2019.
ISNAD	Atılgan, Hakan. “Reliability of Essay Ratings: A Study on Generalizability Theory”. Eurasian Journal of Educational Research 19/80 (Şubat 2019), 133-150.
JAMA	Atılgan H. Reliability of Essay Ratings: A Study on Generalizability Theory. Eurasian Journal of Educational Research. 2019;19:133–150.
MLA	Atılgan, Hakan. “Reliability of Essay Ratings: A Study on Generalizability Theory”. Eurasian Journal of Educational Research, c. 19, sy. 80, 2019, ss. 133-50.
Vancouver	Atılgan H. Reliability of Essay Ratings: A Study on Generalizability Theory. Eurasian Journal of Educational Research. 2019;19(80):133-50.

Kapak Resmi İndir

Makale Dosyaları

Tam Metin