Problem Durumu: Kompozisyonların puanlanmasında puanlayıcılar
arasındaki bu farklılaşmaların ölçme hatalarına neden olması puanların
tutarsızlığı ve güvenirliğin düşmesi ile sonuçlanır. Kompozisyon tipi
sınavlarla ölçülen becerilerin ne derece doğrulukla puanlanabildiğinin
belirlenmesi varyans kaynaklarından gelen ölçme hatalarının ortaya konulmasına
bağlıdır. Aynı zamanda ölçme sonuçlarına karışan bu tür ölçme hatalarının
azaltılması için de bu hata kaynaklarının doğru şekilde bilinmesi ve ölçme
durumunun ona göre desenlenmesi gerekir.
Araştırmanın Amacı: Bu
Çalışmada çok değişkenli G Kuramı kapsamında bireylerin Türkçe anadilde yazma
becerilerin ölçüldüğü kompozisyon puanlarının genellenebilirliği ve güvenirliği
incelenmiştir. Bu bağlamda kompozisyon puanlarının genellenebilirliği ve
güvenirliği üzerine yukarıda belirtildiği gibi daha etkili olduğu bilinen
puanlama konusunda eğitilmiş puanlayıcıların etkisi üzerine odaklanılmıştır.
Örtük özellik olan yazma becerisinin tümü ve alt boyutları olarak başlık bulma,
paragraf oluşturma, anlatım-yazma boyutlarında puanlamada puanlayıcı sayısına
göre genellenebilirlik ve güvenirlik katsayılarının nasıl değiştiği ve optimal
bir güvenirlik için en uygun puanlayıcı sayısının ne olabileceği ortaya
konulmaya çalışılmıştır. Böylece kompozisyon yazma becerilerinin
değerlendirilmesi konusunda bilgimizi genişletmek ve kompozisyonların yeterince
güvenilir puanlanması için referans oluşturmak amaçlanmıştır.
Araştırmanın Yöntemi: Çalışmada kullanılan okul örneklemi; Türkiye’de İzmir
il merkezinden önce üç ilçe, sonra bu üç ilçenin her birinden birer okul yansız
küme örneklem olarak seçilmiştir. Örnekleme seçilen okulların 8. sınıf
öğrencilerinin tamamı öğrenci örneklemini oluşturmuştur. Öğrenci örneklemi 443
öğrenciden oluşmaktadır. Puanlayıcı örneklemi ise konusunda uzman olan Türkçe dersi
öğretmenleri arasından seçilen dört öğretmenden oluşturulmuştur. Öğrencilerin
kompozisyonlarını puanlamak için Yazma Becerileri Ölçeği (YBÖ) kullanılmıştır.
Dereceleme ölçeği olan bu ölçekte 20 madde bulunmaktadır. Her bir madde dörtlü
dereceleme ölçeği şeklinde puanlanmaktadır. Dört puanlayıcının kompozisyonların
tümünü birbirlerinden bağımsız puanlamaları sağlanmıştır. Araştırmada
G Kuramının çok değişkenli
G Kuramının
deseniyle uygulanan G çalışmasında varyans bileşenleri alt boyutlar için
kestirilmiştir. Araştırmada bağıl ölçmeler için Genellenebilirlik katsayısı
hesaplanmıştır. Alternatif D çalışması ile
ve azaltılması senaryoları ile alt boyutlar ve birleşik ölçme için
hesaplanmıştır.
Araştırmanın
Bulguları: G Kuramının
Genellenebilirlik (G) çalışması ile her bir alt boyut için üç ana (p, i,
r) ve dört ortak etki varyansı (pxi, pxr,
ixr, pxixr,e) kestirilmiştir. Başlık bulma, paragraf
oluşturma ve anlatım/yazma alt boyutunda birey (p) sırasıyla %73.90, %75.51 ve %49.88
olarak hesaplanan varyanslar toplam varyanslar içindeki en büyük varyansa
sahiptir. Bu sonuç bireylerin yazdıkları kompozisyonlarda “başlık bulma” beceri
farklılıklarının ortaya konulabildiğini göstermektedir. Başlık bulma, paragraf
oluşturma ve anlatım/yazma alt boyutlarının madde (i) varyansı toplam varyansları
sırasıyla %5.12, %0.10 ve %4.87 olarak bulunmuştur. Paragraf oluşturma alt
boyutu dışında nispeten büyük olan bu varyans yüzdesi; başlık bulma ve anlatım/yazma alt
boyutunda maddelerin farklılaştığı biçiminde yorumlanabilir. Bu çalışmanın odak
noktası olan puanlayıcı (r) varyansı
başlık bulma, paragraf oluşturma ve
anlatım/yazma alt boyutunda toplam varyansın sırasıyla
%2.75, %2.05 ve %1.59 olarak hesaplanmıştır. Toplam varyansların nispeten küçük
bir kısmını oluşturan puanlayıcı varyansları; puanlayıcıların alt boyutunda
puanlamaları arasında tutarsızlıklarının az olduğunu göstermektedir. Başlık
bulma, paragraf oluşturma ve anlatım/yazma alt
boyutları için kestirilen birey ve madde (pxi)
ortak etkisi toplam varyansların sırasıyla %4.31, %.08 ve %4.84’üdür. Başlık
bulma, paragraf oluşturma ve anlatım/yazma alt
boyutlarında varyansların nispeten büyük oluşu, bireylerin bu alt boyutunda
maddeler arasında bağıl durumlarının farklılaştığını göstermektedir. Birey ve
puanlayıcı (pxr) arasındaki ortak
etkisi varyansı başlık bulma, paragraf
oluşturma ve anlatım/yazma alt boyutlarında toplam
varyansın sırasıyla %7.35, %17.36 ve %12.83’ünü oluşturmaktadır. Bu sonuç alt
boyutlara belli puanlayıcıların belli bireyler için daha katı ya da daha cömert
puanlama yaptıklarını göstermektedir. Madde ve puanlayıcı (ixr) arasındaki ortak etki varyansı başlık bulma, paragraf
oluşturma ve anlatım/yazma alt boyutlarında toplam
varyansın %.71, %.14 ve %3.60’ı olarak hesaplanmıştır. Başlık bulma ve paragraf
oluşturma alt boyutlarında bu varyansların toplam
varyansları içindeki payının sıfıra yakın olması, puanlayıcıların öğrencileri
bir maddeden diğerine kararlı puanladıkları biçiminde yorumlanabilirken,
anlatım/yama alt boyutunda aynı kararlığın olmadığını göstermektedir. Birey,
puanlayıcı, madde arasında üç yönlü ortak etki ile hata varyansları (pxrxi,e) başlık bulma, paragraf
oluşturma ve anlatım/yazma alt boyutlarında toplam
varyansların %5.86, %4.76 ve %22.39’u olarak kestirilmiştir. Alt boyutlarda,
özellikle anlatım/yazma alt boyutunda büyük olan bu varyanslar bireylerin bağıl
konumlarının; birey, puanlayıcı, madde üç yönlü ortak etki varyansının G
çalışmasında hesaba katılmayan diğer hata kaynaklarının büyüklüğünü
göstermektedir.
G Kuramının
değişkenli deseni Karar (D) Çalışması ile her bir alt boyut ve
bütün ölçek için G ve Phi katsayıları çalışmanın orijinalinde puanlama yapan
dört puanlayıcı için ve alternatif olarak daha az ve daha çok puanlayıcı
sayıları için hesaplanmıştır. Bağıl ölçmeler
için hesaplanan G katsayısı
alt boyutları için sırasıyla .95, .94, .93 birleşik ölçme için ise .95
olarak elde edilmiştir. Mutlak ölçmeler için puanların
güvenirliğinin bir ölçüsü olan Phi (
katsayısı çalışmada puanlama yapan dört puanlayıcı için “başlık
bulma”, “paragraf oluşturma” ve “anlatım/yazma” alt boyutları için sırasıyla
.92, .93, .91 ve birleşik ölçme için ise .94 olarak hesaplanmıştır. Puanlayıcı sayısının beş puanlayıcıya
çıkarılması alt boyutlar ve birleşik ölçme için G ve Phi katsayılarında çok az
kazanç sağladığı gibi, üç puanlayıcıya indirildiğinde ise kayıp çok az olmakta ve
tüm katsayılar .89 ve üzerinde olmaktadır. Puanlayıcı sayısı ikiye
indirildiğinden alt boyutlar ve birleşik ölçme için G ve Phi katsayılarında
kayıp biraz daha artmakta ancak başlık bulma, paragraf oluşturma ve
anlatım/yazma alt boyutları için sırasıyla G katsayıları .92, .89, .87; Phi
katsayıları .89, .88, .85 ve birleşik ölçme için G katsayısı .91, Phi katsayısı
.90 olarak elde edilmektedir.
Araştırmanın
Sonuç ve Önerileri: Yapılan G
çalışmalarında başlık bulma, paragraf oluşturma anlatım/yazma alt boyutlarında
hesaplanan birey varyansı da en büyük paya sahiptir. Puanlayıcı ana etkisi
varyansları alt boyutlarda göreli olarak küçük bulunmuştur. Bu sonuç
literatürde yazma becerilerinin puanlanmasına ilişkin pek çok çalışmada
puanlayıcı varyansının küçük ve puanlayıcıların birbirleri ile tutarlı
puanlamalar yaptıkları bulguları ile benzerdir. Madde ve puanlayıcı (ixr) arasındaki ortak etki varyansı
yüzdesinin tüm alt boyutlarda küçük olması puanlayıcıların maddeleri puanlamada
tutalı oldukları şeklinde yorumlanabilir. Elde edilen bu sonuçlar puanlama
yapacak kişilerin puanlama yapacakları konunun uzmanlarından seçilmesi,
eğitilmesi ve bu eğitimlerde neyin nasıl puanlanması gerektiği, puanlama
kriterlerinin verilmesi durumunda puanların güvenirliğinin yüksek olacağını
göstermiştir. Ancak birey ve puanlayıcı (pxr)
ortak etki varyansı yüzdelerinin tüm alt boyutlarda yüksek oluşu belli
puanlayıcıların belli bireyleri puanlamalarında daha katı ya da cömert
olduklarını göstermektedir. Bu bağlamda birey ve puanlayıcı (pxr) arasındaki ortak etki varyansının
küçültülebilmesi ve böylece belli puanlayıcıların belli bireyleri
puanlamalarında katılık ya da cömertlik bakımından farklılıkların olmaması için
kompozisyon puanlayacak uzmanların eğitiminde bu konunun dikkate alınması
yerinde olacaktır. Ayrıca puanlama yapacak uzman ve eğitimli puanlayıcıların
puanlama deneyimlerinin artması ile bu sorunun da azalacağı düşünülebilir.
K
çalışması analizlerinde, orijinali dört puanlayıcıyla yürütülen çalışmada
birleşik ölçme için G katsayısının .95 ve
Phi katsayısının
.94 olduğu, tüm alt ölçeklerde bu katsayıların .90’ın üzerinde ve oldukça
yüksek olduğu görülmüştür. Alternatif K çalışmaları ile puanlayıcı sayısının
artırılması uzman ve eğitimli dört puanlayıcı ile elde edilen katsayılarda çok
az kazanç sağlamıştır. Bununla birlikte uzman ve eğitimli puanlayıcı sayısının
iki olması durumunda ise G katsayısı .91, Phi katsayısı .90 olarak elde
edilmiştir. Bu sonuç .90 üzerinde bir güvenirliğe ulaşmak için iki
puanlayıcının yeterli olduğunu göstermiştir.
Genellenebilirlik Kuramı genellenebilirlik güvenirlik kompozisyon puanlama kompozisyon puanlama güvenirliği puanlayıcı güvenirliği yazma puanlaması
Purpose:
This study intended to examine the generalizability and reliability of essay
ratings within the scope of the generalizability (G) theory. Specifically, the
effect of raters on the generalizability and reliability of students’ essay
ratings was examined. Furthermore, variations of the generalizability and
reliability coefficients with respect to the number of raters and optimal
number of raters for obtaining optimal reliability of the rating of the writing
ability of a student, which is considered to be an implicit trait as a whole
and in its sub-dimensions of wording/writing, paragraph construction, and title
selection, were determined.
Research Methods: The student sample
of the study comprised 443 students who were selected via random cluster
sampling, and rater sample of this study comprised four Turkish teachers. All
the essays written by the students in the sample were independently rated on a writing skill scale (WSS), which is an ordinal
scale comprising 20 items, by four trained
teachers. In this study, data analysis was performed using the multivariate
theory.
Finding: In the G studies that were
performed, variances of the rater (r)
as well as item and rater (ixr) were
low in all sub-dimensions; however, variance of the object of measurement and
rater (pxr) was relatively high. The
presence of trained raters increased the reliability of the ratings.
Implications for Research and Practice:
In the decision (D) study analyses of the original study conducted using four
raters, the G and Phi coefficients for the combined measurement were observed
to be .95 and .94, respectively. Further, the G and Phi coefficients were .91
and .90, respectively, for the alternative D studies that were conducted by two
trained raters. Thus, rating of essays by two trained raters may be considered
to be satisfactory.
Generalizability Theory generalizability reliability essay rating essay rater reliability writing ratings
Primary Language | English |
---|---|
Journal Section | Articles |
Authors | |
Publication Date | February 15, 2019 |
Published in Issue | Year 2019 Volume: 19 Issue: 80 |