Giriş
Testlerden elde edilen puanlar birçok başlık altında alınan
önemli kararlar için temel bilgi kaynakları arasındadır. Alınacak önemli
kararlardan bağımsız olarak, test puanlarının mümkün olan en kesin bilgiyi
sunması gerekmektedir. Daha kesin bilgi daha iyi kararların alınabilmesi için
önemlidir. Bununla birlikte uygulamada test güvenliği ve öğrenci
gelişiminin takip edilebilmesi gibi birtakım gerekçeler yüzünden aynı testin
farklı formları kullanılmakta veya farklı zamanlarda uygulanan testlerde ortak
maddeler kullanılarak testler ölçeklenmektedir. Farklı formlardan elde edilen
puanlar daha sonrasında eşitlenmekte ya da ölçeklenmektedir. Bu işlemin hatasız
olması gerçekleştirilen sınavların daha adil olması ve öğrencilerin geleceği
ile ilgili doğru kararlar verebilmek için önemlidir. Buna göre, puanları önemli
kararlar için kullanılan testlere uygulanan dikey ölçekleme yöntemlerinin
psikometrik olarak savunulabilir olması önemlidir. Bu sebepten dolayı ölçekleme
gerçekleştirilirken uygulayıcıların kararlarını dayandıracakları kuramsal
çalışmalar büyük önem taşımaktadır. Bu sebepten dolayı farklı yöntemlerin
karşılaştırılması ve farklı durumlar için en az hata veren yöntemlerin
belirlenmesi gerekmektedir.
İki kategorili ve çok kategorili olarak puanlanan maddelerin
birlikte yer aldığı karma format testlerin kullanımı gün geçtikçe artmaktadır.
Benzer şekilde, büyük ölçekli ve
öğrencilerle ilgili önemli kararlarn alındığı test uygulamalarında birden fazla
formunun kullanımı da benzer şekilde yaygınlaşma eğilimindedir. Farklı test
formlarından elde edilen puanların karşılaştırılabilir olabilmesi için bu
formlar arasında fonksiyonel bir bağ oluşturulması gerekmektedir. Eğer kurulan
bu bağ farklı sınıf (ya da test güçlüğü farklılaşan) formlar arasında
gerçekleştirilirse, bu işlem dikey ölçekleme olarak adlandırılmaktadır. Dikey
ölçeklemede farklı test formları birbirlerine bağlandığı için eşitleme ile
benzerdir. Fakat test formları içerik ve güçlük olarak farklıdır çünkü formlar
sınıflar arası ya da yaşa bağlı olarak ilerlemeyi yansıtmaktadırlar. Bundan
dolayı, dikey ölçekleme farklı test formlarının karşılaştırılması için
kullanılmakla birlikte her bir seviyedeki puanlar birbirlerinin yerine
kullanılamazlar. Test ölçeklemesinde temel amaç farklı seviyelerdeki puanların
karşılaştırılmasıdır. Seviye farklılığı bir öğrencinin bulunduğu sınıf, eğitim
öğretim yılının bulunduğu aşama ya da yaştan kaynaklanabilir. Dikey ölçekleme
genellikle aynı bireylerin farklı seviyelerde elde ettikleri puanların farklı
zamanlara göre karşılaştırılabilmesi için kullanılmaktadır. Bu tür desenler ise
DOGOM (Denk Olmayan Gruplarda Ortak Madde) deseni olarak adlandırılmaktadır.
Bu çalışma kapsamında karma format maddelerden oluşan
boyutlu testler DOGOM deseni kullanılarak ölçeklendiğinde ortak madde setinin
yapısı (yalnızca iki kategorili maddelerden oluşan ortak madde seti - iki ve
çok kategorili maddelerin yer aldığı ortak madde seti), yetenek daralması (üst
yetenek grubunda yetenek varyansının daralması - varyansın eşit kalması) ve
parametre kestirim yöntemlerinin (EM - MHRM) ölçekleme sonuçları üzerindeki
etkisi incelenmiştir. Ayrıca bu koşulların etkileşim içinde olup olmadığına
bakılmıştır.
Yöntem
Çalışma, türetilmiş veriler kullanılarak
gerçekleştirilmiştir. Ölçeklemenin niteliğinin değerlendirilmesinde ölçme
hatası ve yanlılık değerleri kullanılmıştır. Veriler türetilirken yanıt
matrisleri, içerisinde İKM (iki kategorili madde) ve ÇKM(çok kategorili
madde)’ler yer alacak şekilde oluşturulmuştur. İKM’ler için parametre kestirimi
3 parametreli modele (3PLM) göre, ÇKM’ler için ise aşamalı tepki modeline (ATM)
göre gerçekleştirilmiştir. Veri türetme ve analizi sürecinde gerçekleştirilen
işlem 50 defa tekrarlanmıştır. Ayrıca, araştırmada gerçekleştirilen veri
türetme, testlerin kalibrasyonu ve ölçekleme işlemleri için R programı
kullanılmıştır. Etkileşimleri incelemek için kullanılan iki ve üç yönlü
analizler SPSS ile gerçekleştirilmiştir.
Bulgular ve Tartışma
Araştırmada sonucunda ortak madde yapısının ölçekleme işlemi
sonucunda ortaya çıkan hata ve yanlılık miktarını önemli ölçüde etkilediği
görülmüştür. Buna göre karma format testlerde ortak madde setinin sadece iki
kategorili puanlanan maddelerden oluşması ölçekleme hatasını bazı istisnalar
haricinde arttırmaktadır. Elde edilen bu bulgu, diğer koşullardan bağımsız
olarak tutarlı bir şekilde gözlenmiştir.
Varyans daralmasının etkisi incelendiğinde yetenek
parametresi ve çok kategorili puanlanan maddelerie ait a parametreleri için farklılaşmalar
olduğu görülmüştür. Gözlenen bu farklılaşmalar yanlılık değerlerine aittir. Çok
kategorili puanlanan maddelere ait a parametreleri için ise hata değerlerinde farklılaşmalar
olduğu bulunmuştur. Her iki parametre için varyansın azaldığı durumda daha iyi
sonuçlar elde edildiği görülmüştür.
Kullanılan kestirim yönteminin etkisi incelendiğinde ise
bazı boyutlar için yanlılık değerlerinin Metropolis–Hastings Robbins-Monro
kestirim yöntemi için daha az olduğu görülmüştür. Ayrıca iki kategorili
puanlanan maddelerin a ve b parametreleri ve çok kategorili
puanlanan maddelerin eşik parametreleri için bazı durumlarda kestirim
yönteminin hata ve yanlılık değerlerini etkilediği görülmüştür. Çok kategorili
puanlanan maddelerin a
parametresinin ise kestirim yönteminden etkilenmediği görülmüştür.
Son olarak, etkileşimler incelenmiştir. Buna göre, yetenek
parametresi bazı koşullara göre yanlılık değerlerinin ikişerli ve üçerli
etkileşimler gösterdiği bulunmuştur. İki kategorili maddelere ait a ve b parametreleri için bakıldığında b parametresine ait hata ve yanlılık
değerlerinde testin bazı boyutlarında varyans daralması ve kestirim yönteminin
etkileşim içinde oldukları görülmüştür. İki kategorili puanlanan maddelere ait a parametrelerine ait hata değerleri
için birinci boyutunda üç koşulun etkileşim içinde olduğu bulunmuştur. Ayrıca, çok
kategorili puanlanan maddelere ait a parametreleri ile eşik parametreleri için etkileşim
gözlenmemiştir. Üç boyutun tamamı için ortak madde yapısı ve kestirim yöntemi
koşulları arasında etkileşim olduğu görülmüştür.
Sonuç olarak, etkisi incelenen koşullar içinde ölçekleme
sonuçları üzerinde en fazla etkisi olan koşulun ortak madde yapısı olduğu
sonucuna varılmıştır.
This study examined the effect of the structure of a common item set (only
dichotomous common items – mixed-format common item sets), parameter estimation
methods and scale shrinkage on vertical scaling results when multidimensional
datasets were used within the context of Common Item Nonequivalent Group (CINEG)
design. Interactions between these variables were also investigated. The study
was performed using simulated data. Measurement error and bias indexes were
used to evaluate the quality of vertical scaling. All the procedures used in
the data analysis were replicated 50 times to increase the generalizability of
the results. R program was used for the data generation, calibration of the
parameters and vertical scaling procedures. Possible interactions were
investigated with factorial analysis of variance by using SPSS. The results
showed a consistent effect of the common item format in all conditions. In
addition, some interactions between the variables were observed. These findings
are discussed and some recommendations are provided.
Primary Language | English |
---|---|
Journal Section | Articles |
Authors | |
Publication Date | December 28, 2018 |
Acceptance Date | October 13, 2018 |
Published in Issue | Year 2018 Volume: 9 Issue: 4 |