Bu araştırmanın amacı, çok boyutluluğun eş zamanlı ve ayrı kalibrasyon yapılarak elde edilen eşitlenmiş puanlara etkisini incelemektir. Araştırma simülasyon verileri kullanılarak yürütülmüştür. Araştırma kapsamında [5 (boyutluluk düzeyi: 0.90, 0.75, 0.50, 0.25 ve 0.00) x 2 (kalibrasyon yöntemi: eş zamanlı ve ayrı kalibrasyon) x 2 (ölçek dönüştürme yöntemi: Stocking-Lord ve Haebara) x 2 (test eşitleme yöntemi: Madde Tepki Kuramı gerçek puan eşitleme ve gözlenen puan eşitleme) ] olmak üzere toplam 40 koşul incelenmiştir. Çok boyutluluk testlerin Ɵ1 ve Ɵ2 olmak üzere farklı iki yeteneği ölçtüğü varsayılarak oluşturulmuştur. İki yetenek arasındaki korelasyonun değeri düştükçe çok boyutluluğun derecesi artmaktadır. İki yetenek arasındaki korelasyonun 0.90 olduğu koşul çok boyutluluğun derecesinin en düşük, iki yetenek arasındaki korelasyonun 0.00 olduğu koşul çok boyutluluğun derecesinin en yüksek olduğu koşulu temsil etmektedir. Eşdeğer olmayan gruplar ortak test deseni altında testler birbirine eşitlenmiştir. Elde edilen eşitlenmiş puanlar yanlılık, standart sapma ve RMSE ölçütleri kullanılarak değerlendirilmiştir. Araştırma bulguları, tüm koşullarda eş zamanlı kalibrasyon yapılarak elde edilen eşitleme sonuçlarının ayrı kalibrasyon ile elde edilenlere göre genel olarak daha yanlı ve daha fazla eşitleme hatasına sahip olduğunu göstermiştir. Standart sapma ölçütüne göre ise çok boyutluluğun derecesinin düşük olduğu koşullarda eş zamanlı kalibrasyon ve ayrı kalibrasyon yapılıp Stocking-Lord ve Haebara ölçek dönüştürme yöntemleri ile elde edilen eşitleme sonuçları benzer performans göstermiştir fakat çok boyutluluğun derecesinin ciddi olduğu koşullarda en az tesadüfi hataya sahip eşitleme sonuçlarının eş zamanlı kalibrasyon yapılarak elde edildiği görülmüştür.
Test eşitleme çok boyutluluk eş zamanlı kalibrasyon ayrı kalibrasyon ölçek dönüştürme yöntemleri
The aim of this study is to investigate the effects of multidimensionality on equating results which obtained from separate and concurrent calibration methods. The study was conducted with using simulated data. In the scope of research, totally 40 simulation conditions [5 (degree of multidimensionality: 0.90, 0.75, 0.50, 0.25, and 0.00) x 2 calibration methods (separate and concurrent) x 2 (scale transformation methods: Stocking-Lord and Haebara) x 2 (test equating methods: IRT true score equating and observed score equating)] were examined. Multidimensionality was constructed as assuming the two test forms measuring Ɵ1 and Ɵ2 abilities. While the simulation condition which has correlation between abilities 0.90 represents weak multidimensional case, the correlation between abilities 0.00 represents the severe multidimensional case. Tests were equated under common-item non-equivalent groups design. Equating results were evaluated by using bias, standard deviation and RMSE evaluation criteria. The results showed that, generally under all conditions equating results provided from concurrent calibration more biased and had higher RMSE values than equating results provided by separate calibration. Based on standard deviation criteria, when the degree of multidimensionality was low, equating results which got from concurrent calibration and separate calibration with Stocking-Lord or Haebara scale transformation methods showed similar performance but when the degree of multidimensionality was severe equating results which had lowest random error were provided by concurrent calibration.
Test equating concurrent calibration separate calibration scale transformation methods multidimensionality
Birincil Dil | Türkçe |
---|---|
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 31 Ekim 2019 |
Yayımlandığı Sayı | Yıl 2019 Cilt: 34 Sayı: 4 |