Investigation of Delta and Bootstrap Methods for Calculating Error of Test Equation in IRT in Terms of Some Variables

Yıl 2022, , 1053 - 1081, 29.08.2022


After investigation of the literature, it can be seen that there are lots of studies about test equating
and its benefits. However, besides its good sides, it has some limitations, and it can be said that
the most known one of them is test equating error. In this study, it is aimed the examination of
Item Response Theory observed and true score equating errors, obtained using TIMMS 2015 4th
Grade math data by bootstrap and delta methods, according to different sample sizes and scale
transformation methods. The study is a descriptive research in terms of investigating one method
in a more detailed way, and according to different variables. It is used randomly chosen 500,
1000, and 3000 sized samples from the countries (Australia, Canada, Italia, Spain, Croatia,
Slovak republic, New Zealand, Turkey, and Georgia) above and below center point (500) of
TIMMS success scale. To determine which one would be used among 14 types of TIMMS 2015
booklets, it was controlled Item Response Theory assumptions, and it was chosen the pair of
booklets, having all acceptable model fit indices. As results of the analysis, it was observed that
for both methods, scale transformation method, having smallest equating errors, was Stocking
Lord, and that for all sample sizes, errors estimated by bootstrap method were smaller than one
by delta.


Madde Tepki Kuramında Eşitleme Hatalarının Belirlenmesinde Kullanılan Delta ve Bootstrap Yöntemlerinin Çeşitli Değişkenlere Göre İncelenmesi*

Yıl 2022, , 1053 - 1081, 29.08.2022


Alan yazın incelendiğinde test eşitleme ve faydaları ile ilgili birçok çalışmanın olduğu
görülmektedir. Ancak test eşitlemelerin faydalarının yanı sıra sınırlılıkları da vardır. Bunlardan
en bilineninin eşitleme hataları olduğu söylenebilir. Bu araştırmada TIMMS 2015 4. sınıf
matematik verisi kullanılarak bootstrap ve delta yöntemleri ile elde edilen Madde Tepki Kuramı
gözlenen ve gerçek puan eşitleme hatalarının farklı örneklem büyüklükleri ve ölçek dönüştürme
yöntemlerine göre incelenmesi amaçlanmıştır. Çalışma bir yöntemin daha kapsamlı ve farklı
değişkenler açısından incelenmesi yönüyle betimsel bir çalışmadır. Çalışmada birey yetenek
düzeylerinin yakın olması amaçlanarak, TIMMS başarı ölçeğinin orta noktasının (500) üstünde
ve altında yer alan ülkelerin (Avusturalya, Kanada, İtalya, İspanya, Hırvatistan, Slovak
Cumhuriyeti, Yeni Zelanda, Türkiye ve Gürcistan) verisi içinden rastgele olarak seçilmiş 500,
1000 ve 3000 kişilik örneklemler kullanılmıştır. TIMMS 2015 sınavında kullanılan 14 kitapçık
türünden hangisinin kullanılacağının belirlenmesi amacıyla Madde Tepki Kuramı varsayımları
incelenmiş ve kitapçıklar arasından model uyum indekslerinin hepsinin kabul edilebilir
düzeyde olduğu kitapçık çifti seçilmiştir. Yapılan analizler sonucunda genel olarak her iki yöntemde de
en düşük hata değerlerinin Stocking Lord yönteminde elde edildiği ve delta
yöntemiyle elde edilen hataların tüm örneklem büyüklüğünde bootstrap yönteminde elde edilen
hatalardan yüksek olduğu bulunmuştur.


