Research Article
BibTex RIS Cite

Comparison of Test Equating Methods Based on Classical Test Theory and Item Response Theory in Polytomously Scored Tests

Year 2023, Volume: 8 Issue: 4, 1429 - 1439, 28.12.2023
https://doi.org/10.30622/tarr.1371179

Abstract

The statistical process of converting the scores of two forms of a test measuring the same latent trait with similar difficulties is defined as test equating. This study is a stochastic simulation study aiming to compare the errors obtained from test equating methods based on Classical Test Theory and Item Response Theory in the process of equating test forms consisting of polytomously scored items. In the study, 25 sub-conditions were determined for 2 varying conditions with sample sizes of 50, 100, 300, 1000, and 3000 people and test lengths of 10, 20, 30, 40 and 50 items. In accordance with these sub-conditions, simulative data compatible with the Generalized Partial Credit Model, which is scored as 0 (incorrect), 1 (partially correct), and 2 (fully correct), were used. WinGen3 program was used to generate the data sets in the study. The equating process of the generated data sets was carried out with the R program. In this study, three Classical Test Theory (CTT) methods, namely linear, mean, and equipercentile equating methods, and two Item Response Theory (IRT) methods, namely mean-mean and mean-sigma, were used. Using the test forms produced, the standard errors of equating obtained from the three CTT methods and the two IRT methods were calculated, and the error amounts obtained from the methods were compared. As a result of the study, it was found that the method that equalized with the least error in the process of equating the test forms produced according to different sample sizes and different test lengths was the equipercentile equating method and the method that equalized with the most error was the mean-mean method. The results of the study were found to be consistent with the literature. When the test equating methods were analyzed in terms of sample length, it was determined that the test equating error decreased as the sample size increased. When the methods were evaluated in terms of test length, it was concluded that the amount of error calculated increased as the number of items increased.

References

  • Albano, A. D. (2016). {equate}: An {R} package for observed-score linking and equating. Journal of Statistical Software, 74(8), 1-36. doi:10.18637/jss.v074.i08
  • Anastasi, A. (1976). Psychological testing (4. Baskı). London: Collier Macmillan Publishers
  • Cohen, L., Manion, L., & Morrison, K. (2007). Internet-based research and computer usage. İçinde Research Methods in Education (6. Baskı, s. 226-252). New York: Routledge.
  • de Ayala, R. J. (2009). The theory and practıce of item response theory. New York: The Guilford Press.
  • Efron, B. (1982). The jackknife, the bootstrap and other resampling plans. Retrieved from Philadelphia:
  • Fraenkel, J. R., Wallen, N. E., & Hyun, H. H. (2012). The nature of research. İçinde How to design and evaluate research in education (8. Baskı). New York,NY: McGraw-Hill Education.
  • Gök, B., & Kelecioğlu, H. (2014). Denk olmayan gruplarda ortak madde deseni kullanılarak madde tepki kuramına dayalı eşitleme yöntemlerinin karşılaştırılması. Mersin Üniversitesi Eğitim Fakültesi Dergisi, 10(1), 120-136.
  • Han, K. T., & Hambleton, R. K. (2007). User's manual: WinGen (642). Retrieved from Amherst, MA:University of Massachusetts:
  • Harwell, M., Stone, C. A., Hsu, T., & Kirisci, L. (1996). Monte Carlo studies in Item Response Theory. Applied Psychological Measurement, 20(2), 101-125.
  • Kilmen, S., & Demirtaşlı, N. (2012). Comparison of test equating methods based on item response theory according to the sample size and ability distribution Procedia - Social and Behavioral Sciences, 46, 130-134. doi: 10.1016/j.sbspro.2012.05.081
  • Kolen, M. J. (1981). Comparison of traditional and item response theory methods for equating tests. Journal of Educational Measurement Spring, 18(1), 1-11.
  • Kolen, M. J., & Brennan, R. L. (2014). Test equating, scaling and linking:methods and practices (3. Baskı). New York: Springer.
  • Kolen, M. J., & Whitney, D. R. (1982). Comparison of four procedures for equating the tests of general educational development. Journal of Educational Measurement, 19(4), 279-293.
  • Linn, L. L. (1993). Linking results of distinct assessments. Applied Measurement in Education, 6(1), 83-102. doi:10.1207/s15324818ame0601_5
  • Livingston, S. A. (2014). Equipercentile equating. İçinde Equating Test Scores (Without IRT) (2. Baskı, s. 17-23): Educational Testing Service.
  • Loyd, B. H., and Hoover, H. D. (1980). Vertical Equating Using the Rasch Model. Journal of Educational Measurement, 17 (3), 179-193.
  • Marco, G. L. (1977). Item Characteristic Curve Solutions to Three Intractable Testing Problems. Journal of Educational Measurement, 14 (2), 139- 160.
  • Mislevy, R. J. (1992). Linking educational assessments: concepts, issues, methods and prospects. Retrieved from Princeton,NJ:
  • Muraki, E., Hombo, C. M., & Lee, Y. (2000). Equating and linking of performance assessments. Psychological Measurement, 24(4), 325-337.
  • Nisa, C., & Retnawati, H. (2018). Comparing the methods of vertical equating for the math learning achievement tests for junior high school students. REiD (Research and Evaluation in Education), 4(2), 164-174.
  • Öztürk, N., & Anıl, D. (2012 ). Akademik personel ve lisansüstü eğitimi giriş sınavı puanlarının eşitlenmesi üzerine bir çalışma. Eğitim ve Bilim, 37(165), 180-193.
  • Pektaş, S., & Kılınç, M. (2016). PISA 2012 matematik testlerinden iki kitapçığın gözlenen puan eşitleme yöntemleri ile eşitlenmesi Mehmet Akif Ersoy Üniversitesi Eğitim Fakültesi Dergisi (40), 432-444. doi:10.21764/efd.49376
  • R core team. (2021). R: a language and environment for statistical computing. Retrieved from https://www.R-project.org/
  • Sansivieri, V., Wiberg, M., & Matteucci, M. (2017). A review of test equating methods with a special focus on IRT-based approaches. Statistica, 77(4), 329-352.
  • Şahhüseyinoğlu, D. (2006). İngilizce yeterlik sınavı puanlarının üç farklı eşitleme yöntemine göre karşılaştırılması. Hacettepe Üniversitesi Eğitim Fakültesi Dergisi (31), 115-125.
  • Uysal, İ., & Kilmen, S. (2016). Comparison of item response theory test equating methods for mixed format tests. International Online Journal of Educational Sciences, 8(2), 1-11.

Çok Kategorili Puanlanan Maddelerden Oluşan Testlerde Klasik Test Kuramı ve Madde Tepki Kuramı’na Dayalı Test Eşitleme Yöntemlerinin Karşılaştırılması

Year 2023, Volume: 8 Issue: 4, 1429 - 1439, 28.12.2023
https://doi.org/10.30622/tarr.1371179

Abstract

Aynı örtük özelliği ölçen testin benzer zorluklara sahip iki formunun puanlarının birbirine dönüştürülmesini içeren istatistiksel süreç test eşitleme olarak tanımlanır. Bu çalışma* çok kategorili puanlanan maddelerden oluşan test formlarının eşitlenmesi sürecinde Klasik Test Kuramı ve Madde Tepki Kuramı’na dayalı test eşitleme yöntemlerinden elde edilen hataların karşılaştırılmasını amaçlayan bir olasılıksal simülasyon çalışmasıdır. Yürütülen çalışmada örneklem büyüklüğü 50, 100, 300, 1000 ve 3000 kişi ve test uzunluğu 10, 20, 30, 40 ve 50 madde olmak üzere 2 değişimlenen koşul için 25 alt koşul belirlenmiştir. Bu alt koşullara uygun olarak 0 (yanlış), 1(kısmen doğru) ve 2 (tam doğru) şeklinde puanlanan genelleştirilmiş kısmi puan modeline uyumlu simülatif veriler kullanılmıştır. Çalışmada veri setlerini üretmek için WinGen3 programından faydalanılmıştır. Üretilen veri setlerinin eşitlenme süreci R programı ile yürütülmüştür. Bu çalışmada doğrusal, ortalama ve eşit yüzdelikli eşitleme yöntemleri olmak üzere üç Klasik Test Kuramı yöntemi (KTK) ve ortalama-ortalama ve ortalama-standart sapma olmak üzere iki Madde Tepki Kuramı (MTK) yöntemi kullanılmıştır. Üretilen test formları kullanılarak üç KTK yönteminden ve iki MTK yönteminden elde edilen eşitlemenin standart hataları hesaplanmış ve yöntemlerden elde edilen hata miktarları karşılaştırılmıştır. Araştırma sonucunda, farklı örneklem büyüklüğü ve farklı test uzunluğuna göre üretilen test formlarının eşitlenmesi sürecinde en az hata ile eşitleme yapan yöntemin eşit yüzdelikli eşitleme yöntemi ve en fazla hata ile eşitleme yapan yöntemin ortalama-ortalama yöntemi olduğu saptanmıştır. Çalışmanın sonucunun literatürle uyumlu olduğu görülmüştür. Test eşitleme yöntemleri örneklem uzunluğu bağlamında incelendiğinde örneklem büyüklüğü arttıkça test eşitleme hatasının azaldığı belirlenmiştir. Yöntemler, test uzunluğu bağlamında değerlendirildiğinde ise madde sayısı arttıkça hesaplanan hata miktarının da arttığı sonucuna ulaşılmıştır.

References

  • Albano, A. D. (2016). {equate}: An {R} package for observed-score linking and equating. Journal of Statistical Software, 74(8), 1-36. doi:10.18637/jss.v074.i08
  • Anastasi, A. (1976). Psychological testing (4. Baskı). London: Collier Macmillan Publishers
  • Cohen, L., Manion, L., & Morrison, K. (2007). Internet-based research and computer usage. İçinde Research Methods in Education (6. Baskı, s. 226-252). New York: Routledge.
  • de Ayala, R. J. (2009). The theory and practıce of item response theory. New York: The Guilford Press.
  • Efron, B. (1982). The jackknife, the bootstrap and other resampling plans. Retrieved from Philadelphia:
  • Fraenkel, J. R., Wallen, N. E., & Hyun, H. H. (2012). The nature of research. İçinde How to design and evaluate research in education (8. Baskı). New York,NY: McGraw-Hill Education.
  • Gök, B., & Kelecioğlu, H. (2014). Denk olmayan gruplarda ortak madde deseni kullanılarak madde tepki kuramına dayalı eşitleme yöntemlerinin karşılaştırılması. Mersin Üniversitesi Eğitim Fakültesi Dergisi, 10(1), 120-136.
  • Han, K. T., & Hambleton, R. K. (2007). User's manual: WinGen (642). Retrieved from Amherst, MA:University of Massachusetts:
  • Harwell, M., Stone, C. A., Hsu, T., & Kirisci, L. (1996). Monte Carlo studies in Item Response Theory. Applied Psychological Measurement, 20(2), 101-125.
  • Kilmen, S., & Demirtaşlı, N. (2012). Comparison of test equating methods based on item response theory according to the sample size and ability distribution Procedia - Social and Behavioral Sciences, 46, 130-134. doi: 10.1016/j.sbspro.2012.05.081
  • Kolen, M. J. (1981). Comparison of traditional and item response theory methods for equating tests. Journal of Educational Measurement Spring, 18(1), 1-11.
  • Kolen, M. J., & Brennan, R. L. (2014). Test equating, scaling and linking:methods and practices (3. Baskı). New York: Springer.
  • Kolen, M. J., & Whitney, D. R. (1982). Comparison of four procedures for equating the tests of general educational development. Journal of Educational Measurement, 19(4), 279-293.
  • Linn, L. L. (1993). Linking results of distinct assessments. Applied Measurement in Education, 6(1), 83-102. doi:10.1207/s15324818ame0601_5
  • Livingston, S. A. (2014). Equipercentile equating. İçinde Equating Test Scores (Without IRT) (2. Baskı, s. 17-23): Educational Testing Service.
  • Loyd, B. H., and Hoover, H. D. (1980). Vertical Equating Using the Rasch Model. Journal of Educational Measurement, 17 (3), 179-193.
  • Marco, G. L. (1977). Item Characteristic Curve Solutions to Three Intractable Testing Problems. Journal of Educational Measurement, 14 (2), 139- 160.
  • Mislevy, R. J. (1992). Linking educational assessments: concepts, issues, methods and prospects. Retrieved from Princeton,NJ:
  • Muraki, E., Hombo, C. M., & Lee, Y. (2000). Equating and linking of performance assessments. Psychological Measurement, 24(4), 325-337.
  • Nisa, C., & Retnawati, H. (2018). Comparing the methods of vertical equating for the math learning achievement tests for junior high school students. REiD (Research and Evaluation in Education), 4(2), 164-174.
  • Öztürk, N., & Anıl, D. (2012 ). Akademik personel ve lisansüstü eğitimi giriş sınavı puanlarının eşitlenmesi üzerine bir çalışma. Eğitim ve Bilim, 37(165), 180-193.
  • Pektaş, S., & Kılınç, M. (2016). PISA 2012 matematik testlerinden iki kitapçığın gözlenen puan eşitleme yöntemleri ile eşitlenmesi Mehmet Akif Ersoy Üniversitesi Eğitim Fakültesi Dergisi (40), 432-444. doi:10.21764/efd.49376
  • R core team. (2021). R: a language and environment for statistical computing. Retrieved from https://www.R-project.org/
  • Sansivieri, V., Wiberg, M., & Matteucci, M. (2017). A review of test equating methods with a special focus on IRT-based approaches. Statistica, 77(4), 329-352.
  • Şahhüseyinoğlu, D. (2006). İngilizce yeterlik sınavı puanlarının üç farklı eşitleme yöntemine göre karşılaştırılması. Hacettepe Üniversitesi Eğitim Fakültesi Dergisi (31), 115-125.
  • Uysal, İ., & Kilmen, S. (2016). Comparison of item response theory test equating methods for mixed format tests. International Online Journal of Educational Sciences, 8(2), 1-11.
There are 26 citations in total.

Details

Primary Language Turkish
Subjects Specialist Studies in Education (Other)
Journal Section Articles
Authors

Merve Çörtük 0000-0002-7687-2206

Alper Sinan 0000-0001-6632-5500

Publication Date December 28, 2023
Published in Issue Year 2023 Volume: 8 Issue: 4

Cite

APA Çörtük, M., & Sinan, A. (2023). Çok Kategorili Puanlanan Maddelerden Oluşan Testlerde Klasik Test Kuramı ve Madde Tepki Kuramı’na Dayalı Test Eşitleme Yöntemlerinin Karşılaştırılması. Turkish Academic Research Review, 8(4), 1429-1439. https://doi.org/10.30622/tarr.1371179


Turkish Academic Research Review 
Creative Commons Lisansı Creative Commons Atıf-GayriTicari 4.0 Uluslararası Lisansı (CC BY-NC 4.0) ile lisanslanmıştır.