Araştırma Makalesi
BibTex RIS Kaynak Göster

Can TIMSS Mathematics Assessments be Implemented as a Computerized Adaptive Test?

Yıl 2018, Cilt: 9 Sayı: 4, 422 - 436, 28.12.2018
https://doi.org/10.21031/epod.487351

Öz

In recent years, there has been a growing interest
and extensive use of computerized adaptive testing (CAT) especially in large-scale
assessments. Numerous simulation studies have been conducted on both real and
simulated data sets to determine the optimum conditions and develop CAT
versions. Being one of the most popular large-scale assessment programs, Trends
in International Mathematics and Science Study (TIMSS) has been implemented as
paper and pencil tests to monitor student achievement in mathematics and
science at fourth and eighth grade levels since 1995. The purpose of this study
is to investigate the optimum CAT algorithm for TIMSS eighth grade mathematics
assessments. Since Turkey and USA participated in 2007, 2011 and 2015
administrations, their data were combined and then 393 items were calibrated on
the same scale by using marginal maximum likelihood estimation method. With
this item pool, several scenarios were proposed and tested to determine not
only the optimum starting rule, ability estimation method, test termination
rule but also the efficiency of exposure control method. The results of the
study indicated that estimating abilities with expected a posteriori method
after 6 random items, terminating the fixed-length test after 20 items seemed
to be the optimum algorithm for TIMSS eighth grade mathematics assessments. Also,
it was found that using item exposure control had a prior importance for the
effective use of the item pool. This study has some implications for both
national and international large-scale test developers in determining the
optimum CAT algorithm and its consequences compared with paper and pencil
versions.  

Kaynakça

  • Davey, T., & Pitoniak, M. J. (2006). Designing computerized adaptive tests. Handbook of Test Development, 543-574. Routledge.
  • Eggen, T. J. H. M. (2004). Contributions to the Theory and Practice of Computerized Adaptive Testing. Dissertation. Print Partners Ipskamp B.V., Enschede.
  • Eggen, T. J. H. M. (2007). Choices in CAT models in the context of educational testing. In D. J. Weiss (Ed.), Proceedings of the 2007 GMAC Conference on Computerized Adaptive Testing.
  • Glas, C. A. W. (2010) MIRT: Multidimensional Item Response Theory. (Computer Software). University of Twente. Retrieved from https://www.utwente.nl/nl/bms/omd/Medewerkers/medewerkers/glas/#soft-ware
  • Glas, C. A. W., & Geerlings, H. (2009). Psychometric aspects of pupil monitoring systems. Studies in Educational Evaluation, 35, 83-88.
  • Gu, L., Reckase M. D. (2007). Designing optimal item pools for computerized adaptive tests with Sympson-Hetter exposure control. In D. J. Weiss (Ed.), Proceedings of the 2007 GMAC Conference on Computerized Adaptive Testing.
  • Hambleton, R. K., Swaminathan, H., & Rogers, H. J. (1991). Fundamentals of Item Response Theory (Vol. 2). Sage.
  • Luecht, R. M. & Sireci, S. G. (2012). A review of models for computer-based testing. Research Report RR-2011-12. New York: The College Board.
  • Meijer, R. R. & Nering M. L. (1999). Computerized adaptive testing: overview and introduction. Applied Psychological Measurement, 23, 187-194.
  • Mills, C. N. & Stocking, M. L. (1996). Practical issues in large-scale computerized adaptive testing. Applied Measurement in Education, 9 (4), 287-304.
  • Mullis, I., Martin, V. & Loveless, T. (2016). 20 years of TIMSS, international trends in mathematics and science achievement, curriculum, and instruction. IEA, TIMSS&PIRLS International Study Center Lynch School of Education, Boston College.
  • Sireci, S. G., Baldwin, P., Martone, A., Zenisky, A. L., Kaira, L., Lam, W., & Hambleton, R. K. (2008). Massachusetts Adult Proficiency Tests Technical Manual, Version 2. Center for Educational Assessment Research Report No, 677.
  • van der Linden, W. J. (1995). Advances in computer applications. In T. Oakland & R. K. Hambleton (Eds.), International Perspectives on Academic Assessment, (pp. 105-124). Kluwer Academic Publishers.
  • van der Linden, W. J. (2001). Computerized test construction. Research Report. Twente University, Enschede (Netherlands).
  • van der Linden, W. J. (2010). Item selection and ability estimation in adaptive testing. Elements of Adaptive Testing, 3-30. Springer.
  • Verschoor, A. J., & Straetmans, G. J. J. (2010). MATHCAT: A flexible testing system in mathematics education for adults. In W. J. van der Linden & C. A. W. Glas (Eds.), Elements of Adaptive Testing, (pp. 137-149). Statistics for Social and Behavioral Sciences. Springer.
  • Wainer, H. (2000). Computerized Adaptive Testing: A Primer. Mahvah, NJ: Erlbaum.
  • Zenisky A. L., & Sireci, S. G. (2002) Technological innovations in large-scale assessment, Applied Measurement in Education, 15:4, 337-362.

TIMSS Matematik Değerlendirmeleri Bilgisayar Ortamında Bireyselleştirilmiş Test Olarak Uygulanabilir mi?

Yıl 2018, Cilt: 9 Sayı: 4, 422 - 436, 28.12.2018
https://doi.org/10.21031/epod.487351

Öz

Son yıllarda, bilgisayar ortamında bireye uyarlanmış testlerin (BOBUT) özellikle geniş ölçekli test uygulamalarında kullanımı yaygın hale gelmiştir. Testte kullanılan maddelerin ve katılımcıların özelliklerine bağlı olarak en uygun bireye uyarlanmış test algoritmasının belirlenebilmesi amacıyla gerçek ya da türetilmiş veri setlerinin kullanıldığı çok sayıda simülasyon çalışması gerçekleştirilmiş ve çalışmalardan elde edilen bulgular sonucunda birçok test gerçek anlamda bilgisayar ortamında bireye uyarlanmış halleriyle uygulanmaya konulmuştur. Geniş ölçekli test uygulamaları dendiğinde ilk akla gelen uygulamalardan biri olan Uluslararası Matematik ve Fen Eğilimleri Araştırması (TIMSS) 1995 yılından itibaren dördüncü ve sekizinci sınıf düzeylerinde matematik ve fen bilimlerindeki öğrenci başarısını izlemek amacıyla kağıt ve kalem testleri kullanılarak gerçekleştirilmektedir. Bu çalışmanın amacı, TIMSS sekizinci sınıf matematik değerlendirmeleri için en uygun BOBUT algoritmasının belirlenmesini sağlamaktır. TIMSS 2007, 2011 ve 2015 uygulamalarına sekizinci sınıf düzeyinde katılan Türkiye ve ABD’ye ait veri setlerinde yer alan 393 madde, marjinal maksimum olabilirlik tahmin yöntemi kullanılarak aynı ölçek üzerinde kalibre edilmiştir. Madde havuzu oluşturulduktan gerçekleştirilen simülasyonlar ile en iyi test başlangıç kuralının, yetenek kestirim yönteminin, test sonlandırma kuralının ve madde kullanım sıklığı kontrolünün belirlenmesi amaçlanmıştır. Araştırma bulguları beklenen sonsal dağılım yetenek kestirim yönteminin kullanıldığı, test başlangıç kuralı olarak rastgele 6 maddenin uygulandığı, test sonlandırma kuralı olarak 20 maddeden oluşan sabit uzunluktaki testlerin kullanıldığı algoritmanın TIMSS sekizinci sınıf matematik değerlendirmeleri için en uygun yapı olduğunu ortaya koymuştur. Bununla birlikte, madde kullanım sıklığı kontrolünün madde havuzunun etkili kullanımında çok önemli bir yere sahip olduğu belirlenmiştir. Bu çalışmanın hem ulusal hem de uluslararası düzeyde uygulanan geniş ölçekli kağıt ve kalem testlerine alternatif olarak geliştirilebilecek BOBUT uygulamalarındaki en uygun algoritmanın belirlenmesi ve geliştirilmesi süreçlerine katkı sağlayacağı düşünülmektedir.

Kaynakça

  • Davey, T., & Pitoniak, M. J. (2006). Designing computerized adaptive tests. Handbook of Test Development, 543-574. Routledge.
  • Eggen, T. J. H. M. (2004). Contributions to the Theory and Practice of Computerized Adaptive Testing. Dissertation. Print Partners Ipskamp B.V., Enschede.
  • Eggen, T. J. H. M. (2007). Choices in CAT models in the context of educational testing. In D. J. Weiss (Ed.), Proceedings of the 2007 GMAC Conference on Computerized Adaptive Testing.
  • Glas, C. A. W. (2010) MIRT: Multidimensional Item Response Theory. (Computer Software). University of Twente. Retrieved from https://www.utwente.nl/nl/bms/omd/Medewerkers/medewerkers/glas/#soft-ware
  • Glas, C. A. W., & Geerlings, H. (2009). Psychometric aspects of pupil monitoring systems. Studies in Educational Evaluation, 35, 83-88.
  • Gu, L., Reckase M. D. (2007). Designing optimal item pools for computerized adaptive tests with Sympson-Hetter exposure control. In D. J. Weiss (Ed.), Proceedings of the 2007 GMAC Conference on Computerized Adaptive Testing.
  • Hambleton, R. K., Swaminathan, H., & Rogers, H. J. (1991). Fundamentals of Item Response Theory (Vol. 2). Sage.
  • Luecht, R. M. & Sireci, S. G. (2012). A review of models for computer-based testing. Research Report RR-2011-12. New York: The College Board.
  • Meijer, R. R. & Nering M. L. (1999). Computerized adaptive testing: overview and introduction. Applied Psychological Measurement, 23, 187-194.
  • Mills, C. N. & Stocking, M. L. (1996). Practical issues in large-scale computerized adaptive testing. Applied Measurement in Education, 9 (4), 287-304.
  • Mullis, I., Martin, V. & Loveless, T. (2016). 20 years of TIMSS, international trends in mathematics and science achievement, curriculum, and instruction. IEA, TIMSS&PIRLS International Study Center Lynch School of Education, Boston College.
  • Sireci, S. G., Baldwin, P., Martone, A., Zenisky, A. L., Kaira, L., Lam, W., & Hambleton, R. K. (2008). Massachusetts Adult Proficiency Tests Technical Manual, Version 2. Center for Educational Assessment Research Report No, 677.
  • van der Linden, W. J. (1995). Advances in computer applications. In T. Oakland & R. K. Hambleton (Eds.), International Perspectives on Academic Assessment, (pp. 105-124). Kluwer Academic Publishers.
  • van der Linden, W. J. (2001). Computerized test construction. Research Report. Twente University, Enschede (Netherlands).
  • van der Linden, W. J. (2010). Item selection and ability estimation in adaptive testing. Elements of Adaptive Testing, 3-30. Springer.
  • Verschoor, A. J., & Straetmans, G. J. J. (2010). MATHCAT: A flexible testing system in mathematics education for adults. In W. J. van der Linden & C. A. W. Glas (Eds.), Elements of Adaptive Testing, (pp. 137-149). Statistics for Social and Behavioral Sciences. Springer.
  • Wainer, H. (2000). Computerized Adaptive Testing: A Primer. Mahvah, NJ: Erlbaum.
  • Zenisky A. L., & Sireci, S. G. (2002) Technological innovations in large-scale assessment, Applied Measurement in Education, 15:4, 337-362.
Toplam 18 adet kaynakça vardır.

Ayrıntılar

Birincil Dil İngilizce
Bölüm Makaleler
Yazarlar

Semirhan Gokce 0000-0002-4752-5598

Cees A.W. Glas Bu kişi benim 0000-0001-6531-5503

Yayımlanma Tarihi 28 Aralık 2018
Kabul Tarihi 21 Aralık 2018
Yayımlandığı Sayı Yıl 2018 Cilt: 9 Sayı: 4

Kaynak Göster

APA Gokce, S., & Glas, C. A. (2018). Can TIMSS Mathematics Assessments be Implemented as a Computerized Adaptive Test?. Journal of Measurement and Evaluation in Education and Psychology, 9(4), 422-436. https://doi.org/10.21031/epod.487351