Research Article
BibTex RIS Cite

Comparison of Test Equating Methods Based on Classical Test Theory and Item Response Theory

Year 2023, Volume: 36 Issue: 3, 866 - 906, 15.12.2023
https://doi.org/10.19171/uefad.1325587

Abstract

This study aims to choose the equating method with the least equating error by using the equating methods in Classical Test Theory and Item Response Theory. In this study, booklet 1 and booklet 3 data were used for PISA (Programme for International Student Assessment) 2012 Mathematics test. Data from Turkey, Indonesia, Shanghai/China and Finland, countries participating in PISA 2012, were selected for this study. Non-equivalent groups design was used in the test equating process. Linear equating methods [Tucker (w1=1, w1=0.5), Levine observed score (w1=1, w1=0.5), Levine true score, Classical Congeneric and Braun-Holland), equipercentile equating methods (pre smoothing according to C6 polynomial degree, beta4, post smoothing according to S 0.05 cubic function, frequency estimation (w1=1, w1=0.5) ] were used in the study. In Classical Test Theory, the least error is obtained from the frequency estimation method with a synthetic universe weight of w1 = 0.5. For the Item Response Theory, the calibration method was first decided, which is the Stocking-Lord method. After the scale transformation was achieved with the Stocking-Lord calibration method, the equating scores were calculated from the IRT's true and observed equating methods. The least error in IRT was obtained from the true score equating method. For error values, error coefficients were calculated according to Newton-Raphson's delta method and bootstrap methods. When the error coefficients (delta and bootstrap) of the equating methods in both theories were compared, it was found that the equating methods based on IRT had fewer errors than the equating methods in CTT, and the method with the least equating error was the IRT true score equating. The least equating error frequency estimation in CTT (w1=0.5) and the most error Levine true score equating method.

References

  • Aksekioğlu, B. (2017). Madde tepki kuramına dayalı test eşitleme yöntemlerinin karşılaştırılması: PISA 2012 fen testi örneği (Yayın No. 454879) [Yüksek lisans tez, Akdeniz üniversitesi]. YÖK. https://tez.yok.gov.tr/UlusalTezMerkezi/
  • Angoff, W.H. (1987). Technical and practical issues in equating: A discussion of four papers. Applied Psychological Measurement, 11, 291-300.
  • Braun, H. I.,& Holland, P. W. (1982). Observed-score test equating: A mathematical analysis of some ETS equating procedures. In P. W. Holland & D. B. Rubin (Eds.), Test equating (pp. 9–49). Academic.
  • Brossman, B. G., & Lee, W.C. (2013). Observed score and true score equating procedures for multidimensional item response theory. Applied Psychological Measurement, 37(6), 460-481. https://doi.org/10.1177/0146621613484083
  • Büyüköztürk, Ş., Çakmak, E. K., Akgün, Ö. E., Karadeniz, Ş., & Demirel, F. (2008). Bilimsel araştırma yöntemleri. Pegem Akademi.
  • Chen, H. H., Livingston, S. A., & Holland, P. W. (2011). Generalized equating functions for NEAT designs. Statistical models for test equating, scaling and linking, 185-200.
  • Cook, L. L.,& Eignor, D. R, (1991). IRT equating methods. Educational Measurement: Issues And Practice, 10(3), 37-45.
  • Crocker, L., & Algina, J. (1986). Introduction to classical and modern test theory. Harcourt Brace Javonich College.
  • Çörtük, M. (2022). Çok kategorili puanlanan maddelerden oluşan testlerde Klasik Test Kuramı ve Madde Tepki Kuramı’na dayalı test eşitleme yöntemlerinin karşılaştırılması (Yayın No. 743619) [Yüksek lisans tez, Akdeniz üniversitesi]. YÖK. https://tez.yok.gov.tr/UlusalTezMerkezi/
  • Demirus. K. B. (2015). Ortak maddelerin değişen madde fonksiyonu gösterip göstermemesi durumunda test eşitlemeye etkisinin farklı yöntemlerle incelenmesi (Yayın No. 399468) [Doktora tezi, Ankara üniversitesi]. YÖK. https://tez.yok.gov.tr/UlusalTezMerkezi/
  • Dorans, N. J., & Holland, P. W. (2000). Population invariance and the equatability of tests: Basic theory and the linear case. Journal of Educational Measurement, 37(4), 281-306. https://doi.org/10.1111/j.1745-3984.2000.tb01088.x
  • Embretson, S. E., & Reise, S. P. (2000). Item response theory for psychologists. Lawrence Erlbaum.
  • Felan, G. D. (2002). Test Equating: Mean, Linear, Equipercentile, and Item Response Theory. Annual Meeting of the Southwest Educational Research Association, 1-24.
  • Gök, B. (2012). Denk olmayan gruplarda ortak madde deseni kullanılarak madde tepki kuramına dayalı eşitleme yöntemlerinin karşılaştırılması (Yayın No. 321947) [Doktora tezi, Ankara üniversitesi]. YÖK. https://tez.yok.gov.tr/UlusalTezMerkezi/
  • Gulliksen, H. (1950). The reliability of speeded tests. Psychometrika, 15(3), 259-269.
  • Gündüz, T. (2015). Test eşitlemede Madde Tepki Kuramına dayalı yetenek parametresine yönelik ölçek dönüştürme yöntemlerinin karşılaştırılması (Yayın No. 429524) [Yüksek Lisans Tezi, Gazi Üniversitesi]. YÖK. https://tez.yok.gov.tr/UlusalTezMerkezi/
  • Hagge, S. L., Liu, C., He, Y., Powers, S. J., Wang, W., & Kolen, M. J. (2011). A comparison of IRT and traditional equipercentile methods in mixed-format equating. Mixed-Format Tests: Psychometric Properties With A Primary Focus On Equating, 1, 19-50.
  • Hambleton, R. K.,& Swaminathan, H. (2013). Item response theory: Principles and applications. Springer Science & Business Media.
  • Han, T., Kolen, M., & Pohlmann, J. (1997). A comparison among IRT true-and observed-score equatings and traditional equipercentile equating. Applied Measurement in Education, 10(2), 105-121.
  • Hanson, B. A., Zeng, L., & Colton, D. A. (1994). A comparison of presmoothing and postsmoothing methods in equipercentile equating (Vol. 94. No. 4). American College Testing Program.
  • Hanson, B. A., Zeng, L., & Kolen, M. J. (1993). Standard errors of Levine linear equating. Applied Psychological Measurement, 17(3), 225-237.
  • İnal, H. & Akın Arıkan, Ç. (2017). An investigation of group invariance in test equating according to gender. Journal of Measurement and Evaluation in Education and Psychology, 8(1), 128-145.
  • Kahraman, H. (2012). Düzgünleştirilmiş puanların eşitleme hatasına etkisi (Yayın No. 314954) [Yüksek lisans tezi, Hacettepe Üniversitesi]. YÖK. https://tez.yok.gov.tr/UlusalTezMerkezi/
  • Kane, M. T., Mroch, A. A., Suh, Y., & Ripkey, D. R. (2009). Linear equating for the NEAT design: Parameter substitution models and chained linear relationship models. Measurement, 7(4), 125-146. https://doi.org/10.1080/15366360903418022
  • Karasar, N. (2005). Bilimsel araştırma yöntemi. Nobel Yayın Dağıtım.
  • Karkee, T. B., & Wright, K. R. (2004). Evaluation of linking methods for placing three-parameter logistic item parameter estimates onto a one-parameter scale. Online Submission.
  • Keller, R. R. (2007). A comparison of item response theory true score equating and item response theory-based local equating. University of MassachusettsAmherst.
  • Kendall, M., & Stuart, A. (1977). The advanced theory of statistics. Macmillan.
  • Kelecioğlu, H.. & Öztürk Gübeş, N. (2013). Comparing linear equating and equipercentile equating methods using random groups design. International Online Journal of Educational Sciences, 5(1), 227-241.
  • Kilmen, S. (2010). Madde Tepki Kuramına dayalı test eşitleme yöntemlerinden kestirilen eşitleme hatalarının örneklem büyüklüğü ve yetenek dağılımına göre karşılaştırılması (Yayın No. 279926) [Doktora tezi, Ankara Üniversitesi]. YÖK. https://tez.yok.gov.tr/UlusalTezMerkezi/
  • Kolen, M. J. (1988). Traditional equating methodology. Educational measurement: Issues and practice, 7(4), 29-37.
  • Kolen, M., & Brennan, R. (1995). Test equating: methods and practices. Springer-Verlag.
  • Kolen, M. J., & Brennan. R. L. (2014). Test equating. scaling. and linking: Methods and practice. Springer Science and Business Media.
  • Kumlu, G. (2019). Test ve alt testlerde eşitlemenin farklı koşullar açısından incelenmesi (Yayın No. 584462) [Doktora tezi, Hacettepe Üniversitesi]. YÖK. https://tez.yok.gov.tr/UlusalTezMerkezi/
  • Levine, R. (1955). Equating the score scales of alternate forms administered to samples of different ability. ETS Research Bulletin Series, 1955(2), i-118.
  • Liu, C., & Kolen, M. J. (2011). A comparison among IRT equating methods and traditional equating methods for mixed-format tests. Psychometric properties with a primary focus on equating, 1, 75-94.
  • Livingston, S. A. (1993). Small‐sample equating with log‐linear smoothing. Journal of Educational Measurement, 30(1), 23-39.
  • Livingston, S. A., Dorans, N. J., & Wright, N. K. (1990). What combination of sampling and equating methods works best?. Applied Measurement in Education, 3(1), 73-95.
  • Livingston, S. A., & Feryok, N. J. (1987). Univariate vs. bivariate smoothing in frequency estimation equating. ETS Research Report Series, 1987(2), 1-21.
  • Lord, F. M. (1980). Applications of item response theory to practical testing problems. Erlbaum.
  • Lord, F. M., & Wingersky, M. S. (1984). Comparison of IRT true-score and equipercentile observed-score" equatings". Applied Psychological Measurement, 8(4), 453-461.
  • Lucke, J. F. (2005). The α and the ω of congeneric test theory: An extension of reliability and internal consistency to heterogeneous tests. Applied Psychological Measurement, 29(1), 65-81. https://doi.org/10.1177/0146621604270882
  • MEB (2013). PISA 2012 ulusal ön raporu. Ankara: MEB Yenilik ve Eğitim Teknolojileri Genel Müdürlüğü.http://odsgm.meb.gov.tr/test/analizler/docs/pisa/pisa2012-ulusal-on-raporu.pdf sayfasından erişilmiştir.
  • MEB (2015). PISA 2012 araştırması ulusal nihai raporu. https://drive.google.com/file/d/0B2wxMX5xMcnhaGtnV2x6YWsyY2c/view?pref=2 &pli=1 Erişim tarihi: 5 Ocak 2017
  • Mutluer, C., & Nartgün, Z. (2017). Test equating study concerning to ALES (Academic Personnel and Postgraduate Education Entrance Exam) scores obtained at different times in a year. European Journal of Education Studies, 12, 96–120.
  • OECD (2014). PISA 2012 technical report. OECD Publishing https://www.oecd.org/pisa/pisaproducts/PISA-2012-technical-report-final.pdf Erişim tarihi: 10 Mart 2018
  • Olanigan, N. A., Adediwura, A. A., & Ogunsanmi, O. A. (2022). Linear and separate calibration methods of equating continuous assessment scores of public and private elementary schools. Journal of Integrated Elementary Education, 2(2), 117-129.
  • Özdemir, B. (2017). Equating TIMSS mathematics subtests with nonlinear equating methods using neat design: circle-arc equating approaches. International Journal of Progressive Education, 13(2), 116-132.
  • Pektaş, S., & Kılınç, M. (2016). PISA 2012 matematik testlerinden iki kitapçığın gözlenen puan eşitleme yöntemleri ile eşitlenmesi. Mehmet Akif Ersoy Üniversitesi Eğitim Fakültesi Dergisi, (40), 432-444.
  • Petersen, N. S., Cook, L., & Stocking, M. L. (1983). IRT versus conventional equating methods: A comparative study of scale stability. Journal of Educational Statistics, 8(2), 137-156.
  • Petersen, N. S., Kolen, M. J., & Hoover, H. D. (1989). Scaling. norming. and equating. Educational Measurement, 3, 221-262.
  • Salmaner Doğan, R. (2022). Meta analitik test eşitleme yönteminin çeşitli değişkenler açısından incelenmesi: TIMMS 2015 örneği (Yayın No. 765807) [Doktora tezi, Gazi Üniversitesi]. YÖK. https://tez.yok.gov.tr/UlusalTezMerkezi/
  • Sezer Başaran, E. (2023) Farklı ortak değişkenlerle test eşitlemenin ortak maddeli test eşitlemeyle karşılaştırılması (Yayın No. 788504) [Doktora tezi, Gazi Üniversitesi]. YÖK. https://tez.yok.gov.tr/UlusalTezMerkezi/
  • Skaggs, G. (2005). Accuracy of random groups equating with very small samples. Journal of Educational Measurement, 42(4), 309-330. https://doi.org/10.1111/j.1745-3984.2005.00018.x
  • Spearman, C. (1907). Demonstration of formular for true measurement of correlation. American Journal of Psychology, 18, 161-169.
  • Stocking, M. L., & Lord, F. M. (1982). Developing a common metric in item response theory. ETS Research Report Series, 1982(1), i-29.
  • Tan, Ş. (2015). Küçük örneklemlerde beta4 ve polynomial loglineer öndüzgünleştirme ve kübik eğri sondüzgünleştirme metotlarının uygunluğu. Gazi Üniversitesi Gazi Eğitim Fakültesi Dergisi, 35(1), 123-151.
  • Tanberkan-Suna, H. (2018). Grup değişmezliği özelliğinin farklı eşitleme yöntemlerinde eşitleme fonksiyonları üzerindeki etkisi (Yayın No. 527064) [Doktora tezi, Gazi Üniversitesi]. YÖK. https://tez.yok.gov.tr/UlusalTezMerkezi/
  • Thorndike,R. L. (1982). Applied psychometrics. Houghton Mifflin.
  • Yurtçu, M., & Güzeller, C. O. (2018). Investigation of equating error in tests with differential item functioning. International Journal of Assessment Tools in Education, 5(1), 50-57. https://doi.org/10.21449/ijate.316420
  • von Davier, A. A. (2008). New results on the linear equating methods for the nonequivalent-groups design. Journal of Educational and Behavioral Statistics, 33(2), 186-203.
  • von Davier, A. A., & Kong, N. (2005). A unified approach to linear equating for the nonequivalent groups design. Journal of Educational and Behavioral Statistics, 30(3), 313-342.
  • Wang, T., Lee, W.C., Brennan, R. L., & Kolen, M. J. (2008). A comparison of the frequency estimation and ed equipercentile methods under the common-item nonequivalent groups design. Applied Psychological Measurement, 32(8), 632-651.
  • Zhu, W. (1998). Test equating: What, why, how? Research Quarterly for Exercise and Sport, 69(1), 11-23.

Klasik Test Kuramı’na ve Madde Tepki Kuramı’na Dayalı Test Eşitleme Yöntemlerinin Karşılaştırılması

Year 2023, Volume: 36 Issue: 3, 866 - 906, 15.12.2023
https://doi.org/10.19171/uefad.1325587

Abstract

Bu çalışmanın amacı Klasik Test Kuramı (KTK) ve Madde Tepki Kuramı (MTK) bünyesindeki eşitleme yöntemlerini kullanarak en az eşitleme hatasına sahip eşitleme yöntemine karar vermektir. Bu çalışmada PISA 2012 Matematik testi için kitapçık 1 ve kitapçık 3 verileri kullanılmıştır. Bu çalışma için PISA (Uluslararası Öğrenci Değerlendirme Programı) 2012 uygulamasına katılan Türkiye Endonezya, Şangay/ Çin ve Finlandiya ülkelerin verileri seçilmiştir. Test eşitleme sürecinde eşdeğer olmayan gruplar deseni kullanılmıştır. Araştırmada ele alınan KTK’da doğrusal eşitleme yöntemleri [Tucker (w1=1, w1=0.5), Levine gözlenen puan (w1=1, w1=0.5), Levine gerçek puan, klasik konjenerik ve Braun-Holland], eşit yüzdelikli eşitleme yöntemleri [C6 polinomial derecesine göre ön düzgünleştirme, beta4 , S 0.05 kübik fonksiyona göre son düzgünleştirme, frekans kestirim (w1=1, w1=0.5)] kullanılmıştır. Klasik Test Kuramında en az hata w1=0.5 sentetik evren ağırlığıyla Frekans kestirim yönteminden elde edilmiştir. MTK için öncelikle kalibrasyon yöntemine karar verilmiş ve bu yöntem Stocking-Lord yöntemidir. Stocking-Lord kalibrasyon yöntemi ile ölçek dönüşümü sağlandıktan sonra MTK’daki gerçek ve gözlenen eşitleme yöntemlerinden eşitlenmiş puanlar hesaplanmıştır. MTK’daki en az hata gerçek puan eşitleme yönteminden elde edilmiştir. Hata değerleri için Newton-Raphson’un delta yöntemi ve boostrap yöntemlerine göre hata katsayıları hesaplanmıştır. Her iki kuramdaki eşitleme yöntemlerinin hata katsayıları (delta ve boostrap) karşılaştırıldığında MTK’ya dayalı eşitleme yöntemlerinin KTK’daki eşitleme yöntemlerinden daha az hataya sahip olduğu ve en az eşitleme hatasına sahip olan yöntemin MTK gerçek puan eşitleme olduğu bulunmuştur. KTK’da en az eşitleme hatası frekans kestirim (w1=0.5) ve en fazla hata Levine gerçek puan eşitleme yöntemidir

References

  • Aksekioğlu, B. (2017). Madde tepki kuramına dayalı test eşitleme yöntemlerinin karşılaştırılması: PISA 2012 fen testi örneği (Yayın No. 454879) [Yüksek lisans tez, Akdeniz üniversitesi]. YÖK. https://tez.yok.gov.tr/UlusalTezMerkezi/
  • Angoff, W.H. (1987). Technical and practical issues in equating: A discussion of four papers. Applied Psychological Measurement, 11, 291-300.
  • Braun, H. I.,& Holland, P. W. (1982). Observed-score test equating: A mathematical analysis of some ETS equating procedures. In P. W. Holland & D. B. Rubin (Eds.), Test equating (pp. 9–49). Academic.
  • Brossman, B. G., & Lee, W.C. (2013). Observed score and true score equating procedures for multidimensional item response theory. Applied Psychological Measurement, 37(6), 460-481. https://doi.org/10.1177/0146621613484083
  • Büyüköztürk, Ş., Çakmak, E. K., Akgün, Ö. E., Karadeniz, Ş., & Demirel, F. (2008). Bilimsel araştırma yöntemleri. Pegem Akademi.
  • Chen, H. H., Livingston, S. A., & Holland, P. W. (2011). Generalized equating functions for NEAT designs. Statistical models for test equating, scaling and linking, 185-200.
  • Cook, L. L.,& Eignor, D. R, (1991). IRT equating methods. Educational Measurement: Issues And Practice, 10(3), 37-45.
  • Crocker, L., & Algina, J. (1986). Introduction to classical and modern test theory. Harcourt Brace Javonich College.
  • Çörtük, M. (2022). Çok kategorili puanlanan maddelerden oluşan testlerde Klasik Test Kuramı ve Madde Tepki Kuramı’na dayalı test eşitleme yöntemlerinin karşılaştırılması (Yayın No. 743619) [Yüksek lisans tez, Akdeniz üniversitesi]. YÖK. https://tez.yok.gov.tr/UlusalTezMerkezi/
  • Demirus. K. B. (2015). Ortak maddelerin değişen madde fonksiyonu gösterip göstermemesi durumunda test eşitlemeye etkisinin farklı yöntemlerle incelenmesi (Yayın No. 399468) [Doktora tezi, Ankara üniversitesi]. YÖK. https://tez.yok.gov.tr/UlusalTezMerkezi/
  • Dorans, N. J., & Holland, P. W. (2000). Population invariance and the equatability of tests: Basic theory and the linear case. Journal of Educational Measurement, 37(4), 281-306. https://doi.org/10.1111/j.1745-3984.2000.tb01088.x
  • Embretson, S. E., & Reise, S. P. (2000). Item response theory for psychologists. Lawrence Erlbaum.
  • Felan, G. D. (2002). Test Equating: Mean, Linear, Equipercentile, and Item Response Theory. Annual Meeting of the Southwest Educational Research Association, 1-24.
  • Gök, B. (2012). Denk olmayan gruplarda ortak madde deseni kullanılarak madde tepki kuramına dayalı eşitleme yöntemlerinin karşılaştırılması (Yayın No. 321947) [Doktora tezi, Ankara üniversitesi]. YÖK. https://tez.yok.gov.tr/UlusalTezMerkezi/
  • Gulliksen, H. (1950). The reliability of speeded tests. Psychometrika, 15(3), 259-269.
  • Gündüz, T. (2015). Test eşitlemede Madde Tepki Kuramına dayalı yetenek parametresine yönelik ölçek dönüştürme yöntemlerinin karşılaştırılması (Yayın No. 429524) [Yüksek Lisans Tezi, Gazi Üniversitesi]. YÖK. https://tez.yok.gov.tr/UlusalTezMerkezi/
  • Hagge, S. L., Liu, C., He, Y., Powers, S. J., Wang, W., & Kolen, M. J. (2011). A comparison of IRT and traditional equipercentile methods in mixed-format equating. Mixed-Format Tests: Psychometric Properties With A Primary Focus On Equating, 1, 19-50.
  • Hambleton, R. K.,& Swaminathan, H. (2013). Item response theory: Principles and applications. Springer Science & Business Media.
  • Han, T., Kolen, M., & Pohlmann, J. (1997). A comparison among IRT true-and observed-score equatings and traditional equipercentile equating. Applied Measurement in Education, 10(2), 105-121.
  • Hanson, B. A., Zeng, L., & Colton, D. A. (1994). A comparison of presmoothing and postsmoothing methods in equipercentile equating (Vol. 94. No. 4). American College Testing Program.
  • Hanson, B. A., Zeng, L., & Kolen, M. J. (1993). Standard errors of Levine linear equating. Applied Psychological Measurement, 17(3), 225-237.
  • İnal, H. & Akın Arıkan, Ç. (2017). An investigation of group invariance in test equating according to gender. Journal of Measurement and Evaluation in Education and Psychology, 8(1), 128-145.
  • Kahraman, H. (2012). Düzgünleştirilmiş puanların eşitleme hatasına etkisi (Yayın No. 314954) [Yüksek lisans tezi, Hacettepe Üniversitesi]. YÖK. https://tez.yok.gov.tr/UlusalTezMerkezi/
  • Kane, M. T., Mroch, A. A., Suh, Y., & Ripkey, D. R. (2009). Linear equating for the NEAT design: Parameter substitution models and chained linear relationship models. Measurement, 7(4), 125-146. https://doi.org/10.1080/15366360903418022
  • Karasar, N. (2005). Bilimsel araştırma yöntemi. Nobel Yayın Dağıtım.
  • Karkee, T. B., & Wright, K. R. (2004). Evaluation of linking methods for placing three-parameter logistic item parameter estimates onto a one-parameter scale. Online Submission.
  • Keller, R. R. (2007). A comparison of item response theory true score equating and item response theory-based local equating. University of MassachusettsAmherst.
  • Kendall, M., & Stuart, A. (1977). The advanced theory of statistics. Macmillan.
  • Kelecioğlu, H.. & Öztürk Gübeş, N. (2013). Comparing linear equating and equipercentile equating methods using random groups design. International Online Journal of Educational Sciences, 5(1), 227-241.
  • Kilmen, S. (2010). Madde Tepki Kuramına dayalı test eşitleme yöntemlerinden kestirilen eşitleme hatalarının örneklem büyüklüğü ve yetenek dağılımına göre karşılaştırılması (Yayın No. 279926) [Doktora tezi, Ankara Üniversitesi]. YÖK. https://tez.yok.gov.tr/UlusalTezMerkezi/
  • Kolen, M. J. (1988). Traditional equating methodology. Educational measurement: Issues and practice, 7(4), 29-37.
  • Kolen, M., & Brennan, R. (1995). Test equating: methods and practices. Springer-Verlag.
  • Kolen, M. J., & Brennan. R. L. (2014). Test equating. scaling. and linking: Methods and practice. Springer Science and Business Media.
  • Kumlu, G. (2019). Test ve alt testlerde eşitlemenin farklı koşullar açısından incelenmesi (Yayın No. 584462) [Doktora tezi, Hacettepe Üniversitesi]. YÖK. https://tez.yok.gov.tr/UlusalTezMerkezi/
  • Levine, R. (1955). Equating the score scales of alternate forms administered to samples of different ability. ETS Research Bulletin Series, 1955(2), i-118.
  • Liu, C., & Kolen, M. J. (2011). A comparison among IRT equating methods and traditional equating methods for mixed-format tests. Psychometric properties with a primary focus on equating, 1, 75-94.
  • Livingston, S. A. (1993). Small‐sample equating with log‐linear smoothing. Journal of Educational Measurement, 30(1), 23-39.
  • Livingston, S. A., Dorans, N. J., & Wright, N. K. (1990). What combination of sampling and equating methods works best?. Applied Measurement in Education, 3(1), 73-95.
  • Livingston, S. A., & Feryok, N. J. (1987). Univariate vs. bivariate smoothing in frequency estimation equating. ETS Research Report Series, 1987(2), 1-21.
  • Lord, F. M. (1980). Applications of item response theory to practical testing problems. Erlbaum.
  • Lord, F. M., & Wingersky, M. S. (1984). Comparison of IRT true-score and equipercentile observed-score" equatings". Applied Psychological Measurement, 8(4), 453-461.
  • Lucke, J. F. (2005). The α and the ω of congeneric test theory: An extension of reliability and internal consistency to heterogeneous tests. Applied Psychological Measurement, 29(1), 65-81. https://doi.org/10.1177/0146621604270882
  • MEB (2013). PISA 2012 ulusal ön raporu. Ankara: MEB Yenilik ve Eğitim Teknolojileri Genel Müdürlüğü.http://odsgm.meb.gov.tr/test/analizler/docs/pisa/pisa2012-ulusal-on-raporu.pdf sayfasından erişilmiştir.
  • MEB (2015). PISA 2012 araştırması ulusal nihai raporu. https://drive.google.com/file/d/0B2wxMX5xMcnhaGtnV2x6YWsyY2c/view?pref=2 &pli=1 Erişim tarihi: 5 Ocak 2017
  • Mutluer, C., & Nartgün, Z. (2017). Test equating study concerning to ALES (Academic Personnel and Postgraduate Education Entrance Exam) scores obtained at different times in a year. European Journal of Education Studies, 12, 96–120.
  • OECD (2014). PISA 2012 technical report. OECD Publishing https://www.oecd.org/pisa/pisaproducts/PISA-2012-technical-report-final.pdf Erişim tarihi: 10 Mart 2018
  • Olanigan, N. A., Adediwura, A. A., & Ogunsanmi, O. A. (2022). Linear and separate calibration methods of equating continuous assessment scores of public and private elementary schools. Journal of Integrated Elementary Education, 2(2), 117-129.
  • Özdemir, B. (2017). Equating TIMSS mathematics subtests with nonlinear equating methods using neat design: circle-arc equating approaches. International Journal of Progressive Education, 13(2), 116-132.
  • Pektaş, S., & Kılınç, M. (2016). PISA 2012 matematik testlerinden iki kitapçığın gözlenen puan eşitleme yöntemleri ile eşitlenmesi. Mehmet Akif Ersoy Üniversitesi Eğitim Fakültesi Dergisi, (40), 432-444.
  • Petersen, N. S., Cook, L., & Stocking, M. L. (1983). IRT versus conventional equating methods: A comparative study of scale stability. Journal of Educational Statistics, 8(2), 137-156.
  • Petersen, N. S., Kolen, M. J., & Hoover, H. D. (1989). Scaling. norming. and equating. Educational Measurement, 3, 221-262.
  • Salmaner Doğan, R. (2022). Meta analitik test eşitleme yönteminin çeşitli değişkenler açısından incelenmesi: TIMMS 2015 örneği (Yayın No. 765807) [Doktora tezi, Gazi Üniversitesi]. YÖK. https://tez.yok.gov.tr/UlusalTezMerkezi/
  • Sezer Başaran, E. (2023) Farklı ortak değişkenlerle test eşitlemenin ortak maddeli test eşitlemeyle karşılaştırılması (Yayın No. 788504) [Doktora tezi, Gazi Üniversitesi]. YÖK. https://tez.yok.gov.tr/UlusalTezMerkezi/
  • Skaggs, G. (2005). Accuracy of random groups equating with very small samples. Journal of Educational Measurement, 42(4), 309-330. https://doi.org/10.1111/j.1745-3984.2005.00018.x
  • Spearman, C. (1907). Demonstration of formular for true measurement of correlation. American Journal of Psychology, 18, 161-169.
  • Stocking, M. L., & Lord, F. M. (1982). Developing a common metric in item response theory. ETS Research Report Series, 1982(1), i-29.
  • Tan, Ş. (2015). Küçük örneklemlerde beta4 ve polynomial loglineer öndüzgünleştirme ve kübik eğri sondüzgünleştirme metotlarının uygunluğu. Gazi Üniversitesi Gazi Eğitim Fakültesi Dergisi, 35(1), 123-151.
  • Tanberkan-Suna, H. (2018). Grup değişmezliği özelliğinin farklı eşitleme yöntemlerinde eşitleme fonksiyonları üzerindeki etkisi (Yayın No. 527064) [Doktora tezi, Gazi Üniversitesi]. YÖK. https://tez.yok.gov.tr/UlusalTezMerkezi/
  • Thorndike,R. L. (1982). Applied psychometrics. Houghton Mifflin.
  • Yurtçu, M., & Güzeller, C. O. (2018). Investigation of equating error in tests with differential item functioning. International Journal of Assessment Tools in Education, 5(1), 50-57. https://doi.org/10.21449/ijate.316420
  • von Davier, A. A. (2008). New results on the linear equating methods for the nonequivalent-groups design. Journal of Educational and Behavioral Statistics, 33(2), 186-203.
  • von Davier, A. A., & Kong, N. (2005). A unified approach to linear equating for the nonequivalent groups design. Journal of Educational and Behavioral Statistics, 30(3), 313-342.
  • Wang, T., Lee, W.C., Brennan, R. L., & Kolen, M. J. (2008). A comparison of the frequency estimation and ed equipercentile methods under the common-item nonequivalent groups design. Applied Psychological Measurement, 32(8), 632-651.
  • Zhu, W. (1998). Test equating: What, why, how? Research Quarterly for Exercise and Sport, 69(1), 11-23.
There are 64 citations in total.

Details

Primary Language English
Subjects Measurement Theories and Applications in Education and Psychology
Journal Section Articles
Authors

Ceren Mutluer 0000-0002-3935-336X

Mehtap Çakan 0000-0001-6602-6180

Early Pub Date October 30, 2023
Publication Date December 15, 2023
Submission Date July 10, 2023
Published in Issue Year 2023 Volume: 36 Issue: 3

Cite

APA Mutluer, C., & Çakan, M. (2023). Comparison of Test Equating Methods Based on Classical Test Theory and Item Response Theory. Uludağ Üniversitesi Eğitim Fakültesi Dergisi, 36(3), 866-906. https://doi.org/10.19171/uefad.1325587