A Comparison of Difficulty Indices Calculated for Open-Ended Items According to Classical Test Theory and Many Facet Rasch Model

Mustafa Ilhan; Nese Guler

Araştırma Makalesi

Açık Uçlu Maddelerde Klasik Test Kuramı ile Çok Yüzeyli Rasch Modeline göre Hesaplanan Güçlük İndekslerinin Karşılaştırılması

Yıl 2018, Cilt: 18 Sayı: 75, 99 - 114, 20.05.2018

Mustafa Ilhan Nese Guler

Öz

Problem Durumu: Klasik test kuramı (KTK) ve çok yüzeyli Rasch modeli (ÇYRM) arasındaki kuramsal farklılıklar alanyazında geniş bir yer tutmasına rağmen bu iki kuramı ampirik açıdan karşılaştıran araştırmaların oldukça sınırlı olduğu görülmektedir. KTK ve ÇYRM’nin karşılaştırılmasına yönelik çalışmalarda üzerinde en fazla durulan konu iki kurama göre hesaplanan güvenirlik değerlerinin ne derece tutarlı olduğudur. Daha yakın zamanda yapılan araştırmalarda ise iki kuramının yetenek kestirimleri ile madde güçlük parametreleri açısından karşılaştırıldığı anlaşılmaktadır. KTK ve ÇYRM’de rapor edilen güvenirlik değerlerinin

112 Mustafa Ilhan - Nese GULER

Eurasian Journal of Educational Research 75 (2018) 99-114

karşılaştırıldığı araştırmalar incelendiğinde, bu çalışmaların kullanılan desen açısından farklılık gösterdiği saptanmıştır. Çalışmaların bir kısmında açık uçlu maddelere verilen öğrenci cevaplarının tamamının aynı puanlayıcı grubu tarafından değerlendirildiği çapraz bir desen kullanılmıştır. Bazılarında ise değerlendirme sürecinde birbirinden farklı puanlayıcı gruplarının görev aldığı yuvalanmış bir desen tercih edilmiştir. Dolayısıyla, konu ile ilgili alanyazındaki mevcut çalışmalar iki kurama göre hesaplanan güvenirlik değerlerinin ne derece tutarlı olduğuna ilişkin kapsamlı bir bilgi sunabilmektedir. Ancak aynı şeyi KTK ile ÇYRM’de hesaplanan madde güçlük indekslerinin karşılaştırılmasına yönelik araştırmalar için söylemek güçtür. Çünkü alanyazında KTK ve ÇYRM’de hesaplanan madde güçlüklerinin karşılaştırıldığı yalnızca bir araştırmaya rastlanmış ve bu çalışmada yuvalanmış bir desenin kullanıldığı belirlenmiştir. İki kurama göre hesaplanan madde güçlüklerinin çapraz bir deseninin kullanıldığı ölçme koşulları altında karşılaştırıldığı bir çalışmaya ise alanyazında rastlanmamıştır. Ayrıca alanyazındaki sözü edilen araştırmada, KTK’ya dayalı madde güçlükleri %25’lik alt ve üst gruba ait ölçümler esas alınarak kestirilirken; ÇYRM’ye ilişkin madde güçlük kestiriminde tüm bireylere ait ölçümler kullanılmıştır. Böylesi bir farkın iki kurama göre hesaplanan madde güçlüklerinin karşılaştırıldığı bir çalışma için önemli olabileceği düşünülmektedir. Bu anlamda, ölçme koşulları açısından alanyazındaki bahsi geçen araştırmadan farklılık gösteren bir çalışma ile KTK ve ÇYRM’de hesaplanan madde güçlüklerinin karşılaştırılması önemli görülmektedir.

Araştırmanın Amacı: Bu araştırmada, açık uçlu maddelerde klasik test kuramı (KTK) ile çok yüzeyli Rasch modeline (ÇYRM) göre hesaplanan güçlük indekslerinin karşılaştırılması amaçlanmıştır.

Araştırmanın Yöntemi: Araştırmanın verileri, sekizinci sınıfa devam eden 375 öğrencinin açık uçlu 10 maddeye verdiği cevabın üç öğretmen tarafından puanlanmasıyla elde edilmiştir. Puanlamalarda dörtlü derecelemeye sahip bütüncül bir rubrik kullanılmıştır. KTK’ya dayalı madde güçlüklerinin hesaplanmasındaki ilk adım, öğrencilerin her bir maddeye verdikleri cevaplar için farklı puanlayıcılar tarafından atanan puanların ortalamasının alınması olmuştur. İkinci adımda tüm maddeler için ayrı ayrı olmak üzere, öğrencilerin maddelerden aldıkların puanların toplamı çalışmadaki katılımcı sayısına bölünmüş ve bu şekilde maddelere ilişkin puan ortalamaları hesaplanmıştır. Daha sonra her bir madde için, ilgili maddeden alınan puanların ortalaması ile maddeden alınabilecek en düşük puan arasındaki fark bulunmuştur. Bulunan bu farkın madde puan ranjına bölünmesiyle KTK dayalı madde güçlük parametrelerine ulaşılmıştır. Madde güçlüklerinin KTK’ya göre hesaplanmasında Microsoft Excel’den yararlanılmıştır. KTK’ya ilişkin analizlerin ardından ÇYRM’ye yönelik analizlere geçilmiştir. Bu kapsamda, FACETS paket programı kullanılarak puanlayıcı, madde ve öğrenci şeklinde üç yüzeyli bir desen ile Rasch analizi gerçekleştirilmiştir. Analiz çıktılarında, madde yüzeyine ilişkin ölçüm raporları incelenerek ÇYRM’ye dayalı madde güçlük parametreleri elde edilmiştir. Madde güçlük indekslerinin KTK ve ÇYRM’ye göre hesaplanmasını takiben, iki kurama göre kestirilen güçlük değerleri arasındaki tutarlılığa bakılmıştır.

Araştırmanın Bulguları: Araştırmadan elde edilen bulgular, iki kurama göre kestirilen güçlük indeksleri arasında yüksek bir tutarlılık olduğunu göstermiştir. Maddeler güçlük düzeyleri açısından bir sıralamaya tabi tutulduğunda KTK ile ÇYRM’de

Mustafa Ilhan - Nese GULER

Eurasian Journal of Educational Research 75 (2018) 99-114

113

ulaşılan sıralamaların özdeş olduğu saptanmış ve iki kurama göre kestirilen güçlük indeksleri arasında pozitif yönde, güçlü ve anlamlı bir korelasyonun (r=.999, p<.001) bulunduğu belirlenmiştir. Her iki kurama göre de başarı testindeki 10 maddenin kolaydan zora doğru; M2, M3, M1, M4, M7, M6=M8, M10, M5 ve M9 şeklinde sıralandığı sonucuna ulaşılmıştır.

Araştırmanın Sonuç ve Önerileri: Araştırma sonuçlarından hareketle, açık uçlu maddeler içeren bir başarı testi geliştirme sürecinde, madde güçlüklerinin KTK veya ÇYRM’ye göre kestirilmiş olmasının teste alınacak ya da test dışında tutulacak maddeler ile ilgili bir farklılık yaratmayacağı söylenebilir. Dolayısıyla açık uçlu maddelerin bulunduğu bir başarı testi geliştirirken KTK ile ÇYRM’den hangisinin tercih edilmesi gerektiğine dair verilecek kararlarda kullanım kolaylığı ve rapor edilen sonuçların ne derece ayrıntılı olduğu gibi kuramlara ilişkin diğer özelliklerin ön plana çıkacağı düşünülmektedir. Örneğin, KTK’nın birçok kişinin daha aşina olduğu bir kuram olması ve bu kurama ilişkin madde analizlerinin Microsoft Excel’de kolaylıkla gerçekleştirilebilmesi araştırmacıların/uygulayıcıların açık uçlu test geliştirme sürecinde KTK’yı daha pratik bir yol olarak görmesine sebep olabilir. KTK’yı ÇYRM’ye göre daha kullanışlı hale getiren bu özelliklerine karşın ÇYRM’nin de KTK’ya kıyasla daha avatanjlı olduğu bazı yönleri bulunmaktadır. Ölçümlerin geçerliği ile güvenirliğinin, madde güçlüklerinin, bireylerinin yetenek düzeylerinin ve puanlayıcıların katılık/cömertliklerinin eş zamanlı olarak hesaplanması, analizde işlem gören tüm yüzeylerin ortak bir metrik (logit) üzerine yerleştirilerek birbiriyle karşılaştırılabilmesi ve analiz çıktıları arasında KTK’da karşılığı olmayan test bilgi fonksiyonunun, kategori istatistiklerinin ve beklenmedik yanıtların yer alması madde güçlük indeksleri açısından benzer sonuçlar üretmesine rağmen ÇYRM’yi KTK’ya göre daha tercih edilebilir bir model haline getirebilecek özelliklerdir.

Anahtar Kelimeler

Açık uçlu maddeler, madde güçlük indeksi, klasik test kuramı, çok yüzeyli Rasch modeli

Kaynakça

Bickman, L., & Rog, D.J. (2009). Applied social research methods. Los Angeles: Sage.
Connaway, L.S., & Powell, R.R. (2010). Basic research methods for librarians. Santa Barbara, CA: Libraries Unlimited.
De Ayala, R.J. (2009). The theory and practice of item response theory. New York: The Guilford.
DeVellis, R.F. (2003). Scale development: Theory and applications. Thousand Oaks, CA: Sage.
Embretson, S.E., & Reise, S.P. (2000). Item response theory for psychologists. Mahwah, NJ: Erlbaum.
Engelhard, G. (1984). Thorndike, Thurstone, and Rasch: A comparison of their methods of scaling psychological and educational tests. Applied Psychological Measurement, 8(1), 21-38. http://dx.doi.org/10.1177/014662168400800104
Furr, R.M., & Bacharach, V.R. (2008). Psychometrics: An Introduction. Thousand Oaks, CA: Sage.
Haiyang, S. (2010). An application of classical test theory and many facet Rasch measurement in analyzing the reliability of an English test for non-English major graduates. Chinese Journal of Applied Linguistics, 33(2), 87–102.
Hambleton, R.K. (2004). Theory, methods, and practices in testing for the 21st century. Psicothema, 16(4), 696-701.
Hambleton, R.K., & Jones, R.W. (1993). Comparison of classical test theory and item response theory and their applications to test development. Educational Measurement: Issues and Practice, 12(3), 38-47. http://dx.doi.org/10.1111/j.1745-3992.1993.tb00543.x
Hambleton, R.K., Swaminathan, H., & Rogers, H.J. (1991). Fundamentals of item response theory. Newbury Park, CA: SAGE Publications, Inc.
Harvey, R.J., & Hammer, A.L. (1999). Item response theory. The Counseling Psychologist, 27(3), 353-383. http://dx.doi.org/10.1177/0011000099273004
Huang, T.W., Guo, G.J., Loadman, W., & Low, F.M. (2014). Rating score data analysis by classical test theory and many-facet Rasch model. Psychology Research, 4(3), 222-231.
İlhan, M. (2016a). A comparison of the results of many-facet Rasch analyses based on crossed and judge pair designs. Educational Sciences: Theory & Practice, 16(2), 579-601. http://dx.doi.org/10.12738/estp.2016.2.0390
İlhan, M. (2016b). A comparison of the ability estimations of classical test theory and the many facet Rasch model in measurements with open-ended questions. Hacettepe University Journal of Education, 31(2), 348-358. http://dx.doi.org/10.16986/HUJE.2016015182
Kadir, K.A. (2013). Examining factors affecting language performance: A comparison of three measurement approaches. Pertanika Journal of Social Sciences & Humanities, 21(3), 1149-1162.
Kelecioğlu, H. (2001). The relationship between b and a parameters in latent trait theory and p and r statistics in classical test theory. Hacettepe University Journal of Education, 20, 104–110.
Kline, T.J.B. (2005). Classical test theory: Assumptions, equations, limitations, and item analyses. In T.J.B. Kline (Ed.), Psychological testing: A practical approach to design and evaluation (pp. 91–105). Thousand Oaks, CA: Sage. http://dx.doi.org/10.4135/9781483385693.n5
Linacre, J.M. (1989). Many-facet Rasch measurement. Chicago: MESA Press.
Linacre, J. M. (2012). Many-facet Rasch measurement: Facets tutorial2. Retrieved December 19, 2018, from http://www.winsteps.com/a/ftutorial2.pdf
Linacre, J.M. (2014). A user's guide to FACETS Rasch-model computer programs. Retrieved December 18, 2018, from http://www.winsteps.com/a/facets-manual.pdf
Lynch, B.K., & McNamara, T.F. (1998). Using G-theory and Many-facet Rasch measurement in the development of performance assessments of the ESL speaking skills of immigrants. Language Testing, 15(2), 158–180. http://dx.doi.org/10.1191/026553298674579408
Lunz, M.E., & Stahl, J.A. (1990, April). Severity of grading across time periods. Paper presented at the Annual Meeting of the American Educational Research Association, Boston. Retrieved January 11, 2018, from https://files.eric.ed.gov/fulltext/ED317602.pdf
MacMillan, P.D. (2000). Classical, generalizability and multifaceted Rasch detection of interrater variability in large sparse data sets. The Journal of Experimental Education, 68(2), 167-190. http://dx.doi.org/10.1080/00220970009598501
Mead, A.D., & Meade, A.W. (2010, April). Item selection using CTT and IRT with unrepresentative samples. Paper presented at the twenty-fifth annual meeting of the Society for Industrial and Organizational Psychology in Atlanta, GA. Retrieved December 22, 2018, from http://mypages.iit.edu/~mead/Mead_and_Meade-v10.pdf
Mulqueen C., Baker D., & Dismukes, R.K. (2000, April). Using multifacet Rasch analysis to examine the effectiveness of rater training. Presented at the 15th Annual Conference for the Society for Industrial and Organizational Psychology (SIOP). New Orleans. Retrieved December 14, 2018, from https://www.air.org/sites/default/files/downloads/report/multifacet_rasch_0.pdf
Prieto, G., & Nieto, E. (2014). Analysis of rater severity on written expression exam using many faceted Rasch measurement. Psicológica, 35, 385-397.
Reckase, M.D. (2009). Multidimensional item response theory. New York, NY: Springer.
Schumacker, R.E. (2010). Classical test analysis. Applied measurement associates LLC. Retrieved December 12, 2018, from http://appliedmeasurementassociates.com/ama/assets/File/CLASSICAL_TEST_ANALYSIS.pdf
Shultz, K.S., & Whitney, D.J. (2005). Measurement theory in action: Case studies and exercises. Thousand Oaks, CA: Sage.
Sudweeks, R.R., Reeve, S., & Bradshaw, W.S. (2005). A comparison of generalizability theory and many-facet Rasch measurement in an analysis of college sophomore writing. Assessing Writing, 9(3), 239–261. https://doi.org/10.1016/j.asw.2004.11.001
Takano, Y., Tsunoda, S., & Muraki, M. (2015). Mathematical optimization models for nonparametric ıtem response theory. Information Science and Applied Mathematics, 23, 1-16.
van der Linden, W.J. (2005). Item response theory. In K. Kempf-Leonard (Ed.), Encyclopedia of social measurement (Vol. 2, pp. 379-387). San Diego, CA: Academic Press.
Wright, B.D. & Linacre, J.M. (1994). Reasonable mean-square fit values. Rasch Measurement Transactions, 8, 370. Retrieved November 23, 2018 from http://www.rasch.org/rmt/rmt83b.htm