Year 2018, Volume 9 , Issue 4, Pages 312 - 325 2018-12-28

Mokken Ölçekleme Analizleri Kullanılarak Çoklu Puanlanan Maddelerde Değişmez Madde Sıralamasının İncelenmesi
Examining Invariant Item Ordering Using Mokken Scale Analysis for Polytomously Scored Items

Hakan KOĞAR [1]


Giriş

Testte yer alan maddelerin sıralaması geleneksel olarak madde güçlüğüne göre yapılmaktadır. Ancak bir maddenin diğerinden daha zor olması o maddenin teste ait tüm alt testlerde de aynı güçlük düzeyinde olduğu anlamına gelmez. Örneğin, bir test maddesi düşük yetenek gerektiren bir alt test için zor bir test maddesi olabilirken yüksek yetenek gerektiren bir alt test için tam tersi bir sıralama ortaya çıkabilir (Ligtvoet, 2010). Ancak ölçme uygulamalarında madde sıralaması, maddelerin zorluğuna ya da cazipliğine bağlı olarak tüm katılımcılar için aynı olmalıdır. Örneğin çocuklar için geliştirilen zekâ testlerinde sorular güçlük düzeyine göre sıralanmaktadır (Wechsler, 1999). Bu sıralamanın temel amacı, öğrencinin zor sorularla karşılaştığında panik olmasını engellemek ve performansını teste yansıtmasını sağlamaktır. Diğer amaç ise farklı yaş gruplarında yaş arttıkça alt testlerin güçlük düzeylerinin de artmasını sağlamaktır (Ligtvoet, 2010).

Test maddelerinin sadece madde güçlüğüne göre sıralanması ile ortaya çıkabilecek problemlere çözüm getirebilmek amacıyla değişmez madde sıralaması (DMS) (Sijstma ve Junker, 1996) geliştirilmiştirDMS, madde sıralamasının tüm katılımcılar için aynı olması durumudur ve kullanımının yararlı olduğu pek çok açıdan kanıtlanmıştır. DMS, madde tepki kuramı (MTK) çerçevesinde tanımlanmaktadır. Test maddelerinin DMS’sinin belirlenebilmesi için MTK modellerinin varsayımlarını sağlaması gerekmektedir. Sijtsma ve Junker (1996), DMS’nin yalnızca madde tepki fonksiyonunun (item response function – IRF) kesişmediği MTK modellerinde kullanılabileceğini göstermiştir. DMS, ikili puanlanan veri setlerinde yalnızca Rasch (1960) ve ikili monotonluk modeline (İMM) (Mokken ve Lewis, 1982) uygulanabilmektedir. Çok kategorili puanlanan veri setlerinde ise yalnızca dereceleme ölçeği modeli (Andrich, 1978) ve sınırlandırılmış dereceli tepki modeline (Muraki, 1990) DMS uygulanabilmektedir.

Bu araştırmanın amacı dereceli tepki modeli aracılığıyla elde edilen simülatif veri setlerinde üç farklı Mokken DMS yönteminden elde edilen sıralamayı ihlal eden madde sayısını, toplam ihlale neden olan madde çifti sayısını, test istatistiklerinin ortalamasını ve testin geneline ait HT değerlerini belirlemek ve karşılaştırmaktır.

Yöntem

Çok kategorili puanlanan veri setlerinde yalnızca dereceleme ölçeği modeli (Andrich, 1978) ve sınırlandırılmış dereceli tepki modeli (Muraki, 1990) DMS gösterebilmektedir. Bu araştırmanın veri üretiminde dereceli tepki modeli kullanılmıştır. Her bir veri setine 20 tekrar uygulanmıştır. 2 (madde ayırt edicilik düzeyleri) x 3 (örneklem büyüklüğü) x 2 (madde sayısı) x 3 (yanıt kategorisi) olmak üzere 36 veri seti * 20 tekrar ile 720 veri kümesi elde edilmiştir. Araştırmanın bağımlı değişkenleri sıralamayı ihlal eden madde sayısı, toplam ihlale neden olan madde çifti sayısı, test istatistiklerinin ortalaması ve testin geneline ait HT değerleridir. Veri üretimi WINGEN 2.0 programı ile yapılmıştır.

Tüm simülasyon koşulları 3 (en düşük ihlal katsayısı değerleri) x 2 (madde ayırt edicilik düzeyleri) x 3 (örneklem büyüklüğü) x 2 (madde sayısı) x 3 (yanıt kategorisi) olmak üzere 108 test koşulundan oluşmaktadır. Her bir hücre için Mokken ölçekleme analizleri çerçevesinde ele alınan MIIO, MSCPM ve IT yöntemleri uygulanarak elde edilen sıralamayı ihlal eden madde sayısı, toplam ihlal edilen madde çifti sayısı, test istatistiklerinin ortalaması (t, z ve χ2 değerleri) ve testin geneline ait HT değerlerini belirlenmiştir. Analizler R programındaki Mokken 2.8.10 (Van der ark, 2007) paketi ile gerçekleştirilmiştir.

İkili puanlanan veri setlerinde HT katsayısını Sijstma ve Meijer (1992) geliştirmiştir. Çoklu puanlanan maddelerde, Ligtvoet vd. (2011) bu araştırmanın temel bağımlı değişkeni olan HT katsayısını H ölçeklenebilirlik katsayısının yorumlanmasını genelleştirerek geliştirmiştir. MIIO, MSCPM ve IT yöntemlerinin aynı anda kullanıldığı araştırmalarda elde edilen ortak sıralamayı ihlal eden maddeler testten çıkartılması gereken maddelerdir. Bu ihlalin düzeyi en düşük ihlal katsayısı ile belirlenmekte ve bu değer varsayılan olarak 0.03 olarak ele alınmaktadır. Bu değerin azalması en küçük bir ihlalin bile kabul edilmesi anlamına gelmektedir. İhlalin düzeyi MIIO yönteminde t testi tekniği (t değerleri) ile, MSCPM yönteminde z testi tekniği (z değerleri) ile ve IT yönteminde ki-kare testi tekniği (χ2 değerleri) ile ortaya koyulmaktadır. İstatistiksel olarak anlamlı olacak şekilde ihlale neden olan maddeler sırayla testten çıkartılmalı; eğer iki veya daha fazla madde yüksek düzeyde ihlale sahipse ölçeklenebilirlik katsayısı en düşük olan madde testten çıkartılır (Ligtvoet, 2010).

Sonuç ve Tartışma

Ligvoet (2010) ve Ligtvoet vd. (2011) çok kategorili maddelerde değişmez madde sıralamasına ait geliştirdiği yöntemler ile başlayan bu araştırma alanı oldukça yenidir. Yöntemlerin geliştirildiği bu araştırmalardan sonra bazı uygulama araştırmalarına rastlanmakla birlikte teknik ve kuramsal herhangi bir araştırma literatürde yer almamaktadır. Bu durum özellikle uygulayıcıların hangi yöntemi hangi durumda seçmeleri ve elde edilen katsayıların nasıl yorumlanacağı konusunda kafa karışıklığı yaşayarak zorlanacakları anlamına gelmektedir. Özellikle madde sıralamasının kolaydan zora doğru yapıldığı test uygulamalarında, maddelerin ölçtüğü bilişsel basamakların gelişim özelliklerini yansıttığı veya madde setlerinin hiyerarşik ya da kümelenmiş olduğu durumlarda değişmez madde sıralamalarının belirlenmesi test puanlarının yorumlanması için oldukça büyük bir öneme sahiptir.

Değişmez madde sıralamasının belirlenmesinde elde edilen en önemli bulgular, sıralamayı ihlal eden madde sayısını, toplam ihlale neden olan madde çifti sayısını, test istatistiklerinin ortalamasını ve testin geneline ait HT değerlerini belirlemek olduğu söylenebilir. Bu nedenle bu araştırma bu değişkenlere odaklanmıştır. MSCPM ve IT yöntemlerinin belirlediği sıralamayı ihlal eden madde sayısı ve toplam ihlale neden olan madde çifti sayısı MIIO yönteminden daha fazladır. Bu bulgu Van der Ark’ın (2012) MIIO ve IT yöntemlerinin benzer sayıda madde atılmasını önerdiğini belirttiği çalışması ile farklılık göstermektedir. Ayrıca Ligtvoet (2010) araştırmasında madde sayısının 20 ve cevap kategorisinin beş olduğu durumda IT yönteminin 900 farklı sıralama ihlali ürettiğini belirtmiştir. Bu araştırmada da IT yöntemi 1300’ün üzerinde ihlal üreterek diğer yöntemlerden çok daha fazla sayıda ihlal üretmiştir. Bu iki araştırma bulgusu benzerlik göstermektedir.

MIIO yöntemi tüm simülasyon koşullarında stabil test istatistiği değerleri elde ederken, MSCPM yöntemi örneklem büyüklüğünün 250 ve üstü olduğu durumlarda stabil değerler üretmiştir. Ancak IT yönteminden elde edilen test istatistikleri bir örüntü göstermemektedir. En düşük ihlal katsayısı 0.45 olduğu durumda, 0.03 olduğu duruma göre çok daha yüksek değerler elde edilmesi, IT yöntemi ile elde edilen değerlerin yüksek hata içerdiği hakkında ipucu vermektedir. Bu bulgularla örtüşmemekle birlikte, MSCPM ve IT yöntemlerinden elde edilen HT değerlerinin daha yüksek olduğu belirlenmiştir. MIIO yönteminden elde edilen HT değerlerinin neredeyse tamamında madde sıralamasının kullanımının doğru olmadığı görülmektedir.

Bulgulara genel olarak bakıldığında MIIO yönteminden elde edilen değerlerin en düşük ihlal katsayısından etkilenmemesi ve simülasyon koşullarından düşük düzeyde etkilenmesi gibi nedenlerden dolayı en stabil değerler ürettiği belirlenmiştir. Özellikle ihlal katsayısının 0.03 olduğu durumlarda (Mokken paketindeki varsayılan değer) MIIO yöntemi ile değişmez madde sıralamasının belirlenmesi önerilmektedir. MSCPM yöntemi IT yöntemine benzer bulgular üretmekle birlikte özellikle yüksek örneklem büyüklüklerinde daha stabil değerler üretmektedir. Örneklem büyüklüğü, madde sayısı ve madde ayırt ediciliğinin yüksek olduğu durumlarda kullanılması önerilebilir. Ancak IT yöntemi üzerinde daha fazla çalışma yapılması gerekmektedir. IT yönteminin kullanılması var olan kuramsal bilgi altında önerilmemektedir.

Çok yeni bir alan olan bu konuda kuramsal ve uygulamalı yeni araştırmalara ihtiyaç duyulmaktadır. Değişmez madde sıralamasına ait hata değerlerinin elde edilmesi ve I. tip hata ve güç oranlarının çalışılması önerilebilir. Gerçek veri setleri üzerinde de benzer araştırmaların yapılması gerekmektedir. Özellikle ADMS yöntemi ölçek geliştirme, madde ve kişi sıralama ve geçerlik çalışmaları gibi konularda bir ölçekleme yöntemi olarak kullanılabilir.

The aim of the present study is to identify and compare the number of items violating the item ordering, the total number of item pairs causing violation, the test statistics averages and the HT values of the overall test obtained from three separate Mokken IIO models in the simulative datasets generated by the graded response model. All the simulation conditions were comprised of 108 cells: 3 (minimum coefficient of a violation) x 2 (item discrimination levels) x 3 (sample sizes) x 2 (number of items) x 3 (response categories). MIIO, MSCPM and IT methods were used for data analysis. When the findings were considered in general, it was found that the MIIO method yielded the most stable values due to the fact that it was not affected by the lowest violation coefficient and was affected only slightly by simulation conditions. Especially in conditions where the violation coefficient was 0.03 (the default value in the Mokken package), it was recommended to use the MIIO method in identifying item ordering. Even though the MSCPM method yielded similar findings to those of the IT method, it generated more stable findings in particularly high sample sizes. In conditions where sample size, number of items and item discrimination were high, the MSCPM was recommended to be used.

  • Ahmadi, K., Reidpath, D. D., Allotey, P., & Hassali, M. A. A. (2016). A latent trait approach to measuring HIV/AIDS related stigma in healthcare professionals: application of mokken scaling technique. BMC medical education, 16(1), 155. doi:10.1186/s12909-016-0676-3
  • Andrich, D. (1978). A rating formulation for ordered response categories. Psychometrika, 43(4), 561-573. doi:10.1007/BF02293814
  • Desa, Z. N. (2012). Bi-factor Multidimensional Item Response Theory Modeling for Subscores Estimation, Reliability, and Classification (Doctoral dissertation, University of Kansas).
  • Dodeen, H. (2004). The relationship between item parameters and item fit. Journal of Educational Measurement, 41(3), 261-270. doi:10.1111/j.1745-3984.2004.tb01165.x
  • Gibbons, C. J., Small, N., Rick, J., Burt, J., Hann, M., & Bower, P. (2017). The Patient Assessment of Chronic Illness Care produces measurements along a single dimension: results from a Mokken analysis. Health and quality of life outcomes, 15(1), 61. doi:10.1186/s12955-017-0638-4
  • Lee, C. P., Chen, Y., Jiang, K. H., Chu, C. L., Chiu, Y. W., Chen, J. L., & Chen, C. Y. (2016). Development of a short version of the Aging Males’ Symptoms scale: Mokken scaling analysis and Rasch analysis. The Aging Male, 19(2), 117-123. doi:10.3109/13685538.2016.1157861
  • Ligtvoet, R., Van der Ark, L. A., & Sijtsma, K. (2008). Selection of Alzheimer symptom items with manifest monotonicity and manifest invariant item ordering. New trends in psychometrics, 225-234.
  • Ligtvoet, R. (2010). Essays on invariant item ordering. Unpublished doctoral dissertation, Tilburg University, the Netherlands.
  • Ligtvoet, R., Van der Ark, L. A., te Marvelde, J. M., & Sijtsma, K. (2010). Investigating an invariant item ordering for polytomously scored items. Educational and Psychological Measurement, 70(4), 578-595. doi:10.1177/0013164409355697
  • Ligtvoet, R., Van der Ark, L. A., Bergsma, W. P. & Sijtsma, K. (2011). Polytomous latent scales for the investigation of the ordering of items. Psychometrika, 76, 200-216. doi:10.1007/s11336-010-9199-8
  • Lozano, L. M., García-Cueto, E., & Muñiz, J. (2008). Effect of the number of response categories on the reliability and validity of rating scales. Methodology, 4(2), 73-79. doi:10.1027/1614-2241.4.2.73
  • Maydeu-Olivares, A., Kramp, U., García-Forero, C., Gallardo-Pujol, D., & Coffman, D. (2009). The effect of varying the number of response alternatives in rating scales: Experimental evidence from intra-individual effects. Behavior Research Methods, 41(2), 295-308. doi:10.3758/BRM.41.2.295
  • McGrory, S. (2015). Non-parametric item response theory applications in the assessment of dementia. Unpublished Doctoral Dissertation. University of Arizona.
  • Mokken, R. J., & Lewis, C. (1982). A nonparametric approach to the analysis of dichotomousitem responses. Applied Psychological Measurement, 6, 417-430. doi:10.1177/014662168200600404
  • Muraki, E. (1990). Fitting a polytomous item response model to Likert-type data. Applied Psychological Measurement, 14(1), 59-71. doi:10.1177/014662169001400106
  • Rasch, G. (1960). Probabilistic models for some intelligence and attainment tests. Copenhagen,Denmark: Nielsen & Lydiche.
  • Saiepour, N., Najman, J. M., Clavarino, A., Baker, P. J., Ware, R. S., & Williams, G. (2014). Item ordering of personal disturbance scale (DSSI/sAD) in a longitudinal study; using Mokken scale analysis. Personality and Individual Differences, 58, 37-42. doi:10.1016/j.paid.2013.09.030
  • Sijtsma, K., & Meijer, R. R. (1992). A method for investigating the intersection of item response functions in Mokken’s nonparametric IRT model. Applied Psychological Measurement, 16, 149-157. doi:10.1177/014662169201600204
  • Sijtsma, K., & Junker, B. W. (1996). A survey of theory and methods of invariant item ordering. British Journal of Mathematical and Statistical Psychology, 49(1), 79-105. doi:10.1111/j.2044-8317.1996.tb01076.x
  • Sijtsma, K., Meijer, R. R., & van der Ark, L. A., (2011). Mokken scale analysis as time goes by: An update for scaling procedures. Personality and Individual Differences, 50, 31-37. doi:10.1016/j.paid.2010.08.016
  • Sijtsma, K., & Molenaar, I. W. (2002). Introduction to nonparametric item response theory. Thousand Oaks, CA: Sage. doi:10.4135/9781412984676
  • Stewart, M. E., Allison, C., Baron-Cohen, S., & Watson, R. (2015). Investigating the structure of the autism-spectrum quotient using Mokken scaling. Psychological assessment, 27(2), 596. doi:10.1037/pas0000058
  • Stochl, J., Jones, P. B., & Croudace, T. J. (2012). Mokken scale analysis of mental health and well-being questionnaire item responses: a non-parametric IRT method in empirical research for applied health researchers. BMC Medical Research Methodology, 12(1), 74. doi:10.1186/1471-2288-12-74
  • Van der Ark, L. A. (2012). New developments in Mokken scale analysis in R. Journal of Statistical Software, 48(5), 1-27.
  • Van der Graaf, J., Segers, E., & Verhoeven, L. (2015). Scientific reasoning abilities in kindergarten: dynamic assessment of the control of variables strategy. Instructional Science, 43(3), 381-400. doi:10.1007/s11251-015-9344-y
  • Van Abswoude, A. A., van der Ark, L. A., & Sijtsma, K. (2004). A comparative study of test data dimensionality assessment procedures under nonparametric IRT models. Applied Psychological Measurement, 28(1), 3-24. doi:10.1177/0146621603259277
  • Van Abswoude, A. A., Vermunt, J. K., Hemker, B. T., & van der Ark, L. A. (2004). Mokken scale analysis using hierarchical clustering procedures. Applied Psychological Measurement, 28(5), 332-354. doi:10.1177/0146621604265510
  • Van der Ark, L. A. (2007). Mokken scale analysis in R. Journal of statistical software, 20(11), 1-19.
  • Watson, R., Deary, I. J., & Shipley, B. (2008). A hierarchy of distress: Mokken scaling of the GHQ-30. Psychological medicine, 38(4), 575-579. doi:10.1017/S003329170800281X
  • Wechsler, D. (1999). Wechsler Intelligence Scale for Children: WISC-III: manual. Psykologiförl..
  • Yoon, S., Shaffer, J. A., & Bakken, S. (2015). Refining a self-assessment of informatics competency scale using Mokken scaling analysis. Journal of interprofessional care, 29(6), 579-586. doi:10.3109/13561820.2015.1049340
Primary Language en
Subjects Social
Published Date Kış
Journal Section Articles
Authors

Orcid: 0000-0001-5749-9824
Author: Hakan KOĞAR (Primary Author)
Institution: AKDENİZ ÜNİVERSİTESİ
Country: Turkey


Dates

Publication Date : December 28, 2018

Bibtex @research article { epod412689, journal = {Journal of Measurement and Evaluation in Education and Psychology}, issn = {1309-6575}, eissn = {1309-6575}, address = {}, publisher = {Eğitimde ve Psikolojide Ölçme ve Değerlendirme Derneği}, year = {2018}, volume = {9}, pages = {312 - 325}, doi = {10.21031/epod.412689}, title = {Examining Invariant Item Ordering Using Mokken Scale Analysis for Polytomously Scored Items}, key = {cite}, author = {Koğar, Hakan} }
APA Koğar, H . (2018). Examining Invariant Item Ordering Using Mokken Scale Analysis for Polytomously Scored Items . Journal of Measurement and Evaluation in Education and Psychology , 9 (4) , 312-325 . DOI: 10.21031/epod.412689
MLA Koğar, H . "Examining Invariant Item Ordering Using Mokken Scale Analysis for Polytomously Scored Items" . Journal of Measurement and Evaluation in Education and Psychology 9 (2018 ): 312-325 <https://dergipark.org.tr/en/pub/epod/issue/41688/412689>
Chicago Koğar, H . "Examining Invariant Item Ordering Using Mokken Scale Analysis for Polytomously Scored Items". Journal of Measurement and Evaluation in Education and Psychology 9 (2018 ): 312-325
RIS TY - JOUR T1 - Examining Invariant Item Ordering Using Mokken Scale Analysis for Polytomously Scored Items AU - Hakan Koğar Y1 - 2018 PY - 2018 N1 - doi: 10.21031/epod.412689 DO - 10.21031/epod.412689 T2 - Journal of Measurement and Evaluation in Education and Psychology JF - Journal JO - JOR SP - 312 EP - 325 VL - 9 IS - 4 SN - 1309-6575-1309-6575 M3 - doi: 10.21031/epod.412689 UR - https://doi.org/10.21031/epod.412689 Y2 - 2018 ER -
EndNote %0 Eğitimde ve Psikolojide Ölçme ve Değerlendirme Dergisi Examining Invariant Item Ordering Using Mokken Scale Analysis for Polytomously Scored Items %A Hakan Koğar %T Examining Invariant Item Ordering Using Mokken Scale Analysis for Polytomously Scored Items %D 2018 %J Journal of Measurement and Evaluation in Education and Psychology %P 1309-6575-1309-6575 %V 9 %N 4 %R doi: 10.21031/epod.412689 %U 10.21031/epod.412689
ISNAD Koğar, Hakan . "Examining Invariant Item Ordering Using Mokken Scale Analysis for Polytomously Scored Items". Journal of Measurement and Evaluation in Education and Psychology 9 / 4 (December 2018): 312-325 . https://doi.org/10.21031/epod.412689
AMA Koğar H . Examining Invariant Item Ordering Using Mokken Scale Analysis for Polytomously Scored Items. Journal of Measurement and Evaluation in Education and Psychology. 2018; 9(4): 312-325.
Vancouver Koğar H . Examining Invariant Item Ordering Using Mokken Scale Analysis for Polytomously Scored Items. Journal of Measurement and Evaluation in Education and Psychology. 2018; 9(4): 312-325.