TY  - JOUR
T1  - Comparison of Different Forms of a Test with or without Items  that Exhibit DIF
TT  - Bir Testin DMF’li Madde İçeren ve DMF’li Maddeden Arındırılmış Formlarının Karşılaştırılması
AU  - Tulek, Onder Kamil
AU  - Kose, İbrahim Alper
PY  - 2019
DA  - October
JF  - Eurasian Journal of Educational Research
PB  - Özer DAŞCAN
WT  - DergiPark
SN  - 1302-597X
SP  - 167
EP  - 182
VL  - 19
IS  - 83
LA  - en
AB  - Purpose: This research investigates Tests thatinclude DIF items and which are purified from DIF items. While doing this, theability estimations and purified DIF items are compared to understand whetherthere is a correlation between the estimations. Method:The researcher used to R 3.4.1 in order to compare the items and after thissituation; according to manipulated factors, we carried out the data productionunder different circumstances with the help of simulation study. Themanipulated factors were determined levels of sample size (1000, 2000), test length(40, 60) and percentage of DIF (%5,&amp;nbsp;%10). By using the new data eachcondition’s DIF items’ ability estimations were carried out. Afterward, DIFitems purified from the tests and later the abilities were estimated. Thecorrelation between the ability parameters was calculated by using theSpearman&#039;s Rank Correlation Coefficient and these parameters were calculatedseparately according to the eight conditions.Findings: After calculations, all of thecoefficients of correlations (rs)’ values were almost zero (p&amp;lt;0.01). Inother words the test length 40 and 60, sample size 1000 and 2000, percentage ofDIF %5 and %10, when we crossed these parameters in different eight conditions,there was no familiar correlation between the tests that include DIF items andtests of that purified from DIF items. Besides, there was no correlationbetween the tests thinking the ability estimations; if we exclude DIF itemsfrom the tests, the individuals’ test ranking changes, too. Implication for Research and Practice: Thisstudy showed that tests that include DIF items affect the ability estimation ofindividuals. In the frame of this result, teachers, administrators, andpolicymakers should bear in mind tests DIF potential. Also, this study may be carriedout by using various conditions.
KW  - purification
KW  - the estimate of ability
KW  - DIF
N2  - Problem Durumu: Birölçme aracında bulunması gereken yapısal niteliklerden en önemlisi olarak kabuledilen geçerlik, klasik anlamıyla bir ölçme aracının ölçmek istediği özelliğibaşka özelliklerle karıştırmadan ölçebilmesi olarak açıklanabilir. Ancak bir testtenelde edilen puanların test ile ölçülmek istenen özellik dışında farklıdeğişkenlerden de etkilenmesi her ne kadar istenmeyen bir durum da olsapratikte bu durum kaçınılmazdır. Testi alan bireylerin bulunduğu alt gruplarında bu değişkenlerden ne derece etkilendiği önemlidir. Değişkenlerin altgrupları farklı biçimlerde etkilemesi ise madde yanlılığına sebep olabilmektedir. Yanlılığının ilkkoşulu olan Değişen Madde Fonksiyonunun (DMF’nin) bir maddede bulunması omaddenin, maddeyi yanıtlayan farklı alt gruplardan herhangi birine ya dabirkaçına avantaj sağlamasına neden olmaktadır. Bir testin madde ya damaddelerinde DMF’nin bulunabilme ihtimali özellikle sonuçlarına bakarakbireyler hakkında çeşitli kararların alındığı geniş ölçekli sınavlar için ayrıcadikkat edilmesini zorunlu hâle getirmiştir. Öyle ki eğitimin birçok alanında,sıralama ya da seçme amaçlı uygulanan sınavlarda alınan kararlar bireyler içinhayati olabilmekte ve bu sınavların niteliği alınan kararların doğruluğuna,isabetli ve yerinde olmasına direkt olarak etki etmektedir. Peki bahsi geçen yanlı maddelerintestten arındırılması bireyler hakkında verilen hayati kararları değiştirmektemidir? Yanlılık üzerine yapılan birçok çalışmada, SBS, TEOG, ÖSS, PISA, ALES,KPSS gibi geniş ölçekli sınavlarda DMF içeren maddeler tespit edilmiştir Ancakgeniş ölçekli bu sınavlarda DMF içeren maddelerin testten çıkarılmasınınsonuçlar üzerinde nasıl bir etki oluşturduğuna dair; başka bir ifadeyle DMF’limaddelerin testten çıkarılmasıyla yeniden belirlenen sonuçlara göre bireylerinsınavdaki başarı sıralamalarının etkilenip etkilenmediğine dair çalışmalarsınırlı sayıdadır.AraştırmanınAmacı: Bireylerhakkında hayati kararların alındığı sınavlarda belirli bir gruba avantajsağlayan maddelerin testte bulunmasının bireyler arasında eşitsizliğe veadaletsizliğe neden olabileceği düşünülmektedir. Bu nedenle bu maddelerintestten arındırılması gerekli olabilmektedir. Bu düşünceyle gerçekleştirilenaraştırmanın amacı bir testin DMF’li madde içeren ve DMF’li maddedenarındırılmış formlarından kestirilen yetenek kestirimlerinin farklı maddesayısı, farklı örneklem büyüklüğü ve farklı DMF oranı koşulları altındakarşılaştırmaktır.AraştırmanınYöntemi: Araştırmakapsamında araştırmacı tarafından R 3.4.1 paket programı kullanılarak manipüleedilen değişkenlere göre farklı koşullar altında simülasyon çalışmasıyla veriüretimi gerçekleştirilmiştir. Manipüle edilen değişkenler düzeylerine göreörneklem büyüklüğü (n=1000 ve n=2000), madde sayısı (k=40 ve k=60) ve DMF oranı(d=%5 ve d=%10) olarak belirlenmiştir. Değişkenlerin çaprazlanması sonucundasekiz koşulun her birine uygun olacak şekilde DMF’li madde içeren verilerüretilmiştir. Çeşitli düzeylerde DMF’li maddeler içerecek şekilde verilerininüretildiği bir testin öncelikle DMF’li maddeler içeriyorken yetenekkestirimleri gerçekleştirilmiştir. Testin DMF’li maddeler içeren hâliylekestirilen yetenek kestirimlerine θ1 ismi verilerek veriler saklıtutulmuştur. &amp;nbsp;Ardından butestte yer alan DMF’li maddeler testten arındırılarak aynı şekilde yeteneklerkestirilmiştir.&amp;nbsp; Testin DMF’li maddeleriçermeyen hâliyle kestirilen yetenek kestirimleri ise θ2 şeklindesaklanmıştır. Son olarak da aynı testin θ1 ve θ2 adıylaelde edilmiş olan bu kestirimleri arasındaki ilişkiye bakılmıştır. Bu yetenekkestirimleri ilişkisine göre bireylerin sıralamalarının farklılaşıpfarklılaşmadığını tespit etmek amaçlandığı için spearman sıra farklarıkorelasyon analizi uygulanmıştır.AraştırmanınBulguları: Yöntembölümünde özetlenen bir testin DMF’li madde içeren ve DMF’li maddedenarındırılmış formlarından kestirilen yetenek kestirimlerini (θ1 veθ2) arasındaki ilişki düzeyine bakmak için gerçekleştirilen spearman sıra farkları korelasyonanalizi sonucunda elde edilen katsayıların 0’a yakın olmasından dolayı yetenekkestirimleri arasında pozitif ya da negatif yönlü bir ilişki görülmemiştir.Yetenek kestirimleri arasında ilişki görülmemesi ise bireylerin testsonuçlarındaki sıralamalarının değiştiğini işaret etmektedir. Başka birifadeyle test DMF’li maddeden arındırıldıktan sonra bireylerin testtekisıralamaları, bir önceki DMF’li madde içeren test formu sıralamalarına görefarklılaşmıştır. Bu tespit, çeşitli koşulların araştırıldığı tüm altproblemlerde benzer şekilde olmuştur. Başka bir ifadeyle madde sayısının 40 ve60, örneklem büyüklüğünün 1000 ve 2000, DMF oranın %5 ve %10 olarakçaprazlandığı 8 farklı koşulda da testin DMF’li maddeden arındırılmasınınbireylerin sıralamalarını değiştirdiğini belirlenmiştir.AraştırmanınSonuçları ve Öneriler: Buçalışma ile bir testin DMF’li madde içeren ve DMF’li maddeden arındırılmışformlarından kestirilen yetenek kestirimleri arasında ilişki bulunmadığı, başkabir ifadeyle DMF’li maddelerin testten çıkarılmasıyla bireylerin başarısıralamalarının değiştiği sonucuna ulaşılmıştır. Bir testin DMF’li maddelerdenarındırılmasıyla testi alan bireylerin sıralamalarının farklılaşması o testingeçerliğini yani özelliğe sahip olanla olmayanı ayırt etme derecesini problemlihâle getirebilecektir. Öyle ki testte DMF’li madde bulunması testin geçerliğineönemli bir tehdit oluştururken bu maddelerin testten çıkarılmasıyla bireylerinsıralamaları değişiyorsa, yapılan arındırma işleminin önemli bir etkisininolduğu görülmektedir. Bu durum, gerek ulusal gerekse de uluslar arası düzeydebireyler hakkında hayati kararların alındığı, sonuçlarına bakılarak seçme veyerleştirme işlemlerinin gerçekleştirildiği sınavların bireyler arasındakifarklılıkları ölçme derecelerinin sorgulanabilir olduğunu gösterebilmektedir.
CR  - Atalay Kabasakal, K. (2014). The effect of differential item functioning on test equating (Unpublished doctoral dissertation). Hacettepe University, Ankara.Turkey
CR  - Atar, B. &amp; Kamata, A. (2011). Comparison of IRT likelihood ratio test and logistic regression DIF detection procedures. Hacettepe University Journal of Education, 41, 36-47.
CR  - Bakan Kalaycıoğlu, D. &amp; Kelecioğlu, H. (2011). Item Bias Analysis of the University Entrance Examination Education and Science, 36 (161), 3-12.
CR  - Basusta, N. B. (2013). An investigation of item bias in PISA 2006 Science Test in terms of the language and culture (Unpublished mastery dissertation). Hacettepe University, Ankara.Turkey
CR  - Camilli, G. &amp; Shepard, L. A. (1994). Methods for identifying biased test items. Hollywood: Sage.
CR  - Cepni, Z. (2011). Differential item functioning analysis using SIBTEST, Mantel Haenszel, logistic regression and item Response Theory Methods (Unpublished doctoral dissertation). Hacettepe University, Ankara.Turkey
CR  - Chu, K. L. (2002). Equivalent group test equating with the presence of differential item functioning (Unpublished doctorate dissertation). The Florida State University.
CR  - Chu, K. L., ve Kamata, A. (2005). Test equating in the presence of dif items. Journal of Applied Measurement. Special Issue: The Multilevel Measurement Model, 6 (3), 342-354.
CR  - Clauser, E. B., Mazor, K., ve Hambleton, K. R. (1993). The effects of purification of the matching criterion on the identification of DIF using the Mantel-Haenszel procedure. Applied Measurement in Education, 6(4), 269–279.
CR  - Clauser, B. &amp; Mazor, K. (1998). Using statistical procedures to identify differential item functioning test items. Educational Measurement: Issue and Practice, 17, 31-44.
CR  - Corey, D. M., Dunlap P. W. ve Burke, M. J. (1998). Averaging Correlations: Expected values and bias in combined Pearson rs and Fisher&#039;s z transformations. The Journal of General Psychology, 125(3), 245-261, doi: 10.1080/00221309809595548
CR  - Demir, S. (2013). An analysis of the differential item function for the items available in the PISA 2009 mathematics literacy sub-test through Mantel-Haenszel, SIBTEST and logistic regression methods (Unpublished mastery dissertation). Abant İzzet Baysal University, Bolu.Turkey
CR  - Dogan, N. &amp; Ogretmen, T. (2008). The Comparison of Mantel – Haenszel, Chi‐Square and Logistic Regression Techniques For Identifying Differential Item Education and Science,, 33, 100-112.
CR  - Dorans, N. J., &amp; Holland, P. W. (1993). DIF detection and description: Mantel Haenszel and standardization. In P. W. Holland &amp; H. Wainer (Eds.), Differential item functioning (pp. 35-66). Hillsdale, NJ: Erlbaum.
CR  - Erdem, B. (2015). Investigation of common exams used in transition to high schools in terms of differential item functioning regarding booklet types with different methods (Unpublished mastery dissertation). Hacettepe University, Ankara.Turkey
CR  - French, B. F. &amp; Maller, S. J. (2007). Iterative purification and effect size use with logistic regression for differential item functioning detection. Educational and Psychological Measurement, 67(3), 373-393.
CR  - Gok, B., Kelecioglu, H. &amp; Dogan N. (2010). The Comparison of Mantel-Haenszel and Logistic Regression Techniques in Determining the Differential Item Functioning∗ Education and Science, 35(156).
CR  - Hambleton, R. K., Swaminathan, H. ve Rogers, H. J. (1991). Fundamentals of item response theory. USA, California: Sage.
CR  - Han, K. T. (2008). Impact of item parameter drift on test equating and proficiency estimates (Unpublished Doctorate Dissertation). University of Massachusetts, Amherst.
CR  - Holland, P. W., &amp; Thayer, D. T. (1988). Differential item performance and the Mantel Haenszel procedure. In H. Wainer &amp; H. I. Braun (Eds.), Test validity (pp. 129-145). Hillsdale, NJ: Erlbaum.
CR  - Jodoin, G. M., &amp; Gierl, M. J. (2001). Evaluating type I error and power rates using an effect size measure with the logistic regression procedure for DIF detection, Applied Measurement in Education, 14(4), 329-349, doi: 10.1207/S15324818AME1404_2
CR  - Kelecioglu, H. &amp; Gocer Sakin, S. (2014). Validity from Past to Present. Journal of measurement and Evaluation in Education and Psychology. 5(2), 1-11.
CR  - Lee, H. &amp; Geisinger, K. F. (2016). The matching criterion purification for differential item functioning analyses in a large-scale assessment. Educational and Psychological Measurement, 76(1), 141-163.
CR  - Miller, T. R. (1992). Practical considerations for conducting studies of differential item functioning in a CAT environment. Paper presented at the annual meeting of the American Educational Research Association, San Francisco.
CR  - Narayanan, P., &amp; Swaminathan, H. (1996). Identification of items that show non uniform DIF. Applied Psychological Measurement, 20(3), 257–274. doi: https://doi.org/10.1177%2F014662169602000306
CR  - Ogretmen, T. (2006). The investigation of psychometric properties of the test of progress in international reading literacy (PIRLS) 2001: The model of Turkey-United States of America (Unpublished doctorate dissertation). Hacettepe University, Ankara.Turkey
CR  - Turhan, A. (2006). Multilevel 2PL item response model vertical equating with the presence of differential item functioning. Unpublished doctorate dissertation, The Florida State University.
CR  - Turgut, M. F. &amp; Baykul, Y. (2015). Measurement and Evaluation in Education (7. Baskı). Ankara: Pegem Akademi.
CR  - Yildırim, A. (2017). Investigation of differential item functioning of the items in PISA 2009 reading literacy test through univariate and multivariate matching dif (Unpublished dostoral dissertation). Ankara Üniversity, Ankara, Turkey
CR  - Yurdugul, H. (2003). The Investigation of the student selection and placement examination for secondary education in terms of item bias (Unpublished dostoral dissertation). Hacettepe University, Ankara.Turkey
CR  - Zumbo, B. D. (1999). A handbook on the theory and methods of differential item functioning (DIF): Logistics regression modeling as a unitary framework for binary and Likert-type (ordinal) item scores. Ottawa, ON: Directorate of Human Resources Research and Evaluation, Department of National Defense.
CR  - Zwick, R., Thayer, D. T., &amp; Wingersky, M. (1995). Effect of Rasch calibration on ability and DIF estimation in computer-adaptive tests. Journal of Educational Measurement, 32, 341–363.
CR  - Zwick R. (2000). The assessment of differential item functioning in comput adaptive tests. In van der Linden W. J., Glas G.A. (eds) Computerized Adaptive Testing: Theory and Practice. Springer, Dordrecht.
UR  - https://dergipark.org.tr/tr/pub/ejer/issue//648560
L1  - https://dergipark.org.tr/tr/download/article-file/857960
ER  -