The Effects of Sample Size and Missing Data Rates on Generalizability Coefficients

Sumeyra Soysal; Haydar Karaman; Nuri Dogan

TR EN

Örneklem Büyüklüğünün ve Kayıp Veri Oranının Genellenebilirlik Katsayılarına Etkisi

Abstract

Problem Durumu: Veri toplama ve bu verilerin analiz edilmesinin temele alındığı araştırmalarda karşılaşılma olasılığı olan en önemli problemlerden biri kayıp veridir. Kayıp veri planlanan veri kümesi ile elde edilen veri kümesi arasındaki fark olarak tanımlanabilir. Alan yazın incelendiğinde kayıp veri problemi ölçme araçlarının uygulanması sonucu karşılaşılan yaygın bir problem olmasına karşın, ölçme

Sumeyra SOYSAL - Haydar KARAMAN – Nuri DOGAN

Eurasian Journal of Educational Research 75 (2018) 179-196

195

araçlarının psikometrik özelliklerine etkisi üzerinde pek durulmamıştır. Özellikle ölçme sonuçlarının güvenirliğinin, geçerliğinin, ortalama ayırıcılık ve güçlük gibi istatistiklerin kayıp verilerden nasıl ve ne düzeyde etkilendiği konusu pek araştırılmamıştır. Başarı testi, tutum ölçeği, anketler vb. katılımcılara uygulandığı zaman çeşitli sebeplerle bazı katılımcıların cevap vermemesi durumuna çok sık rastlanır. Katılımcılar ölçme araçlarındaki soruları bir fikri olmaması, uygun bir cevap bulamaması, yanlışlıkla soruyu cevaplamadan atlaması veya cevabını doğru bir şekilde işaretlememesi nedenleriyle boş bırakabilmektedir. Ancak ölçme araçlarına gelen cevaplar azaldıkça ya da kayıp veri arttıkça toplanan bilgi azalacak ve ölçme sonuçlarının geçerliği ve güvenirliğinin düşmesi beklenecektir. Kayıp verilerin eğitim ve psikolojide kullanılan ölçme araçlarının psikometrik özelliklerini etkilemesi kaçınılmaz bir durumdur. Dolayısıyla kayıp verilerin ölçme araçlarının psikometrik özellikleri üzerindeki etkisinin araştırılmasına ihtiyaç olduğu düşünülmektedir.

Araştırmanın Amacı: Belirlenen bu ihtiyaca bağlı olarak kayıp verinin ölçme araçlarının psikometrik özelliklerinden güvenirliğe etkisi üzerinde çalışılmasına karar verilmiştir. Bu yönü ile çalışma diğer çalışmalardan farklılık göstermektedir. Çalışmanın ikinci ve daha önemli bir yönü ise kayıp veri oranının genellenebilirlik (G) ve phi (güvenirlik) katsayısına olan etkisini incelemesidir. Brennan (2001), Genellenebilirlik kuramına dayalı olarak kayıp veriye sahip ölçme sonuçlarından uygun formüllerle herhangi bir cevaplayıcıyı verilerden silmeden genellenebilirlik ve güvenilirlik katsayılarının hesaplanacağını göstermiş ancak kayıp verinin G ve Phi katsayısına olan etkisi herhangi bir araştırmacı tarafından incelenmemiştir. Kayıp verilerin G ve Phi katsayısına etkisi bu araştırmanın temel sorusunu oluşturmaktadır. Ayrıca ikili puanlanan verilerde kayıp veri sorunu ile karşılaşan araştırmacıların en sık başvurdukları yöntemlerden biri kayıp verileri yanlış cevap olarak kabul edip sıfır puan ataması yapmaktır. Bu yaklaşımın güvenirlik kestirimine etkisi, bu çalışmayla cevaplamaya çalışılan bir başka sorudur. Dolayısıyla, bu araştırmada normal dağılım altında zayıf ve güçlü tek boyutluluk özelliği gösteren kayıp verili ve sıfır atamayla elde edilen ölçme sonuçlarının güvenirliğinin değişen örneklem büyüklüleri ve kayıp veri oranlarından nasıl etkilendiği sorusuna yanıt aranmıştır.

Araştırmanın Yöntemi: Güvenirlik kestirimleri, hata kaynaklarına bağlı olarak farklı anlamlarda elde edilen güvenirlik katsayılarını aynı anda değerlendirmeyi sağlayan Genellenebilirlik Kuramı açısından ele alınmıştır. Araştırma sorularına bağlı olarak öncelikle normal dağılım gösteren zayıf ve güçlü tek boyutlu yapılarda farklı örneklem büyüklüğüne (N=100, 200, 400, 1000) sahip tam veri setleri üretilmiştir. Bu setlerden tamamıyla seçkisiz olacak şekilde farklı kayıp veri oranlarında (%5, %10, %20,%30) veriler silinerek kayıp verili setler oluşturulmuştur. Araştırma sonuçları tam veri setleri ile kayıp ve sıfır atama yapılmış veri matrislerinden elde edilen G ve phi katsayılarının ortalamaları karşılaştırılarak değerlendirilmiştir. Ayrıca değerlendirmeleri daha isabetli yapabilmek için hata istatistiklerinden hataların kareleri ortalamasının karekökü (RMSE) ve yanlılık (bias) değerleri hesaplanarak yorumlanmıştır.

196 Sumeyra SOYSAL - Haydar KARAMAN – Nuri DOGAN

Eurasian Journal of Educational Research 75 (2018) 179-196

Araştırmanın Bulguları: Tam veri ile kayıp veri setlerinden elde edilen kestirimler karşılaştırıldığında, zayıf tek boyutlu desenler için kayıp veri oranının %20 ve daha fazla olduğu durumlarda G ve Phi katsayılarının önemli derecede etkilendiği ancak güçlü tek boyutlu desenler de kayıp veri oranın %30 olduğu durumda dahi bu katsayıların minimal düzeyde etkilendiği bulunmuştur. Örneklem büyüklüğünün her bir koşulu için kayıp veri oranı artıkça hata değerlerinin zayıf tek boyutlu verilerde daha fazla arttığı; güçlü tek boyutlu verilerde ise minimal düzeyde arttığı gözlenmiştir. Kayıp veri oranının her bir koşulu için zayıf ve güçlü tek boyutlu verilerin her ikisinde de örneklem büyüklüğü arttıkça hata ve yanlılık değerlerinin ya değişmediği ya da minimal düzeyde azaldığı görülmüştür. Bütün koşullar bir arada değerlendirildiğinde zayıf tek boyutlu verilere ait hata istatistiklerinin güçlü tek boyutlu verilerden elde edilenlere göre daha büyük olduğu gözlenmiştir. Ayrıca özellikle zayıf tek boyutlu verilerde sıfır atama sonucu elde edilen kestirimlerin kayıp veri matrisinden elde edilen kestirimlerden daha düşük ve sıfır atama yöntemine dayalı olarak zayıf tek boyutlu verilerin hata istatistiklerinin güçlü tek boyutlu verilerin hata istatistiklerinden, özellikle %20 ve %30 kayıp veri oranlarında, önemli derecede yüksek olduğu bulunmuştur.

Araştırmanın Sonuçları ve Önerileri: Dolayısıyla sıfır atama yöntemi ile elde edilen güvenirlik kestirimleri yanlı sonuçlar verdiğinden bu yöntemin güvenirlik kestirimlerinde kayıp veri ile baş etme yöntemi olarak kullanılmaması; bunun yerine ölçme sonuçlarının güvenirliğinin hesaplanmasında kayıp veri matrisleri ile analiz yapmaya olanak sağlayan Genellenebilirlik kuramının kullanılması önerilebilir. Ayrıca kayıp veri matrisleriyle ölçme sonuçlarının güvenirliğinin Genellenebilirlik kuramı ile hesaplanabileceğine dikkat çekmek istenilen bu çalışma iki kategorili veriler ile yürütülmüştür. Mevcut analizler çok kategorili veriler için tekrarlanabileceği gibi araştırmada incelenen koşulların farklı düzeylerinde de gerçekleştirilebilir. Bir başka araştırma problemi olan kayıp veri ile baş etme yöntemlerinin ölçme sonuçlarının güvenirliğine etkisi Genellenebilirlik kuramı bağlamında ayrıca incelenebilir.

Keywords

Güvenirlik,G katsayısı,phi katsayısı,sıfır atama,MCAR,genellenebilirlik kuramı,kayıp veri matrisi

The Effects of Sample Size and Missing Data Rates on Generalizability Coefficients

Abstract

Purpose of the Study: Missing data are a common problem encountered while implementing measurement instruments. Yet the extent to which reliability, validity, average discrimination and difficulty of the test results are affected by the missing data has not been studied much. Since it is inevitable that missing data have an impact on the psychometric properties of measurement instruments, it was considered necessary to investigate this topic.Depending on the identified need, a simulative study was conducted on the effects of missing data on reliability. The reliability estimates were discussed in terms of generalizability theory (G theory). Research Methods: Depending on the research questions, complete data sets having different sample sizes (100, 200, 400, 1000) in weak and strong one-dimensional structures under normal distribution were produced. Missing data sets were created by deleting data at different rates (5%, 10%, 20%, 30%) randomly from the complete sets. Findings and Results: When the estimates obtained by missing and complete data sets were compared, it was found that G and phi coefficients were significantly affected for the weak one-dimensional design when the missingness was 20% and more. However, for the strong one-dimensional design, those coefficients were negligibly affected even when the missingness was 30%. Moreover, it was also found that the estimates obtained by missing coded incorrect in particularly weak one-dimensional data were lower than the estimates from missing data matrix. Also error statistics of the weak one-dimensional data based on missing coded incorrect were significantly higher than their strong one-dimensional data counterparts, especially at the rates of 20% and 30% missingness. Implications for Research and Practice Thus, missing coded incorrect is not suggested to be used as a missing data treatment method in reliability estimations. Instead, generalizability theory, which allows us to conduct analysis with missing data in matrices, might be recommended.

Keywords

Reliability,G coefficient,phi coefficient,zero imputation,MCAR,generalizability theory,matrix of missing data

References

Allison, P. D. (2001). Missing data. Thousands Oaks, CA: Sage Publiation.
Atilgan, H. (2013). Sample size for estimation of G and phi coefficients in generalizability theory. Eurasian Journal of Educational Research, 51, 215-227.
Aydilek, İ. B. (2013). Veri kumelerindeki eksik degerlerin yeni yaklasimlar kullanilarak hesaplanmasi. (Unpublished doctoral dissertation). Selcuk University, Institute Of Science, Konya.
Bakis, R., & Goncu S. (2015). Akarsu debi olcumlerinde eksik verilerin tamamlanmasi: Zap suyu havzasi ornegi [Completion of missing data in rivers flow measurement: case study of zab river basin]. Anadolu University Journal of Science and Technology A - Applied Sciences and Engineering, 16(1), 63–79.
Baraldi, A.N., & Enders, C.K. (2009). An introduction to modern missing data analyses. Journal of School Psychology, 48, 5-37. Brennan, R. L. (2001). Generalizability theory. New York: Springer-Verlag
Cheng, H. (2016). Principle components analysis with missing values and outliers. Retrieved April 19, 2016, from http://citeseerx.ist.psu.edu/viewdoc/versions?doi=10.1.1.4.6605&version=3
Cool, A.L. (2000). A review methods for dealing with missing data. Paper presented annual meeting of the Southwest Educational Research Association, Dallas, January 28, TX.
Cum, S., & Gelbal, S. (2015). Kayip veriler yerine yaklasik deger atamada kullanilan farkli yontemlerin model veri uyumu uzerindeki etkisi [The effects of different methods used for value imputation instead of missing values on model data fit statistics]. Mehmet Akif Ersoy University Journal of Education Faculty, 35, 87-111.

Demir, E. (2013). Kayip verilerin varliginda coktan secmeli testlerde madde ve test parametrelerinin kestirilmesi: SBS ornegi [item and test parameters estimations for multiple choice tests in the presence of missing data: the case of SBS]. Journal of Educational Sciences Research, 3 (2), 47-68.
Enders, C.K. (2010). Applied missing data analysis. New York: The Guilford Press.
Graham, J. W. (2009). Missing data analysis: making it work in the real world. The Annual Review of Psychology, 60, 549-566.
Graham, J. W. (2012). Missing data: Analysis and design, statistics for social and behavioral sciences. New York: Springer.
Gu, X., & Matloff, N. (2015). A different approach to the problem of missing data. Retrieved March 20, 2016, from http://arxiv.org/abs/1509.04992
Horton, N. J., & Clainman, K. P. (2007). Much ado about nothing: A comparison of missing data methods and software to fit incomplete data regression models. The American Statistician, 61 (1), 79-90.
Howell, D. C. (2008). The treatment of missing data. In Outwaite, W. & Turner, S. (Ed.), The analysis of missing data. London: Sage Publicaton.
Kose, I. A., & Oztemur, B. (2014). Kayip veri ele alma yontemlerinin t-testi ve ANOVA parametreleri uzerine etkisinin incelenmesi [Examining the effect of missing data handling methods on the parameters of t-test and ANOVA]. Abant İzzet Baysal University Journal of Faculty of Education, 14(1), 400-412.
Little, R. J. A., & Rubin D. R. (1987). Statistical Analysis with Missing Data. New York: John Wiley and Sons.
Little, R. J. A. (1988). A test of missing completely at random for multivariate data with missing values. Journal of the American Statistical Association, 83(404), 1198-1202.
Longford, N.T. (2005). Missing data and small area estimation. New York: Springer. Nakai, M., & Ke, W. (2011). Review of the methods for handling missing data in longitudinal data analysis. İnternational Journal of Math Analysis, 5(1), 1-13.
Nartgun, Z. (2015). Comparison of various methods used in solving missing data problems in terms of psychometric features of scales and measurement results under different missing data conditions. İnternational Online Journal of Educational Sciences, 7(4), 252-265.
Peng, C, J, Harwell, M., Liou, S., & Ehman, L. H., (2002). Advances in missing data methods and implication for educational research. Retrieved March 20, 2016, from www.indiana.edu/~leeehman/missrerfin.pdf
Piggot, T. D. (2001). A review of methods for missing data. Educational Research and Evaluation, 7(4), 353-383.
Rubin, D. R. (1976). Inference and missing data. Biometrika, 63(3), 581-592.
Rubin, L. H., Witkiewitz, K., St. Andre, J., & Reilly, S. (2007). Methods for handling missing data in the behavioral neurosciences: don’t throw the baby rat out with the bath water. The Journal of Undergraduate Neuroscience Education (JUNE), 5(2), A71-A77.
Sari, İ. K. (2012). Karma ayristirma analizinde kayip gozlem tahmin yontemlerinin değerlendirilmesi [Evalution of missing value estimation methods for mixture discriminant analysis]. (Unpublished doctoral dissertation). Selcuk University, Institute Of Science, Konya.
Schafer, J. L., & Olsen, M. K. (1998). Multiple imputation for multivariate missing-data problems: a data analyst's perspective. Multivariate Behavioral Research, 33(4), 545-571.
Schafer, J. L., & Graham, J. W. (2002). Missing data: Our view of the state of the art. Psychological Methods., 7(2), 147-177.
Schlomer, G. L., Bauman, S., & Card, N. A. (2010). Best practices for missing data management in counseling psychology. Journal of Counseling Psychology, 57(1), 1-10.
Ser, G., & Bati, C. T. (2015). Eksik veri analizinde coklu atama yonteminin degerlendirilmesi: Hayvancilikta tekrarli olcum verisi uzerine bir uygulama [Evaluation of multiple ımputation in missing data analysis: an application on repeated measurement data in animal science]. Turkish Journal of Agriculture - Food Science and Technology, 3(12), 926-932.
Shang, F., Liu, Y., Cheng, J., & Cheng, H.(2014). Robust principle component analysis with missing data. İn Proceedings of the 23rd ACM İnternational Conference on Conference on İnformation and Knowledge Management, New York, USA, 1149-1158. DOİ=http://dx.doi.org/10.1145/2661829.2662083.
Soley-Bori, M. (2013). Dealing with missing data: Key assumptions and methods for applied analysis. Technical Report no:4. Boston University, School of Public Health, Department of Helath Policy and Managment. Retrived March 20, 2016, from www.bu.edu/sph/files/2014/05/Marina-tech-report.pdf
Tabachnick, B.G., & Fidel L.S. (2001). Using multivariate statistics (4th ed.). Needham, Heights, MA: Allyn& Bacon.
Weaver, B., & Maxwell, H. (2014). Exploratory factor analysis and reliability analysis with missing data: A simple method for SPSS users. The Quantitative Methods for Psychology, 10(2), 143-152.
Whang, L., Zhang, Z., & Tong, X. (2015). Mediation analysis with missing data through multiple imputation and bootstrap. Quantitative Psychology Research, 140, 341-355.
Yilmaz, H. (2014). Random Forests yonteminde kayip veri probleminin incelenmesi ve saglik alaninda bir uygulama [studying the missing data problem in random forests method and an application in health field]. (Unpublished doctoral dissertation). Eskisehir Osmangazi University, Eskisehir.
Zhu, X.P. (2014). Comparison of four methods for handing missing data in longitudinal data analysis through a simulation study. Open Journal of Statistics, 4, 933-944.

Details

Primary Language

English

Subjects

-

Journal Section

Research Article

Authors

Sumeyra Soysal This is me

Haydar Karaman This is me

Nuri Dogan

Publication Date

May 20, 2018

Submission Date

May 20, 2018

Acceptance Date

-

Published in Issue

Year 2018 Volume: 18 Number: 75

IZ

https://izlik.org/JA62NL49UC

Cite

RIS / Bibtex

APA

Soysal, S., Karaman, H., & Dogan, N. (2018). The Effects of Sample Size and Missing Data Rates on Generalizability Coefficients. Eurasian Journal of Educational Research, 18(75), 179-195. https://izlik.org/JA62NL49UC

AMA

1.Soysal S, Karaman H, Dogan N. The Effects of Sample Size and Missing Data Rates on Generalizability Coefficients. Eurasian Journal of Educational Research. 2018;18(75):179-195. https://izlik.org/JA62NL49UC

Chicago

Soysal, Sumeyra, Haydar Karaman, and Nuri Dogan. 2018. “The Effects of Sample Size and Missing Data Rates on Generalizability Coefficients”. Eurasian Journal of Educational Research 18 (75): 179-95. https://izlik.org/JA62NL49UC.

EndNote

Soysal S, Karaman H, Dogan N (May 1, 2018) The Effects of Sample Size and Missing Data Rates on Generalizability Coefficients. Eurasian Journal of Educational Research 18 75 179–195.

IEEE

[1]S. Soysal, H. Karaman, and N. Dogan, “The Effects of Sample Size and Missing Data Rates on Generalizability Coefficients”, Eurasian Journal of Educational Research, vol. 18, no. 75, pp. 179–195, May 2018, [Online]. Available: https://izlik.org/JA62NL49UC

ISNAD

Soysal, Sumeyra - Karaman, Haydar - Dogan, Nuri. “The Effects of Sample Size and Missing Data Rates on Generalizability Coefficients”. Eurasian Journal of Educational Research 18/75 (May 1, 2018): 179-195. https://izlik.org/JA62NL49UC.

JAMA

1.Soysal S, Karaman H, Dogan N. The Effects of Sample Size and Missing Data Rates on Generalizability Coefficients. Eurasian Journal of Educational Research. 2018;18:179–195.

MLA

Soysal, Sumeyra, et al. “The Effects of Sample Size and Missing Data Rates on Generalizability Coefficients”. Eurasian Journal of Educational Research, vol. 18, no. 75, May 2018, pp. 179-95, https://izlik.org/JA62NL49UC.

Vancouver

1.Sumeyra Soysal, Haydar Karaman, Nuri Dogan. The Effects of Sample Size and Missing Data Rates on Generalizability Coefficients. Eurasian Journal of Educational Research [Internet]. 2018 May 1;18(75):179-95. Available from: https://izlik.org/JA62NL49UC