BibTex RIS Kaynak Göster

Scientific Revolution in Turkish Education and Science : Tests or Measurement Instruments are not Reliable and Valid

Yıl 2011, Sayı: 16, 116 - 132, 01.06.2011

Öz

Reliability and validity are very often misunderstood. Tests or measurement instruments are not reliable and valid. Because, reliability is a characteristic of scores, as for validity is a property of interpretations and uses of scores. Reliability and validity are population or sample or group dependent concepts. As for reliability coefficients, validity coefficients fluctuate from population to population, from sample to sample as well. It is not correct to use the statements such as “the reliability of the test”, “the validity of the scale”, “the validity of assessment” or “measurement instrument is reliable”. Thus, it is more appropriate to use the term “score reliability” instead of “test reliability”. As to validity claims should be made in relation to specific uses and interpretations of test scores.

Kaynakça

  • AERA, APA & NCME [American Educational Research Association, American Psychological
  • Association & National Council on Measurement in Education]. (1999). Standards for Educational and Psychological Testing. Washington, DC: American Educational Association.
  • Algina, J. (1992). Reliability of Measurement. In Alkin, M. C. (Ed.), Encyclopedia of
  • Educational Research, Vol. 3. (Sixth Edition). New York: Macmillan.
  • Allen, M. J. & Yen, W. M. (1979). Introduction to Measurement Theory. Monterey, California: Brooks/Cole.
  • Anastasi, A. & Urbina, S. (1997). Psychological Testing. (Seventh Edition). Upper Saddle River, New Jersey: Prentice-Hall.
  • Anastasi, A. (1992). What Counselors Should Know About the Use and Interpretation of Psychological Tests. Journal of Counseling and Development, Vol. 70, 610-615.
  • Aycock, T. (1993). It is Incorrect to Say “the Test is Reliable”: A Review of the Literature and Implications for Research Practice. (ERIC Document Reproduction Service No. ED 355 275).
  • Bademci, V. (2010). Türk Eğitim ve Biliminde Paradigma Değişikliği: Testler veya Ölçekler Güvenilir ve Geçerli Değildir. Konferans. Düzenleyen: Gazi Üniversitesi, Endüstriyel Sanatlar Eğitim Fakültesi Dekanlığı. Ankara: G.Ü. Gazi Eğitim Fakültesi, Resim-İş Eğitimi Anabilim Dalı Konferans Salonu, 26 Nisan. [Konferansla ilgili haber için; Gazi Haber, Nisan 2010, Sayı 104, Sayfa 48-49.]
  • Bademci, V. (2008). Araştırmalarda Ölçme ile İlgili Bazı Büyük Hataları Düzeltmek ve Eğitimde Yeniden Yapılanmayı Sürdürmek: Güvenirlik, Testlerin Bir Özelliği Değildir. Gazi Üniversitesi Endüstriyel Sanatlar Eğitim Fakültesi Dergisi, Sayı 22, 50-69. (http://www.esef.gazi.edu.tr/html/yayinlar/22_pdf/22_5.pdf )
  • Bademci, V. (2007). Ölçme ve Araştırma Yöntembiliminde Paradigma Değişikliği: Testler Güvenilir Değildir. Ankara: Yenyap Yayınları.
  • Bademci, V. (2006a). Güvenirliği Doğru Anlamak ve Bazı Klişeleri Yıkmak: Bilinenlerin Aksine, Cronbach’ın Alfa Katsayısı, Negatif ve –1’den Küçük Olabilir. İnönü Üniversitesi Eğitim Fakültesi Dergisi, Cilt 7, Sayı 12, 3-26. (http://web.inonu.edu.tr/~efdergi/arsiv/bademci.pdf )
  • Bademci, V. (2006b). Tartışmayı Sonlandırmak: Cronbach’ın Alfa Katsayısı, İki Değerli [0,1] Ölçümlenmiş Maddeler ile Kullanılabilir. Kazım Karabekir Eğitim Fakültesi Dergisi, Sayı 13, 438-446. (http://e- dergi.atauni.edu.tr/index.php/kkefd/article/viewFile/4116/3940)
  • Bademci, V. (2006c). Paradigma Değişikliği: Testler Güvenilir Değildir. Konferans. Düzenleyen: Gazi Üniversitesi, Endüstriyel Sanatlar Eğitim Fakültesi Dekanlığı. Ankara: G.Ü. Mesleki Eğitim Fakültesi Konferans Salonu, 28 Nisan. [Konferansla ilgili haber için; Gazi Haber, Nisan 2006, Sayı 66, Sayfa 64.]
  • Bademci, V. (2005a). Araştırmalarda Ölçme ile İlgili Bazı Büyük Hataları Düzeltmek ve Bir Reformu Başlatmak: Güvenirlik, Testlerin Bir Özelliği Değildir. Bildiri. Eğitim Fakültelerinde Yeniden Yapılandırmanın Sonuçları ve Öğretmen Yetiştirme Sempozyumu. Ankara: Gazi Üniversitesi, Gazi Eğitim Fakültesi, 22-23-24 Eylül.
  • Bademci, V. (2005b). Testler Güvenilir Değildir: Ölçüm Güvenirliğine Yeterli Dikkat ve Güvenirlik Çalışmaları İçin Örneklem Büyüklüğü. Gazi Üniversitesi Endüstriyel Sanatlar Eğitim Fakültesi Dergisi, Sayı 17, 33-45. (http://www.esef.gazi.edu.tr/html/yayinlar/17_pdf/17_c.pdf )
  • Bademci, V. (2005c). Hakemlerin Değerlendirmelerindeki Hatalar Üzerine: Fisher’in Z Dönüşümü ve Güvenirlik Çalışmaları İçin Örneklem Büyüklüğü. Gazi Üniversitesi Endüstriyel Sanatlar Eğitim Fakültesi Dergisi, Sayı 17, 46-75. (http://www.esef.gazi.edu.tr/html/yayinlar/17_pdf/17_d.pdf )
  • Bademci, V. (2004). Testin Güvenirliği” veya “Test Güvenilirdir” Diye İfade Etmek Doğru Değildir. Türk Eğitim Bilimleri Dergisi, Cilt 2, 367–373. (http://www.tebd.gazi.edu.tr/c2s3.html ) (http://www.tebd.gazi.edu.tr/arsiv/2004_cilt2/sayi_3/367-373.pdf )
  • Bademci, V. (2002). Türkiye'deki Okullar Ne İşe Yarar? Türkiye'nin Anomi, Yabancılaşma, Ekonomik Büyüme, Demokratikleşme Sorunlarına Çözüm Önerisi. Konferans. Düzenleyen: ESEF Öğrenci Bilimsel Faal. Org. Kom. Ankara: G.Ü.Mesleki Eğitim Fakültesi Konferans Salonu, 30 Mayıs 2002.
  • Bademci, V. (2001a). Düşünmenin Öğretilmesi ve Öğretimde Kullanılan Yöntemler-Teknikler. Konferans. Düzenleyen: TÜRMOB. Bursa: Bursa SMMM Odası Konferans Salonu, 9 Kasım 2001.
  • Bademci, V. (2001b). Türkiye'deki Okullar Ne İşe Yarar? Konferans. Düzenleyen: Ankara Türk Telekom Anadolu Teknik L. Ankara: Başkent Öğretmenevi Konferans Salonu, 9 Aralık 2001.
  • Bademci, V. (2000). Türkiye’deki Okullar Ne İşe Yarar? (Birinci Basım). Ankara: Başkent Basım Yayın Dağıtım.
  • Barnes, L. L. B., Harp, D. & Jung, W. S. (2002). Reliability Generalization of Scores on the Spielberger State-Trait Anxiety Inventory. Educational and Psychological Measurement, Vol. 62, 603-618.
  • Bernstein, J. (2006). Albert Einstein. Fiziğin Sınırları. (Çev.: Uzunefe Yazgan, Y.). (Birinci Basım). Ankara: TÜBİTAK.
  • Beycioğlu, K. (2007). Alfa Güvenirliği ve Eğitim Araştırmaları. Çağdaş Eğitim, 347, 37-42.
  • Borsboom, D., Romeijn, J-W. & Wicherts, J. M. (2008). Measurement Invariance Versus Selection Invariance: Is Fair Selection Possible? Psychological Methods, Vol. 13(2), 75-98.
  • Brennan, R. L. (Ed.) (2006a). Educational Measurement. (Fourth Edition). Westport, CT: American Council on Education & Praeger.
  • Brennan, R. L. (2006b). Perspectives on the Evolution and Future of Educational Measurement. In Brennan, R. L. (Ed.), Educational Measurement. (Fourth Edition). Westport, CT: American Council on Education & Praeger.
  • Brennan, R. L. (2001). Generalizability Theory. New York: Springer.
  • Brookhart, S. M. & Nitko, A. J. (2008). Assessment and Grading in Classrooms. Upper Saddle River, New Jersey: Pearson/Prentice Hall.
  • Buhi, E. R. (2005). Reliability Reporting Practices in Rape Myth Research. Journal of School Health, Vol. 75, 63- 66.
  • Capraro, R. M. & Capraro, M. M. (2002). Myers-Briggs Type Indicator Score Reliability Across Studies: A Meta-Analytic Reliability Generalization Study. Educational and Psychological Measurement, Vol. 62, 590-602.
  • Cebeci, S. (2006). “The Examination of Guidance and Research Centers’ Administrators’ Conflict Management Strategies with the Perceptions of Self and Teachers”. Unpublished Master’s Thesis. Ankara: Middle East Technical University, The Graduate School of Social Sciences.
  • Chartrand, J. M. & Walsh, W. B. (2001). Career Assessment: Changes and Trends. In Leong, F. T. L. & Barak, A. (Eds.), Contemporary Models in Vocational Psychology. A Volume in Honor of Samuel H. Osipow. Mahwah, New Jersey: Lawrence Erlbaum.
  • Crocker, L. & Algina, J. (1986). Introduction to Classical and Modern Test Theory. Fort Worth: Holt, Rinehart and Winston.
  • Cronbach, L. J. (1988). Five Perspectives on the Validity Argument. In Wainer, H. & Braun, H. I. (Eds.), Test Validity. Hillsdale, New Jersey: Lawrence Erlbaum.
  • Cronbach, L. J. (1982). Designing Evaluations of Educational and Social Programs. San Francisco: Jossey-Bass.
  • Cronbach, L. J. (1971). Test Validation. In Thorndike, R. L. (Ed.), Educational Measurement. (Second Edition). Washington, D. C.: American Council on Education.
  • Cureton, E. E. (1951). Validity. In Lindquist, E. F. (Ed.), Educational Measurement. Washington, D. C.: American Council on Education.
  • Ebel, R. L. & Frisbie, D. A. (1991). Essentials of Educational Measurement. (Fifth Edition). Englewood Cliffs, New Jersey: Prentice Hall.
  • Feldt, L. S. & Brennan, R. L. (1989). Reliability. In Linn, R. L. (Ed.), Educational Measurement. (Third Edition). New York: American Council on Education & Macmillan.
  • Frisbie, D. A. (2005). Measurement 101: Some Fundamentals Revisited. Educational Measurement: Issues and Practice, Vol. 24(3), 21-28.
  • Gazi Haber (2010). Türk Eğitim ve Biliminde Paradigma Değişikliği: Testler veya Ölçekler Güvenilir ve Geçerli Değildir. Nisan 2010, Sayı 104, 48-49.
  • Gage, N. L. (1963). Paradigms for Research on Teaching. In Gage, N. L. (Ed.), Handbook of Research on Teaching. Chicago: Rand MçNally & Company.
  • Gray, B. T. (1997). Controversies Regarding the Nature of Score Validity: Still Crazy After All These Years. (ERIC Document Reproduction Service No. ED 407 414).
  • Gronlund, N. E. (1998). Assessment of Student Achievement. (Sixth Edition). Boston: Allyn & Bacon.
  • Gronlund, N. E. & Waugh, C. K. (2009). Assessment of Student Achievement. (Ninth Edition). Upper Saddle River, New Jersey: Pearson.
  • de Gruijter, D. N. M. & van der Kamp, L. J. T. (2008). Statistical Test Theory for the Behavioral Sciences. Boca Raton, FL: Chapman & Hall / CRC
  • Guilford, J. P. (1954). Psychometric Methods. (Second Edition). New York: McGraw-Hill.
  • Guilford, J. P. & Fruchter, B. (1973). Fundamental Statistics in Psychology and Education (Fifth Edition). New York: McGraw-Hill.
  • Gulliksen, H. (1950). Theory of Mental Tests. New York: John Wiley & Sons.
  • Guthrie, A. C. (2000). A Review of Coefficient Alpha and Some Basic Tenets of Classical Measurement Theory. (ERIC Document Reproduction Service No. ED 438 307).
  • Hambleton, R. K. & Jones, R. W. (1993). Comparison of Classical Test Theory and Item Response Theory and Their Applications to Test Development. Educational Measurement: Issues and Practice, Vol. 12 (3), 38-47.
  • Hambleton, R. K., Swaminathan, H. & Rogers, H. J. (1991). Fundamentals of Item Response Theory. Newbury Park: Sage.
  • Henson, R. K. (2000). Sacrificing Reliability and Exalting Sampling Error at the Altar of Parsimony: Some Cautions Concerning Short-Form Test Development. (ERIC Document Reproduction Service No. ED 447 211).
  • Hopkins, K. D. (1998). Educational and Psychological Measurement and Evaluation. (Eight Edition). Boston: Allyn & Bacon.
  • Hotaman, D. & Yüksel-Şahin, F. (2010). The Effect of Instructors’ Enthusiasm on University Students’ Level of Achievement. Education and Science [Eğitim ve Bilim], Vol. 35(155), 89-103.
  • House, E. R. (1977). The Logic of Evaluative Argument. CSE Monograph Series in Evaluation, No. 7. Los Angeles: Center for the Study of Evaluation.
  • Kane, M. T. (2008). Terminology, Emphasis, and Utility in Validation. Educational Researcher, Vol. 37(2), 76-82.
  • Kane, M. T. (2006a). Validation. In Brennan, R. L. (Ed.), Educational Measurement. (Fourth Edition). Westport, CT: American Council on Education & Praeger.
  • Kane, M. (2006b). Content-Related Validity Evidence in Test Development. In Downing S. M. & Haladyna, T. M. (Eds.), Handbook of Test Development. Mahwah, New Jersey: Lawrence Erlbaum.
  • Kane, M. (2004). Certification Testing as an Illustration of Argument-Based Validation. Measurement, Vol. 2(3), 135-170.
  • Kane, M. T. (2001). Current Concerns in Validity Theory. Journal of Educational Measurement, Vol. 38, 319-342.
  • Kane, M. (1996). The Precision of Measurements. Applied Measurement in Education, Vol. 9(4), 355-379.
  • Kane, M. T. (1992). An Argument-Based Approach to Validity. Psychological Bulletin, Vol. 112(3), 527-535.
  • Kane, M. T. (1990). An Argument-based Approach to Validation. ACT Research Report Series, 90-13. Iowa City, Iowa: ACT.
  • Kartal, H. (2009). Öğretmen Adaylarının Uygulama Okullarındaki Zorbalıkla İlgili Değerlendirmeleri. GÜ, Gazi Eğitim Fakültesi Dergisi, Cilt 29(1), 141-172.
  • Kartal, E. & Pekkanlı, İ. (2011). Yabancı Dil Öğretmen Adaylarının Anadil ve Yabancı Dilde İnternet Üzerinden Okuma Alanları ve Sıklıkları. International Journal of Human Sciences, Vol. 8(1), 1316-1326.
  • Kieffer, K. M. & Reese, R. J. (2002). A Reliability Generalization Study of the Geriatric Depression Scale. Educational and Psychological Measurement, Vol. 62, 969-994.
  • Kieffer, K. M. (1999). Why Generalizability Theory is Essential and Classical Test Theory is Often Inadequate. In Thompson, B. (Ed.), Advances in Social Science Methodology, Volume 5. Stamford, Connecticut: JAI.
  • Korkmaz, A. (2010). “Vahit Bademci’nin Paradigma Değişikliği Üzerine Bir Araştırma: “Testler Değil, Ölçümler Güvenilirdir” ”. Yayımlanmamış Yüksek Lisans Tezi. Zonguldak: Zonguldak Karaelmas Üniversitesi, Sosyal Bilimler Enstitüsü.
  • Kubiszyn, T. & Borich, G. (1993). Educational Testing and Measurement. Fourth Edition. New York: HarperCollins College Publishers.
  • Kuhn, T. S. (1995). Bilimsel Devrimlerin Yapısı. (Çev.: Kuyaş, N.). (Dördüncü Baskı). İstanbul: Alan Yayıncılık.
  • Langenfeld, T. E. & Crocker, L. M. (1994). The Evolution of Validity Theory: Public School Testing, the Courts, and Incompatible Interpretations. Educational Assessment, Vol. 2(2), 149-165.
  • Le, V-N. & Klein, S. P. (2002). Technical Criteria for Evaluating Tests. In Hamilton, L. S., Stecher, B. M. & Klein, S. P. (Eds.), Making Sense of Test-Based Accountability in Education. Santa Monica, CA: RAND.
  • Linn, R. L. (2002). Validation of the Uses and Interpretations of Results of State Assessment and Accountability Systems. In Tindal, G. & Haladyna, T. M. (Eds.), Large-Scale Assessment Programs for All Students: Validity, Technical Adequacy, and Impletation. Mahwah, New Jersey: Lawrence Erlbaum Associates.
  • Linn, R. L. (1995). Assessment-Based Reform: Challanges to Educational Measurement. Princeton, New Jersey: Educational Testing Service.
  • Linn, R. L. & Gronlund, N. E. (2000). Measurement and Assessment in Teaching. (Eighth Edition). Upper Saddle River, New Jersey: Pearson.
  • Linn, R. L. & Miller, M. D. (2005). Measurement and Assessment in Teaching. (Ninth Edition). Upper Saddle River, New Jersey: Merrill.
  • Lord, F. M. & Novick, M. R. (1968). Statistical Theories of Mental Test Scores. Reading, Massachusetts: Addison-Wesley.
  • Magnusson, D. (1967). Test Theory. Massachusetts: Addison-Wesley.
  • McHorney, C. A. (1999). Health Status Assessment Methods for Adults: Accomplishment and Future Challanges. Annual Review of Public Health, Vol. 20, 309-335.
  • McMillan, J. H. (2007). Classroom Assessment. Principles and Practice for Effective Instruction. (Fourth Edition). Boston: Allyn and Bacon.
  • Mehrens, W. A. & Lehmann, I. J. (1991). Measurement and Evaluation in Education and Psychology. (Fourth Edition). Fort Worth: Harcourt Brace.
  • Mellenbergh, G. J. (1999). A Note on Simple Gain Score Precision. Applied Psychological Measurement, Vol. 23, 87-89.
  • Mellenbergh, G. J. (1996). Measurement Precision in Test Score and Item Response Models. Psychological Methods, Vol. 1(3), 293-299.
  • Mellenberg, G. J. & van den Brink, W. (1998). The Measurement of Individual Change. Psychological Methods, Vol. 3(4), 470-485.
  • Messick, S. (1995). Validity of Psychological Assessment. Validation of Inferences From Person’s Responses and Performances as Scientific Inquiry into Score Meaning. American Psychologist, Vol. 50, 741-749.
  • Messick, S. (1989). Validity. In Linn, R. L. (Ed.), Educational Measurement. (Third Edition). New York: American Council on Education & Macmillan.
  • Miller, C. S., Shields, A. L., Campfield, D., Wallace, K. A. & Weiss, R. D. (2007). Substance Use Scales of the Minnesota Multiphasic Personality Inventory. An Exploration of Score Reliability Via Meta-Analysis. Educational and Psychological Measurement, Vol. 67, 1052-1065.
  • Mji, A. & Onwuegbuzie, A. J. (2004). Evidence of Score Reliability and Validity of the Statistical Anxiety Rating Scale Among Technikon Students in South Africa. Measurement and Evaluation in Counseling and Development, Vol. 36, 238-251.
  • Murhpy, K. R. & Davidshofer, C. O. (2001). Psychological Testing. Principles and Applications. (Fifth Edition). Upper Saddle River, New Jersey: Prentice Hall.
  • Nilsson, J. E., Schmidt, C. K. & Meek, W. D. (2002). Reliability Generalization: An Examination of the Career Decision-Making Self-Efficacy Scale. Educational and Psychological Measurement, Vol. 62, 647-658.
  • Nitko, A. J. (2001). Educational Assessment of Students. (Third Edition). Upper Saddle River, New Jersey: Merrill/ Prentice-Hall.
  • Norton, D. (2001). Giriş. “Yerleşik Düşünceler: Verip Veriştirmek”. Bouvet, J-F. (Haz.), Ispanaktaki Demir ve Diğer Yerleşik Düşünceler Üzerine. (Çev.; Atuk, E.). İstanbul: YKY.
  • Özsoy, S., Keleş, Ö. & Uzun, N. (2009). Fen Bilgisi Eğitimi Alanında Hazırlanan Yüksek Lisans Tezlerindeki Yöntem ve İstatistiksel Analiz Hataları. 1. Uluslararası Türkiye Eğitim Araştırmaları Kongresi. Çanakkale: Çanakkale Onsekiz Mart Üniversitesi, 1-3 Mayıs. (http://oc.eab.org.tr/egtconf/pdfkitap/pdf/238.pdf) 11 Kasım 2009’da alınmıştır.
  • Pedhazur, E. J. & Schmelkin, L. P. (1991). Measurement, Design, and Analysis. An Integrated Approach. Hillsdale, New Jersey: Lawrence Erlbaum.
  • Reynolds, C. R., Livingston, R. B. & Willson, V. (2009). Measurement and Assessment in Education. (Second Edition). Upper Saddle River, New Jersey: Pearson.
  • Rouse, S. V. (2007). Using Reliability Generalization Methods to Explore Measurement Error: An Illustration Using the MMPI-2 PSY-5 Scales. Journal of Personality Assessment, Vol. 88(3), 264-275.
  • Ragan, B. G. & Kang, M. (2005). Reliability: Current Issues and Concerns. Athletic Therapy Today, Vol. 10(6), 30-33.
  • Rowley, G. R. (1976). The Reliability of Observational Measures. American Educational Research Journal, Vol. 13, 51-59.
  • Sawilowsky, S. S. (2000). Psychometrics Versus Datametrics: Comment on Vacha-Haase’s “Reliability Generalization” Method and Some EPM Editorial Policies. Educational and Psychological Measurement, Vol. 60, 157-173.
  • Sayın, S. (2010). Bilimsel Araştırmalarda Yapılan İstatistiksel ve Yöntembilimsel Hatalar-II: Grafik, Tablo ve Gösterim Hataları. Türk Eğitim Bilimleri Dergisi, Cilt 8(1), 117-143.
  • Sayın, S. (2008). Bilimsel Araştırmalarda Yapılan Bazı İstatistiksel ve Yöntembilimsel Hatalar- III: Güvenirlik Kestirimlerine Yönelik Hatalar. Mehmet Akif Ersoy Üniversitesi Eğitim Fakültesi Dergisi, Sayı 15, 53-69.
  • Sever, E. (2008). “Öğrenme Stilleri: İlköğretim 6-8. Sınıf Öğrencilerine Yönelik Bir Ölçek Geliştirme Çalışması”. Yayımlanmamış Yüksek Lisans Tezi. Aydın: Adnan Menderes Üniversitesi, Sosyal Bilimler Enstitüsü.
  • Serdar, Z. (2001). Thomas Kuhn ve Bilim Savaşları. (Çev.: Kılıç, E.). İstanbul: Everest.
  • Sireci, S. G. (2005). Unlabeling the Disabled: A Perspective on Flagging Scores From Accommodated Test Administrations. Educational Researcher, Vol. 34(1), 3-12.
  • Sireci, S. G. & Parker, P. (2006). Validity on Trial: Psychometric and Legal Conceptualizations of Validity. Educational Measurement: Issues and Practice, Vol. 25(3), 27-34.
  • Stanley, J. C. (1971). Reliability. In Thorndike, R. L. (Ed.), Educational Measurement. (Second Edition). Washington, D.C.: American Council on Education.
  • Streiner, D. L. & Norman, G. R. (1995). Health Measurement Scales. (Second Edition). Oxford: Oxford University Pres.
  • Suen, H. K. (1990). Principles of Test Theories. Hillsdale, New Jersey: Lawrence Erlbaum.
  • Superfine, B. M. (2004). At the Intersection of Law and Psychometrics: Explaining the Validity Clause of No Child Left Behind. Journal of Law & Education, Vol. 33(4), 475-513.
  • Thompson, B. (Ed.) (2003). Score Reliability. Contemporary Thinking on Reliability Issues. Thousand Oaks, California: Sage.
  • Thompson, B. (2001). Significance, Effect Sizes, Stepwise Methods and Other Issues: Strong Arguments Move the Field. The Journal of Experimental Education, Vol. 70, 80-93.
  • Thompson, B. & Vacha-Haase, T. (2000). Psychometrics is Datametrics: The Test is Not Reliable. Educational and Psychological Measurement, Vol. 60, 174-195.
  • Thorndike, R. L. (1982). Applied Psychometrics. Boston: Houghton Mifflin.
  • Topdemir, H. G. (2002). Kuhn ve Bilimsel Devrimlerin Yapısı Üzerine Bir Değerlendirme. Felsefe Dünyası, Sayı 36, 45-62.
  • Toulmin, S. E. (2003). The Uses of Argument. (Updated Edition). New York: Cambridge.
  • Toulmin, S. E. (1964). The Uses of Argument. London: Cambridge.
  • Toulmin, S., Rieke, R. & Janik, A. (1984). An Introduction to Reasoning. New York: Macmillan.
  • Traub, R. E. (1994). Reliability for the Social Sciences. Theory and Applications. Thousand Oaks: Sage.
  • Traub, R. R. & Rowley, G. L. (1991). Understanding Reliability. Educational Measurement:Issues and Practice, Vol. 10(1), 37-45.
  • Tyson, E. H., Dulmus, C. N. & Wodarski, J. S. (2002). Assessing Violent Behavior. In Rapp- Paglicci, Roberts, A. R. & Wodarski, J. S. (Eds.). Handbook of Violence. New York: John Wiley & Sons.
  • Vacha-Haase, T. (1998). Reliability Generalization: Exploring Variance in Measurement Error Affecting Score Reliability Across Studies. Educational and Psychological Measurement, Vol. 58, 6-20.
  • Vacha-Haase, T., Kogan L. R., Tani, C. R. & Woodal, R. A. (2001). Reliability Generalization: Exploring Variation of Reliability Coefficients of MMPI Clinical Scales Scores. Educational and Psychological Measurement, Vol. 61, 45-59.
  • van der Linden, W. J. (2005). Classical Test Theory. In Kempf-Leonard, K. (Ed.), Encyclopedia of Social Measurement. Oxford: Elsevier.
  • Vassar, M. & Hale, W. (2009). Reliability Reporting Across Studies Using the Buss Durkee Hostility Inventory. Journal of Interpersonal Violence, Vol. 24, 20-37.
  • Victorson, D., Barocas, J., Song, J. & Cella, D. (2008). Reliability Across Studies From the Functional Assessment of Cancer Theraphy-General (FACT-G) and Its Subscales: A Reliability Generalization. Quality of Life Research, Vol. 17, 1137-1146.
  • Wasserman, J. D. & Bracken, B. A. (2003). Psychometric Characteristics of Assessment Procedures. In Weiner, I. B., Graham, J. R. & Naglieri, J. A. (Eds.), Handbook of Psychology. Hoboken, New Jersey: John Wiley & Sons.
  • Witta, E. L. & Daniel, L. G. (1998). The Reliability and Validity of Test Scores: Are Editorial Policy Changes Reflected in Journal Articles? (ERIC Document Reproduction Service No. ED 422 366).
  • Worthen, B. R., White, K. R., Fan, X. & Sudweeks, R. R. (1999). Measurement and Assessment in Schools. (Second Edition). New York: Longman.
  • Yin, P. & Fan, X. (2000). Assessing the Reliability of Beck Depression Inventory Scores: Reliability Generalization Across Studies. Educational and Psychological Measurement, Vol. 60, 201-223.

TÜRK EĞİTİM VE BİLİMİNDE BİLİMSEL DEVRİM: TESTLER YA DA ÖLÇME ARAÇLARI GÜVENİLİR VE GEÇERLİ DEĞİLDİR

Yıl 2011, Sayı: 16, 116 - 132, 01.06.2011

Öz

Güvenirlik ve geçerlik çok sık yanlış anlaşılmıştır. Testler ya da ölçme araçları güvenilir ve geçerli değildir. Çünkü, güvenirlik, ölçümlerin bir özelliği; geçerlik ise, ölçümlerin kullanımlarının ve yorumlarının bir özelliğidir. Güvenirlik ve geçerlik evren ya da örneklem veya grup bağımlı kavramlardır. Güvenirlik katsayıları gibi geçerlik katsayıları da, evrenden evrene, örneklemden örnekleme değişir. “Testin güvenirliği”, “ölçeğin geçerliği”, “bellilendirmenin geçerliği” veya “ölçme aracı güvenilirdir” gibi ifadelerin kullanılması doğru değildir. Böylelikle, “test güvenirliği” yerine, “ölçüm güvenirliği” kavramının kullanılması çok daha uygundur. Geçerlik iddiaları ise, test ölçümlerinin belirli kullanımları ve yorumlarına ilişkin yapılmalıdır

Kaynakça

  • AERA, APA & NCME [American Educational Research Association, American Psychological
  • Association & National Council on Measurement in Education]. (1999). Standards for Educational and Psychological Testing. Washington, DC: American Educational Association.
  • Algina, J. (1992). Reliability of Measurement. In Alkin, M. C. (Ed.), Encyclopedia of
  • Educational Research, Vol. 3. (Sixth Edition). New York: Macmillan.
  • Allen, M. J. & Yen, W. M. (1979). Introduction to Measurement Theory. Monterey, California: Brooks/Cole.
  • Anastasi, A. & Urbina, S. (1997). Psychological Testing. (Seventh Edition). Upper Saddle River, New Jersey: Prentice-Hall.
  • Anastasi, A. (1992). What Counselors Should Know About the Use and Interpretation of Psychological Tests. Journal of Counseling and Development, Vol. 70, 610-615.
  • Aycock, T. (1993). It is Incorrect to Say “the Test is Reliable”: A Review of the Literature and Implications for Research Practice. (ERIC Document Reproduction Service No. ED 355 275).
  • Bademci, V. (2010). Türk Eğitim ve Biliminde Paradigma Değişikliği: Testler veya Ölçekler Güvenilir ve Geçerli Değildir. Konferans. Düzenleyen: Gazi Üniversitesi, Endüstriyel Sanatlar Eğitim Fakültesi Dekanlığı. Ankara: G.Ü. Gazi Eğitim Fakültesi, Resim-İş Eğitimi Anabilim Dalı Konferans Salonu, 26 Nisan. [Konferansla ilgili haber için; Gazi Haber, Nisan 2010, Sayı 104, Sayfa 48-49.]
  • Bademci, V. (2008). Araştırmalarda Ölçme ile İlgili Bazı Büyük Hataları Düzeltmek ve Eğitimde Yeniden Yapılanmayı Sürdürmek: Güvenirlik, Testlerin Bir Özelliği Değildir. Gazi Üniversitesi Endüstriyel Sanatlar Eğitim Fakültesi Dergisi, Sayı 22, 50-69. (http://www.esef.gazi.edu.tr/html/yayinlar/22_pdf/22_5.pdf )
  • Bademci, V. (2007). Ölçme ve Araştırma Yöntembiliminde Paradigma Değişikliği: Testler Güvenilir Değildir. Ankara: Yenyap Yayınları.
  • Bademci, V. (2006a). Güvenirliği Doğru Anlamak ve Bazı Klişeleri Yıkmak: Bilinenlerin Aksine, Cronbach’ın Alfa Katsayısı, Negatif ve –1’den Küçük Olabilir. İnönü Üniversitesi Eğitim Fakültesi Dergisi, Cilt 7, Sayı 12, 3-26. (http://web.inonu.edu.tr/~efdergi/arsiv/bademci.pdf )
  • Bademci, V. (2006b). Tartışmayı Sonlandırmak: Cronbach’ın Alfa Katsayısı, İki Değerli [0,1] Ölçümlenmiş Maddeler ile Kullanılabilir. Kazım Karabekir Eğitim Fakültesi Dergisi, Sayı 13, 438-446. (http://e- dergi.atauni.edu.tr/index.php/kkefd/article/viewFile/4116/3940)
  • Bademci, V. (2006c). Paradigma Değişikliği: Testler Güvenilir Değildir. Konferans. Düzenleyen: Gazi Üniversitesi, Endüstriyel Sanatlar Eğitim Fakültesi Dekanlığı. Ankara: G.Ü. Mesleki Eğitim Fakültesi Konferans Salonu, 28 Nisan. [Konferansla ilgili haber için; Gazi Haber, Nisan 2006, Sayı 66, Sayfa 64.]
  • Bademci, V. (2005a). Araştırmalarda Ölçme ile İlgili Bazı Büyük Hataları Düzeltmek ve Bir Reformu Başlatmak: Güvenirlik, Testlerin Bir Özelliği Değildir. Bildiri. Eğitim Fakültelerinde Yeniden Yapılandırmanın Sonuçları ve Öğretmen Yetiştirme Sempozyumu. Ankara: Gazi Üniversitesi, Gazi Eğitim Fakültesi, 22-23-24 Eylül.
  • Bademci, V. (2005b). Testler Güvenilir Değildir: Ölçüm Güvenirliğine Yeterli Dikkat ve Güvenirlik Çalışmaları İçin Örneklem Büyüklüğü. Gazi Üniversitesi Endüstriyel Sanatlar Eğitim Fakültesi Dergisi, Sayı 17, 33-45. (http://www.esef.gazi.edu.tr/html/yayinlar/17_pdf/17_c.pdf )
  • Bademci, V. (2005c). Hakemlerin Değerlendirmelerindeki Hatalar Üzerine: Fisher’in Z Dönüşümü ve Güvenirlik Çalışmaları İçin Örneklem Büyüklüğü. Gazi Üniversitesi Endüstriyel Sanatlar Eğitim Fakültesi Dergisi, Sayı 17, 46-75. (http://www.esef.gazi.edu.tr/html/yayinlar/17_pdf/17_d.pdf )
  • Bademci, V. (2004). Testin Güvenirliği” veya “Test Güvenilirdir” Diye İfade Etmek Doğru Değildir. Türk Eğitim Bilimleri Dergisi, Cilt 2, 367–373. (http://www.tebd.gazi.edu.tr/c2s3.html ) (http://www.tebd.gazi.edu.tr/arsiv/2004_cilt2/sayi_3/367-373.pdf )
  • Bademci, V. (2002). Türkiye'deki Okullar Ne İşe Yarar? Türkiye'nin Anomi, Yabancılaşma, Ekonomik Büyüme, Demokratikleşme Sorunlarına Çözüm Önerisi. Konferans. Düzenleyen: ESEF Öğrenci Bilimsel Faal. Org. Kom. Ankara: G.Ü.Mesleki Eğitim Fakültesi Konferans Salonu, 30 Mayıs 2002.
  • Bademci, V. (2001a). Düşünmenin Öğretilmesi ve Öğretimde Kullanılan Yöntemler-Teknikler. Konferans. Düzenleyen: TÜRMOB. Bursa: Bursa SMMM Odası Konferans Salonu, 9 Kasım 2001.
  • Bademci, V. (2001b). Türkiye'deki Okullar Ne İşe Yarar? Konferans. Düzenleyen: Ankara Türk Telekom Anadolu Teknik L. Ankara: Başkent Öğretmenevi Konferans Salonu, 9 Aralık 2001.
  • Bademci, V. (2000). Türkiye’deki Okullar Ne İşe Yarar? (Birinci Basım). Ankara: Başkent Basım Yayın Dağıtım.
  • Barnes, L. L. B., Harp, D. & Jung, W. S. (2002). Reliability Generalization of Scores on the Spielberger State-Trait Anxiety Inventory. Educational and Psychological Measurement, Vol. 62, 603-618.
  • Bernstein, J. (2006). Albert Einstein. Fiziğin Sınırları. (Çev.: Uzunefe Yazgan, Y.). (Birinci Basım). Ankara: TÜBİTAK.
  • Beycioğlu, K. (2007). Alfa Güvenirliği ve Eğitim Araştırmaları. Çağdaş Eğitim, 347, 37-42.
  • Borsboom, D., Romeijn, J-W. & Wicherts, J. M. (2008). Measurement Invariance Versus Selection Invariance: Is Fair Selection Possible? Psychological Methods, Vol. 13(2), 75-98.
  • Brennan, R. L. (Ed.) (2006a). Educational Measurement. (Fourth Edition). Westport, CT: American Council on Education & Praeger.
  • Brennan, R. L. (2006b). Perspectives on the Evolution and Future of Educational Measurement. In Brennan, R. L. (Ed.), Educational Measurement. (Fourth Edition). Westport, CT: American Council on Education & Praeger.
  • Brennan, R. L. (2001). Generalizability Theory. New York: Springer.
  • Brookhart, S. M. & Nitko, A. J. (2008). Assessment and Grading in Classrooms. Upper Saddle River, New Jersey: Pearson/Prentice Hall.
  • Buhi, E. R. (2005). Reliability Reporting Practices in Rape Myth Research. Journal of School Health, Vol. 75, 63- 66.
  • Capraro, R. M. & Capraro, M. M. (2002). Myers-Briggs Type Indicator Score Reliability Across Studies: A Meta-Analytic Reliability Generalization Study. Educational and Psychological Measurement, Vol. 62, 590-602.
  • Cebeci, S. (2006). “The Examination of Guidance and Research Centers’ Administrators’ Conflict Management Strategies with the Perceptions of Self and Teachers”. Unpublished Master’s Thesis. Ankara: Middle East Technical University, The Graduate School of Social Sciences.
  • Chartrand, J. M. & Walsh, W. B. (2001). Career Assessment: Changes and Trends. In Leong, F. T. L. & Barak, A. (Eds.), Contemporary Models in Vocational Psychology. A Volume in Honor of Samuel H. Osipow. Mahwah, New Jersey: Lawrence Erlbaum.
  • Crocker, L. & Algina, J. (1986). Introduction to Classical and Modern Test Theory. Fort Worth: Holt, Rinehart and Winston.
  • Cronbach, L. J. (1988). Five Perspectives on the Validity Argument. In Wainer, H. & Braun, H. I. (Eds.), Test Validity. Hillsdale, New Jersey: Lawrence Erlbaum.
  • Cronbach, L. J. (1982). Designing Evaluations of Educational and Social Programs. San Francisco: Jossey-Bass.
  • Cronbach, L. J. (1971). Test Validation. In Thorndike, R. L. (Ed.), Educational Measurement. (Second Edition). Washington, D. C.: American Council on Education.
  • Cureton, E. E. (1951). Validity. In Lindquist, E. F. (Ed.), Educational Measurement. Washington, D. C.: American Council on Education.
  • Ebel, R. L. & Frisbie, D. A. (1991). Essentials of Educational Measurement. (Fifth Edition). Englewood Cliffs, New Jersey: Prentice Hall.
  • Feldt, L. S. & Brennan, R. L. (1989). Reliability. In Linn, R. L. (Ed.), Educational Measurement. (Third Edition). New York: American Council on Education & Macmillan.
  • Frisbie, D. A. (2005). Measurement 101: Some Fundamentals Revisited. Educational Measurement: Issues and Practice, Vol. 24(3), 21-28.
  • Gazi Haber (2010). Türk Eğitim ve Biliminde Paradigma Değişikliği: Testler veya Ölçekler Güvenilir ve Geçerli Değildir. Nisan 2010, Sayı 104, 48-49.
  • Gage, N. L. (1963). Paradigms for Research on Teaching. In Gage, N. L. (Ed.), Handbook of Research on Teaching. Chicago: Rand MçNally & Company.
  • Gray, B. T. (1997). Controversies Regarding the Nature of Score Validity: Still Crazy After All These Years. (ERIC Document Reproduction Service No. ED 407 414).
  • Gronlund, N. E. (1998). Assessment of Student Achievement. (Sixth Edition). Boston: Allyn & Bacon.
  • Gronlund, N. E. & Waugh, C. K. (2009). Assessment of Student Achievement. (Ninth Edition). Upper Saddle River, New Jersey: Pearson.
  • de Gruijter, D. N. M. & van der Kamp, L. J. T. (2008). Statistical Test Theory for the Behavioral Sciences. Boca Raton, FL: Chapman & Hall / CRC
  • Guilford, J. P. (1954). Psychometric Methods. (Second Edition). New York: McGraw-Hill.
  • Guilford, J. P. & Fruchter, B. (1973). Fundamental Statistics in Psychology and Education (Fifth Edition). New York: McGraw-Hill.
  • Gulliksen, H. (1950). Theory of Mental Tests. New York: John Wiley & Sons.
  • Guthrie, A. C. (2000). A Review of Coefficient Alpha and Some Basic Tenets of Classical Measurement Theory. (ERIC Document Reproduction Service No. ED 438 307).
  • Hambleton, R. K. & Jones, R. W. (1993). Comparison of Classical Test Theory and Item Response Theory and Their Applications to Test Development. Educational Measurement: Issues and Practice, Vol. 12 (3), 38-47.
  • Hambleton, R. K., Swaminathan, H. & Rogers, H. J. (1991). Fundamentals of Item Response Theory. Newbury Park: Sage.
  • Henson, R. K. (2000). Sacrificing Reliability and Exalting Sampling Error at the Altar of Parsimony: Some Cautions Concerning Short-Form Test Development. (ERIC Document Reproduction Service No. ED 447 211).
  • Hopkins, K. D. (1998). Educational and Psychological Measurement and Evaluation. (Eight Edition). Boston: Allyn & Bacon.
  • Hotaman, D. & Yüksel-Şahin, F. (2010). The Effect of Instructors’ Enthusiasm on University Students’ Level of Achievement. Education and Science [Eğitim ve Bilim], Vol. 35(155), 89-103.
  • House, E. R. (1977). The Logic of Evaluative Argument. CSE Monograph Series in Evaluation, No. 7. Los Angeles: Center for the Study of Evaluation.
  • Kane, M. T. (2008). Terminology, Emphasis, and Utility in Validation. Educational Researcher, Vol. 37(2), 76-82.
  • Kane, M. T. (2006a). Validation. In Brennan, R. L. (Ed.), Educational Measurement. (Fourth Edition). Westport, CT: American Council on Education & Praeger.
  • Kane, M. (2006b). Content-Related Validity Evidence in Test Development. In Downing S. M. & Haladyna, T. M. (Eds.), Handbook of Test Development. Mahwah, New Jersey: Lawrence Erlbaum.
  • Kane, M. (2004). Certification Testing as an Illustration of Argument-Based Validation. Measurement, Vol. 2(3), 135-170.
  • Kane, M. T. (2001). Current Concerns in Validity Theory. Journal of Educational Measurement, Vol. 38, 319-342.
  • Kane, M. (1996). The Precision of Measurements. Applied Measurement in Education, Vol. 9(4), 355-379.
  • Kane, M. T. (1992). An Argument-Based Approach to Validity. Psychological Bulletin, Vol. 112(3), 527-535.
  • Kane, M. T. (1990). An Argument-based Approach to Validation. ACT Research Report Series, 90-13. Iowa City, Iowa: ACT.
  • Kartal, H. (2009). Öğretmen Adaylarının Uygulama Okullarındaki Zorbalıkla İlgili Değerlendirmeleri. GÜ, Gazi Eğitim Fakültesi Dergisi, Cilt 29(1), 141-172.
  • Kartal, E. & Pekkanlı, İ. (2011). Yabancı Dil Öğretmen Adaylarının Anadil ve Yabancı Dilde İnternet Üzerinden Okuma Alanları ve Sıklıkları. International Journal of Human Sciences, Vol. 8(1), 1316-1326.
  • Kieffer, K. M. & Reese, R. J. (2002). A Reliability Generalization Study of the Geriatric Depression Scale. Educational and Psychological Measurement, Vol. 62, 969-994.
  • Kieffer, K. M. (1999). Why Generalizability Theory is Essential and Classical Test Theory is Often Inadequate. In Thompson, B. (Ed.), Advances in Social Science Methodology, Volume 5. Stamford, Connecticut: JAI.
  • Korkmaz, A. (2010). “Vahit Bademci’nin Paradigma Değişikliği Üzerine Bir Araştırma: “Testler Değil, Ölçümler Güvenilirdir” ”. Yayımlanmamış Yüksek Lisans Tezi. Zonguldak: Zonguldak Karaelmas Üniversitesi, Sosyal Bilimler Enstitüsü.
  • Kubiszyn, T. & Borich, G. (1993). Educational Testing and Measurement. Fourth Edition. New York: HarperCollins College Publishers.
  • Kuhn, T. S. (1995). Bilimsel Devrimlerin Yapısı. (Çev.: Kuyaş, N.). (Dördüncü Baskı). İstanbul: Alan Yayıncılık.
  • Langenfeld, T. E. & Crocker, L. M. (1994). The Evolution of Validity Theory: Public School Testing, the Courts, and Incompatible Interpretations. Educational Assessment, Vol. 2(2), 149-165.
  • Le, V-N. & Klein, S. P. (2002). Technical Criteria for Evaluating Tests. In Hamilton, L. S., Stecher, B. M. & Klein, S. P. (Eds.), Making Sense of Test-Based Accountability in Education. Santa Monica, CA: RAND.
  • Linn, R. L. (2002). Validation of the Uses and Interpretations of Results of State Assessment and Accountability Systems. In Tindal, G. & Haladyna, T. M. (Eds.), Large-Scale Assessment Programs for All Students: Validity, Technical Adequacy, and Impletation. Mahwah, New Jersey: Lawrence Erlbaum Associates.
  • Linn, R. L. (1995). Assessment-Based Reform: Challanges to Educational Measurement. Princeton, New Jersey: Educational Testing Service.
  • Linn, R. L. & Gronlund, N. E. (2000). Measurement and Assessment in Teaching. (Eighth Edition). Upper Saddle River, New Jersey: Pearson.
  • Linn, R. L. & Miller, M. D. (2005). Measurement and Assessment in Teaching. (Ninth Edition). Upper Saddle River, New Jersey: Merrill.
  • Lord, F. M. & Novick, M. R. (1968). Statistical Theories of Mental Test Scores. Reading, Massachusetts: Addison-Wesley.
  • Magnusson, D. (1967). Test Theory. Massachusetts: Addison-Wesley.
  • McHorney, C. A. (1999). Health Status Assessment Methods for Adults: Accomplishment and Future Challanges. Annual Review of Public Health, Vol. 20, 309-335.
  • McMillan, J. H. (2007). Classroom Assessment. Principles and Practice for Effective Instruction. (Fourth Edition). Boston: Allyn and Bacon.
  • Mehrens, W. A. & Lehmann, I. J. (1991). Measurement and Evaluation in Education and Psychology. (Fourth Edition). Fort Worth: Harcourt Brace.
  • Mellenbergh, G. J. (1999). A Note on Simple Gain Score Precision. Applied Psychological Measurement, Vol. 23, 87-89.
  • Mellenbergh, G. J. (1996). Measurement Precision in Test Score and Item Response Models. Psychological Methods, Vol. 1(3), 293-299.
  • Mellenberg, G. J. & van den Brink, W. (1998). The Measurement of Individual Change. Psychological Methods, Vol. 3(4), 470-485.
  • Messick, S. (1995). Validity of Psychological Assessment. Validation of Inferences From Person’s Responses and Performances as Scientific Inquiry into Score Meaning. American Psychologist, Vol. 50, 741-749.
  • Messick, S. (1989). Validity. In Linn, R. L. (Ed.), Educational Measurement. (Third Edition). New York: American Council on Education & Macmillan.
  • Miller, C. S., Shields, A. L., Campfield, D., Wallace, K. A. & Weiss, R. D. (2007). Substance Use Scales of the Minnesota Multiphasic Personality Inventory. An Exploration of Score Reliability Via Meta-Analysis. Educational and Psychological Measurement, Vol. 67, 1052-1065.
  • Mji, A. & Onwuegbuzie, A. J. (2004). Evidence of Score Reliability and Validity of the Statistical Anxiety Rating Scale Among Technikon Students in South Africa. Measurement and Evaluation in Counseling and Development, Vol. 36, 238-251.
  • Murhpy, K. R. & Davidshofer, C. O. (2001). Psychological Testing. Principles and Applications. (Fifth Edition). Upper Saddle River, New Jersey: Prentice Hall.
  • Nilsson, J. E., Schmidt, C. K. & Meek, W. D. (2002). Reliability Generalization: An Examination of the Career Decision-Making Self-Efficacy Scale. Educational and Psychological Measurement, Vol. 62, 647-658.
  • Nitko, A. J. (2001). Educational Assessment of Students. (Third Edition). Upper Saddle River, New Jersey: Merrill/ Prentice-Hall.
  • Norton, D. (2001). Giriş. “Yerleşik Düşünceler: Verip Veriştirmek”. Bouvet, J-F. (Haz.), Ispanaktaki Demir ve Diğer Yerleşik Düşünceler Üzerine. (Çev.; Atuk, E.). İstanbul: YKY.
  • Özsoy, S., Keleş, Ö. & Uzun, N. (2009). Fen Bilgisi Eğitimi Alanında Hazırlanan Yüksek Lisans Tezlerindeki Yöntem ve İstatistiksel Analiz Hataları. 1. Uluslararası Türkiye Eğitim Araştırmaları Kongresi. Çanakkale: Çanakkale Onsekiz Mart Üniversitesi, 1-3 Mayıs. (http://oc.eab.org.tr/egtconf/pdfkitap/pdf/238.pdf) 11 Kasım 2009’da alınmıştır.
  • Pedhazur, E. J. & Schmelkin, L. P. (1991). Measurement, Design, and Analysis. An Integrated Approach. Hillsdale, New Jersey: Lawrence Erlbaum.
  • Reynolds, C. R., Livingston, R. B. & Willson, V. (2009). Measurement and Assessment in Education. (Second Edition). Upper Saddle River, New Jersey: Pearson.
  • Rouse, S. V. (2007). Using Reliability Generalization Methods to Explore Measurement Error: An Illustration Using the MMPI-2 PSY-5 Scales. Journal of Personality Assessment, Vol. 88(3), 264-275.
  • Ragan, B. G. & Kang, M. (2005). Reliability: Current Issues and Concerns. Athletic Therapy Today, Vol. 10(6), 30-33.
  • Rowley, G. R. (1976). The Reliability of Observational Measures. American Educational Research Journal, Vol. 13, 51-59.
  • Sawilowsky, S. S. (2000). Psychometrics Versus Datametrics: Comment on Vacha-Haase’s “Reliability Generalization” Method and Some EPM Editorial Policies. Educational and Psychological Measurement, Vol. 60, 157-173.
  • Sayın, S. (2010). Bilimsel Araştırmalarda Yapılan İstatistiksel ve Yöntembilimsel Hatalar-II: Grafik, Tablo ve Gösterim Hataları. Türk Eğitim Bilimleri Dergisi, Cilt 8(1), 117-143.
  • Sayın, S. (2008). Bilimsel Araştırmalarda Yapılan Bazı İstatistiksel ve Yöntembilimsel Hatalar- III: Güvenirlik Kestirimlerine Yönelik Hatalar. Mehmet Akif Ersoy Üniversitesi Eğitim Fakültesi Dergisi, Sayı 15, 53-69.
  • Sever, E. (2008). “Öğrenme Stilleri: İlköğretim 6-8. Sınıf Öğrencilerine Yönelik Bir Ölçek Geliştirme Çalışması”. Yayımlanmamış Yüksek Lisans Tezi. Aydın: Adnan Menderes Üniversitesi, Sosyal Bilimler Enstitüsü.
  • Serdar, Z. (2001). Thomas Kuhn ve Bilim Savaşları. (Çev.: Kılıç, E.). İstanbul: Everest.
  • Sireci, S. G. (2005). Unlabeling the Disabled: A Perspective on Flagging Scores From Accommodated Test Administrations. Educational Researcher, Vol. 34(1), 3-12.
  • Sireci, S. G. & Parker, P. (2006). Validity on Trial: Psychometric and Legal Conceptualizations of Validity. Educational Measurement: Issues and Practice, Vol. 25(3), 27-34.
  • Stanley, J. C. (1971). Reliability. In Thorndike, R. L. (Ed.), Educational Measurement. (Second Edition). Washington, D.C.: American Council on Education.
  • Streiner, D. L. & Norman, G. R. (1995). Health Measurement Scales. (Second Edition). Oxford: Oxford University Pres.
  • Suen, H. K. (1990). Principles of Test Theories. Hillsdale, New Jersey: Lawrence Erlbaum.
  • Superfine, B. M. (2004). At the Intersection of Law and Psychometrics: Explaining the Validity Clause of No Child Left Behind. Journal of Law & Education, Vol. 33(4), 475-513.
  • Thompson, B. (Ed.) (2003). Score Reliability. Contemporary Thinking on Reliability Issues. Thousand Oaks, California: Sage.
  • Thompson, B. (2001). Significance, Effect Sizes, Stepwise Methods and Other Issues: Strong Arguments Move the Field. The Journal of Experimental Education, Vol. 70, 80-93.
  • Thompson, B. & Vacha-Haase, T. (2000). Psychometrics is Datametrics: The Test is Not Reliable. Educational and Psychological Measurement, Vol. 60, 174-195.
  • Thorndike, R. L. (1982). Applied Psychometrics. Boston: Houghton Mifflin.
  • Topdemir, H. G. (2002). Kuhn ve Bilimsel Devrimlerin Yapısı Üzerine Bir Değerlendirme. Felsefe Dünyası, Sayı 36, 45-62.
  • Toulmin, S. E. (2003). The Uses of Argument. (Updated Edition). New York: Cambridge.
  • Toulmin, S. E. (1964). The Uses of Argument. London: Cambridge.
  • Toulmin, S., Rieke, R. & Janik, A. (1984). An Introduction to Reasoning. New York: Macmillan.
  • Traub, R. E. (1994). Reliability for the Social Sciences. Theory and Applications. Thousand Oaks: Sage.
  • Traub, R. R. & Rowley, G. L. (1991). Understanding Reliability. Educational Measurement:Issues and Practice, Vol. 10(1), 37-45.
  • Tyson, E. H., Dulmus, C. N. & Wodarski, J. S. (2002). Assessing Violent Behavior. In Rapp- Paglicci, Roberts, A. R. & Wodarski, J. S. (Eds.). Handbook of Violence. New York: John Wiley & Sons.
  • Vacha-Haase, T. (1998). Reliability Generalization: Exploring Variance in Measurement Error Affecting Score Reliability Across Studies. Educational and Psychological Measurement, Vol. 58, 6-20.
  • Vacha-Haase, T., Kogan L. R., Tani, C. R. & Woodal, R. A. (2001). Reliability Generalization: Exploring Variation of Reliability Coefficients of MMPI Clinical Scales Scores. Educational and Psychological Measurement, Vol. 61, 45-59.
  • van der Linden, W. J. (2005). Classical Test Theory. In Kempf-Leonard, K. (Ed.), Encyclopedia of Social Measurement. Oxford: Elsevier.
  • Vassar, M. & Hale, W. (2009). Reliability Reporting Across Studies Using the Buss Durkee Hostility Inventory. Journal of Interpersonal Violence, Vol. 24, 20-37.
  • Victorson, D., Barocas, J., Song, J. & Cella, D. (2008). Reliability Across Studies From the Functional Assessment of Cancer Theraphy-General (FACT-G) and Its Subscales: A Reliability Generalization. Quality of Life Research, Vol. 17, 1137-1146.
  • Wasserman, J. D. & Bracken, B. A. (2003). Psychometric Characteristics of Assessment Procedures. In Weiner, I. B., Graham, J. R. & Naglieri, J. A. (Eds.), Handbook of Psychology. Hoboken, New Jersey: John Wiley & Sons.
  • Witta, E. L. & Daniel, L. G. (1998). The Reliability and Validity of Test Scores: Are Editorial Policy Changes Reflected in Journal Articles? (ERIC Document Reproduction Service No. ED 422 366).
  • Worthen, B. R., White, K. R., Fan, X. & Sudweeks, R. R. (1999). Measurement and Assessment in Schools. (Second Edition). New York: Longman.
  • Yin, P. & Fan, X. (2000). Assessing the Reliability of Beck Depression Inventory Scores: Reliability Generalization Across Studies. Educational and Psychological Measurement, Vol. 60, 201-223.
Toplam 132 adet kaynakça vardır.

Ayrıntılar

Birincil Dil Türkçe
Bölüm Research Article
Yazarlar

Vahit Bademci

Yayımlanma Tarihi 1 Haziran 2011
Yayımlandığı Sayı Yıl 2011 Sayı: 16

Kaynak Göster

APA Bademci, V. (2011). TÜRK EĞİTİM VE BİLİMİNDE BİLİMSEL DEVRİM: TESTLER YA DA ÖLÇME ARAÇLARI GÜVENİLİR VE GEÇERLİ DEĞİLDİR. Dicle Üniversitesi Ziya Gökalp Eğitim Fakültesi Dergisi(16), 116-132.