Research Article
Madde Güçlüklerinin Tahmin Edilmesinde Uzman Görüşleri ve ChatGPT Performansının Karşılaştırılması / Comparison of Expert Opinions and ChatGPT Performance in Predicting Item Difficulties

Year 2023, , 202 - 210, 30.08.2023


Bu çalışmada ChatGPT yapay zeka teknolojisinin eğitim alanında destekleyici unsur olarak kullanımına yönelik bir araştırma yürütülmüştür. ChatGPT’nin çoktan seçmeli test maddelerini yanıtlama ve bu maddelerin madde güçlük düzeylerini sınıflama performansı incelenmiştir. 20 maddeden oluşan beş seçenekli çoktan seçmeli test maddesine 4930 öğrencinin verdiği yanıtlara göre madde güçlük düzeyleri belirlenmiştir. Bu güçlük düzeyleri ile ChatGPT’nin ve uzmanların yaptığı sınıflandırmalar arasındaki ilişkiler incelenmiştir. Elde edilen bulgulara göre ChatGPT’nin çoktan seçmeli maddelere doğru yanıt verme performansının yüksek düzeyde olmadığı (%55) görülmüştür. Ancak madde güçlük düzeylerini sınıflandırma konusunda ChatGPT; gerçek madde güçlük düzeyleri ile 0.748, uzman görüşleri ile 0.870 korelasyon göstermiştir. Bu sonuçlara göre deneme uygulamasının yapılamadığı veya uzman görüşlerine başvurulamadığı durumlarda ChatGPT'den test geliştirme aşamalarında destek alınabileceği düşünülmektedir. Geniş ölçekli sınavlarda da uzman gözetiminde ChatGPT benzeri yapay zeka teknolojilerinden faydalanılabilir.


Comparison of Expert Opinions and ChatGPT Performance in Predicting Item Difficulties

Year 2023, , 202 - 210, 30.08.2023


In this study, ChatGPT's performance in answering multiple-choice test items and classifying the item difficulty levels of these items was examined. Item’s actual difficulty levels were determined according to the responses of 4930 students to the five-choice multiple-choice test items consisting of 20 items. The relationships between these difficulty levels and the classifications made by ChatGPT and experts were tested. The findings demonsrated that ChatGPT's performance in giving correct answers to multiple-choice items was at moderate level (55%). However, in terms of classifying item difficulty levels, ChatGPT showed a correlation of 0.748 with actual item difficulty levels and 0.870 with expert opinions. According to these results, it is thought that ChatGPT can be used to support test development in cases where trial application cannot be conducted or expert opinions cannot be consulted. In largescale exams, ChatGPT-like artificial intelligence technologies can be utilized under expert supervision.


