Araştırma Makalesi
BibTex RIS Kaynak Göster

Psychometric Evaluation of Automatically Generated Template-Based Psychiatry Questions for Medical Students: A Validity and Reliability Study

Yıl 2025, Cilt: 24 Sayı: 74, 209 - 216, 22.12.2025
https://doi.org/10.25282/ted.1779377

Öz

Background: Multiple-choice questions (MCQs) are widely used in medical education due to their objectivity, efficiency, and ability to cover a broad knowledge base. Case-based MCQs provide additional benefits by evaluating students’ clinical reasoning and decision-making skills. In psychiatry education, unique challenges arise from overlapping symptoms, reliance on subjective reports, and the absence of objective diagnostic tools. The aim of this study was to administer MCQs generated through template-based automatic item generation (AIG) in psychiatry to medical students and to evaluate their psychometric properties (difficulty and discrimination indices).
Methods: Following ethical approval from XXX University Ethics Committee, the study included 138 volunteer students (61.6%) from a total of 224 who completed psychiatry clerkship during the 2023–2024 and 2024–2025 academic years. From a pool of 1189 template-based automatically generated questions, 22 were randomly selected to form the exam. The test was administered face-to-face under supervision, and students were not informed of the origin of the items. Difficulty indices were calculated as the proportion of correct answers, while discrimination indices were computed by comparing the performance of the top 27% and bottom 27% groups.
Results: The mean exam score was 15.21 ± 3.55 out of 22. The average difficulty index was 0.69, classifying the exam as “easy.” Of the items, 63.6% were very easy, 9.1% easy, and 27.3% moderate. The most difficult item concerned somatization (0.33), whereas the easiest was related to bipolar disorder (0.92). Discrimination indices ranged from 0.19 to 0.70, with an average of 0.37. Ten items (45.6%) demonstrated excellent discrimination, eleven (50%) acceptable, and one (4.5%) poor. The highest discrimination was observed in the schizophreniform disorder item (0.70), while the lowest was in the postpartum psychosis item (0.19).
Conclusions: This study represents the first direct implementation of template-based AIG in Turkish psychiatry education. The findings demonstrated that automatically generated MCQs achieved acceptable psychometric standards in terms of both difficulty and discrimination. Template-based AIG may reduce faculty workload while ensuring consistent and high-quality question development. However, further refinement is needed to generate items assessing higher-order cognitive processes. Multicenter comparative studies could provide stronger evidence for the integration of AIG into medical education assessments.

Etik Beyan

Ethics Committee approval was obtained from the Gazi University Ethics Committee (Date: 13.02.2024/ No: 05)

Destekleyen Kurum

No.

Teşekkür

We would like to thank Mehmet Ali Akyol for his support in writing the code used to generate the questions.

Kaynakça

  • 1. Rohlfsen CJ, Sayles H, Moore GF, Mikuls TR, O'Dell JR, McBrien S, et al. Innovation in early medical education, no bells or whistles required. BMC Med Educ. 2020;20:39.
  • 2. Gordon M, Farnan J, Grafton-Clarke C, Ahmed N, Pelly T, Roberts M, et al. Non-technical skills assessments in undergraduate medical education: A focused BEME systematic review: BEME Guide No. 54. Med Teach. 2019;41:732–45.
  • 3. Daniel M, Rencic J, Durning SJ, Torre D, King A, Gordon M, et al. Clinical reasoning assessment methods: a scoping review and practical guidance. Acad Med. 2019;94:902–12.
  • 4. Pugh D, De Champlain A, Touchie C. Plus ça change, plus c’est pareil: making a continued case for the use of MCQs in medical education. Med Teach. 2019;41:569–77.
  • 5. Zaidi NLB, Grob KL, Monrad SM, Schroeder R, Santen SA, Hughes DT, et al. Pushing critical thinking skills with multiple-choice questions: does Bloom’s taxonomy work? Acad Med. 2018;93:856–9.
  • 6. Corrao S, Argano C. Rethinking clinical decision-making to improve clinical reasoning. Front Med (Lausanne). 2022;9:900543.
  • 7. Rejón AC. Logic structure of clinical judgment and its relation to medical and psychiatric semiology. Psychopathology. 2012;45:344–51.
  • 8. Gierl MJ, Lai H, Tanygin V. Advanced Methods in Automatic Item Generation. 1st ed. New York: Routledge; 2021. p.42–66.
  • 9. Kıyak YS, Emekli E. ChatGPT prompts for generating multiple-choice questions in medical education and evidence on their validity: a literature review. Postgrad Med J. 2024;100:858–65.
  • 10. Gierl MJ, Lai H, Turner SR. Using automatic item generation to create multiple-choice test items. Med Educ. 2012;46:757–65.
  • 11. Kıyak YS, Budakoğlu İİ, Coşkun Ö, Kaya S. The first automatic item generation in Turkish for assessment of clinical reasoning in medical education. Tıp Eğitimi Dünyası. 2023;22:72–90.
  • 12. Kıyak YS, Coşkun Ö, Budakoğlu İİ, Kaya S. Psychometric analysis of the first Turkish multiple-choice questions generated using automatic item generation method in medical education. Tıp Eğitimi Dünyası. 2023;22:154–61.
  • 13. [XXX].......................
  • 14. Çalık M, Ayas A. Çözeltilerde kavram başarı testi hazırlama ve uygulama. Pamukkale Üniversitesi Eğitim Fakültesi Dergisi, 2003;14:1-17.
  • 15. Downing SM, Yudkowsky R. Assessment in Health Professions Education. New York: Routledge; 2009.
  • 16. Falcão F, Costa P, Pêgo JM. Feasibility assurance: a review of automatic item generation in medical assessment. Adv Health Sci Educ Theory Pract. 2022;27:405–25.
  • 17. Emekli E, Karahan S. A comparison of template-based and non-template-based automatic item generation for abdominal emergencies in medical education. [In press]
  • 18. Messineo L, Allegra M. An educational model for undergraduate psychiatry students to promote clinical diagnostic reasoning. Procedia Soc Behav Sci. 2014;141:1309–14.
  • 19. Gomes AI, Jesus S, Simões G, Vicente S. Symptomatological transversality and the absence of pathognomonic symptoms in psychiatry. Eur Psychiatry. 2023;66(Suppl 1):S998–9.
  • 20. Vie JJ, Popineau F, Bruillard É, Bourda Y. A review of recent advances in adaptive assessment. In: Métais E, Meziane F, Saraee M, Sugumaran V, Vadera S, editors. Natural Language Processing and Information Systems. NLDB 2017. Lecture Notes in Computer Science, vol 10260. Cham: Springer; 2017. p.17–30. https://doi.org/10.1007/978-3-319-59569-6_2

Tıp Öğrencileri İçin Şablon Tabanlı Otomatik Olarak Üretilmiş Psikiyatri Sorularının Geçerlik ve Güvenirliği: Bir Psikometrik Değerlendirme

Yıl 2025, Cilt: 24 Sayı: 74, 209 - 216, 22.12.2025
https://doi.org/10.25282/ted.1779377

Öz

Amaç: Tıp eğitiminde çoktan seçmeli sorular (ÇSS), objektiflikleri ve geniş bilgi kapsamı nedeniyle yaygın olarak kullanılmaktadır. Özellikle olgu temelli ÇSS’ler, öğrencilerin klinik muhakeme ve karar verme becerilerini ölçmede önemli avantajlar sağlamaktadır. Psikiyatri eğitimi, subjektif semptom tarifleri ve tanılar arası semptom örtüşmeleri nedeniyle özgün zorluklar içerir. Bu çalışmanın amacı, şablon tabanlı otomatik soru üretimi (OSÜ) ile üretilen psikiyatri alanındaki ÇSS’lerin öğrenciler üzerinde sınav formatında uygulanması ve bu soruların psikometrik özelliklerinin (zorluk ve ayırt edicilik indeksleri) değerlendirilmesidir.
Gereç ve Yöntem: Çalışma XXX Üniversitesi Etik Kurulu onayıyla yürütülmüş, 2023–2024 ve 2024–2025 akademik yıllarında psikiyatri stajını tamamlayan 224 öğrenciden 138’i (%61,6) gönüllü olarak katılmıştır. Daha önce şablon tabanlı OSÜ yöntemiyle üretilen 1189 soru arasından rastgele seçilen 22 soruluk bir sınav oluşturulmuştur. Sınav sınıf ortamında gözetmen eşliğinde uygulanmış, öğrencilere soruların kaynağı açıklanmamıştır. Soruların zorluk indeksleri doğru cevaplanma oranı ile, ayırt edicilik indeksleri ise üst %27 ve alt %27’lik öğrenci gruplarının performansları karşılaştırılarak hesaplanmıştır.
Bulgular: Sınavın genel ortalama puanı 22 üzerinden 15,21 ± 3,55 bulunmuştur. Soruların ortalama zorluk indeksi 0,69 olup sınav genel olarak “kolay” kategorisinde değerlendirilmiştir. Soruların %63,6’sı çok kolay, %9,1’i kolay, %27,3’ü orta zorluktaydı. En zor soru somatizasyon (0,33), en kolay soru ise bipolar bozukluk (0,92) ile ilişkiliydi. Ayırt edicilik indeksleri 0,19–0,70 arasında değişmekte olup ortalama değer 0,37 idi. On soru (%45,6) çok iyi ayırt edicilik gösterirken, 11 soru (%50) kabul edilebilir, bir soru (%4,5) ise zayıf kategorisindeydi. En yüksek ayırt edicilik şizofreniform bozukluk (0,70), en düşük ise postpartum psikoz (0,19) sorusunda bulundu.
Sonuç: Bu çalışma, Türkçe psikiyatri eğitimi özelinde OSÜ ile üretilen ÇSS’lerin öğrenciler üzerinde ilk uygulamasını temsil etmektedir. Elde edilen psikometrik veriler, bu soruların geçerlilik ve güvenilirlik açısından kabul edilebilir düzeyde olduğunu göstermektedir. OSÜ, öğretim üyelerinin iş yükünü azaltırken tutarlı ve kaliteli soru üretimini kolaylaştırabilir. Bununla birlikte, sistemin daha üst düzey bilişsel süreçleri ölçebilecek şekilde geliştirilmesine ihtiyaç vardır. Çok merkezli, karşılaştırmalı çalışmalar, OSÜ’nün tıp eğitiminde kullanımına yönelik daha güçlü kanıtlar sağlayacaktır.

Etik Beyan

Etik kurul onayı Gazi Üniversitesi Etik komisyonunda alınmıştır (Tarih: 13.02.2024/ Sayı: 05).

Destekleyen Kurum

Yok.

Teşekkür

Soruların oluşturulmasında kullanılan kodun yazılmasındaki desteklerinden ötürü Mehmet Ali Akyol’a teşekkür ederiz.

Kaynakça

  • 1. Rohlfsen CJ, Sayles H, Moore GF, Mikuls TR, O'Dell JR, McBrien S, et al. Innovation in early medical education, no bells or whistles required. BMC Med Educ. 2020;20:39.
  • 2. Gordon M, Farnan J, Grafton-Clarke C, Ahmed N, Pelly T, Roberts M, et al. Non-technical skills assessments in undergraduate medical education: A focused BEME systematic review: BEME Guide No. 54. Med Teach. 2019;41:732–45.
  • 3. Daniel M, Rencic J, Durning SJ, Torre D, King A, Gordon M, et al. Clinical reasoning assessment methods: a scoping review and practical guidance. Acad Med. 2019;94:902–12.
  • 4. Pugh D, De Champlain A, Touchie C. Plus ça change, plus c’est pareil: making a continued case for the use of MCQs in medical education. Med Teach. 2019;41:569–77.
  • 5. Zaidi NLB, Grob KL, Monrad SM, Schroeder R, Santen SA, Hughes DT, et al. Pushing critical thinking skills with multiple-choice questions: does Bloom’s taxonomy work? Acad Med. 2018;93:856–9.
  • 6. Corrao S, Argano C. Rethinking clinical decision-making to improve clinical reasoning. Front Med (Lausanne). 2022;9:900543.
  • 7. Rejón AC. Logic structure of clinical judgment and its relation to medical and psychiatric semiology. Psychopathology. 2012;45:344–51.
  • 8. Gierl MJ, Lai H, Tanygin V. Advanced Methods in Automatic Item Generation. 1st ed. New York: Routledge; 2021. p.42–66.
  • 9. Kıyak YS, Emekli E. ChatGPT prompts for generating multiple-choice questions in medical education and evidence on their validity: a literature review. Postgrad Med J. 2024;100:858–65.
  • 10. Gierl MJ, Lai H, Turner SR. Using automatic item generation to create multiple-choice test items. Med Educ. 2012;46:757–65.
  • 11. Kıyak YS, Budakoğlu İİ, Coşkun Ö, Kaya S. The first automatic item generation in Turkish for assessment of clinical reasoning in medical education. Tıp Eğitimi Dünyası. 2023;22:72–90.
  • 12. Kıyak YS, Coşkun Ö, Budakoğlu İİ, Kaya S. Psychometric analysis of the first Turkish multiple-choice questions generated using automatic item generation method in medical education. Tıp Eğitimi Dünyası. 2023;22:154–61.
  • 13. [XXX].......................
  • 14. Çalık M, Ayas A. Çözeltilerde kavram başarı testi hazırlama ve uygulama. Pamukkale Üniversitesi Eğitim Fakültesi Dergisi, 2003;14:1-17.
  • 15. Downing SM, Yudkowsky R. Assessment in Health Professions Education. New York: Routledge; 2009.
  • 16. Falcão F, Costa P, Pêgo JM. Feasibility assurance: a review of automatic item generation in medical assessment. Adv Health Sci Educ Theory Pract. 2022;27:405–25.
  • 17. Emekli E, Karahan S. A comparison of template-based and non-template-based automatic item generation for abdominal emergencies in medical education. [In press]
  • 18. Messineo L, Allegra M. An educational model for undergraduate psychiatry students to promote clinical diagnostic reasoning. Procedia Soc Behav Sci. 2014;141:1309–14.
  • 19. Gomes AI, Jesus S, Simões G, Vicente S. Symptomatological transversality and the absence of pathognomonic symptoms in psychiatry. Eur Psychiatry. 2023;66(Suppl 1):S998–9.
  • 20. Vie JJ, Popineau F, Bruillard É, Bourda Y. A review of recent advances in adaptive assessment. In: Métais E, Meziane F, Saraee M, Sugumaran V, Vadera S, editors. Natural Language Processing and Information Systems. NLDB 2017. Lecture Notes in Computer Science, vol 10260. Cham: Springer; 2017. p.17–30. https://doi.org/10.1007/978-3-319-59569-6_2
Toplam 20 adet kaynakça vardır.

Ayrıntılar

Birincil Dil İngilizce
Konular Tıp Eğitimi
Bölüm Araştırma Makalesi
Yazarlar

Esra Emekli 0000-0001-5937-6270

Rabia Soylu 0009-0005-6971-1710

Emre Emekli 0000-0001-5989-1897

Yavuz Selim Kıyak 0000-0002-5026-3234

Yasemin Hosgören Alıcı 0000-0003-3384-8131

Özlem Coşkun 0000-0001-8716-1584

Işıl İrem Budakoğlu 0000-0003-1517-3169

Gönderilme Tarihi 9 Eylül 2025
Kabul Tarihi 26 Ekim 2025
Yayımlanma Tarihi 22 Aralık 2025
Yayımlandığı Sayı Yıl 2025 Cilt: 24 Sayı: 74

Kaynak Göster

Vancouver Emekli E, Soylu R, Emekli E, Kıyak YS, Hosgören Alıcı Y, Coşkun Ö, vd. Psychometric Evaluation of Automatically Generated Template-Based Psychiatry Questions for Medical Students: A Validity and Reliability Study. TED. 2025;24(74):209-16.