Amaçlar: Bu çalışmanın amacı; tıp eğitiminde kullanılmak üzere çoktan seçmeli soru (ÇSS) üretimi ve değerlendirilmesinde, büyük dil modeli tabanlı üretken yapay zeka (ÜYZ) araçları olan Gemini ve Copilot'ın performanslarını sistematik olarak değerlendirmektir.
Yöntemler: Standartlaştırılmış istemler kullanılarak iki sanal hasta vakasından toplam 335 ÇSS üretilmiştir. ÜYZ araçları; kabul edilebilir performans düzeyi (KPD), Miller'ın yeterlik piramidi (Miller) ve Bloom'un revize edilmiş taksonomisi (Bloom) seviyeleri ile uyumlu amaçlanan dağılımları ve öğrenim hedefleriyle (ÖH’leri) uyum olarak belirlenen kriterlere dayanarak en kaliteli 56 maddeyi seçmiştir. Uzman tıp eğitimcileri ve güncel ÜYZ araçları bu maddeleri; (KPD değerlerini hesaplamak amacıyla) sınırda olan adaylar için yanıltıcı/kafa karıştırıcı çeldirici(lerin) tespiti ve doğru yanıt(ların) tespitinin yanı sıra, Miller ve Bloom seviyeleri, ÖH uyumu, madde kökü uygunluğu ve teknik madde kusurlarını esas alarak değerlendirmiştir. "ÜYZ ile genişletilmiş uzlaşısı", özneler arası uzlaşı modeli (altın standart) olarak kullanılmıştır. Üretim performansı bu uzlaşıyla olan uyum üzerinden; değerlendirme performansı ise ÜYZ'lerin uzman değerlendirmelerini ne ölçüde değiştirdiği veya koruduğu üzerinden nicelendirilmiştir. Analizler; güvenirlik için ICC, kategorik uyum için Po/Cohen/Fleiss Kappa ve sistematik yanlılık ile yönsel kaymaları tespit etmek için çıkarımsal testleri (Exact McNemar ve Wilcoxon işaretli sıralar testi) kapsamıştır.
Bulgular: ÜYZ'ler, bilişsel seviyeleri atamada belirgin şekilde farklı performans örüntüleri göstermiştir. Miller için, Gemini tarafından üretilen ÇSS'ler özneler arası uzlaşı ile üstün bir tutarlılık sergilerken (ICC(2,k)=0.82); Bloom için bu üstünlüğü Copilot tarafından üretilen ÇSS'ler göstermiştir (ICC(2,k)=0.97). Her iki araç da ÖH uyumu ve doğru yanıt tespiti konusunda iyi performans göstermiş, ancak madde kökü yapısına yaklaşımları önemli ölçüde ayrışmıştır. Uzmanlar, ÇSS'leri ÜYZ'lerin iddia ettiğinden daha kolay olarak algılamış; güncel ÜYZ sürümleri ise bu soruları hem üreten sürümlerden hem de uzmanlardan daha da kolay bulmuştur. Değerlendirme davranışı açısından; ÜYZ'ler Miller sınıflandırmalarında uzman uzlaşısını 'bilir'den 'nasıl yapacağını bilir' seviyesine istatistiksel olarak anlamlı düzeyde (p<0.001) kaydırarak sistematik bir katılık eğilimi göstermiştir. Bloom sınıflandırmalarında ise değerlendirme örüntüleri, uçlardaki uzman puanlarını orta kategorilere çekerek bir merkezi eğilim yanlılığını yansıtmıştır. Madde yazım kusurları analizinde, ÜYZ'ler biçimsel kusurları tespit etmede yetkinken, uzmanlar mantıksal kusurlara daha duyarlı olmuştur.
Sonuç: Bu çalışma, ÜYZ araçlarının tıp eğitimindeki değerlendirme süreçlerinde uç görüşler için bir "kontrol mekanizması" veya "düzeltici" rolü oynayabileceğini öne sürmektedir. ÜYZ'lerin uzman uzlaşısına katılımı, modele ve metriğe bağlı olarak değerlendirme güvenirliğini etkilemektedir. Sonuçlar, ÜYZ araçlarının insan gözetimi altındaki hibrit tıp eğitimi değerlendirme sistemlerinde verimliliği artırabileceğini göstermekte ve bunların kontrollü entegrasyonu için umut verici kanıtlar sunmaktadır.
tıp eğitimi üretken yapay zeka çoktan seçmeli soru tıbbi ölçme ve değerlendirme Miller’ın yeterlik piramidi Bloom'un revize taksonomisi
Çalışma, Bursa Uludağ Üniversitesi Klinik Araştırmalar Etik Kurulu tarafından onaylanmıştır (Tarih: 11.01.2023, Karar No: 2023-1/47).
Yazarlar, katkılarından dolayı katılımcı uzmanlara ve ÇSS'lerin İngilizce-Türkçe çevirilerini doğrulayan yeminli tercümana teşekkür ederler.
Aims: The aim of this study is to systematically evaluate the performances of large language model-based generative Artificial Intelligence (Gen-AI) tools, Gemini and Copilot, in the generation and assessment of multiple-choice questions (MCQs) for use in medical education.
Methods: A total of 335 MCQs were generated from two virtual patient cases using standardized prompts. Gen-AI tools selected the 56 best-quality items based on criteria encompassing the intended distributions regarding acceptable level of performance (ALP), Miller's competency pyramid (Miller) and Bloom's revised taxonomy (Bloom) levels, as well as alignment with learning objectives (LOs). Expert medical educators and current Gen-AI tools assessed these items based on the identification of misleading/confusing distractor(s) for borderline candidates -minimally competent examinees- (to calculate ALP values) and the identification of key(s), as well as Miller and Bloom levels, LO alignment, stem appropriateness, and technical item flaws. "AI-extended consensus" served as intersubjective consensus model (the gold standard). Generation performance was quantified by alignment with this consensus, and assessment performance by the degree to which Gen-AIs shifted or preserved Expert assessments. Analyses included ICC for reliability, Po/Cohen’s/Fleiss’ Kappa for categorical agreement, and inferential tests (Exact McNemar and Wilcoxon signed-rank) for detecting systematic bias and directional shifts.
Results: Gen-AIs demonstrated markedly different performance patterns in assigning cognitive levels. For Miller, Gemini generated MCQs exhibited superior consistency with the intersubjective consensus (ICC(2,k)=0.82), whereas for Bloom, Copilot-generated MCQs demonstrated this superiority (ICC(2,k)=0.97). Both tools performed well in LO alignment and key identification, but their approaches to stem structure diverged substantially. Experts perceived the MCQs to be easier than the Gen-AIs claimed, and the current Gen-AI versions found them even easier than both the generating versions and the Experts did. In terms of assessment behaviour, Gen-AIs showed a systematic stringency tendency in Miller classifications, statistically significantly shifting Expert consensus from 'knows' to 'knows how' (p<0.001). For Bloom classifications, their assessment patterns reflected a central tendency bias, pulling extreme expert ratings toward the middle categories. In the analysis of item writing flaws, Gen-AIs were adept at detecting formal flaws, whereas Experts were more attuned to logical flaws.
Conclusion: This study suggests that Gen-AI tools can serve as a 'control mechanism' or play a 'corrective and confirmatory role' for extreme views within the assessment processes in medical education. The participation of Gen-AIs in expert consensus affects assessment reliability depending on the model and metric. The results indicate that Gen-AI tools can increase efficiency in hybrid models of medical education assessment systems under human supervision and offer promising evidence for their controlled integration.
Medical education generative Artificial Intelligence multiple-choice question medical assessment Miller’s competency pyramid Bloom’s revised taxonomy
The study was approved by the Bursa Uludağ University Clinical Research Ethics Committee (Date: 11.01.2023, Decision No: 2023-1/47).
The authors wish to thank the participating experts for their contributions and the sworn translator for verifying the English-Turkish translations of the MCQs.
| Primary Language | English |
|---|---|
| Subjects | Medical Education |
| Journal Section | Research Article |
| Authors | |
| Submission Date | December 15, 2025 |
| Acceptance Date | January 10, 2026 |
| Publication Date | March 12, 2026 |
| IZ | https://izlik.org/JA36YS57WR |
| Published in Issue | Year 2026 Volume: 9 Issue: 2 |
Interuniversity Board (UAK) Equivalency: Article published in Ulakbim TR Index journal [10 POINTS], and Article published in other (excuding 1a, b, c) international indexed journal (1d) [5 POINTS].
The Directories (indexes) and Platforms we are included in are at the bottom of the page.
Note: Our journal is not WOS indexed and therefore is not classified as Q.
You can download Council of Higher Education (CoHG) [Yüksek Öğretim Kurumu (YÖK)] Criteria) decisions about predatory/questionable journals and the author's clarification text and journal charge policy from your browser. https://dergipark.org.tr/tr/journal/2316/file/4905/show
The indexes of the journal are ULAKBİM TR Dizin, ICI World of Journals, DOAJ, Directory of Research Journals Indexing (DRJI), General Impact Factor, ASOS Index, WorldCat (OCLC), MIAR, OpenAIRE, Türkiye Citation Index, Türk Medline Index, InfoBase Index, Scilit, etc.
The platforms of the journal are Google Scholar, CrossRef (DOI), ResearchBib, Open Access, COPE, ICMJE, NCBI, ORCID, Creative Commons, etc.
| ||
|
Our Journal using the DergiPark system indexed are;
Ulakbim TR Dizin, Index Copernicus, ICI World of Journals, Directory of Research Journals Indexing (DRJI), General Impact Factor, ASOS Index, OpenAIRE, MIAR, EuroPub, WorldCat (OCLC), DOAJ, Türkiye Citation Index, Türk Medline Index, InfoBase Index
Our Journal using the DergiPark system platforms are;
Journal articles are evaluated as "Double-Blind Peer Review".
Our journal has adopted the Open Access Policy and articles in JHSM are Open Access and fully comply with Open Access instructions. All articles in the system can be accessed and read without a journal user. https//dergipark.org.tr/tr/pub/jhsm/page/9535
Journal charge policy https://dergipark.org.tr/tr/pub/jhsm/page/10912
Our journal has been indexed in DOAJ as of May 18, 2020.
Our journal has been indexed in TR-Dizin as of March 12, 2021.
Articles published in Journal of Health Sciences and Medicine have open access and are licensed under the Creative Commons CC BY-NC-ND 4.0 International License.