Objective: This study aimed to compare the performance of chat generative pretrained trans- former (ChatGPT) (GPT-3.5) and Bard, 2 large language models (LLMs), through multiple-choice dental specialty entrance examination (DUS) questions.
Methods: Dental specialty entrance examination questions related to prosthodontics and oral and dentomaxillofacial radiology up to 2021, excluding visually integrated questions, were prompted into LLMs. Then the LLMs were asked to choose the correct response and specify Bloom’s taxonomy level. After data collection, the LLMs’ ability to recognize Bloom’s taxonomy levels and the correct response rate in different subheadings, the agreement between LLMs on correct and incorrect answers, and the effect of Bloom’s taxonomy level on correct response rates were evaluated. Data were analyzed using McNemar, Chi-square, and Fisher–Freeman–Halton
exact tests, and Yate’s continuity correction and Kappa agreement level were calculated (P < .05).
Results: Notably, the only significant difference was observed between ChatGPT’s correct answer rates for oral and dentomaxillofacial radiology subheadings (P = .042; P < .05). For total prosth- odontic questions, ChatGPT and Bard achieved correct answer rates of 35.7% and 38.9%, respec- tively, while both LLMs achieved a 52.8% correct answer rate for oral and dentomaxillofacial
radiology. Moreover, there was a statistically significant agreement between ChatGPT and Bard on correct and incorrect answers. Bloom’s taxonomy level did not affect the correct response rates significantly.
Conclusion: The performance of ChatGPT and Bard did not demonstrate a reliable result on DUS questions, but considering rapid advancements in these LLMs, this performance gap will probably be closed soon, and these LLMs can be integrated into dental education as an interactive tool.
Keywords: ChatGPT, Bard, artificial intelligence, large language models, dental education, mul- tiple choice questioning
ÖZ
Amaç: Bu çalışmanın amacı, iki büyük dil modeli (LLM) olan ChatGPT (GPT-3,5) ve Bard’ın Diş Hekimliğinde Uzmanlık Eğitimi Giriş Sınavındaki (DUS) çoktan seçmeli sorular üzerindeki perfor- mansını karşılaştırmaktır.
Yöntemler: Görsel içerikli sorular hariç olmak üzere, 2021 yılına kadar olan protetik diş tedavisi ve ağız, diş ve çene radyolojisi ile ilgili DUS soruları LLM’lere sorulmuştur. Daha sonra LLM’lerden doğru yanıtı seçmeleri ve Bloom’un taksonomi düzeyini belirtmeleri istenmiştir. Veriler toplandık- tan sonra, LLM’lerin Bloom taksonomi düzeylerini belirleyebilme becerileri ve farklı alt başlıklardaki doğru yanıt oranları, LLM’ler arasında doğru ve yanlış yanıtlara ilişkin uyumu ve Bloom taksonomi düzeyinin doğru yanıt oranları üzerindeki etkisi değerlendirilmiştir. Veriler Mc Nemar, Ki-kare ve Fisher Freeman Halton Exact testleri kullanılarak analiz edilmiştir, Yate’s Continuity Düzeltmesi ve Kappa uyum düzeyi hesaplanmıştır (P < .05).
Bulgular: ChatGPT’nin doğru cevap oranları arasında tek anlamlı fark ağız, diş ve çene radyolojisi alt başlıkları arasında gözlenmiştir (P: .042; P < .05). Toplam protez soruları için ChatGPT ve Bard sırasıyla %35,7 ve %38,9 oranında doğru cevap verirken, her iki LLM de ağız, diş ve çene radyolojisi için %52,8 oranında doğru cevap vermiştir. Ayrıca, ChatGPT ve Bard arasında doğru ve yanlış cevaplar konusunda istatistiksel olarak anlamlı bir uyum saptanmıştır. Bloom’un taksonomi düzeyi doğru yanıt oranlarını anlamlı derecede etkilememiştir.
Sonuç: ChatGPT ve Bard, DUS soruları üzerinde güvenilir bir performans göstermemiştir, ancak LLM’lerdeki hızlı gelişmeler göz önünde bulundurulduğunda, performans açıkları muhtemelen yakında kapanacak ve bu LLM’ler interaktif bir araç olarak diş hekim- liği eğitimine entegre edilebilecektir.
Anahtar Kelimeler: ChatGPT, Bard, yapay zeka, büyük dil modelleri, diş hekimliği eğitimi, çoktan seçmeli soru
Primary Language | English |
---|---|
Subjects | Prosthodontics |
Journal Section | Research Articles |
Authors | |
Publication Date | January 18, 2024 |
Submission Date | August 24, 2023 |
Published in Issue | Year 2024 Volume: 34 Issue: 1 |
Current Research in Dental Sciences is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.