Objective: Large language models (LLMs), such as ChatGPT-5 (OpenAI) and Gemini 2.5 Pro (Google DeepMind), are increasingly being applied in medicine and dentistry. However, their reliability in high-stakes specialty examinations remains unclear. This study compared the performance of ChatGPT-5 and Gemini 2.5 Pro in answering oral and maxillofacial surgery (OMFS) questions from the Dentistry Specialization Exam (DSE) in Türkiye.
Methods: A total of 128 OMFS questions from 13 DSEs (2012–2021) were presented to both models in Turkish under identical conditions. Responses were compared with official answer keys. Correct and incorrect answers were tabulated, and statistical analyses were conducted using Fisher’s Exact Test with p<0.05 considered significant.
Results: ChatGPT-5 achieved 119 correct (93.0%) and 9 incorrect answers, while Gemini 2.5 Pro achieved 124 correct (96.9%) and 4 incorrect. Although Gemini showed slightly higher accuracy, the difference was not statistically significant (p>0.05). Both models achieved 100% accuracy within several years; however, performance variability was observed, particularly in 2018 and 2019. Both models incorrectly answered four questions, while Gemini correctly answered five items that ChatGPT-5 missed.
Conclusion: Both ChatGPT-5 and Gemini 2.5 Pro demonstrated high accuracy in OMFS questions from DSE, marking a substantial improvement compared to earlier LLMs. While Gemini showed slightly better performance, differences were not significant. These findings suggest that current LLMs may serve as supplementary tools for postgraduate exam preparation in dentistry, though limitations in nuanced clinical reasoning and exam-specific logic persist.
artificial intelligence dental education dentistry specialization exam oral and maxillofacial surgery
Amaç: Yapay zeka tabanlı büyük dil modelleri, özellikle ChatGPT-5 (OpenAI) ve Gemini 2.5 Pro (Google DeepMind), tıp ve diş hekimliğinde giderek daha fazla kullanılmaktadır. Ancak kritik öneme sahip uzmanlık sınavlarındaki güvenilirlikleri belirsizdir. Bu çalışmada, her iki modelin Türkiye’de uygulanan Diş Hekimliğinde Uzmanlık Sınavı’nda (DUS) yer alan ağız, diş ve çene cerrahisi sorularındaki performansı karşılaştırılmıştır.
Yöntem: 2012–2021 yılları arasında yapılmış 13 sınavdan elde edilen toplam 128 ağız, diş ve çene cerrahisi sorusu, modellerin her birine orijinal Türkçe haliyle aynı koşullarda yöneltilmiştir. Yanıtlar resmi cevap anahtarları ile karşılaştırılmış, doğru ve yanlış yanıtlar kaydedilmiştir. İstatistiksel analizlerde Fisher’s Exact Test kullanılmış ve anlamlılık düzeyi p<0,05 olarak belirlenmiştir.
Bulgular: ChatGPT-5 toplamda 119 (%93,0) doğru, 9 (%7,0) yanlış; Gemini 2.5 Pro ise 124 (%96,9) doğru, 4 (%3,1) yanlış yanıt vermiştir. Gemini 2.5 Pro’nun doğruluk oranı daha yüksek olmasına rağmen istatistiksel olarak anlamlı farklılık bulunmamıştır (p>0,05). Her iki model bazı yıllarda %100 doğruluk göstermiş, ancak 2018 ve 2019 yıllarında performans düşüklüğü gözlenmiştir. Dört soru her iki model tarafından yanlış yanıtlanmış, Gemini 2.5 Pro ChatGPT-5’in yanlış cevap verdiği beş soruyu doğru cevaplamıştır.
Sonuç: ChatGPT-5 ve Gemini 2.5 Pro, DUS çene cerrahisi sorularında yüksek doğruluk oranına ulaşmış ve önceki nesil modellere göre önemli bir gelişme göstermiştir. Bulgular bu modellerin diş hekimliği uzmanlık sınav hazırlığında tamamlayıcı araç olarak kullanılabileceğini, ancak klinik muhakeme ve sınava özgü mantıksal ayrıntılarda sınırlılıklarının devam ettiğini göstermektedir.
ağız diş ve çene cerrahisi diş hekimliği eğitimi diş hekimliğinde uzmanlık sınavı yapay zeka
Primary Language | English |
---|---|
Subjects | Surgery (Other) |
Journal Section | Research Articles |
Authors | |
Early Pub Date | September 23, 2025 |
Publication Date | September 23, 2025 |
Submission Date | September 1, 2025 |
Acceptance Date | September 10, 2025 |
Published in Issue | Year 2025 Volume: 4 Issue: 3 |
Creative Common Attribution Licence, EJOMS Licence © 2024 by Association of Oral and Maxillofacial Surgery Society is licensed under
Attribution-NonCommercial-NoDerivatives 4.0 International