Aims: This study aimed to comparatively evaluate the performance of five contemporary large language models (LLMs) on prosthodontics questions of the dentistry specialization examination (DUS) between 2014 and 2024.
Methods: A total of 167 prosthodontics questions from the DUS were analyzed. The questions were administered to five different LLMs: ChatGPT-5 (OpenAI Inc., USA), Claude 4 (Anthropic, USA), Gemini 1.5 Pro (Google LLC, USA), DeepSeek-V2 (DeepSeek AI, China), and Perplexity Pro (Perplexity AI, USA). The models’ responses were compared with the official answer keys provided by the Student Selection and Placement Center (OSYM), coded as correct or incorrect, and accuracy percentages were calculated. Statistical analyses included the Friedman test, correlation analysis, and frequency distributions. Subsection analyses were also performed to evaluate model performance across different content areas.
Results: DeepSeek-V2 achieved the highest overall accuracy rate (70.06%). Perplexity Pro (53.89%) and Gemini 1.5 Pro (51.50%) demonstrated moderate performance, ChatGPT-5 (49.10%) performed close to human levels, while Claude 4 had the lowest accuracy (32.34%). Subsection analyses revealed high accuracy in standardized knowledge areas such as implantology and temporomandibular joint (TMJ) disorders (66.7-100%), whereas notable decreases were observed in occlusion and morphology questions (9.1-53.9%). Correlation analyses indicated significant relationships between certain models.
Conclusion: The findings demonstrate heterogeneous performance of LLMs on DUS prosthodontics questions. While these models may serve as supplementary tools for exam preparation and dental education, their variable accuracy and potential for generating misinformation suggest they should not be used independently. Under expert supervision, LLMs may enhance dental education.
Dental education artificial intelligence large language model prosthodontics exam performance
Amaç: Bu çalışmanın amacı, 2014–2024 yılları arasında yapılan Diş Hekimliği Uzmanlık Sınavı (DUS) protez sorularında beş güncel büyük dil modelinin (LLM) performansını karşılaştırmalı olarak değerlendirmektir.
Yöntem: Toplam 167 protez sorusu analiz edilmiştir. Sorular beş farklı LLM’e yöneltilmiştir: ChatGPT-5 (OpenAI Inc., ABD), Claude 4 (Anthropic, ABD), Gemini 1.5 Pro (Google LLC, ABD), DeepSeek-V2 (DeepSeek AI, Çin) ve Perplexity Pro (Perplexity AI, ABD). Modellerin yanıtları Öğrenci Seçme ve Yerleştirme Merkezi (ÖSYM) tarafından sağlanan resmi cevap anahtarlarıyla karşılaştırılmış, doğru/yanlış olarak kodlanmış ve doğruluk yüzdeleri hesaplanmıştır. İstatistiksel analizlerde Friedman testi, korelasyon analizi ve frekans dağılımları kullanılmıştır. Ayrıca, farklı içerik alanlarında model performansını değerlendirmek için alt bölüm analizleri yapılmıştır.
Bulgular: DeepSeek-V2 en yüksek genel doğruluk oranını (%70,06) elde etmiştir. Perplexity Pro (%53,89) ve Gemini 1.5 Pro (%51,50) orta düzey performans göstermiş, ChatGPT-5 (%49,10) insan düzeyine yakın sonuç vermiş, Claude 4 ise en düşük doğruluk oranına (%32,34) ulaşmıştır. Alt bölüm analizlerinde implantoloji ve temporomandibular eklem (TME) bozuklukları gibi standart bilgi alanlarında yüksek doğruluk (%66,7–100) elde edilirken, oklüzyon ve morfoloji sorularında belirgin düşüşler (%9,1–53,9) gözlenmiştir. Korelasyon analizleri, bazı modeller arasında anlamlı ilişkiler olduğunu ortaya koymuştur.
Sonuç: Bulgular, DUS protez sorularında büyük dil modellerinin heterojen performans sergilediğini göstermektedir. Bu modeller sınav hazırlığı ve diş hekimliği eğitiminde yardımcı araçlar olarak kullanılabilse de, değişken doğruluk oranları ve yanlış bilgi üretme potansiyelleri nedeniyle tek başına kullanılmaları uygun değildir. Uzman denetimi altında kullanıldığında, LLM’ler diş hekimliği eğitimine katkı sağlayabilir.
| Primary Language | English |
|---|---|
| Subjects | Information Systems (Other), Prosthodontics |
| Journal Section | Research Article |
| Authors | |
| Submission Date | September 23, 2025 |
| Acceptance Date | October 15, 2025 |
| Publication Date | October 26, 2025 |
| Published in Issue | Year 2025 Volume: 7 Issue: 6 |
TR DİZİN ULAKBİM and International Indexes (1b)
Interuniversity Board (UAK) Equivalency: Article published in Ulakbim TR Index journal [10 POINTS], and Article published in other (excuding 1a, b, c) international indexed journal (1d) [5 POINTS]
Note: Our journal is not WOS indexed and therefore is not classified as Q.
You can download Council of Higher Education (CoHG) [Yüksek Öğretim Kurumu (YÖK)] Criteria) decisions about predatory/questionable journals and the author's clarification text and journal charge policy from your browser. https://dergipark.org.tr/tr/journal/3449/file/4924/show
Journal Indexes and Platforms:
TR Dizin ULAKBİM, Google Scholar, Crossref, Worldcat (OCLC), DRJI, EuroPub, OpenAIRE, Turkiye Citation Index, Turk Medline, ROAD, ICI World of Journal's, Index Copernicus, ASOS Index, General Impact Factor, Scilit.The indexes of the journal's are;
The platforms of the journal's are;
|
The indexes/platforms of the journal are;
TR Dizin Ulakbim, Crossref (DOI), Google Scholar, EuroPub, Directory of Research Journal İndexing (DRJI), Worldcat (OCLC), OpenAIRE, ASOS Index, ROAD, Turkiye Citation Index, ICI World of Journal's, Index Copernicus, Turk Medline, General Impact Factor, Scilit
Journal articles are evaluated as "Double-Blind Peer Review"
All articles published in this journal are licensed under a Creative Commons Attribution 4.0 International License (CC BY NC ND)