Giriş/Amaç:
ChatGPT, Gemini, Claude ve Perplexity gibi büyük dil modelleri (LLM’ler) tıp eğitiminde giderek daha fazla kullanılmaktadır. Ancak bu modellerin ortopedik bilgi düzeyi ile yapılandırılmış referans materyallerinden öğrenme ve kendini geliştirme kapasiteleri hâlâ net değildir. Bu çalışma, dört gelişmiş LLM’in standart bir ders kaynağına maruz kalmadan önce ve sonra ortopedik bilgi performanslarını karşılaştırmayı ve alan-özgü eğitsel içeriğin model performansını artırıp artırmadığını belirlemeyi amaçlamıştır.
Gereç ve Yöntem:
Orthobullets platformundan elde edilen 110 çoktan seçmeli ortopedi sorusu kullanılarak iki aşamalı bir değerlendirme yapılmıştır. Her model, Miller’s Review of Orthopaedics kaynağına erişimden önce ve sonra test edilmiştir. Doğruluk oranları kaydedilmiş, model içi karşılaştırmalar için Wilcoxon işaretli sıralar testi, modeller arası karşılaştırmalar için ise Bonferroni düzeltmeli Kruskal–Wallis testi uygulanmıştır. Birincil sonuç ölçütü, eğitimsel maruziyet sonrası doğruluk yüzdesindeki değişimdir.
Bulgular/Sonuçlar:
Tüm modeller, ders kitabı maruziyetinden sonra anlamlı doğruluk artışı göstermiştir (p < 0.001). En büyük artış Gemini’de (+20.9%) gözlenmiş, bunu sırasıyla Claude (+10.9%), Perplexity (+10.0%) ve ChatGPT (+9.1%) takip etmiştir. Müdahale sonrası en yüksek toplam doğruluk oranına Perplexity (%90.0) ulaşırken, Claude en düşük performansa sahip model olarak kalmıştır. Gemini’nin artışı en yüksek olmasına rağmen, diğer modellerle karşılaştırıldığında istatistiksel anlamlılığa ulaşmamıştır (p = 0.052).
Sonuç:
Bu çalışma, büyük dil modelleri arasında ortopedik bilgi düzeyi ve öğrenme kapasitesi açısından belirgin farklılıklar olduğunu ortaya koymuştur. Alan-özgü referans materyaliyle desteklenen modellerde doğruluk artışı gözlenmiş olsa da, bu artışın büyüklüğü modele göre değişmektedir. Bulgular, LLM’lerin tıp eğitimine ve klinik karar destek süreçlerine entegrasyonunda model-temelli değerlendirme ve dikkatli yaklaşım gerekliliğini vurgulamaktadır. Daha geniş veri setleri ve gerçek yaşam klinik görevlerini içeren ileri çalışmalara ihtiyaç vardır.
Yapay zekâ Makine öğrenimi Ortopedi Tıp eğitimi Klinik karar destek sistemleri Büyük dil modelleri
Bu çalışma insan katılımcıları, hasta verilerini veya herhangi bir biyolojik materyali içermemektedir. Bu nedenle etik kurul onayı gerekmemiştir. Çalışma, büyük dil modelleri (LLM’ler) tarafından üretilen çıktılar kullanılarak yürütülmüş olup etik değerlendirmeye tabi herhangi bir veri içermemektedir.
Destekleyen kurum bulunmamaktadır.
Aims: Large language models (LLMs) such as ChatGPT, Gemini, Claude, and Perplexity are increasingly incorporated into medical education; however, their baseline orthopedic knowledge and their ability to utilize structured reference materials remain insufficiently characterized. This study aimed to compare the performance of four advanced LLMs before and after exposure to a standardized orthopedic textbook and to determine whether domain-specific educational content enhances inference-time accuracy.
Methods: A two-stage evaluation was conducted using 110 multiple-choice questions from the Orthobullets platform. Each model first completed the question set under identical prompting conditions. A new chat session was then initiated, and the full PDF of Miller’s Review of Orthopaedics (9th edition) was uploaded using native document-processing functions. Models were subsequently retested with the same questions. Pre–post accuracy differences were analyzed using the Wilcoxon signed-rank test (effect size r calculated as Z/√N). Between-model differences were assessed using the Kruskal–Wallis test with Bonferroni adjusted pairwise comparisons. The primary outcome was the change in accuracy (%) after textbook exposure.
Results: All four models demonstrated significant improvement following access to the textbook (p<0.001). Gemini showed the greatest numerical gain (+20.9%), followed by Claude (+10.9%), Perplexity (+10.0%), and ChatGPT (+9.1%). Perplexity achieved the highest absolute post-exposure accuracy (90.0%), whereas Claude remained the lowest performer. Although Gemini exhibited the largest relative improvement, its advantage over the other models did not reach statistical significance (p=0.052).
Conclusion: Exposure to a standardized orthopedic textbook was associated with improved inference-time accuracy across all models, though the magnitude of benefit varied by platform. These findings underscore the heterogeneity of LLM performance in subspecialty medical topics and highlight the importance of model-specific benchmarking. Because LLMs do not undergo parameter-level learning during user interaction, observed improvements reflect temporary contextual integration rather than durable knowledge acquisition. Further research involving broader datasets, additional model architectures, and clinically oriented task evaluations is warranted.
Artificial Intelligence machine learning orthopedics education medical large language models
This study did not involve human participants, patient data, or any biological material. Therefore, ethics committee approval was not required. The study was conducted using outputs generated by large language models (LLMs) and did not include any data subject to ethical review.
There is no supporting institution for this study.
| Primary Language | English |
|---|---|
| Subjects | Orthopaedics |
| Journal Section | Research Article |
| Authors | |
| Submission Date | November 15, 2025 |
| Acceptance Date | December 22, 2025 |
| Publication Date | December 27, 2025 |
| Published in Issue | Year 2025 Volume: 6 Issue: 6 |
TR DİZİN ULAKBİM and International Indexes (1d)
Interuniversity Board (UAK) Equivalency: Article published in Ulakbim TR Index journal [10 POINTS], and Article published in other (excuding 1a, b, c) international indexed journal (1d) [5 POINTS]
|
|
|
Our journal is in TR-Dizin, DRJI (Directory of Research Journals Indexing, General Impact Factor, Google Scholar, Researchgate, CrossRef (DOI), ROAD, ASOS Index, Turk Medline Index, Eurasian Scientific Journal Index (ESJI), and Turkiye Citation Index.
EBSCO, DOAJ, OAJI and ProQuest Index are in process of evaluation.
Journal articles are evaluated as "Double-Blind Peer Review".