Background: Medical education in Türkiye is delivered through a six-year, discipline-based curriculum aligned with global trends. The assessment process largely relies on multiple-choice questions, placing a significant preparation burden on faculty members. AI-powered large language models like ChatGPT have the potential to ease exam preparation, enhance feedback quality, and support personalized learning. The aim of this study is to evaluate the success of the ChatGPT-4o model performs when answering multiple-choice (MCQ) questions on medical education exams. Additionally, by comparing exam performance and consistency to student success, we explore the potential benefits of AI-supported models to medical education.
Methods: This cross-sectional, analytical investigation was carried out in Türkiye at the [XX] University Faculty of Medicine. During the 2023–2024 academic year, ChatGPT solved multiple-choice questions from seven board exams and one final exam for third-year students, the results were compared with the students' achievements. Statistical analysis included descriptive statistics, correlation analyses, chi-square tests, McNemar tests, and t-tests for independent samples.
Results: With a 90.2% correct response percentage, ChatGPT outperformed the entire class, outperforming 293 other students. There was no significant difference in the correct response rate between the surgical, internal, and fundamental medical sciences (p = 0.742). In several fields, such psychiatry, neurology, and medical genetics, 100% success was attained. Forensic medicine, family medicine, medical ethics, pulmonary medicine, and thoracic surgery all had success rates that were lower than 80%. A retest conducted two months later revealed that ChatGPT's success rate had somewhat risen, with response consistency standing at 91.4%.
Conclusions: With a high success rate on medical education tests, ChatGPT has shown a great deal of promise to help both students and instructors. The integration of AI models into educational systems should be done strategically and with a human-centered approach, though, given the constraints in areas like clinical reasoning, ethical evaluation, and human-centered medical education. It is important to design instructional strategies in the future that combine artificial intelligence technologies with human skills.
Medical education Artificial intelligence Natural language processing Educational measurement
Amaç: Türkiye’de tıp eğitimi, küresel eğilimlerle uyumlu olarak altı yıllık disiplin temelli bir müfredatla yürütülmektedir. Değerlendirme süreci büyük ölçüde çoktan seçmeli sorulara dayanmakta ve bu durum öğretim üyeleri için önemli bir hazırlık yükü oluşturmaktadır. ChatGPT gibi yapay zekâ destekli büyük dil modelleri, sınav hazırlığını kolaylaştırma, geribildirim kalitesini artırma ve kişiselleştirilmiş öğrenmeyi destekleme potansiyeline sahiptir. Bu çalışmanın amacı, ChatGPT-4o modelinin tıp eğitimi sınavlarındaki çoktan seçmeli soruları yanıtlama başarısını değerlendirmektir. Ayrıca sınav performansı ve tutarlılığı öğrenci başarısıyla karşılaştırılarak, yapay zekâ destekli modellerin tıp eğitimine olası katkıları araştırılmaktadır.
Gereç ve yöntem: Bu kesitsel ve analitik araştırma, Türkiye’de [XX] Üniversitesi Tıp Fakültesi'nde yürütülmüştür. 2023–2024 eğitim-öğretim yılı boyunca ChatGPT, üçüncü sınıf öğrencilerine yönelik yedi kurul sınavı ve bir final sınavındaki çoktan seçmeli soruları yanıtlamış; elde edilen sonuçlar öğrencilerin başarılarıyla karşılaştırılmıştır. İstatistiksel analizde tanımlayıcı istatistikler, korelasyon analizleri, ki-kare testi, McNemar testi ve bağımsız örneklemler için t-testi kullanılmıştır.
Bulgular: %90,2’lik doğru yanıt oranıyla ChatGPT, sınıftaki 293 öğrencinin tamamından daha yüksek bir başarı göstermiştir. Cerrahi, dahili ve temel tıp bilimleri arasında doğru yanıt oranı açısından anlamlı bir fark saptanmamıştır (p = 0,742). Psikiyatri, nöroloji ve tıbbi genetik gibi bazı alanlarda %100 başarı elde edilmiştir. Adli tıp, aile hekimliği, tıp etiği, göğüs hastalıkları ve göğüs cerrahisi gibi alanlarda ise başarı oranı %80’in altında kalmıştır. İki ay sonra yapılan tekrarlama testinde ChatGPT’nin başarı oranı hafifçe artmış; yanıt tutarlılığı %91,4 olarak bulunmuştur.
Sonuç: ChatGPT, tıp eğitimi sınavlarında yüksek başarı oranı göstererek hem öğrenciler hem de eğitmenler için önemli bir potansiyele sahip olduğunu ortaya koymuştur. Ancak yapay zekâ modellerinin klinik akıl yürütme, etik değerlendirme ve insan merkezli tıp eğitimi gibi alanlardaki sınırlılıkları göz önüne alındığında, bu teknolojilerin eğitim sistemlerine entegrasyonu stratejik ve insan odaklı bir yaklaşımla gerçekleştirilmelidir. Gelecekte, yapay zekâ teknolojileri ile insan becerilerini birleştiren öğretim stratejileri tasarlanması önem arz etmektedir.
| Birincil Dil | İngilizce |
|---|---|
| Konular | Tıp Eğitimi |
| Bölüm | Araştırma Makalesi |
| Yazarlar | |
| Gönderilme Tarihi | 28 Haziran 2025 |
| Kabul Tarihi | 8 Eylül 2025 |
| Yayımlanma Tarihi | 22 Aralık 2025 |
| Yayımlandığı Sayı | Yıl 2025 Cilt: 24 Sayı: 74 |