Aims: This study aimed to compare the clinical reasoning and treatment planning performance of three advanced large language models (LLMs)-ChatGPT-4o, Gemini 2.5 Pro, and DeepSeek-V3-in orthopedic rehabilitation. Their responses to standardized clinical scenarios were evaluated to determine alignment with evidence‑based physiotherapy practices, focusing on relevance, accuracy, completeness, applicability, and safety awareness.
Methods: Three fictional but clinically realistic scenarios involving rotator cuff tendinopathy, lumbar disc herniation with radiculopathy, and anterior cruciate ligament (ACL) reconstruction were developed by an experienced physiotherapist. These scenarios were independently queried on the same day by three AI models using identical prompts. A blinded expert physiotherapist evaluated each model’s detailed responses using a 5-point Likert Scale across five domains: clinical accuracy, relevance, completeness, applicability, and safety awareness. Mean scores and descriptive statistics were calculated.
Results: DeepSeek-V3 was consistently rated highest (5/5) across all domains and scenarios, demonstrating comprehensive and clinically rigorous plans. ChatGPT-4o showed strong performance overall, with total scores ranging from 19 to 20 out of 25, though it exhibited lower completeness scores due to less specific milestones. Gemini 2.5 Pro scored lower overall (average total score 18/25), with particular weaknesses in applicability and clinical relevance in complex cases such as lumbar disc herniation. All models provided evidence-based treatment approaches emphasizing pain management, postural correction, gradual strengthening, and return-to-activity progression. Differences arose in emphasis on lifestyle modification, patient education depth, and integration of psychosocial factors, with Gemini uniquely addressing psychological readiness in ACL rehabilitation.
Conclusion: AI-generated rehabilitation plans show substantial concordance with current physiotherapy guidelines but vary in detail and clinical practicality. DeepSeek-V3 outperformed the other models in consistency and safety considerations, while ChatGPT-4o balanced clinical accuracy with moderate completeness. Gemini 2.5 Pro’s inclusion of biopsychosocial components offers valuable insights but may require further refinement for clinical applicability. These findings highlight the potential and current limitations of AI tools in orthopedic rehabilitation, suggesting careful model selection based on clinical context and user needs.
Artificial Intelligence clinical reasoning musculoskeletal diseases rehabilitation physical therapy modalities
Amaç:
Bu çalışma, üç gelişmiş büyük dil modeli (ChatGPT-4o, Gemini 2.5 Pro ve DeepSeek-V3)’nun ortopedik rehabilitasyondaki klinik akıl yürütme ve tedavi planlama performanslarını karşılaştırmayı amaçlamıştır. Standartlaştırılmış klinik senaryolara verdikleri yanıtların, kanıta dayalı fizyoterapi uygulamalarıyla uyumunu değerlendirmek için alaka, doğruluk, tamamlayıcılık, uygulanabilirlik ve güvenlik farkındalığı açısından analiz edilmiştir.
Yöntem:
Rotator manşet tendinopatisi, lomber disk herniasyonu ve ön çapraz bağ (ÖÇB) rekonstrüksiyonunu içeren üç kurgusal fakat klinik gerçekçiliğe sahip senaryo deneyimli bir fizyoterapist tarafından hazırlanmıştır. Senaryolar aynı gün ve standart prompt kullanılarak üç yapay zeka modeli tarafından bağımsız şekilde yanıtlanmıştır. Her modelin yanıtları, uzman bir fizyoterapist tarafından beş alan (klinik doğruluk, alaka, tamamlayıcılık, uygulanabilirlik, güvenlik farkındalığı) bazında 5 puanlık Likert ölçeğiyle değerlendirilmiştir. Ortalama puanlar ve tanımlayıcı istatistikler hesaplanmıştır.
Bulgular:
DeepSeek-V3 tüm senaryolarda ve kriterlerde mükemmel (5/5) skorlar alarak en kapsamlı ve klinik olarak tutarlı planları sunmuştur. ChatGPT-4o genel olarak güçlü performans sergilemiş (toplam puan 19-20/25 aralığında) ancak tamamlayıcılık alanında daha düşük puanlar almıştır. Gemini 2.5 Pro ise uygulama ve klinik alaka açısından en düşük skorları (ortalama 18/25) göstermiştir, özellikle lomber disk herniasyonu senaryosunda zayıf kalmıştır. Tüm modeller ağrı yönetimi, postüral düzeltme ve kademeli güçlendirme gibi kanıta dayalı yaklaşımlar sunmuştur. Farklılıklar daha çok yaşam tarzı değişiklikleri, hasta eğitimi ve psikososyal bileşenlerin entegrasyonunda gözlenmiştir; Gemini psikolojik hazırlık gibi unsurları daha belirgin şekilde ele almıştır.
Sonuç:
Yapay zeka tabanlı rehabilitasyon planları mevcut fizyoterapi rehberleri ile yüksek uyum gösterse de detay ve klinik uygulanabilirlik açısından farklılıklar bulunmaktadır. DeepSeek-V3 tutarlılık ve güvenlik önlemlerinde üstünlük sağlarken, ChatGPT-4o klinik doğruluk ile orta düzeyde tamamlayıcılık arasında denge kurmuştur. Gemini 2.5 Pro’nun biyopsikososyal yaklaşımları klinik derinlik sunsa da uygulamada geliştirilmesi gerekebilir. Bu bulgular, yapay zeka araçlarının ortopedik rehabilitasyonda kullanım potansiyeli ve sınırlamalarına ışık tutmakta olup, model seçiminin klinik bağlam ve kullanıcı deneyimine göre yapılması gerektiğini göstermektedir.
Yapay Zeka Klinik Akıl Yürütme Dil Modelleri Kas-İskelet Hastalıkları Ortopedik Rehabilitasyon Fizyoterapi Yöntemleri
Birincil Dil | İngilizce |
---|---|
Konular | Fizyoterapi |
Bölüm | Orijinal Makale |
Yazarlar | |
Yayımlanma Tarihi | 16 Eylül 2025 |
Gönderilme Tarihi | 15 Temmuz 2025 |
Kabul Tarihi | 6 Ağustos 2025 |
Yayımlandığı Sayı | Yıl 2025 Cilt: 8 Sayı: 5 |
Üniversitelerarası Kurul (ÜAK) Eşdeğerliği: Ulakbim TR Dizin'de olan dergilerde yayımlanan makale [10 PUAN] ve 1a, b, c hariç uluslararası indekslerde (1d) olan dergilerde yayımlanan makale [5 PUAN]
Dahil olduğumuz İndeksler (Dizinler) ve Platformlar sayfanın en altındadır.
Not: Dergimiz WOS indeksli değildir ve bu nedenle Q olarak sınıflandırılmamıştır.
Yüksek Öğretim Kurumu (YÖK) kriterlerine göre yağmacı/şüpheli dergiler hakkındaki kararları ile yazar aydınlatma metni ve dergi ücretlendirme politikasını tarayıcınızdan indirebilirsiniz. https://dergipark.org.tr/tr/journal/2316/file/4905/show
Dergi Dizin ve Platformları
Dizinler; ULAKBİM TR Dizin, Index Copernicus, ICI World of Journals, DOAJ, Directory of Research Journals Indexing (DRJI), General Impact Factor, ASOS Index, WorldCat (OCLC), MIAR, EuroPub, OpenAIRE, Türkiye Citation Index, Türk Medline Index, InfoBase Index, Scilit, vs.
Platformlar; Google Scholar, CrossRef (DOI), ResearchBib, Open Access, COPE, ICMJE, NCBI, ORCID, Creative Commons vs.