Amaç:
ChatGPT gibi büyük dil modelleri (LLM'ler), akademik ve klinik yazımda giderek daha fazla kullanılmaktadır. Bu araçlar tutarlı ve alanına özgü metinler üretebilse de, otomatik olarak oluşturulan referansların doğruluğuna ilişkin endişeler devam etmektedir. Güncel kanıtlara büyük ölçüde dayanan kas-iskelet sistemi rehabilitasyonu alanında, atıfların güvenilirliği özellikle kritik öneme sahiptir. Ancak yapay zekâ tarafından üretilen bilimsel içeriklerde atıf doğruluğunu sistematik olarak değerlendiren çalışmalar yetersizdir. Bu çalışmanın amacı, kas-iskelet sistemi rehabilitasyonu konularında oluşturulan promptlara yanıt olarak ChatGPT (GPT-4) tarafından üretilen bilimsel metinlerdeki referansların doğruluğunu değerlendirmek ve yapılandırılmış bir doğrulama sürecinin referans doğruluğunu artırıp artırmadığını belirlemektir.
Yöntem:
ChatGPT’den manuel terapi, ön çapraz bağ (ACL) rekonstrüksiyonu, bel ağrısı ve rotator manşet onarımı konularında, her biri 10 DOI içeren dört bilimsel paragraf üretmesi istendi. Toplam 40 referans, 3 puanlık bir sistemle değerlendirildi: 0 = uydurma, 1 = kısmen doğru, 2 = tamamen doğru. İlk değerlendirmeden sonra ChatGPT'den referansları doğrulaması ve düzeltmesi istendi. İlk ve son durumdaki puanlar betimsel olarak karşılaştırıldı.
Bulgular:
İlk üretimde referansların yalnızca %7,5’i tamamen doğruydu, %42,5’i ise tamamen uydurmaydı. Geri kalan %50’si kısmen doğruydu. Doğrulama sürecinden sonra tamamen doğru referans oranı %77,5’e yükseldi. En yaygın hatalar geçersiz DOI’ler, uydurma makale başlıkları ve yanlış eşleşmiş metadata içeriğiydi.
Sonuç:
ChatGPT tutarlı bilimsel metinler üretebilse de, referansları sıklıkla hatalı veya uydurmadır. Üretim sonrası doğrulama, referans doğruluğunu önemli ölçüde artırmaktadır. Yapay zekâ araçlarının akademik ve klinik kas-iskelet sistemi bağlamlarında kullanımı sırasında, özellikle atıf geçerliliği açısından dikkatli olunmalıdır.
ChatGPT Yapay zeka Muskuloskeletal rehabilitasyon bilimsel yazı referans doğruluğu atıf halüsinasyonu
Aims: Large language models (LLMs) such as ChatGPT are increasingly used in academic and clinical writing. While these tools can generate coherent and domain-specific text, concerns persist regarding the accuracy of their automatically generated references. In musculoskeletal rehabilitation—a field heavily reliant on current evidence—the reliability of citations is especially critical. Yet, systematic evaluations of citation accuracy in AI-generated scientific content are lacking. To evaluate the reference accuracy of scientific texts generated by ChatGPT (GPT-4) in response to musculoskeletal rehabilitation prompts, and to determine whether reference accuracy improves following structured post-generation verification.
Methods: ChatGPT was prompted to generate four scientific paragraphs on musculoskeletal rehabilitation topics (manual therapy, ACL reconstruction, low back pain, and rotator cuff repair), each including 10 references with DOIs. A total of 40 references were analyzed using a 3-point scoring system (0=fabricated, 1=partially correct, 2=fully accurate), which was used to assess citation quality. After initial evaluation, ChatGPT was asked to verify and revise its references. Scores before and after this step were compared descriptively and with Wilcoxon signed-rank tests to assess statistical significance, and effect sizes (r) were calculated to estimate the magnitude of improvement.
Results: Only 7.5% of references were fully accurate in the initial generation, while 42.5% were completely fabricated. The remaining 50% were partially correct. After verification, the proportion of fully accurate references rose to 77.5%. Wilcoxon signed-rank testing confirmed a statistically significant improvement in accuracy across all prompts (W=561.0, p<0.001, r=0.60). The most common errors included invalid DOIs, fabricated article titles, and mismatched metadata.
Conclusion: ChatGPT can generate coherent scientific content, but its initial references are frequently inaccurate or fabricated. Structured post-generation verification significantly improves reference accuracy, as confirmed by statistical testing. These findings suggest that LLMs may be integrated as drafting tools in academic and clinical musculoskeletal contexts, but only when accompanied by strict human-led verification of citations.
ChatGPT artificial intelligence musculoskeletal rehabilitation scientific writing reference accuracy hallucinated citations
Birincil Dil | İngilizce |
---|---|
Konular | Fizyoterapi |
Bölüm | Research Articles |
Yazarlar | |
Yayımlanma Tarihi | 15 Eylül 2025 |
Gönderilme Tarihi | 19 Temmuz 2025 |
Kabul Tarihi | 10 Eylül 2025 |
Yayımlandığı Sayı | Yıl 2025 Cilt: 7 Sayı: 5 |
Üniversitelerarası Kurul (ÜAK) Eşdeğerliği: Ulakbim TR Dizin'de olan dergilerde yayımlanan makale [10 PUAN] ve 1a, b, c hariç uluslararası indekslerde (1d) olan dergilerde yayımlanan makale [5 PUAN]
- Dahil olduğumuz İndeksler (Dizinler) ve Platformlar sayfanın en altındadır.
Not: Dergimiz WOS indeksli değildir ve bu nedenle Q olarak sınıflandırılmamaktadır.
Yüksek Öğretim Kurumu (YÖK) kriterlerine göre yağmacı/şüpheli dergiler hakkındaki kararları ile yazar aydınlatma metni ve dergi ücretlendirme politikasını tarayıcınızdan indirebilirsiniz. https://dergipark.org.tr/tr/journal/3449/page/10809/update
Dergi Dizin ve Platformları
TR Dizin ULAKBİM, Google Scholar, Crossref, Worldcat (OCLC), DRJI, EuroPub, OpenAIRE, Turkiye Citation Index, Turk Medline, ROAD, ICI World of Journal's, Index Copernicus, ASOS Index, General Impact Factor, Scilit.