Büyük Dil Modellerinin Lateral Epikondilit Hakkındaki Hasta Sorularına Yanıtları: Çok Merkezli Değerlendirme
Öz
Amaç: Lateral epikondilit (tenisçi dirseği), dirsek ağrısının sık görülen bir nedenidir. İnternetin ve yapay zekânın (YZ) sağlık bilgisi ediniminde artan kullanımıyla birlikte, büyük dil modelleri (BDM’ler) hastalar tarafından sıklıkla danışılan kaynaklar hâline gelmiştir. Bu çalışmada, lateral epikondilit ile ilgili sık sorulan hasta sorularına ChatGPT-3.5, ChatGPT-4, Gemini ve Copilot modellerinin verdiği yanıtların doğruluk, güvenilirlik, içerik kalitesi ve okunabilirlik açısından değerlendirilmesi amaçlanmıştır.
Yöntemler: Yazarlar komitesi, Google arama motorunu kullanarak çeşitli web sitelerinden lateral epikondilit ile ilgili hasta sorularını taramış ve en sık sorulan 12 soruyu çalışmaya dâhil etmiştir. Bu sorular dört farklı YZ modeline (ChatGPT-3.5, ChatGPT-4, Gemini ve Copilot) yöneltilmiştir. Modellerin verdiği yanıtlar dört ölçüt kullanılarak değerlendirilmiştir: doğruluk (beşli Likert ölçeği), güvenilirlik (modifiye DISCERN ölçeği), kalite (Global Quality Scale [GQS]) ve okunabilirlik (Flesch Reading Ease Score [FRES]).
Bulgular: ChatGPT-3.5 yanıtları en yüksek ortalama Likert skoruna (4,11±0,24) sahipti; bunu Gemini (4,11±0,17), Copilot (4,05±0,23) ve ChatGPT-4 (3,95±0,21) izledi. Chatbot modelleri arasındaki Likert skorları farkı istatistiksel olarak anlamlı bulunmadı (p>0,05). Copilot en yüksek modifiye DISCERN skorunu (3,51±0,25) elde etti; ardından Gemini (3,36±0,40), ChatGPT-3.5 (3,19±0,19) ve ChatGPT-4 (2,93±0,19) geldi. Copilot ve Gemini’nin, ChatGPT-4’e kıyasla anlamlı derecede daha yüksek skorlar aldığı görüldü (p<0,05). GQS skorlarında en yüksek değer ChatGPT-3.5’e (3,86±0,20) aitti; ardından Gemini (3,80±4,33), Copilot (3,59±0,27) ve ChatGPT-4 (3,40±0,22) sıralandı. ChatGPT-3.5 ve Gemini, ChatGPT-4’e göre anlamlı olarak daha yüksek skor elde etti (p<0,05). GQS değerlendirmesinde yüksek kaliteli yanıtların oranı Gemini için %33, ChatGPT-3.5 için %25, Copilot için %8 ve ChatGPT-4 için %0 olarak bulundu. Ortalama FRES değerleri Gemini için 47,71±19,78, Copilot için 43,17±10,91, ChatGPT-4 için 37,72±15,73 ve ChatGPT-3.5 için 29,73±16,03 idi. Bu değerler, yanıtların genel olarak “zor okunur” seviyede olduğunu göstermektedir.
Sonuç: Tüm chatbot modelleri tenisçi dirseği hakkındaki sorulara genel olarak doğru ve kaliteli yanıtlar vermiştir. En güvenilir yanıtlar Copilot ve Gemini tarafından sunulurken, en yüksek içerik kalitesi Gemini ve ChatGPT-3.5 tarafından sağlanmıştır. Ancak ChatGPT-3.5 ve ChatGPT-4’ün önemli bir kısıtlılığı, yanıtlarında kaynak veya atıf göstermemeleri olmuştur. Ayrıca tüm modellerin yanıtlarının okunabilirlik açısından güçlük taşıdığı saptanmıştır.
Anahtar Kelimeler
tenis, dirsek, ağrı, spor yaralanması, büyük dil modelleri, yapay zeka, tendinit
Large Language Models’ Responses to Patient Questions on Lateral Epicondylitis: Multi- Institutional Orthopaedic Surgeon Evaluation
Öz
Background: Lateral epicondylitis (tennis elbow) is a common cause of elbow pain. With the increasing use of the internet and artificial intelligence (AI) for health information, large language models (LLMs) are frequently consulted by patients. This study aimed to evaluate the accuracy, reliability, content quality, and readability of responses provided by different large language models (ChatGPT-3.5, ChatGPT-4, Gemini, and Copilot) to frequently asked patient questions about lateral epicondylitis.
Methods: The author committee reviewed patient-oriented questions on lateral epicondylitis using Google searches and selected the 12 most frequently asked questions for inclusion. These questions were presented to four LLMs: ChatGPT-3.5, ChatGPT-4, Gemini, and Copilot. Responses were evaluated for accuracy using a five-point Likert scale, reliability using the modified DISCERN scale, quality using the Global Quality Scale (GQS), and readability using the Flesch Reading Ease Score (FRES).
Results: Perceived medical accuracy did not differ significantly among the LLMs (p = 0.579). Reliability differed significantly (modified DISCERN: p < 0.001), with Copilot and Gemini achieving higher scores than ChatGPT-4 (both p < 0.001) and Copilot also outperforming ChatGPT-3.5 (p = 0.002). Quality differed significantly (GQS: p < 0.001), with ChatGPT-3.5 and Gemini scoring higher than ChatGPT-4 (p = 0.001 and p = 0.006, respectively). Readability differed across models (FRES: p = 0.049); Gemini demonstrated higher readability than ChatGPT-3.5 (p = 0.040), while responses from all models were generally difficult to read. Response generation time differed significantly (p < 0.001), with ChatGPT-4 producing the slowest responses.
Conclusions: All evaluated LLMs provided generally accurate and moderately reliable responses to questions about tennis elbow, with differences observed across specific quality domains such as source transparency, readability, and response time. Models with citation capabilities demonstrated higher reliability in terms of source transparency, while readability remained a common limitation. LLMs show potential as supplementary patient information tools in orthopaedic; however, further refinement and improved readability are needed before widespread clinical use.
Anahtar Kelimeler
tennis, elbow, pain, sports injuries, large language models, artificial intelligence, tendinitis
The authors did not receive any financial support for the submitted work.
Yazarlar, bu çalışma ile ilgili herhangi bir çıkar çatışması bulunmadığını beyan etmektedir.