Refraktif Cerrahiye İlişkin Sık Sorulan Soruların Yanıtlanmasında DeepSeek ile Yerleşik Büyük Dil Modellerinin Performansının Karşılaştırılması
Öz
Amaç: Bu çalışmanın amacı, dört büyük dil modelinin (LLM)—ChatGPT, DeepSeek, Gemini ve Copilot—lazer refraktif cerrahi ile ilgili hastalar tarafından sık sorulan sorulara verdikleri yanıtların performansını değerlendirmek ve karşılaştırmaktır.
Yöntem: Bu kesitsel, klinik dışı çalışmada, refraktif cerrahi ile ilgili hasta odaklı 25 soru dört LLM’ye yöneltildi. İki göz hastalıkları uzmanı yanıtların doğruluk ve kapsamını Likert ölçekleri kullanarak bağımsız olarak değerlendirdi. Bilgi kalitesi DISCERN aracı ile, okunabilirlik ise Flesch Reading Ease (FRE) ve Flesch–Kincaid Grade Level (FKGL) indeksleri ile değerlendirildi. İstatistiksel analizlerde Friedman testi ve Bonferroni düzeltmeli Wilcoxon signed-rank post-hoc karşılaştırmaları kullanıldı. Değerlendiriciler arası uyum Cohen’in kappa katsayısı ile değerlendirildi.
Bulgular: Değerlendiriciler arası uyum doğruluk için yüksek düzeyde (κ = 0.650, p < 0.001) ve kapsam için orta düzeyde (κ = 0.533, p < 0.001) bulundu. ChatGPT ve DeepSeek doğruluk ve kapsam açısından en yüksek puanları elde etti ve aralarında anlamlı fark saptanmadı. Copilot her iki modele göre anlamlı derecede daha düşük performans gösterdi (sırasıyla p = 0.003 ve p = 0.031), Gemini ise orta düzey performans sergiledi. DISCERN skorları tüm modelleri iyi kalite aralığında (54–58/75) gösterdi. Referans sağlanması istendiğinde DeepSeek en büyük artışı (+7 puan) göstererek “mükemmel” kategorisine ulaştı. Tüm modeller “zor” okunabilirlik aralığında metin üretti; DeepSeek en erişilebilir metni oluştururken (FRE = 45.5; FKGL = 9.1), Gemini en yüksek okuma düzeyini gerektirdi (FRE = 35.2; FKGL = 12.7).
Sonuç: Büyük dil modelleri, refraktif cerrahi ile ilgili hasta sorularına makul düzeyde doğru yanıtlar sağlayabilmektedir. Ancak bilgi kalitesi ve okunabilirlik açısından gözlenen farklılıklar, bu araçların hasta eğitimi amacıyla kullanımında klinisyen gözetiminin önemini ortaya koymaktadır.
Anahtar Kelimeler
Yapay Zekâ, Büyük Dil Modelleri, Hasta Eğitimi, Refraktif Cerrahi
Performance of Deepseek vs. Established Large Language Models in Answering Frequently Asked Questions About Refractive Surgery
Öz
Background: To evaluate and compare the performance of four large language models (LLMs)—ChatGPT, DeepSeek, Gemini, and Copilot—in answering frequently asked patient questions on laser refractive surgery.
Methods: This cross-sectional, non-clinical study evaluated 25 patient-centered refractive surgery questions posed to four LLMs. Two ophthalmologists independently rated response accuracy and completeness using Likert scales. Information quality was assessed using the DISCERN instrument, and readability using the Flesch Reading Ease (FRE) and Flesch–Kincaid Grade Level (FKGL). Statistical analysis included the Friedman test with Wilcoxon signed-rank post-hoc comparisons using Bonferroni cor-rection. Cohen’s kappa assessed inter-rater reliability.
Results: Inter-rater agreement was substantial for accuracy (κ = 0.650, p < 0.001) and moderate for completeness (κ = 0.533, p < 0.001). ChatGPT and DeepSeek achieved the highest accuracy and completeness scores with no significant difference between them. Copilot performed significantly worse than both (p = 0.003 and p = 0.031, respectively), while Gemini showed interme-diate performance. DISCERN scores placed all models in the good range (54–58/75). When prompted to provide references, DeepSeek showed the greatest improvement (+7 points), reaching the outstanding category. All models produced responses in the “difficult” readability range; DeepSeek generated the most accessible text (FRE = 45.5; FKGL = 9.1), whereas Gemini required the highest reading level (FRE = 35.2; FKGL = 12.7).
Conclusion: Large language models can provide reasonably accurate responses to refractive surgery–related patient questions. However, variability in information quality and readability highlights the importance of clinician oversight when using these tools for patient education.
Anahtar Kelimeler
Artificial Intelligence, Large Language Models, Patient Education, Refractive Surgery
The authors received no financial support or funding for the research, authorship, or publication of this article.
Bu çalışma klinik olmayan nitelikte olup insan katılımcı, hasta verisi veya biyolojik materyal içermemektedir. Bu nedenle etik kurul onayı ve bilgilendirilmiş onam gerekmemektedir.