Santral Seröz Koryoretinopatide Sık Sorulan Sorular için ChatGPT 3.5, Gemini 2.5 ve Microsoft Copilot Tarafından Oluşturulan Yanıtların Okunabilirliği ve Uygunluğu
Abstract
Amaç: Bu çalışmanın amacı, Santral Seröz Koryoretinopati hakkında, üç farklı yapay zekâ tabanlı metin üretim aracının oluşturduğu içeriklerin okunabilirlik düzeylerini ve bilgi kalitesini karşılaştırmaktır.
Gereç ve Yöntem: Çalışmamızda, son 10 yılda PubMed tarafından indekslenen makalelerden Santral Seröz Koryoretinopati (SSKR) konusundan 40 soru seçilmiştir. Bu sorular üç farklı yapay zekâ tabanlı metin üretim aracına (ChatGPT 3.5, Gemini 2.5 ve Copilot) yöneltilmiş ve verilen yanıtlar analiz edilmiştir. Elde edilen metinler; okunabilirlik düzeyleri [Flesch Reading Ease Score (FRES), Flesch-Kincaid Grade Level (FKGL), Simple Measure of Gobbledygook (SMOG), Gunning Fog Index (GFOG) ve Automated Readability Index (ARI)], cümle uzunlukları ve içerik kalitesi açısından karşılaştırılmıştır. Yanıtların içerik kalitesi ise iki bağımsız araştırmacı tarafından puanlanmıştır.
Bulgular: Optimal okunabilirlik için FRES değerinin ≥ 60 olması gerekirken, incelenen modellerin hiçbiri bu eşik değere ulaşamamıştır. FRES skorları açısından modeller arasında istatistiksel olarak anlamlı fark saptanmıştır (p = 0,01). FRES’in yanı sıra diğer dört ölçekte de hiçbir model kabul edilebilir okunabilirlik düzeyine ulaşamamış; tüm modellerde değerler eşiklerin oldukça üzerinde bulunmuştur, bu da içeriklerin genel olarak düşük okunabilirlikte olduğunu göstermektedir. Gemini, kalite skorlarında diğer modellere kıyasla anlamlı düzeyde daha yüksek puanlar almış ve bu durum içerik kalitesinin daha tatmin edici olduğunu göstermektedir (p <.001). Öte yandan, Copilot, daha kısa ve daha az sayıda cümle kullanarak daha sade metinler üretmiştir.
Sonuç:Bu çalışma, yapay zeka modellerinin tıbbi terminolojiye aşina olmayanlar için anlaşılması zor akademik yanıtlar verdiğini ve sağlıkla ilgili içerik üretiminde okunabilirlik ve kalite açısından farklı çıktılar üretebildiğini göstermiştir. Bu bulgular, yapay zeka temelli içeriklerin sağlık alanında kullanımı için dikkatli değerlendirme yapılması gerektiğini göstermektedir. Çalışma YZ modellerinin tıbbi terminolojiye aşina olmayanlar için anlaşılması zor akademik yanıtlar verdiğini ve sağlıkla ilgili içerik üretiminde okunabilirlik ve kalite açısından farklı çıktılar üretebildiğini ortaya koymaktadır. Bu bulgular, YZ temelli içeriklerin sağlık alanında kullanımı için dikkatli değerlendirme yapılması gerektiğini göstermektedir.
Keywords
Santral Seröz Koryoretinopati, Kalite, Okunabilirlik, Yapay zekâ
Readability and Appropriateness of Responses Generated by ChatGPT 3.5, Gemini 2.5, and Microsoft Copilot to Frequently Asked Questions About Central Serous Chorioretinopathy
Abstract
Background: This study aims to compare the readability levels and informational quality of responses generated by three different artificial intelligence (AI)-based text generation models in relation to Central Serous Chorioretinopathy (CSCR).
Materials and Methods: A total of 40 questions pertaining to CSCR were formulated based on articles indexed in PubMed over the past ten years. These questions were submitted to three AI-based text generation tools ChatGPT 3.5, Gemini 2.5, and Microsoft Copilot. The resulting responses were analyzed for readability using five standard indices: Flesch Reading Ease Score (FRES), Flesch-Kincaid Grade Level (FKGL), Simple Measure of Gobbledygook (SMOG), Gunning Fog Index (GFOG), and Automated Readability Index (ARI). Sentence lengths and structural complexity were also assessed. Content
quality was independently evaluated and scored by two researchers using a standardized rubric.
Results: Nor adequate readability. A statistically significant difference in FRES scores was observed among the models (p = 0.01). Similarly, none of the models met the acceptable readability standards across the other four indices, with all scores exceeding recommended limits indicating generally poor readability. Among the tools, Gemini yielded significantly higher quality scores compared to the others (p < .001), suggesting superior informational content. Conversely, Microsoft Copilot produced more concise outputs characterized by shorter and fewer sentencesone of the models achieved the
optimal FRES threshold (≥ 60) required f.
Conclusions: The findings suggest that AI-generated responses regarding CSCR are often overly technical and may not be easily comprehensible to individuals without a medical background. Moreover, the study highlights variability among different AI models in terms of both readability and content quality. These results underscore the importance of critically evaluating AI-generated medical content prior to its dissemination for public or clinical use.
Keywords
Central Serous Chorioretinopathy, Readability, Content Quality, Artificial Intelligence
The authors received no financial support for the research, authorship, and/or publication of this article.
This study did not involve human participants, patient data, or animal subjects. The study was based on the analysis of responses generated by artificial intelligence chatbots to predefined questions about Central Serous Chorioretinopathy. Therefore, ethics committee approval and informed consent to participate were not required.