Aims: To evaluate and compare the readability and informational quality of current large language models (LLMs) in providing patient information about urodynamics (UD) testing.
Methods: This cross-sectional study, conducted on October 1, 2025, analyzed five widely used LLMs-ChatGPT-5, Gemini 2.5 Pro, Grok 4, Deepseek v3.1, and Microsoft Copilot. The top 25 UD-related keywords, excluding six of them, searched on Google Trends (2004-2025), were entered into each chatbot using identical prompts. Outputs were independently evaluated using the Quality Analysis of Medical Artificial Intelligence (QAMAI) and DISCERN instruments to evaluate text quality and reliability, while Flesch-Kincaid Reading Ease (FKRE) and Grade Level (FKGL) indices measured readability. Additionally, each LLM was asked to generate a visual depiction of a UD setting to assess the educational potential of AI-based multimodal content.
Results: The evaluated LLMs showed significant differences in readability and informational quality (p=0.001). Gemini achieved the highest FKRE score (49.0±8.4) and the lowest FKGL (9.4±1.3), indicating superior readability. Deepseek achieved the highest QAMAI (27.7±1.5) and DISCERN (71.5±6.4) scores, indicating superior quality and reliability. Copilot demonstrated lower readability and consistency scores compared with the other evaluated models. AI-generated visualizations of UD settings (using Gemini, GPT-5, Grok, Copilot, and DALL-E) effectively depicted the main components of the procedures.
Conclusion: LLMs show significant variability in the quality, accuracy, and readability of UD-related patient information. Deepseek delivered the most accurate and structured content, whereas Gemini provided the most understanable language. Continuous validation, guideline-based fine-tuning, and expert supervision are essential before AI chatbots can be reliably adopted in patient education and urology practice.
No ethical approval was needed because this is not a human study, but only online information was used.
None
Amaç:
Ürodinami (ÜD) testi hakkında hasta bilgilendirmesi sağlama konusunda mevcut yapay zeka (YZ) destekli büyük dil modellerinin (LLM’ler) okunabilirlik ve bilgi kalitesini değerlendirmek ve karşılaştırmak.
Yöntem:
1 Ekim 2025 tarihinde yürütülen bu kesitsel çalışmada, beş yaygın kullanılan LLM (ChatGPT-5, Gemini 2.5 Pro, Grok 4, Deepseek v3.1 ve Microsoft Copilot) analiz edildi. Google Trends’te (2004–2025) aranan ÜD ile ilişkili anahtar kelimerden ilk 25’i (altı tanesi dışlanarak) her bir sohbet robotuna aynı komutlarla girildi. Çıktılar, metin kalitesini ve güvenilirliğini değerlendirmek için Tıbbi Yapay Zekânın Kalite Analizi (QAMAI) ve DISCERN araçlarıyla bağımsız olarak değerlendirildi; okunabilirlik içinse Flesch-Kincaid Okuma Kolaylığı (FKRE) ve Okuma Düzeyi (FKGL) indeksleri kullanıldı. Ayrıca, her LLM’den bir ÜD ortamını görsel olarak tasvir etmesi istendi ve bu üretimler, yapay zekâ temelli çok modlu içeriklerin eğitsel potansiyelini değerlendirmek amacıyla incelendi.
Bulgular:
Hem okunabilirlik hem de kalite parametrelerinde modeller arasında anlamlı farklılıklar bulundu (p = 0.001). Gemini en yüksek FKRE (49.0 ± 8.4) ve en düşük FKGL (9.4 ± 1.3) skorlarına ulaşarak en iyi okunabilirliği sağladı. Deepseek ise en yüksek QAMAI (27.7 ± 1.5) ve DISCERN (71.5 ± 6.4) skorlarını elde ederek genel kalite ve güvenilirlik açısından en üstün sonuçları verdi. Buna karşılık Copilot, en düşük okunabilirlik ve tutarlılığa sahip çıktılar üretti. Gemini, GPT-5, Grok, Copilot ve DALL-E tarafından oluşturulan ÜD ortamı görselleri, prosedürün ana bileşenlerini etkili biçimde yansıttı.
Sonuç:
LLM’ler, ÜD ile ilgili hasta bilgilendirme metinlerinin kalitesi, doğruluğu ve okunabilirliği açısından önemli değişkenlik göstermektedir. Deepseek en doğru ve yapılandırılmış içeriği üretirken, Gemini en anlaşılır dili sağlamıştır. Bu nedenle, YZ sohbet robotlarının hasta eğitimi ve üroloji pratiğinde güvenle kullanılabilmesi için sürekli doğrulama, kılavuz temelli düzenlemeler ve uzman denetimi gereklidir.
| Primary Language | English |
|---|---|
| Subjects | Urology |
| Journal Section | Research Article |
| Authors | |
| Submission Date | December 4, 2025 |
| Acceptance Date | February 2, 2026 |
| Publication Date | March 10, 2026 |
| IZ | https://izlik.org/JA95LP68CP |
| Published in Issue | Year 2026 Volume: 8 Issue: 2 |
TR DİZİN ULAKBİM and International Indexes (1b)
Interuniversity Board (UAK) Equivalency: Article published in Ulakbim TR Index journal [10 POINTS], and Article published in other (excuding 1a, b, c) international indexed journal (1d) [5 POINTS]
Note: Our journal is not WOS indexed and therefore is not classified as Q.
You can download Council of Higher Education (CoHG) [Yüksek Öğretim Kurumu (YÖK)] Criteria) decisions about predatory/questionable journals and the author's clarification text and journal charge policy from your browser. https://dergipark.org.tr/tr/journal/3449/file/4924/show
Journal Indexes and Platforms:
TR Dizin ULAKBİM, Google Scholar, Crossref, Worldcat (OCLC), DRJI, EuroPub, OpenAIRE, Turkiye Citation Index, Turk Medline, ROAD, ICI World of Journal's, Index Copernicus, ASOS Index, General Impact Factor, Scilit.The indexes of the journal's are;
The platforms of the journal's are;
|
The indexes/platforms of the journal are;
TR Dizin Ulakbim, Crossref (DOI), Google Scholar, EuroPub, Directory of Research Journal İndexing (DRJI), Worldcat (OCLC), OpenAIRE, ASOS Index, ROAD, Turkiye Citation Index, ICI World of Journal's, Index Copernicus, Turk Medline, General Impact Factor, Scilit
Journal articles are evaluated as "Double-Blind Peer Review"
All articles published in this journal are licensed under a Creative Commons Attribution 4.0 International License (CC BY NC ND)