Aim:
This study aimed to evaluate the accuracy and completeness of ChatGPT-4 and Google Gemini in answering questions about undescended testis, as these AI tools can sometimes provide seemingly accurate but incorrect information, raising caution in medical applications.
Methods:
Researchers created 20 identical questions independently and submitted them to both ChatGPT-4 and Google Gemini.A pediatrician and a pediatric surgeon evaluated the responses for accuracy, using the Johnson et al. scale (accuracy rated from 1 to 6 and completeness from 1 to 3).Responses that lacked content received a score of 0. Statistical analyses were performed using R Software (version 4.3.1) to assess differences in accuracy and consistency between the tools.
Results:
Both chatbots answered all questions, with ChatGPT achieving a median accuracy score of 5.5 and a mean score of 5.35, while Google Gemini had a median score of 6 and a mean of 5.5. Completeness was similar, with ChatGPT scoring a median of 3 and Google Gemini showing comparable performance.
Conclusion:
ChatGPT and Google Gemini showed comparable accuracy and completeness; however, inconsistencies between accuracy and completeness suggest these AI tools require refinement.Regular updates are essential to improve the reliability of AI-generated medical information on UDT and ensure up-to-date, accurate responses.
Amaç:
Bu çalışma, ChatGPT-4 ve Google Gemini'nin inmemiş testisle ilgili soruları yanıtlamadaki doğruluğunu ve eksiksizliğini değerlendirmeyi amaçlamıştır. Çünkü bu yapay zeka araçları bazen görünüşte doğru ama yanlış bilgiler sağlayabilmektedir ve bu da tıbbi uygulamalarda dikkatli olunmasını gerektirmektedir.
Yöntemler:
Araştırmacılar, 20 özdeş soruyu bağımsız olarak oluşturup hem ChatGPT-4 hem de Google Gemini'ye göndermişlerdir. Bir çocuk doktoru ve bir çocuk cerrahı, yanıtları doğruluk açısından Johnson ve ark. ölçeğini (doğruluk 1 ile 6 arasında, eksiksizlik ise 1 ile 3 arasında derecelendirilmiştir) kullanarak değerlendirmiştir. İçerik içermeyen yanıtlar 0 puan almıştır. Araçlar arasındaki doğruluk ve tutarlılık farklılıklarını değerlendirmek için istatistiksel analizler R Yazılımı (sürüm 4.3.1) kullanılarak gerçekleştirilmiştir.
Sonuçlar:
Her iki sohbet robotu da tüm soruları yanıtlamış; ChatGPT'nin ortanca doğruluk puanı 5,5 ve ortalama puanı 5,35 iken, Google Gemini'nin ortanca puanı 6 ve ortalama puanı 5,5 olmuştur. Tamlık benzerdi; ChatGPT'nin ortalama puanı 3 iken, Google Gemini benzer bir performans gösterdi.
Sonuç:
ChatGPT ve Google Gemini benzer doğruluk ve tamlık gösterdi; ancak doğruluk ve tamlık arasındaki tutarsızlıklar, bu yapay zeka araçlarının iyileştirilmesi gerektiğini gösteriyor. UDT'de yapay zeka tarafından oluşturulan tıbbi bilgilerin güvenilirliğini artırmak ve güncel, doğru yanıtlar sağlamak için düzenli güncellemeler şarttır.
Primary Language | English |
---|---|
Subjects | Clinical Sciences (Other) |
Journal Section | Research Articles |
Authors | |
Publication Date | September 23, 2025 |
Submission Date | July 10, 2025 |
Acceptance Date | August 11, 2025 |
Published in Issue | Year 2025 Volume: 5 Issue: 3 |