Aim
To evaluate the diagnostic performance of Large Language Models (LLM) (ChatGPT 3.5, ChatGPT 4, Gemini 1.0, and Gemini Advance) in Ultrasound (US) cases and their superiority over each other
Materials and Methods
In this retrospective study, the data of 20 real cases with US examination and confirmed diagnoses were evaluated between 2020-2024. Clinical information, relevant laboratory data, and US findings of these cases were simultaneously presented to four Artificial Intelligence (AI) (ChatGPT 3.5, ChatGPT 4, Gemini 1.0, Gemini Advance). The correct response rates of the four AIs to the cases were compared. Two radiology experts in the US evaluated the answers.
Results
The correct response rates of ChatGPT 3.5, ChatGPT 4, Gemini 1.0, and Gemini Advance models in the cases were 92% (23/25), 92% (23/25), 76% (19/25), 84% (21/25), respectively, and with no statistically significant differences between them.
Conclucion
This is the first study about four AI performances in diagnosis in real US cases. The results suggest that no matter which AI we use, AIs have the potential to assist radiologists in diagnosis significantly. The fact that they are easy and fast to use can also significantly speed up the daily workflow. However, it should be remembered that they cannot yet completely replace a radiologist.
Artificial Intelligence Large Language Models ChatGPT Gemini Ultrasound
Amaç
Ultrason (US) vakalarında Geniş Dil Modellerinin (LLM) (ChatGPT 3.5, ChatGPT 4, Gemini 1.0 ve Gemini Advance) tanısal performansını ve birbirlerine göre üstünlüklerini değerlendirmek
Gereç ve Yöntem
Bu retrospektif çalışmada, 2020-2024 yılları arasında US incelemesi yapılmış ve tanıları doğrulanmış 20 gerçek vakanın verileri değerlendirilmiştir. Bu vakaların klinik bilgileri, ilgili laboratuvar verileri ve US bulguları eş zamanlı olarak dört Yapay Zekaya (YZ) (ChatGPT 3.5, ChatGPT 4, Gemini 1.0, Gemini Advance) sunulmuştur. Dört YZ'nin vakalara doğru yanıt verme oranları karşılaştırılmıştır. Yanıtlar iki radyoloji uzmanı tarafından değerlendirmiştir.
Bulgular
ChatGPT 3.5, ChatGPT 4, Gemini 1.0 ve Gemini Advance modellerinin vakalardaki doğru yanıt oranları sırasıyla %92 (23/25), %92 (23/25), %76 (19/25), %84 (21/25) olup aralarında istatistiksel olarak anlamlı farklılık yoktur.
Tartışma
Bu çalışma, gerçek US vakalarıyla yapılmış, 4 YZ’nin tanı performanslarının değerlendirildiği ilk çalışmadır. Sonuçlar, hangi YZ'yi kullanırsak kullanalım, YZ'lerin radyologlara tanıda önemli ölçüde yardımcı olma potansiyeline sahip olduğunu göstermektedir. Kullanımlarının kolay ve hızlı olması da günlük iş akışını önemli ölçüde hızlandırabilir. Bununla birlikte, henüz gerçek bir radyoloğun yerini tamamen alamayacakları da unutulmamalıdır.
Birincil Dil | İngilizce |
---|---|
Konular | Radyoloji ve Organ Görüntüleme |
Bölüm | Orjinal Araştırma |
Yazarlar | |
Yayımlanma Tarihi | 30 Eylül 2025 |
Gönderilme Tarihi | 1 Şubat 2025 |
Kabul Tarihi | 22 Eylül 2025 |
Yayımlandığı Sayı | Yıl 2025 Cilt: 15 Sayı: 5 |