Amaç:
Bu çalışmanın amacı, acil beyin BT raporlarında sık rastlanan patolojilerin tespiti açısından üç farklı yapay zeka dil modelinin (ChatGPT, Grok ve DeepSeek) doğruluğunu karşılaştırmaktır.
Gereç ve Yöntem:
Bu retrospektif çalışmada, İzmir Şehir Hastanesi acil servisinde 2023–2024 yılları arasında çekilmiş 18 yaş üstü 2000 hastaya ait beyin BT raporları kullanıldı. Radyoloji raporları, iki deneyimli radyolog tarafından LabelStudio platformunda beş ana patoloji açısından “var/yok” şeklinde etiketlendi: intraserebral hematom, subaraknoid kanama, subdural hematom, iskemik inme (akut/subakut), kitle etkisine bağlı herniasyon. Etiketleme sırasında doğrudan tanı ifadesi bulunmasa bile yorumdan tanı çıkarımı yapıldı. Üç farklı büyük dil modeli, aynı raporları tarayarak her patoloji için “var/yok” kararı üretti. Bulgular altın standart olan radyolog etiketleriyle karşılaştırılarak F1 skorları hesaplandı.
Bulgular:
DeepSeek modeli tüm patolojilerde en yüksek F1 skoruna (0.89–0.95) ulaşırken, ChatGPT ikinci sırada yer aldı (0.88–0.93). Grok modeli genel olarak daha düşük performans gösterdi (0.83–0.90). En yüksek F1 skorları intraserebral hematom ve kitle etkisine bağlı herniasyon için DeepSeek’te gözlendi.
Sonuç:
Yapay zeka dil modelleri, beyin BT raporlarında acil patolojilerin otomatik tespitinde yüksek doğrulukla çalışabilir. Özellikle DeepSeek ve ChatGPT, hastane bilgi sistemlerine entegre edilerek kritik bulgular konusunda klinisyenleri zamanında uyarabilecek yardımcı araçlar olabilir.
Objective:
To compare the accuracy of three large language models (ChatGPT, Grok, and DeepSeek) in detecting common acute pathologies in emergency brain CT reports.
Materials and Methods:
In this retrospective study, 2000 emergency brain CT reports from adult patients (>18 years) were annotated by two board-certified radiologists using the LabelStudio platform. Five pathologies were labeled as present/absent: intracerebral hemorrhage, subarachnoid hemorrhage, subdural hematoma, acute/subacute ischemic stroke, and herniation due to mass effect. Even if pathology was not explicitly stated in the report, radiologists inferred its presence from context. AI models were evaluated against the reference standard using F1 scores.
Results:
DeepSeek achieved the highest F1 scores across all pathologies (range: 0.89–0.95), followed by ChatGPT (0.88–0.93), and Grok (0.83–0.90). DeepSeek performed best in identifying intracerebral hemorrhage and herniation.
Conclusion:
LLMs demonstrate strong potential in detecting emergency brain CT findings. Especially DeepSeek and ChatGPT could be integrated into hospital systems to provide real-time alerts to physicians regarding critical findings.
| Birincil Dil | Türkçe |
|---|---|
| Konular | Doğal Dil İşleme, Radyoloji ve Organ Görüntüleme |
| Bölüm | Araştırma Makalesi |
| Yazarlar | |
| Gönderilme Tarihi | 5 Ağustos 2025 |
| Kabul Tarihi | 5 Aralık 2025 |
| Yayımlanma Tarihi | 30 Aralık 2025 |
| Yayımlandığı Sayı | Yıl 2025 Cilt: 5 Sayı: 3 |