In pursuit of a fresh outlook, my objective was to gauge the abilities of a multimodal large language model (LLM) against sample questions from the European Diploma in Breast Imaging (EDBI) test, an initiative by the European Society of Breast Imaging.
Large language models are pushing the potential in radiology, from interpreting text and medical images to generating reports (Bhayana, 2024). Generative Pre-trained Transformer 4 (GPT-4) has notably passed a national mammography board exam with clarity (Almeida et al., 2024). As the latest version among multimodal LLM types, GPT-4 is capable of answering questions requiring both lower-order and higher-order thinking. Three written sample questions, where multiple choices could be correct, were evaluated. It was noted that there was no negative marking for incorrect answers (https://www.eusobi.org/european-diploma-in-breast-imaging-edbi/). The scoring system was adapted from the European Diploma in Radiology scoring guidelines (https://www.myebr.org/edir-scoring-faqs). Data was obtained from Google Gemini, GPT-3.5, and GPT-4 in March 2024. When assigning a value of 1 point to each question, GPT-4 reached an accuracy of 78%, GPT-3.5 achieved 50%, and Google Gemini scored 22.2%. This notable success in the sample questions from the EDBI particularly emphasizes GPT-4's potential in aiding clinical decision-making. Future studies may assess its performance in questions requiring medical image analysis, such as mammography, breast ultrasound, or breast magnetic resonance imaging.
Yeni bir bakış açısı arayışıyla amacım Avrupa Meme Görüntüleme Derneği tarafından yürütülen Avrupa Meme Görüntüleme Diploması (EDBI) testi örnek soruları üzerinden multimodal büyük dil modellerinin (LLM) yeteneklerini ölçmektir. Büyük dil modelleri, metin ve tıbbi görüntülerin yorumlanmasından raporların üretilmesine kadar radyolojide önemli bir potansiyeli zorlamaktadır (Bhayana, 2024). Generative Pre-trained Transformer 4 (GPT-4), özellikle bir ulusal mamografi kurulu sınavını açık bir şekilde geçmiştir (Almeida vd., 2024). Multimodal LLM türleri arasında en son versiyon olan GPT-4, hem düşük düzeyde hem de yüksek düzeyde düşünme gerektiren soruları cevaplayabilme kapasitesine sahiptir. Birden fazla doğru cevabı olabilecek üç yazılı örnek soru değerlendirildi. Yanlış cevaplar için negatif puanlama olmadığı belirtilmiştir (https://www.eusobi.org/european-diploma-in-breast-imaging-edbi/). Puanlama sistemi, Avrupa Radyoloji Diploması puanlama kılavuzlarından uyarlandı (https://www.myebr.org/edir-scoring-faqs). Veriler Mart 2024'te Google Gemini, GPT-3.5 ve GPT-4'ten elde edildi. Her soruya 1 puan değeri atanırken, GPT-4 %78 doğruluk oranına ulaştı, GPT-3.5 %50 ve Google Gemini %22,2 başarı gösterdi. EDBI örnek sorularındaki bu dikkate değer başarı, özellikle GPT-4'ün klinik karar verme sürecinde yardımcı olma potansiyelini vurgulamaktadır. Gelecek çalışmalar, mamografi, meme ultrasonu veya meme manyetik rezonans görüntüleme gibi tıbbi görüntü analizi gerektiren sorularda performansını değerlendirebilir.
Birincil Dil | İngilizce |
---|---|
Konular | Sağlık Hizmetleri ve Sistemleri (Diğer) |
Bölüm | Editöre Mektup |
Yazarlar | |
Yayımlanma Tarihi | 25 Nisan 2024 |
Gönderilme Tarihi | 1 Nisan 2024 |
Kabul Tarihi | 21 Nisan 2024 |
Yayımlandığı Sayı | Yıl 2024 Cilt: 4 Sayı: 1 |