Amaç: OpenAI’ın GPT-4o ve Anthropic’in Claude 3.5 Sonnet modellerinin meme görüntüleme vakalarındaki
performanslarını değerlendirmek.
Gereç ve Yöntemler: Veri seti, Society of Breast Imaging'in herkese açık olan Ayın Vakası arşivindeki vakalardan oluşmaktaydı. Sorular, sadece metin tabanlı ya da mamografi, ultrason, manyetik rezonans görüntüleme veya hibrit görüntüleme içeren sorular olarak sınıflandırıldı. GPT-4o ve Claude 3.5 Sonnet'in doğruluk oranları Mann-Whitney U testi kullanılarak karşılaştırıldı.
Bulgular: Toplam 94 sorunun %61,7’si görüntü tabanlıydı. GPT-4o'nun genel doğruluk oranı, Claude 3.5 Sonnet’ten yüksekti (sırasıyla %75,4 ve %67,7; p=0,432). GPT-4o, ultrason ve hibrit görüntüleme tabanlı sorularda daha yüksek skorlar elde ederken, Claude 3.5 Sonnet mamografi tabanlı sorularda daha iyi performans gösterdi. Tümör grubundaki vakalarda her iki model de tümör dışı gruba göre daha yüksek doğruluk oranlarına ulaştı (her ikisi için de p>0,05). Modellerin meme görüntüleme vakalarındaki genel performansı %75’in üzerinde olup, farklı görüntüleme modaliteleri içeren sorular için %64-83 aralığındaydı.
Sonuç: Meme görüntüleme vakalarında, GPT-4o genel olarak görüntü tabanlı ve diğer soru türlerinde Claude 3.5 Sonnet'ten daha yüksek doğruluk oranlarına ulaşmış olsa da, modellerin performansları karşılaştırılabilir düzeydedir.
yapay zeka büyük dil modeli meme görüntüleme mamografi ultrason
Aim: To evaluate the performance of the flagship models, OpenAI's GPT-4o and Anthropic's Claude 3.5 Sonnet, in breast
imaging cases.
Material and Methods: The dataset consisted of cases from the publicly available Case of the Month archive by the Society of Breast Imaging. Questions were classified as text-based or containing images from mammography, ultrasound, magnetic resonance imaging, or hybrid imaging. The accuracy rates of GPT-4o and Claude 3.5 Sonnet were compared using the Mann-Whitney U test.
Results: Of the total 94 questions, 61.7% were image-based. The overall accuracy rate of GPT-4o was higher than that of Claude 3.5 Sonnet (75.4% vs. 67.7%, p=0.432). GPT-4o achieved higher scores on questions based on ultrasound and hybrid imaging, while Claude 3.5 Sonnet performed better on mammography-based questions. In tumor group cases, both models reached higher accuracy rates compared to the non-tumor group (both, p>0.05). The models' performance in breast imaging cases overall exceeded 75%, ranging between 64-83% for questions involving different imaging modalities.
Conclusion: In breast imaging cases, although GPT-4o generally achieved higher accuracy rates than Claude 3.5 Sonnet in image-based and other types of questions, their performances were comparable.
artificial intelligence large language model breast imaging mammography ultrasound
Birincil Dil | İngilizce |
---|---|
Konular | Radyoloji ve Organ Görüntüleme |
Bölüm | Araştırma Makalesi |
Yazarlar | |
Yayımlanma Tarihi | 31 Aralık 2024 |
Gönderilme Tarihi | 4 Ekim 2024 |
Kabul Tarihi | 18 Ekim 2024 |
Yayımlandığı Sayı | Yıl 2024 Cilt: 15 Sayı: 4 |
e-ISSN: 2149-8296
The content of this site is intended for health care professionals. All the published articles are distributed under the terms of
Creative Commons Attribution Licence,
which permits unrestricted use, distribution, and reproduction in any medium, provided the original work is properly cited.