Bu çalışma, veteriner anatomisi alanında dört yapay zeka sohbet robotunun (ChatGPT-3.5, ChatGPT-4.0, Gemini 2.5 Flash ve DeepSeek-V3) güvenilirliğini ve doğruluğunu değerlendirmek amacıyla yapılmıştır. Başlıca anatomik sistemleri kapsayan toplam 85 çoktan seçmeli soru, aynı koşullar altında her modele ayrı ayrı sunulmuştur. Yanıtlar doğruluk açısından değerlendirilmiş ve başarı oranları yüzde olarak hesaplanmıştır. Modeller arasındaki istatistiksel farklılıklar Pearson ki-kare testi (p<0,05) kullanılarak analiz edilmiştir. Sonuçlar, Gemini 2.5 Flash'ın en yüksek doğruluk oranını (%85,88) elde ettiğini, onu ChatGPT-4.0 (%85,53), DeepSeek-V3 (%84,71) ve ChatGPT-3.5 (%82,35) izlediğini gösterdi. Bu farklılıklara rağmen, farklar istatistiksel olarak anlamlı değildi (χ²=0,629, p=0,890). Niteliksel analiz, açıklayıcı derinlik açısından farklılıklar ortaya koydu: ChatGPT-4.0 ve Gemini 2.5 Flash, yanlış seçenekler için düzeltici geri bildirim sağlarken, DeepSeek-V3 ve ChatGPT-3.5 esas olarak doğru cevaplara odaklandı. Gemini 2.5 Flash ayrıca görsel yardımcılar da kullanmıştır, ancak bunların bazıları veteriner anatomisi yerine insan anatomisine dayanmaktadır. Genel olarak, değerlendirilen tüm AI sohbet robotları doğru anatomik muhakeme konusunda önemli bir kapasite sergilemiş olsa da, açıklama stilleri ve destekleyici materyalleri farklılık göstermektedir.
This study aimed to evaluate the reliability and accuracy of four AI chatbots—ChatGPT-3.5, ChatGPT-4.0, Gemini 2.5 Flash, and DeepSeek-V3—in the field of veterinary anatomy. A total of 85 multiple-choice questions encompassing major anatomical systems were presented individually to each model under identical conditions. Responses were evaluated for accuracy, and success rates were calculated as percentages. Statistical differences among models were analyzed using the Pearson chi-square test (p<0.05). The results indicated that Gemini 2.5 Flash achieved the highest accuracy rate (85.88%), followed by ChatGPT-4.0 (85.53%), DeepSeek-V3 (84.71%), and ChatGPT-3.5 (82.35%). Despite these variations, the differences were not statistically significant (χ²=0.629, p=0.890). Qualitative analysis revealed differences in explanatory depth: ChatGPT-4.0 and Gemini 2.5 Flash provided corrective feedback for incorrect options, while DeepSeek-V3 and ChatGPT-3.5 focused mainly on correct answers. Gemini 2.5 Flash additionally incorporated visual aids, though some were based on human rather than veterinary anatomy. Overall, while all evaluated AI chatbots demonstrated a substantial capacity for accurate anatomical reasoning, their explanatory styles and supporting materials varied.
| Birincil Dil | İngilizce |
|---|---|
| Konular | Veteriner Anatomi ve Fizyoloji |
| Bölüm | Araştırma Makalesi |
| Yazarlar | |
| Gönderilme Tarihi | 16 Ekim 2025 |
| Kabul Tarihi | 30 Aralık 2025 |
| Yayımlanma Tarihi | 15 Ocak 2026 |
| Yayımlandığı Sayı | Yıl 2026 Cilt: 97 Sayı: 1 |
Veteriner Hekimler Derneği Dergisi açık erişimli bir dergi olup, derginin yayın modeli Budapeşte Erişim Girişimi (BOAI) bildirisine dayanmaktadır. Yayınlanan tüm içerik, çevrimiçi ve ücretsiz olarak sunulan Creative Commons CC BY-NC 4.0 lisansı altında lisanslanmıştır. Yazarlar, Veteriner Hekimler Derneği Dergisi'nde yayınlanan eserlerinin telif haklarını saklı tutarlar.
Veteriner Hekimler Derneği / Turkish Veterinary Medical Society