Özet
Amaç: ChatGPT-3,5, Copilot ve Gemini yapay zeka sohbet botlarının nöro-oftalmolojik değerlendirmede İngilizce ve Türkçe aynı sorulardaki performanslarını değerlendirmek.
Gereç ve Yöntem: Nöro-oftalmoloji ile ilişkili 40 soru çalışmaya dahil edildi. Tüm İngilizce soruların sertifikasyonlu çevirmen (native speaker) tarafından Türkçeye çevirileri gerçekleştirildikten sonra soruların her iki versiyonu ChatGPT-3,5, Copilot ve Gemini sohbet botlarına soruldu. Verilen cevaplar cevap anahtarı ile karşılaştırılarak doğru ve yanlış olarak gruplandırıldı. Birbirlerine üstünlükleri istatistiksel olarak karşılaştırıldı.
Bulgular: Sorulan İngilizce sorulara ChatGPT-3,5 %47,5, Copilot %57,5 ve Gemini %32,5 oranında doğru cevap verdi. Sorulan Türkçe sorulara ChatGPT-3,5 %57,5, Copilot %52,5 ve Gemini %32,5 oranında doğru cevap verdi. Sohbet botları arasında, İngilizce ve Türkçe aynı soruları cevaplamada farklı başarı düzeyi olduğu halde, istatistiksel olarak anlamlı başarı farkı tespit edilmedi (p>0,05).
Sonuç: İstatistiksel olarak anlamlı bir fark izlenmemesine rağmen sohbet botları aynı sorulara farklı cevaplar verebilmektedir. Sohbet botlarının bilgi düzeylerinin geliştirilmesinin yanında dil becerilerinin de geliştirilmeye ihtiyacı vardır.
ChatGPT-3.5 Copilot Gemini İngilizce Nöro-oftalmoloji Türkçe Yapay zeka uygulamaları
Abstract
Background/Aims: To evaluate the performance of ChatGPT-3.5, Copilot, and Gemini artificial intelligence chatbots on the same questions in neuro-ophthalmologic evaluation in English and Turkish.
Methods: Forty questions related to neuro-ophthalmology were included in the study. After all English questions were translated into Turkish by a certified native speaker, both versions of the questions were asked to ChatGPT-3.5, Copilot, and Gemini chatbots. The answers were compared with the answer key and grouped as correct and incorrect. Their superiority over each other was compared statistically.
Results: ChatGPT-3,5 47.5%, Copilot 57.5%, and Gemini 32.5% answered the English questions correctly. ChatGPT-3,5 57.5%, Copilot 52.5%, and Gemini 32.5% answered the questions correctly in Turkish. No statistically significant difference was detected between chatbots in answering the same questions in English and Turkish, although there were different levels of success (p>0.05).
Conclusions: Although there is no statistically significant difference, chatbots can answer the same questions differently. In addition to improving the knowledge level of chatbots, their language skills also need to be improved.
ChatGPT-3.5 Copilot Gemini Neuro-ophthalmology Turkish Artificial intelligence applications
Since the data in our study is not from any animal or human sources, ethics committee approval is not required.
| Birincil Dil | İngilizce |
|---|---|
| Konular | Klinik Tıp Bilimleri (Diğer) |
| Bölüm | Araştırma Makalesi |
| Yazarlar | |
| Gönderilme Tarihi | 27 Ocak 2025 |
| Kabul Tarihi | 22 Temmuz 2025 |
| Erken Görünüm Tarihi | 29 Ağustos 2025 |
| Yayımlanma Tarihi | 29 Ağustos 2025 |
| Yayımlandığı Sayı | Yıl 2025 Cilt: 35 Sayı: 4 |
Genel Tıp Dergisi Creative Commons Atıf-GayriTicari 4.0 Uluslararası Lisansı (CC BY NC) ile lisanslanmıştır.