Giriş: Son yıllarda ChatGPT gibi büyük dil modelleri sağlık eğitiminde önemli bir ilgi odağı haline gelmiştir. Ancak insan papilloma virüsü (HPV) ve serviks kanseri taramasında yaşa duyarlı, doğru ve kılavuza uyumlu bilgi sunmadaki güvenilirliği yeterince incelenmemiştir. Bu çalışma, farklı yaş senaryolarına uyarlanmış HPV ve servikal tarama sorularına ChatGPT-4’ün verdiği yanıtların bilgilendiricilik ve kılavuza uyum açısından performansını değerlendirmeyi amaçladı.
Yöntem: On sekiz, otuz ve kırk beş yaş olmak üzere üç yaş senaryosuna dayalı otuz soru hazırlandı. Her soru, ChatGPT-4’ün Haziran 2025 sürümüne sunuldu. Yanıtlar; üç jinekolojik onkoloji cerrahı, bir enfeksiyon hastalıkları uzmanı ve bir halk sağlığı uzmanından oluşan beş kişilik bir panel tarafından bağımsız olarak değerlendirildi. Değerlendirme; bilimsel doğruluk, klinik kılavuza uyum, anlaşılırlık (netlik ve kolay anlaşılabilirlik) ve halk sağlığı güvenilirliği olmak üzere dört ölçüte göre yapıldı. “Anlaşılırlık” kavramı çalışmada tutarlılık sağlamak amacıyla “comprehensibility” terimi ile ifade edildi. Her kriter 5 puanlık Likert ölçeği ile puanlandı.
Bulgular: Tüm kriterlerde genel ortalama puan 4,19 ± 0,51 idi. En yüksek ortalama puan kılavuza uyumda (4,22 ± 0,48) elde edildi; bunu halk sağlığı güvenilirliği (4,20 ± 0,54), bilimsel doğruluk (4,19 ± 0,50) ve anlaşılırlık (4,16 ± 0,53) izledi. Otuz yaş senaryosu, özellikle bilimsel doğruluk (4,34) ve kılavuza uyum (4,26) açısından en yüksek puanları aldı. On sekiz yaş senaryosu anlaşılırlıkta en yüksek puanı (4,28) elde etti ancak halk sağlığı güvenilirliği puanı biraz daha düşüktü (4,12). Kırk beş yaş senaryosu halk sağlığı güvenilirliğinde en yüksek puana ulaştı (4,32) ancak bilimsel doğruluk (4,16) ve anlaşılırlık (4,10) puanları biraz daha düşüktü. Uzman yorumları, ChatGPT’nin sağlık iletişimi ve yanlış bilgilendirmeyle mücadelede güçlü yönlerini vurgularken, bazı yanıtlarda klinik detayların ve açık kılavuz atıflarının eksikliğine dikkat çekti.
Sonuç: ChatGPT-4, özellikle genç yaş gruplarında HPV aşılamasını teşvik etme ve halk sağlığı bilgisi sağlama açısından etkili bir araç gibi görünmektedir. Ancak, klinik karar verme ve kılavuza dayalı içerikteki sınırlılıkları nedeniyle, hasta eğitiminde kullanımının uzman denetimiyle birlikte yürütülmesi önerilir. Gelecek araştırmalarda farklı model sürümleri, ek değerlendirme ölçütleri ve kullanıcı perspektifleri ele alınmalıdır.
ChatGPT Büyük Dil Modelleri HPV Serviks Kanseri Taraması Yaşa Duyarlı Bilgi Senaryo Bazlı Analiz Uzman Değerlendirmesi Sağlık Eğitimi Halk Sağlığı İletişimi Klinik Kılavuz Uyumu
Introduction: In recent years, large language models such as ChatGPT have gained increasing attention in the field of health education. However, their reliability in providing age-sensitive, accurate, and guideline-compliant information on human papillomavirus (HPV) and cervical cancer screening has not been sufficiently investigated. This study aimed to evaluate the performance of ChatGPT-4 in terms of informativeness and guideline compliance when responding to HPV and cervical screening questions tailored to different age scenarios
Methods: Thirty questions were developed based on three age scenarios (18, 30, and 45 years). Each question was submitted to the June 2025 version of ChatGPT-4. The responses were independently evaluated by a five-member panel consisting of three gynecologic oncology surgeons, one infectious diseases specialist, and one public health specialist. Evaluation was based on four criteria: scientific accuracy, clinical guideline compliance, comprehensibility (ease of understanding), and public health reliability. The term “comprehensibility” was used consistently throughout the study instead of “clarity”. Each criterion was rated on a 5-point Likert scale.
Results: The overall mean score across all criteria was 4.19 ± 0.51. The highest mean score was for guideline consistency (4.22 ± 0.48), followed by public health reliability (4.20 ± 0.54), scientific accuracy (4.19 ± 0.50), and comprehensibility (4.16 ± 0.53). The 30-year-old scenario received the highest overall scores, particularly for scientific accuracy (4.34) and guideline consistency (4.26). The 18-year-old scenario scored highest in comprehensibility (4.28) but slightly lower in public health reliability (4.12). The 45-year-old scenario achieved the highest public health reliability score (4.32) but had marginally lower ratings for scientific accuracy (4.16) and comprehensibility (4.10). Expert comments highlighted ChatGPT’s strengths in health communication and combating misinformation, while pointing out the lack of clinical details and explicit guideline references in some responses.
Conclusion: ChatGPT-4 appears to be an effective tool for promoting HPV vaccination and providing public health information, particularly in younger age groups. However, due to its limitations in clinical decision-making and guideline-based content, its use in patient education should be accompanied by expert oversight. Further research should encompass different model versions, additional evaluation metrics, and user perspectives.
ChatGPT Large Language Models HPV Cervical Cancer Screening Age-Sensitive Information Scenario-Based Analysis Expert Evaluation Health Education Public Health Communication Clinical Guideline Compliance
This study did not involve human participants or patient data; therefore, ethical approval was not required.
Primary Language | English |
---|---|
Subjects | Gynecologic Oncology Surgery |
Journal Section | Research Article |
Authors | |
Early Pub Date | August 25, 2025 |
Publication Date | September 11, 2025 |
Submission Date | August 10, 2025 |
Acceptance Date | August 25, 2025 |
Published in Issue | Year 2025 Volume: 25 Issue: 2 |