Research Article

Büyük Dil Modellerinin Ruh Sağlığı Uygulamaları İçin Performans ve Tutarlılık Analizi

Volume: 9 Number: 3 May 15, 2026
EN TR

Büyük Dil Modellerinin Ruh Sağlığı Uygulamaları İçin Performans ve Tutarlılık Analizi

Abstract

Bu çalışma, ruh sağlığı alanına yönelik soru-cevap görevlerinde farklı sağlayıcılara ve mimari ölçeklere sahip sekiz büyük dil modelinin (Large Language Model – LLM) performansını karşılaştırmalı olarak incelemeyi amaçlamaktadır. Modeller, ruh sağlığı temelli bir veri seti kullanılarak aynı deneysel koşullar altında değerlendirilmiş ve ürettikleri yanıtlar referans cevaplarla karşılaştırılmıştır. Değerlendirme sürecinde hem yüzeysel hem de anlamsal benzerliği dikkate alan çoklu otomatik metriklerden yararlanılmıştır. Elde edilen bulgular, modeller arasında belirgin performans farklılıkları bulunduğunu göstermektedir. Özellikle GPT-4o modeli genel kalite ve tutarlılık açısından öne çıkarken, GPT-3.5 Turbo’nun bazı görevlerde daha büyük modellerle benzer sonuçlar üretmesi model ölçeğinin her durumda doğrusal bir üstünlük sağlamadığını ortaya koymaktadır. Açık kaynaklı LLaMA 3.3 modelinin ticari sistemlere yakın performans göstermesi dikkat çekicidir. Bu bulgular, ruh sağlığına yönelik dijital uygulamalarda model seçiminin teknik kapasite kadar görev uyumuna da bağlı olduğunu göstermektedir. Sayısal sonuçlar, GPT-4o'nun anlamsal ölçütlerde en yüksek performansı sergilediğini göstermektedir; 0,7277 COMET puanı ve 0,1480 METEOR puanı ile diğer modellere kıyasla yüksek bir tutarlılık sergilemiştir.

Keywords

Ethical Statement

Bu araştırmada hayvanlar ve insanlar üzerinde herhangi bir çalışma yapılmadığı için etik kurul onayı alınmamıştır.

References

  1. Anthropic. (2024). Claude: A conversational AI assistant. https://www.anthropic.com
  2. Ayers, J. W., Poliak, A., Dredze, M., Leas, E. C., Zhu, Z., Kelley, J. B., ... & Smith, D. M. (2023). Comparing physician and artificial intelligence chatbot responses to patient questions posted to a public social media forum. Journal of the American Medical Association Internal Medicine, 183(6), 589–596. https://doi.org/10.1001/jamainternmed.2023.1838
  3. Banerjee, S., & Lavie, A. (2005). METEOR: An automatic metric for machine translation evaluation. In Proceedings of the ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization. https://aclanthology.org/W05-0909/
  4. Chen, A., Stanovsky, G., Singh, S., & Gardner, M. (2019). Evaluating question answering evaluation. In Proceedings of the 2nd Workshop on Machine Reading for Question Answering (pp. 119–124).https://doi.org/10.18653/v1/D19-5817
  5. Gilson, A., Safranek, C. W., Huang, T., Socrates, V., Chi, L., Taylor, R. A., & Chartash, D. (2023). How does ChatGPT perform on the United States Medical Licensing Examination? The implications of large language models for medical education and knowledge assessment. JMIR Medical Education, 9, e45312. https://doi.org/10.2196/45312
  6. Google. (2024). Gemini: A family of multimodal models. https://deepmind.google/technologies/gemini
  7. Hua, Y., Liu, F., Yang, K., Li, Z., Na, H., Sheu, Y. H., Zhou, P., Moran, L. V., Ananiadou, S., Clifton, D. A., Beam, A., & Torous, J. (2025). Large language models in mental health care: A scoping review. Current Treatment Options in Psychiatry, 12(1), 27. https://doi.org/10.1007/s40501-025-00363-y
  8. Kaggle. (2023). Mental Health FAQ for Chatbot Veri Kümesi. Son Erişim Tarihi 19 Mart 2026. https://www.kaggle.com/datasets/narendrageek/mental-health-faq-for-chatbot

Details

Primary Language

Turkish

Subjects

Information Systems (Other)

Journal Section

Research Article

Publication Date

May 15, 2026

Submission Date

March 19, 2026

Acceptance Date

May 7, 2026

Published in Issue

Year 2026 Volume: 9 Number: 3

APA
Türk, M. N., Akın, R., Şahin, D. Ö., & Demirci, S. (2026). Büyük Dil Modellerinin Ruh Sağlığı Uygulamaları İçin Performans ve Tutarlılık Analizi. Black Sea Journal of Engineering and Science, 9(3), 1338-1349. https://doi.org/10.34248/bsengineering.1913122
AMA
1.Türk MN, Akın R, Şahin DÖ, Demirci S. Büyük Dil Modellerinin Ruh Sağlığı Uygulamaları İçin Performans ve Tutarlılık Analizi. BSJ Eng. Sci. 2026;9(3):1338-1349. doi:10.34248/bsengineering.1913122
Chicago
Türk, Merve Nur, Revas Akın, Durmuş Özkan Şahin, and Sercan Demirci. 2026. “Büyük Dil Modellerinin Ruh Sağlığı Uygulamaları İçin Performans Ve Tutarlılık Analizi”. Black Sea Journal of Engineering and Science 9 (3): 1338-49. https://doi.org/10.34248/bsengineering.1913122.
EndNote
Türk MN, Akın R, Şahin DÖ, Demirci S (May 1, 2026) Büyük Dil Modellerinin Ruh Sağlığı Uygulamaları İçin Performans ve Tutarlılık Analizi. Black Sea Journal of Engineering and Science 9 3 1338–1349.
IEEE
[1]M. N. Türk, R. Akın, D. Ö. Şahin, and S. Demirci, “Büyük Dil Modellerinin Ruh Sağlığı Uygulamaları İçin Performans ve Tutarlılık Analizi”, BSJ Eng. Sci., vol. 9, no. 3, pp. 1338–1349, May 2026, doi: 10.34248/bsengineering.1913122.
ISNAD
Türk, Merve Nur - Akın, Revas - Şahin, Durmuş Özkan - Demirci, Sercan. “Büyük Dil Modellerinin Ruh Sağlığı Uygulamaları İçin Performans Ve Tutarlılık Analizi”. Black Sea Journal of Engineering and Science 9/3 (May 1, 2026): 1338-1349. https://doi.org/10.34248/bsengineering.1913122.
JAMA
1.Türk MN, Akın R, Şahin DÖ, Demirci S. Büyük Dil Modellerinin Ruh Sağlığı Uygulamaları İçin Performans ve Tutarlılık Analizi. BSJ Eng. Sci. 2026;9:1338–1349.
MLA
Türk, Merve Nur, et al. “Büyük Dil Modellerinin Ruh Sağlığı Uygulamaları İçin Performans Ve Tutarlılık Analizi”. Black Sea Journal of Engineering and Science, vol. 9, no. 3, May 2026, pp. 1338-49, doi:10.34248/bsengineering.1913122.
Vancouver
1.Merve Nur Türk, Revas Akın, Durmuş Özkan Şahin, Sercan Demirci. Büyük Dil Modellerinin Ruh Sağlığı Uygulamaları İçin Performans ve Tutarlılık Analizi. BSJ Eng. Sci. 2026 May 1;9(3):1338-49. doi:10.34248/bsengineering.1913122

                            24890