Araştırma Makalesi

Büyük Dil Modellerinin Ruh Sağlığı Uygulamaları İçin Performans ve Tutarlılık Analizi

Cilt: 9 Sayı: 3 15 Mayıs 2026
PDF İndir
EN TR

Büyük Dil Modellerinin Ruh Sağlığı Uygulamaları İçin Performans ve Tutarlılık Analizi

Öz

Bu çalışma, ruh sağlığı alanına yönelik soru-cevap görevlerinde farklı sağlayıcılara ve mimari ölçeklere sahip sekiz büyük dil modelinin (Large Language Model – LLM) performansını karşılaştırmalı olarak incelemeyi amaçlamaktadır. Modeller, ruh sağlığı temelli bir veri seti kullanılarak aynı deneysel koşullar altında değerlendirilmiş ve ürettikleri yanıtlar referans cevaplarla karşılaştırılmıştır. Değerlendirme sürecinde hem yüzeysel hem de anlamsal benzerliği dikkate alan çoklu otomatik metriklerden yararlanılmıştır. Elde edilen bulgular, modeller arasında belirgin performans farklılıkları bulunduğunu göstermektedir. Özellikle GPT-4o modeli genel kalite ve tutarlılık açısından öne çıkarken, GPT-3.5 Turbo’nun bazı görevlerde daha büyük modellerle benzer sonuçlar üretmesi model ölçeğinin her durumda doğrusal bir üstünlük sağlamadığını ortaya koymaktadır. Açık kaynaklı LLaMA 3.3 modelinin ticari sistemlere yakın performans göstermesi dikkat çekicidir. Bu bulgular, ruh sağlığına yönelik dijital uygulamalarda model seçiminin teknik kapasite kadar görev uyumuna da bağlı olduğunu göstermektedir. Sayısal sonuçlar, GPT-4o'nun anlamsal ölçütlerde en yüksek performansı sergilediğini göstermektedir; 0,7277 COMET puanı ve 0,1480 METEOR puanı ile diğer modellere kıyasla yüksek bir tutarlılık sergilemiştir.

Anahtar Kelimeler

Etik Beyan

Bu araştırmada hayvanlar ve insanlar üzerinde herhangi bir çalışma yapılmadığı için etik kurul onayı alınmamıştır.

Kaynakça

  1. Anthropic. (2024). Claude: A conversational AI assistant. https://www.anthropic.com
  2. Ayers, J. W., Poliak, A., Dredze, M., Leas, E. C., Zhu, Z., Kelley, J. B., ... & Smith, D. M. (2023). Comparing physician and artificial intelligence chatbot responses to patient questions posted to a public social media forum. Journal of the American Medical Association Internal Medicine, 183(6), 589–596. https://doi.org/10.1001/jamainternmed.2023.1838
  3. Banerjee, S., & Lavie, A. (2005). METEOR: An automatic metric for machine translation evaluation. In Proceedings of the ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization. https://aclanthology.org/W05-0909/
  4. Chen, A., Stanovsky, G., Singh, S., & Gardner, M. (2019). Evaluating question answering evaluation. In Proceedings of the 2nd Workshop on Machine Reading for Question Answering (pp. 119–124).https://doi.org/10.18653/v1/D19-5817
  5. Gilson, A., Safranek, C. W., Huang, T., Socrates, V., Chi, L., Taylor, R. A., & Chartash, D. (2023). How does ChatGPT perform on the United States Medical Licensing Examination? The implications of large language models for medical education and knowledge assessment. JMIR Medical Education, 9, e45312. https://doi.org/10.2196/45312
  6. Google. (2024). Gemini: A family of multimodal models. https://deepmind.google/technologies/gemini
  7. Hua, Y., Liu, F., Yang, K., Li, Z., Na, H., Sheu, Y. H., Zhou, P., Moran, L. V., Ananiadou, S., Clifton, D. A., Beam, A., & Torous, J. (2025). Large language models in mental health care: A scoping review. Current Treatment Options in Psychiatry, 12(1), 27. https://doi.org/10.1007/s40501-025-00363-y
  8. Kaggle. (2023). Mental Health FAQ for Chatbot Veri Kümesi. Son Erişim Tarihi 19 Mart 2026. https://www.kaggle.com/datasets/narendrageek/mental-health-faq-for-chatbot

Ayrıntılar

Birincil Dil

Türkçe

Konular

Bilgi Sistemleri (Diğer)

Bölüm

Araştırma Makalesi

Yayımlanma Tarihi

15 Mayıs 2026

Gönderilme Tarihi

19 Mart 2026

Kabul Tarihi

7 Mayıs 2026

Yayımlandığı Sayı

Yıl 2026 Cilt: 9 Sayı: 3

Kaynak Göster

APA
Türk, M. N., Akın, R., Şahin, D. Ö., & Demirci, S. (2026). Büyük Dil Modellerinin Ruh Sağlığı Uygulamaları İçin Performans ve Tutarlılık Analizi. Black Sea Journal of Engineering and Science, 9(3), 1338-1349. https://doi.org/10.34248/bsengineering.1913122
AMA
1.Türk MN, Akın R, Şahin DÖ, Demirci S. Büyük Dil Modellerinin Ruh Sağlığı Uygulamaları İçin Performans ve Tutarlılık Analizi. BSJ Eng. Sci. 2026;9(3):1338-1349. doi:10.34248/bsengineering.1913122
Chicago
Türk, Merve Nur, Revas Akın, Durmuş Özkan Şahin, ve Sercan Demirci. 2026. “Büyük Dil Modellerinin Ruh Sağlığı Uygulamaları İçin Performans ve Tutarlılık Analizi”. Black Sea Journal of Engineering and Science 9 (3): 1338-49. https://doi.org/10.34248/bsengineering.1913122.
EndNote
Türk MN, Akın R, Şahin DÖ, Demirci S (01 Mayıs 2026) Büyük Dil Modellerinin Ruh Sağlığı Uygulamaları İçin Performans ve Tutarlılık Analizi. Black Sea Journal of Engineering and Science 9 3 1338–1349.
IEEE
[1]M. N. Türk, R. Akın, D. Ö. Şahin, ve S. Demirci, “Büyük Dil Modellerinin Ruh Sağlığı Uygulamaları İçin Performans ve Tutarlılık Analizi”, BSJ Eng. Sci., c. 9, sy 3, ss. 1338–1349, May. 2026, doi: 10.34248/bsengineering.1913122.
ISNAD
Türk, Merve Nur - Akın, Revas - Şahin, Durmuş Özkan - Demirci, Sercan. “Büyük Dil Modellerinin Ruh Sağlığı Uygulamaları İçin Performans ve Tutarlılık Analizi”. Black Sea Journal of Engineering and Science 9/3 (01 Mayıs 2026): 1338-1349. https://doi.org/10.34248/bsengineering.1913122.
JAMA
1.Türk MN, Akın R, Şahin DÖ, Demirci S. Büyük Dil Modellerinin Ruh Sağlığı Uygulamaları İçin Performans ve Tutarlılık Analizi. BSJ Eng. Sci. 2026;9:1338–1349.
MLA
Türk, Merve Nur, vd. “Büyük Dil Modellerinin Ruh Sağlığı Uygulamaları İçin Performans ve Tutarlılık Analizi”. Black Sea Journal of Engineering and Science, c. 9, sy 3, Mayıs 2026, ss. 1338-49, doi:10.34248/bsengineering.1913122.
Vancouver
1.Merve Nur Türk, Revas Akın, Durmuş Özkan Şahin, Sercan Demirci. Büyük Dil Modellerinin Ruh Sağlığı Uygulamaları İçin Performans ve Tutarlılık Analizi. BSJ Eng. Sci. 01 Mayıs 2026;9(3):1338-49. doi:10.34248/bsengineering.1913122

                           24890