Amaç: Bu çalışmanın amacı, dört farklı yazılım programı tarafından oluşturulan diş destekli sabit diş protezlerine ilişkin yanıtların doğruluğunu ve tekrarlanabilirliğini değerlendirmektir.
Gereç ve Yöntemler: 12 adet açık uçlu olarak Türkçe dilinde hazırlanan sorular oluşturuldu ve modellere göre 4 farklı NLP'ye yöneltilmiştir: OpenAI o3 (LRM-O), OpenAI GPT 4.5 (LLM-G), DeepSeek R1 (LRM-R) ve DeepSeek V3 (LLM-V). Yanıtlar holistic rubric kullanılarak değerlendirilmiştir. Doğruluk değerlendirmeleri için Kruskal-Wallis H testi kullanılmıştır. Puanlayıcıların yanıtları arasındaki tutarlılık Brennan ve Prediger katsayısı ve Cohen kappa katsayısı kullanılarak değerlendirilmiştir. Tekrarlanabilirlik ise Fleiss kappa ve Krippendorff alfa katsayıları kullanılarak değerlendirilmiştir (p < .05).
Bulgular: LRM-O, LLM-G, LRM-R ve LLM-V grupları arasında doğruluk açısından istatistiksel olarak anlamlı bir fark bulunamamıştır (p = .298). LRM-O, LLM-G, LRM-R ve LLM-V'nin doğruluğu sırasıyla %77,7, %50, %66,6 ve %77,7dir. Ayrıca, LLM'lerin tekrarlanabilirliği neredeyse mükemmel bulunurken, LRM'ler önemli düzeydeydi.
Sonuç: Çalışanın sınırları dahilinde LRM'ler ve LLM'ler benzer doğruluk sergilemiştir. Ancak, LLM'lerin tekrarlanabilirliği LRM'lerden daha yüksek bulunmuştur.
Anahtar Kelimeler: Yapay zeka, diş protezi, tedavi protokolleri
Aim: This study aimed to evaluate the accuracy and repeatability of responses generated by four different software programs regarding tooth-supported fixed dental prostheses.
Materials and Method: Twelve open-ended questions in Turkish were created and posed to four different NLPs according to the following models: OpenAI o3 (LRM-O), OpenAI GPT 4.5 (LLM-G), DeepSeek R1 (LRM-R), and DeepSeek V3 (LLM-V) with pre-prompts in the morning, afternoon, and evening. The responses were evaluated with a holistic rubric. For accuracy assessments, the Kruskal–Wallis H test was used. Consistency between the graders’ responses was assessed using the Brennan and Prediger coefficient and the Cohen kappa coefficient. Repeatability was assessed using the Fleiss kappa and Krippendorff alpha coefficients (p < 0.05).
Results: There was no statistically significant difference in accuracy between the LRM-O, LLM-G, LRM-R, and LLM-V groups (p = 0.298). The respective accuracies of LRM-O, LLM-G, LRM-R, and LLM-V were 77.7%, 50%, 66.6%, and 77.7%. In addition, the repeatability of LLMs was found to be almost perfect, whereas that of LRMs was substantial.
Conclusion: Within the limitations of the study, LRMs and LLMs exhibited similar accuracy. However, the repeatability of LLMs was higher than that of LRMs.
Keywords: Artificial intelligence, Dental prostheses, Treatment protocols
Primary Language | English |
---|---|
Subjects | Prosthodontics |
Journal Section | Research Article |
Authors | |
Publication Date | September 29, 2025 |
Submission Date | May 13, 2025 |
Acceptance Date | August 2, 2025 |
Published in Issue | Year 2025 Volume: 14 Issue: 3 |