Large Language Models (LLMs) have markedly progressed natural language processing. Nevertheless, owing to the restricted availability of training data, they may prove insufficient in generating current and precise information, particularly for low-resource languages. The Retrieval-Augmented Generation (RAG) methodology, designed to resolve this challenge, improves the precision and dependability of models' outputs by leveraging external information sources. This study comparatively evaluated four distinct LLMs (Qwen-14B, Gemma3-12B, LLaMA3.1-8B, and DeepSeek-R1-14B) within the RAG framework using a Turkish question-answer dataset. Experimental results demonstrate the RAG methodology markedly enhances information precision, response uniformity, and contextual relevance in Turkish question-answering systems. Moreover, the LLaMA3.1-8B model had the best equitable performance regarding precision and recall. The findings illustrate the relevance of RAG-based applications for Turkish and offer significant insights for advancing knowledge-assisted generation methods. This study addresses a significant gap in the literature by illustrating the viability of RAG-based systems in morphologically rich and low-resource languages, including Turkish. It serves as a foundational reference for subsequent Turkish natural language processing research.
Large language models Retrieval-augmented generation Turkish RAG
Büyük Dil Modelleri (BDL), doğal dil işlemeyi önemli ölçüde ilerletmiştir. Bununla birlikte, eğitim verilerinin sınırlı erişilebilirliği nedeniyle, özellikle düşük kaynaklı diller için güncel ve kesin bilgi üretmede yetersiz kalabilirler. Bu zorluğu çözmek için tasarlanan Geri Alma-Artırılmış Üretim (GAÜ) metodolojisi, harici bilgi kaynaklarından yararlanarak modellerin çıktılarının kesinliğini ve güvenilirliğini artırır. Bu çalışmada, Türkçe soru-cevap veri kümesi kullanılarak GAÜ çerçevesi içinde dört farklı BDL (Qwen-14B, Gemma3-12B, LLaMA3.1-8B ve DeepSeek-R1-14B) karşılaştırmalı olarak değerlendirilmiştir. Deneysel sonuçlar, GAÜ metodolojisinin Türkçe soru cevap sistemlerinde bilgi kesinliğini, yanıt tekdüzeliğini ve bağlamsal alaka düzeyini önemli ölçüde artırdığını göstermektedir. Ayrıca, LLaMA3.1-8B modeli kesinlik ve geri çağırma konusunda en iyi performansa sahipti. Bulgular, GAÜ tabanlı uygulamaların Türkçe için önemini ortaya koymakta ve bilgi destekli üretim yöntemlerinin geliştirilmesi için önemli bilgiler sunmaktadır. Bu çalışma, Türkçe de dahil olmak üzere morfolojik olarak zengin ve düşük kaynaklı dillerde GAÜ tabanlı sistemlerin uygulanabilirliğini göstererek literatürdeki önemli bir boşluğu doldurmaktadır. Ayrıca, sonraki Türkçe doğal dil işleme araştırmaları için temel bir referans görevi görmektedir.
| Birincil Dil | İngilizce |
|---|---|
| Konular | Pekiştirmeli Öğrenme |
| Bölüm | Araştırma Makalesi |
| Yazarlar | |
| Gönderilme Tarihi | 9 Eylül 2025 |
| Kabul Tarihi | 3 Kasım 2025 |
| Yayımlanma Tarihi | 31 Aralık 2025 |
| Yayımlandığı Sayı | Yıl 2025 Cilt: 11 Sayı: 2 |