Bu çalışmada, yapay zekâ modellerinin Türkçe dilindeki yeterliliklerini ölçmek için bir yöntem geliştirilmiş ve uygulanmıştır. Yükseköğretim Kurumları, Alan Yeterlilik Sınavı (AYT) kapsamında öğrencilere sorulan 24 Türk Dili ve Edebiyatı sorusu, seçilen yapay zekâ modellerine sorularak bu modellerin Türkçe bağlam anlama, dil bilgisi ve metin yorumlama yetenekleri değerlendirilmiştir. Çalışmada Open AI, Google AI, Anthropic, xAI, Mistral AI, Microsoft, DeepSeek AI, Moonshot AI, MiniMax ve Alibaba Cloud isimli geliştiricilere ait 26 adet güncel model güncel modeler analiz edilmiştir. Bu modeller, doğal dil işleme alanında en büyük ve en gelişmiş dil modelleri arasında yer almakta olup çok dilli görevlerdeki yüksek performanslarıyla tanınan modellerdir.
Çalışmada, geniş bir model yelpazesi üzerinde Alan Yeterlilik Sınavı (AYT) gibi yüksek standartlı bir ölçüm aracı kullanılarak, yapay zekâ modellerinin Türkçe dilindeki yeterlilikleri analiz edilmiştir. AYT, öğrencilerin Türkçe dil becerilerini detaylı şekilde ölçen bir sınav olup, yapay zekâ modellerinin performanslarını gerçek dünya standartlarında değerlendirmek için ideal bir araç sunmaktadır.
Çalışmada modellerin AYT sınavında gösterdikleri performanslar verdikleri doğru cevap oranı ile hesaplanarak, Türkçe dili açısından yeterlilik ve uygunlukları ölçülmüştür. Doğru cevap sayısının yüksek olduğu modellerin, Türkçe diline daha uygun oldukları ve bağlamı anlama, dil bilgisi ve metin yorumlama kapasiteleri konusunda daha başarılı oldukları tespit edilmiştir. Bu modellerin eğitim verisinin geniş kapsamlı olduğu, özelleştirilebilirlik potansiyellerinin olduğu, model ölçeği ve token kapasitesi ile Türkçe gibi yerel dillerdeki eğitim verisi oranı ile yanıt doğruluğunu etkilediği görülmüş, en yüksek doğru cevap oranları DeepSeek AI modellerinde tespit edilmiştir.
Çalışmada, Türkçe dilinde yapay zekâ modellerinin performansları arasında çok belirgin farklılıklar olması itibariyle eğitim veri setlerinde daha fazla Türkçe içerik olması, Türkçe’ nin eklemeli ve serbest söz dizim özelliklerine özgün modeler geliştirilmesi ve bağlam kapasitesinin artırılabilmesi için Türkçe odaklı veri setlerinin geliştirilmesi önerilmiştir.
In this study, a method was developed and implemented to measure the proficiency of artificial intelligence models in Turkish language. Higher Education Institutions, Field Proficiency Examination (AYT), 24 Turkish Language and Literature questions were asked to selected artificial intelligence models and their Turkish context comprehension, grammar and text interpretation abilities were evaluated. In the study, 26 current models from Open AI, Google AI, Anthropic, xAI, Mistral AI, Microsoft, DeepSeek AI, Moonshot AI, MiniMax and Alibaba Cloud were analyzed. These models are among the largest and most advanced language models in the field of natural language processing and are known for their high performance in multilingual tasks.
In this study, the Turkish language proficiency of artificial intelligence models is analyzed on a wide range of models using a high standard measurement tool such as the Field Proficiency Test (AYT). The AYT is an exam that measures students’ Turkish language skills in detail and provides an ideal tool to evaluate the performance of AI models at real-world standards.
In the study, the performance of the models in the AYT exam was measured by the correct answer rate and their competence and suitability in terms of Turkish language were measured. Models with a higher number of correct answers were found to be more suitable for Turkish language and more successful in terms of context understanding, grammar and text interpretation capacities. It was observed that the training data of these models is comprehensive, they have the potential for customizability, model scale and token capacity and the ratio of training data in local languages such as Turkish affect the response accuracy, and the highest correct answer rates were found in DeepSeek AI models.
In the study, since there are significant differences between the performances of AI models in Turkish language, it is suggested to include more Turkish content in the training data sets, to develop models specific to Turkish’ s agglutinative and free syntax features, and to develop Turkish-oriented data sets in order to increase the context capacity.
Turkish proficiency Artificial intelligence models Performance evaluation Natural language processing
| Primary Language | Turkish |
|---|---|
| Subjects | Knowledge Representation and Reasoning, Natural Language Processing |
| Journal Section | Systematic Reviews and Meta Analysis |
| Authors | |
| Submission Date | March 22, 2025 |
| Acceptance Date | September 28, 2025 |
| Publication Date | December 24, 2025 |
| Published in Issue | Year 2025 Volume: 8 Issue: 2 |