A Comparative Benchmark Study of Large Language Models on Turkish NLP Tasks: A Comparison of ChatGPT and DeepSeek
Abstract
Large language models (LLMs) have demonstrated remarkable success in high-resource languages such as English. Despite the increasing development of multilingual models, there is a lack of comprehensive, task-diverse benchmarking for Turkish Natural Language Processing (NLP) tasks. On the other hand, their effectiveness in low-resource and morphologically rich languages like Turkish have not been sufficiently investigated. This study presents a comprehensive performance evaluation of two leading LLMs, ChatGPT (GPT-4o) and DeepSeek-v3, on Turkish NLP tasks, addressing challenges in low-resource and morphologically complex languages. Five task specific datasets (Turkish NLP Question-Answering, XQuAD, MLSUM, Turkish News Headlines, and Turkish-English Translation) were used to evaluate model performance on question answering, summarization, headline generation, and translation tasks. Evaluation metrics include BLEU, ROUGE, METEOR, and BERTScore to measure both syntactic accuracy and semantic relevance. ChatGPT consistently outperformed DeepSeek in most tasks. GPT scored ROUGE-1: 0.52, METEOR: 0.62, and BERTScore: 0.68, while DeepSeek scored 0.26, 0.30, and 0.52 respectively. On the MLSUM dataset, GPT scored BLEU: 0.04 and ROUGE-1: 0.62 compared to DeepSeek’s 0.03 and 0.26. Both models performed equally well on the Turkish News Headlines dataset (ROUGE-1, ROUGE-L, METEOR: 1.0; BLEU: 0.83). For translation tasks, GPT held a slight advantage (BLEU: 0.29 vs. 0.23; METEOR: 0.62 vs. 0.60). Although GPT’s overall average metric score was 18% higher, DeepSeek occasionally performed better in BERTScore, which reflects surface-level semantic matching (e.g., XQuAD: 0.89 vs. 0.61). During the error analysis it was found that semantically valid outputs were sometimes penalized by ROUGE-L due to expression differences such as “1156–1241” vs. “He was born in 1156 and died in 1241”. The findings highlight the need for Turkish-specific LLM development and improved evaluation metrics. This study provides comprehensive comparison data and methodological insights to guide future improvements.
Keywords
Turkish Natural Language Processing
,
Large Language Models
,
Benchmarking Metrics
,
ChatGPT
,
DeepSeek
Türkçe Doğal Dil İşleme Görevlerinde Büyük Dil Modellerinin Karşılaştırmalı Bir Kıyaslama Çalışması: ChatGPT ve DeepSeek Karşılaştırması
Öz
Büyük dil modelleri (Large Language Models, LLM’ler), İngilizce gibi zengin kaynaklı dillerde dikkate değer başarılar göstermiştir. Ancak, Türkçe gibi morfolojik açıdan zengin ve kaynakları kısıtlı dillerde etkinlikleri henüz yeterince araştırılmamıştır. Bu çalışma, iki önde gelen LLM olan ChatGPT (GPT-4o) ve DeepSeek-v3'ün çeşitli Türkçe Doğal Dil İşleme (NLP) görevlerinde kapsamlı bir performans değerlendirmesini sunmaktadır. Beş farklı göreve özel veri seti (Turkish NLP Question-Answering, XQuAD, MLSUM, Turkish News Headlines, and Türkçe–İngilizce Çeviri) soru cevaplama, özetleme, başlık oluşturma ve çeviri görevlerinde model performansını değerlendirmek için kullanılmıştır. Model çıktıları, hem sözdizimsel doğruluğu hem de anlamsal alaka düzeyini ölçmek için BLEU, ROUGE, METEOR ve BERTScore kullanılarak değerlendirilmiştir. ChatGPT, çoğu görevde DeepSeek'i tutarlı bir şekilde geride bırakarak ROUGE-1: 0,52, METEOR: 0,62 ve BERTScore: 0,68 değerlerini elde ederken, DeepSeek sırasıyla 0,26, 0,30 ve 0,52 değerlerini elde etmiştir. MLSUM veri setinde GPT, BLEU: 0,04 ve ROUGE-1: 0,62 değerlerini elde ederken, DeepSeek 0,03 ve 0,26 değerlerini elde etmiştir. Her iki model de Turkish News Headlines veri setinde eşit derecede iyi performans sergilemiştir (ROUGE-1, ROUGE-L, METEOR: 1,0; BLEU: 0,83). Çeviri görevinde GPT hafif bir üstünlük sağlamıştır (BLEU: 0,29'a karşı 0,23; METEOR: 0,62'ye karşı 0,60). GPT'nin genel ortalama metrik puanı yaklaşık %18 daha yüksek olmasına rağmen, DeepSeek özellikle XQuAD'da (0,89'a karşı 0,61) yüzeysel düzeyde anlamsal eşleşmeyi yansıtan daha yüksek BERTScore'lar elde etmiştir. Hata analizi sırasında, “1156–1241” ve “1156'da doğdu ve 1241'de öldü” gibi anlamsal olarak eşdeğer ancak ifade biçimi farklı olan çıktıların bazen ROUGE-L tarafından cezalandırıldığı tespit edilmiştir. Bu bulgular, Türkçeye özgü LLM geliştirme ihtiyacını ve anlamsal farkındalığı yüksek değerlendirme metriklerinin gerekliliğini vurgulamaktadır. Genel olarak, bu çalışma, Türkçe NLP ve LLM değerlendirmesi üzerine gelecekteki araştırmalara rehberlik edecek nicel içgörüler ve karşılaştırmalı değerlendirmeler sunmaktadır.
Anahtar Kelimeler
Türkçe Doğal Dil İşleme
,
Büyük Dil Modelleri
,
Karşılaştırma Metrikleri
,
ChatGPT
,
DeepSeek