Bu çalışma, İngilizceyi Yabancı Dil Olarak (EFL) yazmayı değerlendirmede büyük dil modellerinin (LLM) insan değerlendiricilere kıyasla güvenilirliğini araştırmaktadır. Özellikle, ChatGPT 4.0 ve DeepSeek R1'in performansı, rubriksiz ve rubrik tabanlı puanlama koşulları altında üç türde (tartışmalı, görüş ve ikna edici denemeler) incelenmiştir. Katılımcılar, toplam 162 deneme üreten Türkiye'deki bir üniversitede okuyan 65 lisans İngilizce Öğretmenliği öğrencisidir. İki deneyimli insan değerlendirici tüm denemeleri puanlamış ve değerlendirmeleri neredeyse mükemmel bir değerlendiriciler arası güvenilirlik göstererek karşılaştırma için istikrarlı bir kıstas sağlamıştır. Aynı denemeler daha sonra her iki puanlama koşulunda ChatGPT ve DeepSeek ile derecelendirilmiştir. İstatistiksel analizler, sınıf içi korelasyon katsayıları (ICC), Pearson korelasyonları, eşleştirilmiş örneklem t-testleri ve ANOVA'ları içermiştir. Bulgular, rubrik entegrasyonunun, özellikle DeepSeek'ten daha güçlü rubrik kriterlerine duyarlılık gösteren ChatGPT için, yapay zeka ve insan puanları arasındaki uyumu önemli ölçüde iyileştirdiğini ortaya koymuştur. Tür etkileri de belirgindi: görüş yazıları en yüksek yapay zeka-insan uyumunu, ikna edici metinler orta düzeyde uyumu ve tartışmacı yazılar en düşük tutarlılığı sağladı. Her iki yapay zeka aracı da insan değerlendiricilere göre daha az değişkenlikle daha merkezi puanlar üretse de, özellikle değerlendirme ölçütü rehberliği olmadan riskten kaçınma eğilimleri sergilediler. Sonuçlar, yapay zeka tabanlı puanlamanın, özellikle bilişsel olarak zorlayıcı türlerde, insan değerlendirmesini tamamlayabileceğini, ancak yerini alamayacağını göstermektedir. Çalışma, yapay zeka destekli yazma değerlendirmesinin eğitim değerini en üst düzeye çıkarmada değerlendirme ölçütünün açıklığının, hızlı tasarımın ve tür farkındalığının önemini vurgulamaktadır.
ChatGPT DeepSeek otomatik yazma değerlendirmesi Puanlama Ölçeği değerlendirme yöntemi
Bu araştırma, Nevşehir Hacı Bektaş Veli Üniversitesi Bilimsel Araştırma ve Yayın Etiği Kurulu'nun 05/02/2025 tarih ve 2025.01.42 sayılı kararına dayanarak verilen izinle yürütülmüştür.
Bu çalışmaya katılan öğrencilere ve öğrenci kompozisyonlarının değerlendirilmesinde değerli yardımlarından dolayı Öğretim Görevlisi Uğur Ünalır'a teşekkür ederiz.
This study investigates the reliability of large language models (LLMs) in assessing English as a Foreign Language (EFL) writing compared to human raters. Specifically, the performances of ChatGPT 4.0 and DeepSeek R1 were examined across three genres; argumentative, opinion, and persuasive essays, under rubric-free and rubric-based scoring conditions. Participants were 65 undergraduate ELT students at a Turkish university who produced a total of 162 essays. Two experienced human raters scored all essays, and their evaluations demonstrated near-perfect inter-rater reliability, providing a stable benchmark for comparison. The same essays were then rated by ChatGPT and DeepSeek under both scoring conditions. Statistical analyses included intraclass correlation coefficients (ICC), Pearson correlations, paired-samples t-tests, and ANOVAs. Findings revealed that rubric integration substantially improved alignment between AI and human scores, particularly for ChatGPT, which showed stronger sensitivity to rubric criteria than DeepSeek. Genre effects were also evident: opinion essays yielded the highest AI-human agreement, persuasive texts moderate alignment, and argumentative essays the weakest consistency. While both AI tools produced more centralized scores with less variability than human raters, they also exhibited risk-averse tendencies, especially without rubric guidance. The results indicate that AI-based scoring can complement, but not replace, human evaluation, especially in cognitively demanding genres. The study highlights the importance of rubric clarity, prompt design, and genre awareness in maximizing the educational value of AI-assisted writing assessment.
ChatGPT DeepSeek automated writing evaluation rubric evaluation methodologies
This research was conducted with the permission granted by the Nevşehir Hacı Bektaş Veli University Scientific Research and Publication Ethics Committee, based on the decision dated 05/02/2025 and numbered 2025.01.42.
We are grateful to the students who participated in this study and to Instructor Uğur Ünalır for his invaluable assistance in evaluating the student essays.
| Birincil Dil | İngilizce |
|---|---|
| Konular | Eğitimde Ölçme ve Değerlendirme (Diğer) |
| Bölüm | Araştırma Makalesi |
| Yazarlar | |
| Gönderilme Tarihi | 16 Eylül 2025 |
| Kabul Tarihi | 4 Kasım 2025 |
| Yayımlanma Tarihi | 31 Aralık 2025 |
| Yayımlandığı Sayı | Yıl 2025 Cilt: 8 Sayı: 2 |