Bu çalışmanın amacı, üretken yapay zeka (ÜYZ) sistemlerinin eğitim bağlamında farklı dillerde ürettikleri içeriklerin benzerlik ve farklılıklarını çok metrikli biçimde incelemektir. ChatGPT ve Copilot adlı büyük dil modellerinin Türkçe, İngilizce, İspanyolca ve Arapça dillerinde verdikleri yanıtlar toksisite, duygu valansı, stereotip, olgusal doğruluk ve güvenlik/ret davranışları açısından karşılaştırmalı içerik analizine tabi tutulmuştur. Her model ile dil kombinasyonu için sekiz istem türüyle toplam 192 yanıt toplanmış ve veriler hem nitel hem nicel yöntemlerle kodlanmıştır. Elde edilen bulgular, modellerin farklı dillerde anlamlı biçimde değişen yanıt stratejileri sergilediğini göstermektedir. Düşük/orta kaynaklı dillerde stereotip üretimi, toksisite eğilimi ve doğruluk sapmaları gibi riskli örüntüler dikkat çekmiştir. Ayrıca bazı dillerde güvenlik filtrelerinin daha kısıtlayıcı çalıştığı ve bunun da eğitsel eşitlik açısından önemli sonuçlar doğurabileceği belirlenmiştir. Sonuçlar, üretken yapay zeka araçlarının çok dilli ortamlarda adil, güvenilir ve pedagojik olarak uygun şekilde kullanılabilmesi için dil duyarlı tasarım ve yönetişim politikalarına ihtiyaç duyulduğuna işaret etmektedir.
Üretken yapay zeka dilsel önyargı stereotip çok dilli analiz toksiklik
The aim of this study is to examine the similarities and differences in the responses generated by generative artificial intelligence (GenAI) systems across multiple languages within educational contexts, using a multi-metric approach. The responses produced by two large language models, ChatGPT and Copilot, in Turkish, English, Spanish, and Arabic were comparatively analyzed in terms of toxicity, sentiment valence, stereotyping, factual accuracy, and safety/refusal behavior. A total of 192 responses were collected using eight prompt types for each model–language combination, and the data were coded using both qualitative and quantitative techniques. The findings indicate that the models exhibit significantly divergent response strategies across different languages. Notably, languages with lower or moderate resource availability tended to show risk-prone patterns such as increased stereotyping, higher toxicity, and reduced factual accuracy. Furthermore, safety filters were found to operate more restrictively in certain languages, which may have critical implications for educational equity. These results suggest the necessity of language-aware design and governance policies to ensure that GAI tools are deployed fairly, reliably, and pedagogically appropriately in multilingual educational settings.
Generative artificial intelligence Linguistic bias Multilingual analysis Toxicity stereotype
| Birincil Dil | Türkçe |
|---|---|
| Konular | Alan Eğitimleri (Diğer) |
| Bölüm | Araştırma Makalesi |
| Yazarlar | |
| Gönderilme Tarihi | 14 Ekim 2025 |
| Kabul Tarihi | 17 Aralık 2025 |
| Yayımlanma Tarihi | 27 Aralık 2025 |
| Yayımlandığı Sayı | Yıl 2025 Cilt: 7 Sayı: 2 |
Bu eser Creative Commons Atıf-GayriTicari 4.0 Uluslararası Lisansı ile lisanslanmıştır.
This work is licensed under a Creative Commons Attribution-Non Commercial 4.0 International License.