Araştırma Makalesi

Türkçe Dil Modellerinde Persona Vektörleri: Karakter Özelliklerinin İzlenmesi ve Kontrolü

Cilt: 40 Sayı: 1 5 Ocak 2026
PDF İndir
TR EN

Türkçe Dil Modellerinde Persona Vektörleri: Karakter Özelliklerinin İzlenmesi ve Kontrolü

Öz

Amaç: Büyük dil modellerinin davranışlarını anlama ve kontrol etme çabaları, yapay zekâ güvenliği açısından kritik öneme sahiptir. Bu çalışma, Chen ve arkadaşlarının (2025) geliştirdiği yöntemi Türkçeye uyarlamaktadır. Amaç, Türkçe dilinde eğitilmiş üretken bir dil modelinin aktivasyon uzayında belirli kişilik özelliklerini temsil eden persona vektörlerini çıkarmaktır. Araştırmanın hedefi, bu vektörlerin diller arası transfer edilebilirliğini ve Türkçe dil modellerinde güvenlik uygulamalarındaki potansiyelini ortaya koymaktır. 

Yöntem: Yedi persona (kötülük, aşırı uyumluluk, halüsinasyon, iyimserlik, kabalık, ilgisizlik, mizah) için her biri bir olumlu ve bir olumsuz komut içeren 63 karşıtsal komut çifti oluşturulmuştur. Cevap ortalaması (response averaging) stratejisi kullanılarak modelin 32. katmanından vektörler çıkarılmış; etkinlikleri Vektör Etkinlik Skoru (VES) ve davranışsal geçerlilikleri ise yönlendirme testleri ile değerlendirilmiştir. 

Bulgular: Çıkarılan persona vektörleri, hedeflenen kişilikleri başarıyla kodlamıştır (ortalama VES: 0,183±0,069). Geometrik VES ile gözlemlenen davranışsal performans arasında orta-güçlü pozitif bir korelasyon (r = 0,576) elde edilmiştir. Mizah personası, hem geometrik (VES=0,277) hem de davranışsal (etki=0,300) metriklerde en yüksek performansı sergilemiştir. 

Sonuç: Bulgular, persona vektörlerinin diller arası transfer edilebilirliğini doğrulamakta ve Türkçe dil modellerinde davranışsal izleme, kontrol ve veri seti denetimi için sağlam bir temel sunduğunu göstermektedir. VES ile davranışsal performans arasındaki korelasyon (r=0,576), yönteminin geçerliliğini desteklerken, daha kapsamlı doğrulama ihtiyacını da ortaya koymaktadır. 

Özgünlük: Bu araştırma, söz konusu yöntemi Türkçeye uygulayan ve persona vektörlerini Türkçe dil modellerinden çıkaran ilk çalışmadır. Dolayısıyla, diller arası transfer edilebilirlik literatürüne somut katkı sunmakta Türkçe doğal dil işleme alanındaki güvenlik araştırmalarına öncülük etmektedir.

Anahtar Kelimeler

Büyük dil modelleri, persona vektörleri, aktivasyon yönlendirme, diller arası transfer edilebilirlik, yapay zekâ güvenliği

Kaynakça

  1. Ahmadian, A., Cremer, C., Gallé, M., Fadaee, M., Kreutzer, J., Pietquin, O., Üstün, A. ve Hooker, S. (2024). Back to Basics: Revisiting REINFORCE Style Optimization for Learning from Human Feedback in LLMs. arXiv. https://doi.org/10.48550/arXiv.2402.14740
  2. Alain, G. ve Bengio, Y. (2018). Understanding intermediate layers using linear classifier probes. arXiv. https://doi.org/10.48550/arXiv.1610.01644
  3. Barnhart, L., Bafghi, R. A., Becker, S. ve Raissi, M. (2025). Aligning to what? limits to RLHF based alignment. arXiv. https://doi.org/10.48550/arXiv.2503.09025
  4. Bai, Y., Jones, A., Ndousse, K., Askell, A., Chen, A., DasSarma, N., ... ve Kaplan, J. (2022). Training a helpful and harmless assistant with reinforcement learning from human feedback. arXiv. https://doi.org/10.48550/arXiv.2204.05862
  5. Bereska, L.ve Gavves, E. (2024). Mechanistic interpretability for AI safety--a review. arXiv. https://doi.org/10.48550/arXiv.2404.14082
  6. Betley, J., Tan, D., Warncke, N., Sztyber-Betley, A., Bao, X., Soto, M., ... ve Evans, O. (2025). Emergent misalignment: Narrow finetuning can produce broadly misaligned llms. arXiv. https://doi.org/10.48550/arXiv.2502.17424
  7. Chen, R., Arditi, A., Sleight, H., Evans, O., ve Lindsey, J. (2025). Persona vectors: Monitoring and controlling character traits in language models. arXiv. https://doi.org/10.48550/arXiv.2507.21509
  8. Christiano, P. F., Leike, J., Brown, T., Martic, M., Legg, S. ve Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in neural information processing systems, 30. https://proceedings.neurips.cc/paper_files/paper/2017/file/d5e2c0adad503c91f91df240d0cd4e49-Paper.pdf
  9. Farrell, H. ve Han, H. (2025). AI and Democratic Publics Sébastien A. Krier using Midjourney 6.1. Artificial Intelligence. https://knightcolumbia.org/content/ai-and-democratic-publics
  10. Hendrycks, D., Burns, C., Basart, S., Critch, A., Li, J., Song, D. ve Steinhardt, J. (2021). Aligning AI with shared human values. arXiv. https://doi.org/10.48550/arXiv.2008.02275

Kaynak Göster

APA
Akbulut, M. (2026). Türkçe Dil Modellerinde Persona Vektörleri: Karakter Özelliklerinin İzlenmesi ve Kontrolü. Türk Kütüphaneciliği, 40(1), 142-166. https://doi.org/10.24146/tk.1765562
AMA
1.Akbulut M. Türkçe Dil Modellerinde Persona Vektörleri: Karakter Özelliklerinin İzlenmesi ve Kontrolü. TK. 2026;40(1):142-166. doi:10.24146/tk.1765562
Chicago
Akbulut, Müge. 2026. “Türkçe Dil Modellerinde Persona Vektörleri: Karakter Özelliklerinin İzlenmesi ve Kontrolü”. Türk Kütüphaneciliği 40 (1): 142-66. https://doi.org/10.24146/tk.1765562.
EndNote
Akbulut M (01 Mart 2026) Türkçe Dil Modellerinde Persona Vektörleri: Karakter Özelliklerinin İzlenmesi ve Kontrolü. Türk Kütüphaneciliği 40 1 142–166.
IEEE
[1]M. Akbulut, “Türkçe Dil Modellerinde Persona Vektörleri: Karakter Özelliklerinin İzlenmesi ve Kontrolü”, TK, c. 40, sy 1, ss. 142–166, Mar. 2026, doi: 10.24146/tk.1765562.
ISNAD
Akbulut, Müge. “Türkçe Dil Modellerinde Persona Vektörleri: Karakter Özelliklerinin İzlenmesi ve Kontrolü”. Türk Kütüphaneciliği 40/1 (01 Mart 2026): 142-166. https://doi.org/10.24146/tk.1765562.
JAMA
1.Akbulut M. Türkçe Dil Modellerinde Persona Vektörleri: Karakter Özelliklerinin İzlenmesi ve Kontrolü. TK. 2026;40:142–166.
MLA
Akbulut, Müge. “Türkçe Dil Modellerinde Persona Vektörleri: Karakter Özelliklerinin İzlenmesi ve Kontrolü”. Türk Kütüphaneciliği, c. 40, sy 1, Mart 2026, ss. 142-66, doi:10.24146/tk.1765562.
Vancouver
1.Müge Akbulut. Türkçe Dil Modellerinde Persona Vektörleri: Karakter Özelliklerinin İzlenmesi ve Kontrolü. TK. 01 Mart 2026;40(1):142-66. doi:10.24146/tk.1765562