Research Article

Türkçe Dil Modellerinde Persona Vektörleri: Karakter Özelliklerinin İzlenmesi ve Kontrolü

Volume: 40 Number: 1 January 5, 2026
TR EN

Türkçe Dil Modellerinde Persona Vektörleri: Karakter Özelliklerinin İzlenmesi ve Kontrolü

Öz

Amaç: Büyük dil modellerinin davranışlarını anlama ve kontrol etme çabaları, yapay zekâ güvenliği açısından kritik öneme sahiptir. Bu çalışma, Chen ve arkadaşlarının (2025) geliştirdiği yöntemi Türkçeye uyarlamaktadır. Amaç, Türkçe dilinde eğitilmiş üretken bir dil modelinin aktivasyon uzayında belirli kişilik özelliklerini temsil eden persona vektörlerini çıkarmaktır. Araştırmanın hedefi, bu vektörlerin diller arası transfer edilebilirliğini ve Türkçe dil modellerinde güvenlik uygulamalarındaki potansiyelini ortaya koymaktır. 

Yöntem: Yedi persona (kötülük, aşırı uyumluluk, halüsinasyon, iyimserlik, kabalık, ilgisizlik, mizah) için her biri bir olumlu ve bir olumsuz komut içeren 63 karşıtsal komut çifti oluşturulmuştur. Cevap ortalaması (response averaging) stratejisi kullanılarak modelin 32. katmanından vektörler çıkarılmış; etkinlikleri Vektör Etkinlik Skoru (VES) ve davranışsal geçerlilikleri ise yönlendirme testleri ile değerlendirilmiştir. 

Bulgular: Çıkarılan persona vektörleri, hedeflenen kişilikleri başarıyla kodlamıştır (ortalama VES: 0,183±0,069). Geometrik VES ile gözlemlenen davranışsal performans arasında orta-güçlü pozitif bir korelasyon (r = 0,576) elde edilmiştir. Mizah personası, hem geometrik (VES=0,277) hem de davranışsal (etki=0,300) metriklerde en yüksek performansı sergilemiştir. 

Sonuç: Bulgular, persona vektörlerinin diller arası transfer edilebilirliğini doğrulamakta ve Türkçe dil modellerinde davranışsal izleme, kontrol ve veri seti denetimi için sağlam bir temel sunduğunu göstermektedir. VES ile davranışsal performans arasındaki korelasyon (r=0,576), yönteminin geçerliliğini desteklerken, daha kapsamlı doğrulama ihtiyacını da ortaya koymaktadır. 

Özgünlük: Bu araştırma, söz konusu yöntemi Türkçeye uygulayan ve persona vektörlerini Türkçe dil modellerinden çıkaran ilk çalışmadır. Dolayısıyla, diller arası transfer edilebilirlik literatürüne somut katkı sunmakta Türkçe doğal dil işleme alanındaki güvenlik araştırmalarına öncülük etmektedir.

Anahtar Kelimeler

Büyük dil modelleri , persona vektörleri , aktivasyon yönlendirme , diller arası transfer edilebilirlik , yapay zekâ güvenliği

References

  1. Ahmadian, A., Cremer, C., Gallé, M., Fadaee, M., Kreutzer, J., Pietquin, O., Üstün, A. ve Hooker, S. (2024). Back to Basics: Revisiting REINFORCE Style Optimization for Learning from Human Feedback in LLMs. arXiv. https://doi.org/10.48550/arXiv.2402.14740
  2. Alain, G. ve Bengio, Y. (2018). Understanding intermediate layers using linear classifier probes. arXiv. https://doi.org/10.48550/arXiv.1610.01644
  3. Barnhart, L., Bafghi, R. A., Becker, S. ve Raissi, M. (2025). Aligning to what? limits to RLHF based alignment. arXiv. https://doi.org/10.48550/arXiv.2503.09025
  4. Bai, Y., Jones, A., Ndousse, K., Askell, A., Chen, A., DasSarma, N., ... ve Kaplan, J. (2022). Training a helpful and harmless assistant with reinforcement learning from human feedback. arXiv. https://doi.org/10.48550/arXiv.2204.05862
  5. Bereska, L.ve Gavves, E. (2024). Mechanistic interpretability for AI safety--a review. arXiv. https://doi.org/10.48550/arXiv.2404.14082
  6. Betley, J., Tan, D., Warncke, N., Sztyber-Betley, A., Bao, X., Soto, M., ... ve Evans, O. (2025). Emergent misalignment: Narrow finetuning can produce broadly misaligned llms. arXiv. https://doi.org/10.48550/arXiv.2502.17424
  7. Chen, R., Arditi, A., Sleight, H., Evans, O., ve Lindsey, J. (2025). Persona vectors: Monitoring and controlling character traits in language models. arXiv. https://doi.org/10.48550/arXiv.2507.21509
  8. Christiano, P. F., Leike, J., Brown, T., Martic, M., Legg, S. ve Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in neural information processing systems, 30. https://proceedings.neurips.cc/paper_files/paper/2017/file/d5e2c0adad503c91f91df240d0cd4e49-Paper.pdf
  9. Farrell, H. ve Han, H. (2025). AI and Democratic Publics Sébastien A. Krier using Midjourney 6.1. Artificial Intelligence. https://knightcolumbia.org/content/ai-and-democratic-publics
  10. Hendrycks, D., Burns, C., Basart, S., Critch, A., Li, J., Song, D. ve Steinhardt, J. (2021). Aligning AI with shared human values. arXiv. https://doi.org/10.48550/arXiv.2008.02275
APA
Akbulut, M. (2026). Türkçe Dil Modellerinde Persona Vektörleri: Karakter Özelliklerinin İzlenmesi ve Kontrolü. Türk Kütüphaneciliği, 40(1), 143-167. https://izlik.org/JA69AM43TU