Bu çalışma, Türkçe bir büyük dil modeline (Trendyol/Trendyol-LLM-7b-chat-dpo-v1.0) uygulanan yalnızca ağırlık nicemlemesi (INT8 ve INT4) yöntemlerinin model doğruluğu, üretim kalitesi ve sistem düzeyi verimlilik üzerindeki etkilerini kapsamlı biçimde incelemektedir. Nicemlenmemiş BFLOAT16 sürümü temel alınarak, aynı modelin INT8 ve INT4 biçimlerinde nicemlenmiş karşılıkları Türkçeye uyarlanmış GLUE-benzeri sınıflandırma görevlerinde ve üretim odaklı özetleme görevlerinde değerlendirilmiştir.
Elde edilen bulgular, nicemlemenin görev türüne bağlı olmakla birlikte çoğu durumda sınırlı düzeyde performans kaybına yol açtığını; buna karşılık belirgin bellek tasarrufu ve dağıtım kolaylığı sağladığını göstermektedir. Sonuçlar doğruluk, hız ve bellek kullanımı arasındaki kaçınılmaz dengelemelere (trade-off) dikkat çekmektedir. Özellikle INT4 nicemleme, kaynak kısıtlı ortamlarda bellek verimliliği ile kabul edilebilir doğruluk arasında dengeli bir çözüm sunarken; INT8 nicemleme bazı sınıflandırma görevlerinde yüksek doğruluğu koruyabilmekte, ancak belirli yazılım veya donanım yapılandırmalarında hız açısından dezavantaj oluşturabilmektedir.
Genel olarak bulgular, Türkçe büyük dil modellerinin saha koşullarında dağıtımı açısından nicemleme yöntemlerinin uygulanabilir ve etkili bir optimizasyon stratejisi olduğunu ortaya koymaktadır. Bu çalışma, Türkçe LLM ekosisteminde görev-duyarlı nicemleme stratejilerinin geliştirilmesi ve uygulanmasına yönelik somut ilkeler sunarak, gelecekteki model verimliliği çalışmalarına anlamlı bir katkı sağlamaktadır.
Nicemleme Büyük Dil Modelleri Model Verimliliği Türkçe Doğal Dil İşleme Düşük Hassasiyetli Çıkarım
This study provides a comprehensive examination of the impact of weight-only quantization methods (INT8 and INT4) on model accuracy, generative quality, and system-level efficiency in a Turkish large language model (Trendyol/Trendyol-LLM-7b-chat-dpo-v1.0). Using the non-quantized BFLOAT16 configuration as the reference, the quantized INT8 and INT4 variants of the same model were evaluated on Turkish-adapted GLUE-like classification tasks as well as a summarization task focusing on generation quality.
The findings indicate that, although the effects of quantization vary across tasks, performance degradation generally remains limited. At the same time, quantization yields substantial memory savings and facilitates model deployment. The results further highlight the inherent trade-offs between accuracy, inference speed, and memory consumption. In particular, INT4 quantization offers a balanced alternative between memory efficiency and acceptable accuracy in resource-constrained settings, whereas INT8 quantization can preserve competitive accuracy on certain classification tasks but may exhibit speed disadvantages depending on the underlying software or hardware configuration.
Overall, the study demonstrates that quantization methods constitute a viable optimization strategy for deploying Turkish large language models in practical environments. By outlining task-sensitive quantization considerations, this work provides actionable insights that can inform future efforts toward efficient model optimization within the Turkish LLM ecosystem.
Quantization Large Language Models Model Efficiency Turkish NLP Low-Precision Inference
| Birincil Dil | Türkçe |
|---|---|
| Konular | Doğal Dil İşleme |
| Bölüm | Araştırma Makalesi |
| Yazarlar | |
| Gönderilme Tarihi | 6 Aralık 2025 |
| Kabul Tarihi | 21 Aralık 2025 |
| Yayımlanma Tarihi | 24 Aralık 2025 |
| Yayımlandığı Sayı | Yıl 2025 Cilt: 8 Sayı: 2 |
Dergimizin Tarandığı Dizinler (İndeksler)
Academic Resource Index
| Google Scholar
| ASOS Index
|
Rooting Index
| The JournalTOCs Index
| General Impact Factor (GIF) Index |
Directory of Research Journals Indexing
| I2OR Index
|