Sentiment analysis is a natural language processing (NLP) task that aims to automatically identify positive, negative and neutral emotions in texts. Agglutinative languages such as Turkish pose challenges for sentiment analysis due to their complex morphological structure. Traditional methods are inadequate for detecting sentiment in texts. Language models (LMs), on the other hand, achieve successful results in sentiment analysis as well as in many other NLP tasks thanks to their ability to learn context and structural features of the language. In this study, XLM-RoBERTa, mBERT, BERTurk 32k, BERTurk 128k, ELECTRA Turkish Small and ELECTRA Turkish Base models were fine-tuned using the Turkish Sentiment Analysis – Version 1 (TRSAv1) dataset and the performances of the models were compared. The dataset consists of 150,000 texts containing user comments on e-commerce platforms. The classes have a balanced distribution for positive, negative and neutral classes. The fine-tuned models are evaluated using the test set with metrics such as accuracy, precision, recall and F1 score. The findings show that models customized for the Turkish language exhibit better performance in emotion detection compared to multilingual models. The BERTurk 32k model achieved strong results with an accuracy of 83.69% and an F1 score of 83.65%, while the BERTurk 128k model followed closely with an accuracy of 83.68% and an F1 score of 83.66%. On the other hand, the XLM-RoBERTa model, a multilingual model, delivered competitive performance with an accuracy of 83.27% and an F1 score of 83.22%.
Bu çalışma, Türkçe'de duygu analizi için büyük dil modellerinin (BDM) kapsamlı bir karşılaştırmasını sunmaktadır. Türkçe gibi eklemeli diller, karmaşık gramer yapıları ve bağlam bağımlılıkları nedeniyle duygu analizi için zorluklar oluşturmaktadır. Bu zorluklar, geleneksel makine öğrenimi ve sözlük tabanlı yöntemlerin performansını sınırlamaktadır. BDM'ler, dilin bağlam ve yapısal özelliklerini öğrenme yetenekleri nedeniyle bu sınırlamaların üstesinden gelmede önemli avantajlar sunmaktadır. Bu çalışmada, XLM-Roberta, mBERT, mT5, T5 Turkish, BERTurk 32k, BERTurk (128k), ELECTRA Turkish Small ve ELECTRA Turkish Base modelleri, Türkçe TRSAv1 veri seti kullanılarak ince ayarlanmıştır. TRSAv1 veri seti, e-ticaret platformlarındaki kullanıcı yorumlarından oluşan dengeli bir sınıf dağılımına sahip 150.000 yorum içermektedir. İnce ayarların ardından modeller doğruluk (accuracy), kesinlik (precision), duyarlılık (recall) ve F1 puanı gibi performans ölçütleriyle test edilmiştir. Analiz sonuçları, Türkçe için özel olarak eğitilen özellikle BERTurk modelleri gibi tek dilli modellerin, Türkçenin dil yapısını ve bağlamsal anlamsal çeşitliliğini öğrenmede daha başarılı olduğunu göstermektedir. Türkçe modellerin başarısı, Türkçenin zengin morfolojik yapısını öğrenme yeteneklerinden kaynaklanmaktadır. Çok dilli modellerden XLM-Roberta, olumlu ve olumsuz sınıflarda etkili performans gösterirken nötr sınıfta zayıf performans göstermiştir. mBERT ve ELECTRA Turkish Small ise diğer modellere kıyasla genel olarak zayıf performans göstermiştir.
Primary Language | English |
---|---|
Subjects | Software Engineering (Other) |
Journal Section | Research Article |
Authors | |
Early Pub Date | July 1, 2025 |
Publication Date | |
Submission Date | November 27, 2024 |
Acceptance Date | June 23, 2025 |
Published in Issue | Year 2025 Volume: 15 Issue: 1 |
All articles published by EJT are licensed under the Creative Commons Attribution 4.0 International License. This permits anyone to copy, redistribute, remix, transmit and adapt the work provided the original work and source is appropriately cited.