Sentiment analysis is a challenging problem in Natural Language Processing since every language has its own character within several difficulties such as ambiguity, synonymy, negative suffixes…etc. Since words with ambiguity can have different sentiment scores depending on the meaning they have in their corresponding context, we accomplished a study on Turkish language to determine whether the polarity scores of these polysemous words may differ according to their meaning. For a word with ambiguity, we first made a polarity calculation module to calculate its polarity score. This way, we calculated the polarity scores of 100 Turkish polysemous words. Then, since negation directly affects the correct meaning of the word in the sentiment analysis, a negation handler module is also implemented. After that, we prepared a sentiment polarity corpus which consists of 159,876 Turkish words including 100 Turkish polysemous words. Actually, the main purpose of this study is to detect sentiment polarity of Turkish texts by considering and building a specialized module for polysemous words. In short, we built a system for Turkish sentiment polarity detection task including these modules: 1) Pre-processing, 2) Polarity Calculation Module, 3) Negation Handling Module, 4) Feature Generation Module, and 5) Classification Module. According to our knowledge, this is the first study which includes all of these modules in one Turkish sentiment analysis task. Finally, we conducted this corpus using an ensemble hybrid regularized learning algorithm on two self-collected Twitter-datasets. Experimental results show that the suggested approach improves the classification performance on Turkish sentiment analysis task.
Sentiment analysis word ambiguity machine learning hybrid learning algorithm LSTM
TÜBİTAK
120E187
This work is supported in part by The Scientific and Technological Research Council of Turkey (TÜBİTAK) grant number [120E187]. Points of view in this document are those of the authors and do not necessarily represent the official position or policies of TÜBİTAK.
Her doğal dilin belirsizlik, eşanlamlılık, olumsuz ekler vb. gibi çeşitli zorluklar içeren bir karakterinin olmasından ötürü Duygu Analizi, Doğal Dil İşleme'de zorlu bir problemdir. Belirsizlik içeren eşsesli sözcükler, bulundukları bağlamdaki anlamlarına göre farklı duygu polaritesi puanlarına sahip olabildiği için, bu eşsesli sözcüklerin anlamlarına göre farklı duygu polaritesi puanları aldıklarını analiz eden Türkçe üzerine bir çalışma gerçekleştirdik. Belirsizliği olan bir kelime için, polarite puanını hesaplamak için önce bir polarite hesaplama modülü yaptık. Bu şekilde 100 Türkçe eşsesli kelimenin polarite puanlarını hesapladık. Ardından, duygu analizinde olumsuzlama kelimenin doğru anlamını doğrudan etkilediğinden, olumsuzluk işleyici modülü de gerçekleştirdik. Daha sonra 100 Türkçe eşsesli kelime olmak üzere 159.876 Türkçe kelimeden oluşan duygu polaritesi sözlüğü hazırladık. Aslında bu çalışmanın temel amacı, eşsesli sözcükler için özel bir modül oluşturarak Türkçe metinlerdeki duygu polaritesini tespit etmektir. Kısaca, Türkçe duygu polarite tespiti görevi için şu modülleri içeren bir sistem kurduk: 1) Ön işleme, 2) Polarite Hesaplama Modülü, 3) Olumsuzlama Modülü, 4) Özellik Oluşturma Modülü ve 5) Sınıflandırma Modülü. Bildiğimiz kadarıyla bu çalışma, Türkçe duygu analizi görevi için tüm bu modülleri bir arada içeren ilk çalışmadır. Son olarak, bu sözlüğü, kendi topladığımız iki Twitter veri kümesinde bir topluluk hibrit öğrenme algoritması kullanarak analiz ettik. Deneysel sonuçlar, önerilen yaklaşımın Türkçe duygu analizi görevinde sınıflandırma performansını arttırdığını göstermektedir.
Duygu analizi kelime anlam bulanıklığı makine öğrenmesi hibrit öğrenme algoritması LSTM
120E187
Birincil Dil | İngilizce |
---|---|
Konular | Mühendislik |
Bölüm | Araştırma Makaleleri |
Yazarlar | |
Proje Numarası | 120E187 |
Erken Görünüm Tarihi | 29 Mart 2023 |
Yayımlanma Tarihi | 30 Mart 2023 |
Yayımlandığı Sayı | Yıl 2023 Cilt: 35 Sayı: 1 |