The widespread use of social media applications has induced a significant growth of data generation per person. Compared to audio and image-based data, the size of text-based data increases drastically. Besides meaningful words, text-based data may contain contents like punctuation marks (i.e. comma, period, exclamation mark, semicolon, etc.), emojis, URLs, etc. Aforementioned contents are called as noise for text-processing, and they are removed from the dataset at pre-processing phase. Especially in sentiment classification studies on Twitter data sets, data sets are purified from contents such as URLs, punctuations, and emojis at pre-processing phase before word embeddings are created. However, the content called as noise in Twitter social media application, might actually be the part of a user’s sentiment or thought. In this study, we focused on the feature extraction from the noise data that is removed by dataset and the emotion in the tweet was revealed better. We also proposed a novel sentiment classification model aims to use the deep-features extracted by deep learning methods as well as other features extracted manually from the content, which is removed at preprocessing phase of the data. The proposed model was studied on Turkish Twitter dataset. In the experiments, the classification performance of the proposed model based on the same dataset was better than the previous studies.
Sentiment classification feature extraction deep learning Twitter LSTM
Sosyal medya uygulamaların yaygın kullanımı, insanları her dakika yeni veri üretmelerine neden olmuştur. Ses ve resim veri türlerinin yanında metin tabanlı verilerin boyutu daha hızlı artmaktadır. Metin tabanlı veriler, anlamlı kelimeler haricinde birçok içerik barındırabilmektedir. Metin işleme çalışmaları için bu içerikler gürültü olarak isimlendirilir ve metin önişleme aşamasında bu içerikler veri kümelerinden çıkartılır. Özellikle Twitter veri kümeleri üzerinde yapılan duygu sınıflandırma çalışmalarında, veri kümeleri metin temsilleri oluşturulmadan önce yapılan önişlemler aşamasında URL, noktalama işareti ve emoji gibi içeriklerden arındırılmaktadır. Twitter sosyal medya uygulaması için gürültü olarak nitelendirilen içerikler aslında bir bakıma kullanıcının duygu ve düşüncelerinin bir parçası niteliğindedir. Bu çalışmada veri kümesinden temizlenen gürültü verilerinden de özellik çıkarımı yapılmış olup, tweet’ler içerisindeki duygu daha iyi ortaya çıkarılmıştır. Çalışmada önerilen yeni duygu sınıflandırma modeli, derin öğrenme yöntemleriyle çıkartılan derin özellikler ile veri önişlemleri aşamasında silinen içeriklerden elle çıkartılan özellikleri birlikte kullanımına dayanmaktadır. Önerilen model literatürde çalışılan Türkçe Twitter veri kümesi üzerinde gerçekleştirilmiştir. Önerilen modelin sınıflandırma performansının önceki çalışmalardan daha iyi olduğu yapılan deneylerle gösterilmiştir.
Duygu sınıflandırma Özellik çıkarımı Derin öğrenme Twitter LSTM
Birincil Dil | Türkçe |
---|---|
Konular | Mühendislik |
Bölüm | MBD |
Yazarlar | |
Yayımlanma Tarihi | 20 Mart 2022 |
Gönderilme Tarihi | 17 Haziran 2020 |
Yayımlandığı Sayı | Yıl 2022 Cilt: 34 Sayı: 1 |