Son yıllarda internete erişim imkanlarının artması ve kullanıcılardaki akıllı telefon kullanımının yaygınlaşması sebebiyle sosyal medya olarak adlandırılan ve insanların çeşitli konulardaki fikirlerini paylaştığı servisler çok yaygın olarak kullanılmaktadır. Sosyal medya verilerinin analiz edilmesiyle insanların farklı konulardaki duygularına dair anlamlı çıkarımlarda bulunulması anlamına gelen ve temelde bir sınıflandırma işlemi olan Duygu Analizi çalışmaları son yıllarda öne çıkan çalışma alanlarından biridir. Bu çalışmada, Python programlama dili içindeki kütüphaneler kullanılarak Naive Bayes (NB), Logistic Regression (LR), Support Vector Machine (SVM), Decision Tree (DT), Random Forest (RF) ve Artificial Neural Network (ANN) gibi 6 adet sınıflandırma algoritmasının Duygu Analizi kapsamında, performans karşılaştırması yapılmıştır. Veri seti olarak, açık kaynaklı, IMDB sitesinde yer alan etiketli kullanıcı yorumları kullanılmıştır. Doğal Dil İşleme yöntemleri kullanılarak temizlenen veri setinin sayısal olarak temsil edilebilmesi için Bag of Words (BoW), TF-IDF, FastText ve Word2Vec metin temsil yöntemleri kullanılmıştır. Veri setinin eğitimi ve test edilmesi aşamasında k=5 olacak şekilde k-fold cross validation yöntemi kullanılmıştır. 6 farklı sınıflandırma yöntemi için elde edilen sonuçlar accuracy, precision, recall ve f1 score hesaplanarak ayrıntılı bir karşılaştırma yapılmış ve sonuçlar kaydedilmiştir. En yüksek accuracy değerleri olarak LR ve SVM sırasıyla BOW’da %86, TF-IDF’te %87, word2Vec’de %87 ve FastText’te %83 seviyelerinde benzer sonuçlar vermiştir.
Doğal Dil İşleme Duygu Analizi Makine Öğrenmesi Metin Temsil Sınıflandırma Veri Madenciliği
Due to the increase in internet access opportunities and the widespread use of smartphones in recent years, services called social media where people share their opinions on various issues are widely used. Sentiment Analysis studies, which means making meaningful inferences about people's emotions on different subjects by analyzing social media data, and which is basically a classification process, is one of the prominent fields of study in recent years. In this study, 6 classification methods such as Naive Bayes (NB), Logistic Regression (LR), Support Vector Machine (SVM), Decision Tree (DT), Random Forest (RF) and Artificial Neural Network (ANN) were used by using libraries in Python programming language. Within the scope of Sentiment Analysis of the algorithm, performance comparison was made. As the dataset, open source, labeled user comments on the IMDB site were used. Bag of Words (BoW), TF-IDF, FastText and Word2Vec text representation methods were used to represent the data set that was cleaned using Natural Language Processing methods. During the training and testing of the data set, the k-fold cross validation method was used, with k=5. The results obtained for 6 different classification methods were calculated by calculating accuracy, precision, recall and f1 score, and a detailed comparison was made and the results were recorded. As the highest accuracy values, LR and SVM gave similar results at 86% in BOW, 87% in TF-IDF, 87% in word2Vec and 83% in FastText, respectively.
Natural Language Processing Sentiment Analysis Machine Learning Text Representation Classification Data Mining
Birincil Dil | Türkçe |
---|---|
Konular | Mühendislik |
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 31 Aralık 2021 |
Yayımlandığı Sayı | Yıl 2021 |