Günümüzde sosyal medya platformlarının sayısının ve kullanımının artmasıyla birlikte artık insanlar satın aldıkları bir ürünle veya gittikleri bir yer ile ilgili deneyimlerini sosyal medya platformlarında daha sıklıkla paylaşmaktadırlar. Sosyal medya platformlarındaki verilerin hacmi düşünüldüğünde, sosyal medya platformlarında paylaşılan incelemeler ve deneyimler içerisinde kurumlar veya şirketler için anlamlı birtakım bilgilerin olduğu düşünülmektedir. Hal böyle olunca sosyal medyada paylaşılan incelemeler ve deneyimler içerisinden anlamlı bilgi çıkarma yöntemlerini daha iyi hale getirmek ve hangi yöntemin daha iyi olduğunu bilmek önem arz etmektedir. Bu çalışmada turistik mekanlar için yapılan Türkçe incelemeler kullanılarak, yukarıda bahsedilen yöntemlerden biri olan duygu analizi yöntemindeki kelime temsil yöntemlerinden kelime çantası ve fastText kelime temsil yöntemlerinin sınıflandırma başarıları karşılaştırılmıştır. Ayrıca karşılaştırma işlemi gerçekleştirilirken duygu analizi işleminin ön hazırlık aşaması olan kelimeleri köklerine ayırma ve kelimeleri olumsuzlaştırma işlemlerinin sınıflandırma başarısına katkılarının olup olmadığı ölçülmüştür. Çalışmada hem iki sınıflı (pozitif, negatif) duygu analizi hem de üç sınıflı (pozitif, negatif, nötr) duygu analizi gerçekleştirilmiştir. Bahsedilen karşılaştırma işlemlerini gerçekleştirebilmek için altı adet veri seti oluşturulmuştur. Veri setleri önce metin madenciliğinde sıklıkla kullanılan Naive Bayes (NB), Multinom Naive Bayes (MNB), k-Nearest Neighbor (k-NN) ve Support Vector Machines (SVM) algoritmaları kullanılarak ve kelime çantası kelime temsil yöntemi esas alınarak WEKA programıyla sınıflandırılmıştır. Tüm veri setlerinin kelime çantası kelime temsil yöntemine göre test sonuçları elde edildikten sonra fastText kelime temsil yöntemine dair testler python programlama dilinin fastText kütüphanesi kullanılarak gerçekleştirilmiştir. Sınıflandırma işlemleri 10 tekrarlı çapraz doğrulama yöntemiyle yapılarak sınıflandırma işlemlerinin f-skor değerleri elde edilmiştir. Nihayetinde iki sınıflı duygu analizinde kelime çantası kelime temsil yönteminin fastText kelime temsil yönteminden daha başarılı sınıflandırma gerçekleştirdiği, üç sınıflı duygu analizinde ise tam tersi bir şekilde fastText kelime temsil yönteminin kelime çantası kelime temsil yönteminden daha başarılı sınıflandırma işlemi gerçekleştirdiği tespit edilmiştir. Duygu analizi ön hazırlık işlemlerinden kelimeleri köklerine ayırma ve olumsuzlaştırma işlemlerinin fastText kelime temsil yöntemiyle gerçekleştirilen sınıflandırma işlemlerinde olumlu ya da olumsuz bir katkı sağlamadığı görülmüştür. Ancak kelime çantası kelime temsil yöntemi kullanılarak gerçekleştirilen duygu analizi işlemlerinde az da olsa bir katkısının olduğu tespit edilmiştir. İki sınıflı duygu analizinde en başarılı sınıflandırma sonucuna kelime çantası kelime temsil yöntemi kullanılarak 0.91 f-skoru değeriyle SVM algoritmasıyla oluşturulan makine öğrenmesi modeliyle ulaşılmıştır. Üç sınıflı duygu analizinde ise en başarılı sınıflandırma sonucuna 0.78 f-skoru değeriyle fastText kelime temsil yöntemi kullanılarak oluşturulan makine öğrenmesi modeliyle ulaşılmıştır.
Metin Madenciliği Duygu Analizi Kelime Temsil Yöntemleri Kelime Çantası fastText Makine Öğrenmesi
Nowadays, with the increasing number and use of social media platforms, people now share their experiences about a product they have bought or a place they have been to on social media platforms more frequently. Considering the volume of data on social media platforms, it is considered that there is some meaningful information for institutions or companies in the reviews and experiences shared on social media platforms. As such, it is important to improve the methods of extracting meaningful information from the reviews and experiences shared on social media and to know which method is better. In this study, the classification successes of the bag of words and the fastText word representation methods, which are among the word representation methods in sentiment analysis methods mentioned above, were compared by using Turkish reviews performed for touristic places. Besides, while performing the comparison process, it was measured whether the process of separating the words into their roots and negation of the words, which is the preliminary stage of the sentiment analysis process, contributed to the classification success. In the study, both two-class (positive, negative) sentiment analysis and three-class (positive, negative, neutral) sentiment analysis were performed. Six data sets were created to carry out the mentioned comparison operations. The data sets were first classified using the Naive Bayes (NB), Multinomial Naive Bayes (MNB), k-Nearest Neighbor (k-NN) and Support Vector Machines (SVM) algorithms, which are frequently used in text mining, and based on bag of words word representation method, they were classified with WEKA program. After the test results of all data sets were obtained according to the bag of words word representation method, the tests of the fastText word representation method were carried out using the fastText library of the Python programming language. Classification procedures were carried out with 10-fold cross-validation methods, and f-score values of the classification processes were obtained. Finally, it was determined that bag of words word representation method performed a more successful classification than the fastText word representation method in two-class emotion analysis, while the fastText word representation method performed a more successful classification process than bag of words word representation method in three-class emotional analysis. It was observed that the process of separating the words into their roots and negating the words, which are the preliminary processes of sentiment analysis, did not contribute positively or negatively to the classification processes performed with the fastText word representation method. However, it was determined that it had a minor contribution to sentiment analysis processes performed by using bag of words word representation method. In the two-class sentiment analysis, the most successful classification result was achieved by using the machine learning model created with the SVM algorithm with the value of 0.91 f-score employing bag of words word representation method. In the three-class sentiment analysis, the most successful classification result was achieved with the machine learning model created using the fastText word representation method with the value of 0.78 f-score.
Text Mining Sentiment Analysis Word Representation Methods Bag of Words fastText Machine Learning
Primary Language | Turkish |
---|---|
Subjects | Engineering |
Journal Section | Articles |
Authors | |
Publication Date | December 31, 2020 |
Published in Issue | Year 2020 Issue: 20 |