Year 2020, Volume , Issue 20, Pages 311 - 320 2020-12-31

Comparison of fastText and Bag of Words Word Representation Methods by Using Turkish Reviews Conducted for Touristic Places
FastText ve Kelime Çantası Kelime Temsil Yöntemlerinin Turistik Mekanlar İçin Yapılan Türkçe İncelemeler Kullanılarak Karşılaştırılması

Muhammed Çağrı AKSU [1] , Ersin KARAMAN [2]


Nowadays, with the increasing number and use of social media platforms, people now share their experiences about a product they have bought or a place they have been to on social media platforms more frequently. Considering the volume of data on social media platforms, it is considered that there is some meaningful information for institutions or companies in the reviews and experiences shared on social media platforms. As such, it is important to improve the methods of extracting meaningful information from the reviews and experiences shared on social media and to know which method is better. In this study, the classification successes of the bag of words and the fastText word representation methods, which are among the word representation methods in sentiment analysis methods mentioned above, were compared by using Turkish reviews performed for touristic places. Besides, while performing the comparison process, it was measured whether the process of separating the words into their roots and negation of the words, which is the preliminary stage of the sentiment analysis process, contributed to the classification success. In the study, both two-class (positive, negative) sentiment analysis and three-class (positive, negative, neutral) sentiment analysis were performed. Six data sets were created to carry out the mentioned comparison operations. The data sets were first classified using the Naive Bayes (NB), Multinomial Naive Bayes (MNB), k-Nearest Neighbor (k-NN) and Support Vector Machines (SVM) algorithms, which are frequently used in text mining, and based on bag of words word representation method, they were classified with WEKA program. After the test results of all data sets were obtained according to the bag of words word representation method, the tests of the fastText word representation method were carried out using the fastText library of the Python programming language. Classification procedures were carried out with 10-fold cross-validation methods, and f-score values of the classification processes were obtained. Finally, it was determined that bag of words word representation method performed a more successful classification than the fastText word representation method in two-class emotion analysis, while the fastText word representation method performed a more successful classification process than bag of words word representation method in three-class emotional analysis. It was observed that the process of separating the words into their roots and negating the words, which are the preliminary processes of sentiment analysis, did not contribute positively or negatively to the classification processes performed with the fastText word representation method. However, it was determined that it had a minor contribution to sentiment analysis processes performed by using bag of words word representation method. In the two-class sentiment analysis, the most successful classification result was achieved by using the machine learning model created with the SVM algorithm with the value of 0.91 f-score employing bag of words word representation method. In the three-class sentiment analysis, the most successful classification result was achieved with the machine learning model created using the fastText word representation method with the value of 0.78 f-score.
Günümüzde sosyal medya platformlarının sayısının ve kullanımının artmasıyla birlikte artık insanlar satın aldıkları bir ürünle veya gittikleri bir yer ile ilgili deneyimlerini sosyal medya platformlarında daha sıklıkla paylaşmaktadırlar. Sosyal medya platformlarındaki verilerin hacmi düşünüldüğünde, sosyal medya platformlarında paylaşılan incelemeler ve deneyimler içerisinde kurumlar veya şirketler için anlamlı birtakım bilgilerin olduğu düşünülmektedir. Hal böyle olunca sosyal medyada paylaşılan incelemeler ve deneyimler içerisinden anlamlı bilgi çıkarma yöntemlerini daha iyi hale getirmek ve hangi yöntemin daha iyi olduğunu bilmek önem arz etmektedir. Bu çalışmada turistik mekanlar için yapılan Türkçe incelemeler kullanılarak, yukarıda bahsedilen yöntemlerden biri olan duygu analizi yöntemindeki kelime temsil yöntemlerinden kelime çantası ve fastText kelime temsil yöntemlerinin sınıflandırma başarıları karşılaştırılmıştır. Ayrıca karşılaştırma işlemi gerçekleştirilirken duygu analizi işleminin ön hazırlık aşaması olan kelimeleri köklerine ayırma ve kelimeleri olumsuzlaştırma işlemlerinin sınıflandırma başarısına katkılarının olup olmadığı ölçülmüştür. Çalışmada hem iki sınıflı (pozitif, negatif) duygu analizi hem de üç sınıflı (pozitif, negatif, nötr) duygu analizi gerçekleştirilmiştir. Bahsedilen karşılaştırma işlemlerini gerçekleştirebilmek için altı adet veri seti oluşturulmuştur. Veri setleri önce metin madenciliğinde sıklıkla kullanılan Naive Bayes (NB), Multinom Naive Bayes (MNB), k-Nearest Neighbor (k-NN) ve Support Vector Machines (SVM) algoritmaları kullanılarak ve kelime çantası kelime temsil yöntemi esas alınarak WEKA programıyla sınıflandırılmıştır. Tüm veri setlerinin kelime çantası kelime temsil yöntemine göre test sonuçları elde edildikten sonra fastText kelime temsil yöntemine dair testler python programlama dilinin fastText kütüphanesi kullanılarak gerçekleştirilmiştir. Sınıflandırma işlemleri 10 tekrarlı çapraz doğrulama yöntemiyle yapılarak sınıflandırma işlemlerinin f-skor değerleri elde edilmiştir. Nihayetinde iki sınıflı duygu analizinde kelime çantası kelime temsil yönteminin fastText kelime temsil yönteminden daha başarılı sınıflandırma gerçekleştirdiği, üç sınıflı duygu analizinde ise tam tersi bir şekilde fastText kelime temsil yönteminin kelime çantası kelime temsil yönteminden daha başarılı sınıflandırma işlemi gerçekleştirdiği tespit edilmiştir. Duygu analizi ön hazırlık işlemlerinden kelimeleri köklerine ayırma ve olumsuzlaştırma işlemlerinin fastText kelime temsil yöntemiyle gerçekleştirilen sınıflandırma işlemlerinde olumlu ya da olumsuz bir katkı sağlamadığı görülmüştür. Ancak kelime çantası kelime temsil yöntemi kullanılarak gerçekleştirilen duygu analizi işlemlerinde az da olsa bir katkısının olduğu tespit edilmiştir. İki sınıflı duygu analizinde en başarılı sınıflandırma sonucuna kelime çantası kelime temsil yöntemi kullanılarak 0.91 f-skoru değeriyle SVM algoritmasıyla oluşturulan makine öğrenmesi modeliyle ulaşılmıştır. Üç sınıflı duygu analizinde ise en başarılı sınıflandırma sonucuna 0.78 f-skoru değeriyle fastText kelime temsil yöntemi kullanılarak oluşturulan makine öğrenmesi modeliyle ulaşılmıştır.
  • Ait Hammou, B., Ait Lahcen, A., & Mouline, S. (2020). Towards a real-time processing framework based on improved distributed recurrent neural network variants with fastText for social big data analytics. Information Processing & Management, 57(1), 1-15. https://doi.org/https://doi.org/10.1016/j.ipm.2019.102122
  • Akın, A. A., & Akın, M. D. (2007). Zemberek, an open source NLP framework for Turkic Languages. Structure, 10, 1-5.
  • Albayrak, A. (2018). Duygu analizinde farklı vektör temsil yöntemleri ve sınıflayıcıların karşılaştırılması [Yüksek Lisans Tezi, Sivas Cumhuriyet Üniversitesi]. Sivas Cumhuriyet Üniversitesi Akademik Arşiv Sistemi. https://hdl.handle.net/20.500.12418/12071
  • Alessa, A., Faezipour, M., & Alhassan, Z. (2018, June 4-7). Text classification of flu-related tweets using fasttext with sentiment and keyword features [Paper presentation]. 2018 IEEE International Conference on Healthcare Informatics, NY, USA.
  • Altunkaynak, B. (2017). Veri madenciliği yöntemleri ve R uygulamaları. Seçkin Yayıncılık.
  • Automatic hyperparameter optimization. (n.d.). fastText. https://fasttext.cc/docs/en/autotune.html
  • Aydoğan, E., & Akcayol, M. A. (2016, August 2-5). A comprehensive survey for sentiment analysis tasks using machine learning techniques [Paper presentation]. 2016 International Symposium on INnovations in Intelligent SysTems and Applications, Sinaia, Romania.
  • Aydoğan, M., & Karcı, A. (2019). Kelime temsil yöntemleri ile kelime benzerliklerinin incelenmesi. Çukurova Üniversitesi Mühendislik-Mimarlık Fakültesi Dergisi, 34(2), 181-196. https://doi.org/https://doi.org/10.21605/cukurovaummfd.609119
  • Baccianella, S., Esuli, A., & Sebastiani, F. (2010, May 17-23). Sentiwordnet 3.0: an enhanced lexical resource for sentiment analysis and opinion mining [Paper presentation]. Proceedings of the Seventh International Conference on Language Resources and Evaluation, Valletta, Malta.
  • Bag-of-Words model. (2007, October 31). Retrieved July 20, 2020 from https://en.wikipedia.org/wiki/Bag-of-words_model
  • Bilgin, M., & Şentürk, İ. F. (2017, October 5-8). Sentiment analysis on Twitter data with semi-supervised Doc2Vec [Paper presentation]. 2017 International Conference on Computer Science and Engineering, Antalya, Turkey.
  • Bojanowski, P., Grave, E., Joulin, A., & Mikolov, T. (2017). Enriching word vectors with subword information. Transactions of the Association for Computational Linguistics, 5, 135-146. https://doi.org/https://doi.org/10.1162/tacl_a_00051
  • Can, Ü., & Alataş, B. (2017). Duygu analizi ve fikir madenciliği algoritmalarının incelenmesi. International Journal of Pure and Applied Sciences, 3(1), 75-111. https://dergipark.org.tr/tr/pub/ijpas/issue/29969/304149
  • Chicco, D., & Jurman, G. (2020). The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation. BMC genomics, 21(1), 6-6. https://doi.org/10.1186/s12864-019-6413-7
  • Çoban, Ö. (2016). Metin sınıflandırma teknikleri ile türkçe twitter duygu analizi [Yüksek Lisans Tezi, Atatürk Üniversitesi]. Atatürk Üniversitesi Dijital Arşiv Açık Erişim Sistemi. http://hdl.handle.net/123456789/4640
  • Çoban, Ö., Özyer, B., & Özyer, G. T. (2015, May 16-19). Sentiment analysis for Turkish Twitter feeds [Paper presentation]. 2015 23nd Signal Processing and Communications Applications Conference, Malatya, Turkey.
  • Esuli, A., & Sebastiani, F. (2006, May 22-28). Sentiwordnet: A publicly available lexical resource for opinion mining [Paper presentation]. Proceedings of the Fifth International Conference on Language Resources and Evaluation, Geona, Italy.
  • F1 score. (2006, February 9). Retrieved July 8, 2020 from https://en.wikipedia.org/wiki/F1_score
  • Gezici, G., & Yanıkoğlu, B. (2018). Sentiment analysis in Turkish. In K. Oflazer & M. Saraçlar (Eds.), Turkish Natural Language Processing (pp. 255-271). Springer International Publishing. https://doi.org/10.1007/978-3-319-90165-7_12
  • Google. (2019). Google Translation API. In [Application Program Interface]. https://cloud.google.com/translate/
  • Harris, Z. S. (1954). Distributional structure. Word, 10(2-3), 146-162. https://doi.org/https://doi.org/10.1080/00437956.1954.11659520
  • Joulin, A., Grave, E., Bojanowski, P., & Mikolov, T. (2017, April 3-7). Bag of tricks for efficient text classification [Conference presentation]. Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics, Valencia, Spain.
  • Karaoğlan, K. M., Temizkan, V., & Fındık, O. (2019, April 26-28). Sentiment analysis for hotel reviews with recurrent neural network architecture [Conference presentation]. International Conference on Advanced Technologies, Computer Engineering and Science, Alanya, Turkey.
  • Kaya, M., Fidan, G., & Toroslu, I. H. (2012, December 4-7). Sentiment analysis of turkish political news [Paper presentation]. Proceedings of the The 2012 IEEE/WIC/ACM International Joint Conferences on Web Intelligence and Intelligent Agent Technology, Macau, China.
  • Kaynar, O., Görmez, Y., Yıldız, M., & Albayrak, A. (2016, September 17-18). Makine öğrenmesi yöntemleri ile duygu analizi [Paper presentation]. International Artificial Intelligence and Data Processing Symposium, Malatya, Turkey.
  • Kızılkaya, Y. M. (2018). Duygu analizi ve sosyal medya alanında uygulama [Doktora Tezi, Uludağ Üniversitesi]. Bursa Uludağ Üniversitesi Açık Erişim Sistemi. https://acikerisim.uludag.edu.tr/bitstream/11452/1058/1/516866.pdf
  • Köse, İ. (2018). Veri madenciliği teori uygulama ve felsefesi. Papatya Yayıncılık Eğitim.
  • Ku, L.-W., Liang, Y.-T., & Chen, H.-H. (2006, March 27-29). Opinion extraction, summarization and tracking in news and blog corpora [Paper presentation]. AAAI Spring Symposium, Stanford, CA, USA.
  • Liu, B. (2012). Sentiment Analysis and Opinion Mining. Morgan & Claypool Publishers.
  • Meral, M., & Diri, B. (2014, April 23-25). Sentiment analysis on Twitter [Paper presentation]. 22nd Signal Processing and Communications Applications Conference, Trabzon, Turkey.
  • Mikolov, T., Chen, K., Corrado, G. S., & Dean, J. (2013). Efficient Estimation of Word Representations in Vector Space. arXiv preprint arXiv:1301.3781.
  • Neri, F., Aliprandi, C., Capeci, F., Cuadros, M., & By, T. (2012, August 26-29). Sentiment analysis on social media [Paper presentation]. 2012 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining, İstanbul, Turkey.
  • Özyurt, B., & Akçayol, M. A. (2018). Fikir madenciliği ve duygu analizi, yaklaşımlar, yöntemler üzerine bir araştırma. Selçuk Üniversitesi Mühendislik, Bilim Ve Teknoloji Dergisi, 6(4), 668-693. http://sujest.selcuk.edu.tr/sumbtd/article/download/584/628
  • Pang, B., Lee, L., & Vaithyanathan, S. (2002, July 6-7). Thumbs up? Sentiment classification using machine learning techniques [Paper presentation]. Proceedings of the Conference on Empirical Methods in Natural Language Processing Philadelphia, USA. https://doi.org/10.3115/1118693.1118704
  • Parlar, T., & Özel, S. A. (2016, August 2-5). A new feature selection method for sentiment analysis of Turkish reviews [Paper presentation]. 2016 International Symposium on INnovations in Intelligent SysTems and Applications Sinaia, Romania.
  • Saad, M. K. (2010). The impact of text preprocessing and term weighting on arabic text classification [Master Thesis, The Islamic University ]. IUG Space. http://hdl.handle.net/20.500.12358/18770
  • Şeker, S. E. (2016). Duygu Analizi. Yönetim Bilişim Sistemleri Ansiklopedisi, 3(3), 21-36. http://ybsansiklopedi.com/wp-content/uploads/2016/09/duygu_analizi.pdf
  • Sevindi, B. İ. (2013). Türkçe metinlerde denetimli ve sözlük tabanlı duygu analizi yaklaşımlarının karşılaştırılması [Yüksek Lisans Tezi, Gazi Üniversitesi, Yükseköğretim Kurulu Ulusal Tez Merkezi. https://tez.yok.gov.tr/UlusalTezMerkezi/tezDetay.jsp?id=-hunBqU7X8Xef7VsYSve5g&no=pshUKfJWw6uE0H0aViWTEg
  • Shung, K. P. (2020, April 10). Accuracy, Precision, Recall or F1? Retrieved July 20, 2020 from https://towardsdatascience.com/accuracy-precision-recall-or-f1-331fb37c5cb9
  • Silahtaroğlu, G. (2013). Veri madenciliği: Kavram ve algoritmaları. Papatya Yayıncılık Eğitim.
  • Türkmenoğlu, C. (2015). Türkçe metinlerde duygu analizi [Yüksek Lisans Tezi, İstanbul Teknik Üniversitesi]. İTÜ Dspace. http://hdl.handle.net/11527/12950
  • Türkmenoglu, C., & Tantug, A. C. (2014, June 21-26). Sentiment analysis in Turkish media [Paper presentation]. Proceedings of the 31st International Conference on International Conference on Machine Learning, Beijing, China.
  • Velioğlu, R., Yıldız, T., & Yıldırım, S. (2018, September 20-23). Sentiment analysis using learning approaches over emojis for Turkish tweets [Paper presentation]. 3rd International Conference on Computer Science and Application Engineering, Sanya, China.
  • Witten, I. H., Frank, E., Hall, M. A., & Pal, C. J. (2016). The WEKA Workbench. Online Appendix for "Data Mining: Practical Machine Learning Tools and Techniques" (Fourth Edition ed.). Morgan Kaufmann.
  • Yıldırım, E., Çetin, F. S., Eryiğit, G., & Temel, T. (2015). The impact of NLP on Turkish sentiment analysis. Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi, 7(1), 41-51. https://dergipark.org.tr/tr/pub/tbbmd/issue/22247/238817
  • Yüksel, A. S., & Gülşah, T. F. (2018). Metin madenciliği teknikleri ile sosyal ağlarda bilgi keşfi. Mühendislik Bilimleri ve Tasarım Dergisi, 6(2), 324-333. https://doi.org/https://doi.org/10.21923/jesd.384791
Primary Language tr
Subjects Engineering
Journal Section Articles
Authors

Orcid: 0000-0002-8577-4413
Author: Muhammed Çağrı AKSU (Primary Author)
Institution: ARTVİN ÇORUH ÜNİVERSİTESİ
Country: Turkey


Orcid: 0000-0002-6075-2779
Author: Ersin KARAMAN
Institution: ATATÜRK ÜNİVERSİTESİ
Country: Turkey


Dates

Publication Date : December 31, 2020

APA Aksu, M , Karaman, E . (2020). FastText ve Kelime Çantası Kelime Temsil Yöntemlerinin Turistik Mekanlar İçin Yapılan Türkçe İncelemeler Kullanılarak Karşılaştırılması . Avrupa Bilim ve Teknoloji Dergisi , (20) , 311-320 . DOI: 10.31590/ejosat.776629