Research Article

Comparison of fastText and Bag of Words Word Representation Methods by Using Turkish Reviews Conducted for Touristic Places

Number: 20 December 31, 2020
TR EN

FastText ve Kelime Çantası Kelime Temsil Yöntemlerinin Turistik Mekanlar İçin Yapılan Türkçe İncelemeler Kullanılarak Karşılaştırılması

Öz

Günümüzde sosyal medya platformlarının sayısının ve kullanımının artmasıyla birlikte artık insanlar satın aldıkları bir ürünle veya gittikleri bir yer ile ilgili deneyimlerini sosyal medya platformlarında daha sıklıkla paylaşmaktadırlar. Sosyal medya platformlarındaki verilerin hacmi düşünüldüğünde, sosyal medya platformlarında paylaşılan incelemeler ve deneyimler içerisinde kurumlar veya şirketler için anlamlı birtakım bilgilerin olduğu düşünülmektedir. Hal böyle olunca sosyal medyada paylaşılan incelemeler ve deneyimler içerisinden anlamlı bilgi çıkarma yöntemlerini daha iyi hale getirmek ve hangi yöntemin daha iyi olduğunu bilmek önem arz etmektedir. Bu çalışmada turistik mekanlar için yapılan Türkçe incelemeler kullanılarak, yukarıda bahsedilen yöntemlerden biri olan duygu analizi yöntemindeki kelime temsil yöntemlerinden kelime çantası ve fastText kelime temsil yöntemlerinin sınıflandırma başarıları karşılaştırılmıştır. Ayrıca karşılaştırma işlemi gerçekleştirilirken duygu analizi işleminin ön hazırlık aşaması olan kelimeleri köklerine ayırma ve kelimeleri olumsuzlaştırma işlemlerinin sınıflandırma başarısına katkılarının olup olmadığı ölçülmüştür. Çalışmada hem iki sınıflı (pozitif, negatif) duygu analizi hem de üç sınıflı (pozitif, negatif, nötr) duygu analizi gerçekleştirilmiştir. Bahsedilen karşılaştırma işlemlerini gerçekleştirebilmek için altı adet veri seti oluşturulmuştur. Veri setleri önce metin madenciliğinde sıklıkla kullanılan Naive Bayes (NB), Multinom Naive Bayes (MNB), k-Nearest Neighbor (k-NN) ve Support Vector Machines (SVM) algoritmaları kullanılarak ve kelime çantası kelime temsil yöntemi esas alınarak WEKA programıyla sınıflandırılmıştır. Tüm veri setlerinin kelime çantası kelime temsil yöntemine göre test sonuçları elde edildikten sonra fastText kelime temsil yöntemine dair testler python programlama dilinin fastText kütüphanesi kullanılarak gerçekleştirilmiştir. Sınıflandırma işlemleri 10 tekrarlı çapraz doğrulama yöntemiyle yapılarak sınıflandırma işlemlerinin f-skor değerleri elde edilmiştir. Nihayetinde iki sınıflı duygu analizinde kelime çantası kelime temsil yönteminin fastText kelime temsil yönteminden daha başarılı sınıflandırma gerçekleştirdiği, üç sınıflı duygu analizinde ise tam tersi bir şekilde fastText kelime temsil yönteminin kelime çantası kelime temsil yönteminden daha başarılı sınıflandırma işlemi gerçekleştirdiği tespit edilmiştir. Duygu analizi ön hazırlık işlemlerinden kelimeleri köklerine ayırma ve olumsuzlaştırma işlemlerinin fastText kelime temsil yöntemiyle gerçekleştirilen sınıflandırma işlemlerinde olumlu ya da olumsuz bir katkı sağlamadığı görülmüştür. Ancak kelime çantası kelime temsil yöntemi kullanılarak gerçekleştirilen duygu analizi işlemlerinde az da olsa bir katkısının olduğu tespit edilmiştir. İki sınıflı duygu analizinde en başarılı sınıflandırma sonucuna kelime çantası kelime temsil yöntemi kullanılarak 0.91 f-skoru değeriyle SVM algoritmasıyla oluşturulan makine öğrenmesi modeliyle ulaşılmıştır. Üç sınıflı duygu analizinde ise en başarılı sınıflandırma sonucuna 0.78 f-skoru değeriyle fastText kelime temsil yöntemi kullanılarak oluşturulan makine öğrenmesi modeliyle ulaşılmıştır.

Anahtar Kelimeler

References

  1. Ait Hammou, B., Ait Lahcen, A., & Mouline, S. (2020). Towards a real-time processing framework based on improved distributed recurrent neural network variants with fastText for social big data analytics. Information Processing & Management, 57(1), 1-15. https://doi.org/https://doi.org/10.1016/j.ipm.2019.102122
  2. Akın, A. A., & Akın, M. D. (2007). Zemberek, an open source NLP framework for Turkic Languages. Structure, 10, 1-5.
  3. Albayrak, A. (2018). Duygu analizinde farklı vektör temsil yöntemleri ve sınıflayıcıların karşılaştırılması [Yüksek Lisans Tezi, Sivas Cumhuriyet Üniversitesi]. Sivas Cumhuriyet Üniversitesi Akademik Arşiv Sistemi. https://hdl.handle.net/20.500.12418/12071
  4. Alessa, A., Faezipour, M., & Alhassan, Z. (2018, June 4-7). Text classification of flu-related tweets using fasttext with sentiment and keyword features [Paper presentation]. 2018 IEEE International Conference on Healthcare Informatics, NY, USA.
  5. Altunkaynak, B. (2017). Veri madenciliği yöntemleri ve R uygulamaları. Seçkin Yayıncılık.
  6. Automatic hyperparameter optimization. (n.d.). fastText. https://fasttext.cc/docs/en/autotune.html
  7. Aydoğan, E., & Akcayol, M. A. (2016, August 2-5). A comprehensive survey for sentiment analysis tasks using machine learning techniques [Paper presentation]. 2016 International Symposium on INnovations in Intelligent SysTems and Applications, Sinaia, Romania.
  8. Aydoğan, M., & Karcı, A. (2019). Kelime temsil yöntemleri ile kelime benzerliklerinin incelenmesi. Çukurova Üniversitesi Mühendislik-Mimarlık Fakültesi Dergisi, 34(2), 181-196. https://doi.org/https://doi.org/10.21605/cukurovaummfd.609119

Details

Primary Language

Turkish

Subjects

Engineering

Journal Section

Research Article

Publication Date

December 31, 2020

Submission Date

August 3, 2020

Acceptance Date

October 13, 2020

Published in Issue

Year 1970 Number: 20

APA
Aksu, M. Ç., & Karaman, E. (2020). FastText ve Kelime Çantası Kelime Temsil Yöntemlerinin Turistik Mekanlar İçin Yapılan Türkçe İncelemeler Kullanılarak Karşılaştırılması. Avrupa Bilim Ve Teknoloji Dergisi, 20, 311-320. https://doi.org/10.31590/ejosat.776629

Cited By