Araştırma Makalesi

FastText ve Kelime Çantası Kelime Temsil Yöntemlerinin Turistik Mekanlar İçin Yapılan Türkçe İncelemeler Kullanılarak Karşılaştırılması

Sayı: 20 31 Aralık 2020
PDF İndir
TR EN

FastText ve Kelime Çantası Kelime Temsil Yöntemlerinin Turistik Mekanlar İçin Yapılan Türkçe İncelemeler Kullanılarak Karşılaştırılması

Öz

Günümüzde sosyal medya platformlarının sayısının ve kullanımının artmasıyla birlikte artık insanlar satın aldıkları bir ürünle veya gittikleri bir yer ile ilgili deneyimlerini sosyal medya platformlarında daha sıklıkla paylaşmaktadırlar. Sosyal medya platformlarındaki verilerin hacmi düşünüldüğünde, sosyal medya platformlarında paylaşılan incelemeler ve deneyimler içerisinde kurumlar veya şirketler için anlamlı birtakım bilgilerin olduğu düşünülmektedir. Hal böyle olunca sosyal medyada paylaşılan incelemeler ve deneyimler içerisinden anlamlı bilgi çıkarma yöntemlerini daha iyi hale getirmek ve hangi yöntemin daha iyi olduğunu bilmek önem arz etmektedir. Bu çalışmada turistik mekanlar için yapılan Türkçe incelemeler kullanılarak, yukarıda bahsedilen yöntemlerden biri olan duygu analizi yöntemindeki kelime temsil yöntemlerinden kelime çantası ve fastText kelime temsil yöntemlerinin sınıflandırma başarıları karşılaştırılmıştır. Ayrıca karşılaştırma işlemi gerçekleştirilirken duygu analizi işleminin ön hazırlık aşaması olan kelimeleri köklerine ayırma ve kelimeleri olumsuzlaştırma işlemlerinin sınıflandırma başarısına katkılarının olup olmadığı ölçülmüştür. Çalışmada hem iki sınıflı (pozitif, negatif) duygu analizi hem de üç sınıflı (pozitif, negatif, nötr) duygu analizi gerçekleştirilmiştir. Bahsedilen karşılaştırma işlemlerini gerçekleştirebilmek için altı adet veri seti oluşturulmuştur. Veri setleri önce metin madenciliğinde sıklıkla kullanılan Naive Bayes (NB), Multinom Naive Bayes (MNB), k-Nearest Neighbor (k-NN) ve Support Vector Machines (SVM) algoritmaları kullanılarak ve kelime çantası kelime temsil yöntemi esas alınarak WEKA programıyla sınıflandırılmıştır. Tüm veri setlerinin kelime çantası kelime temsil yöntemine göre test sonuçları elde edildikten sonra fastText kelime temsil yöntemine dair testler python programlama dilinin fastText kütüphanesi kullanılarak gerçekleştirilmiştir. Sınıflandırma işlemleri 10 tekrarlı çapraz doğrulama yöntemiyle yapılarak sınıflandırma işlemlerinin f-skor değerleri elde edilmiştir. Nihayetinde iki sınıflı duygu analizinde kelime çantası kelime temsil yönteminin fastText kelime temsil yönteminden daha başarılı sınıflandırma gerçekleştirdiği, üç sınıflı duygu analizinde ise tam tersi bir şekilde fastText kelime temsil yönteminin kelime çantası kelime temsil yönteminden daha başarılı sınıflandırma işlemi gerçekleştirdiği tespit edilmiştir. Duygu analizi ön hazırlık işlemlerinden kelimeleri köklerine ayırma ve olumsuzlaştırma işlemlerinin fastText kelime temsil yöntemiyle gerçekleştirilen sınıflandırma işlemlerinde olumlu ya da olumsuz bir katkı sağlamadığı görülmüştür. Ancak kelime çantası kelime temsil yöntemi kullanılarak gerçekleştirilen duygu analizi işlemlerinde az da olsa bir katkısının olduğu tespit edilmiştir. İki sınıflı duygu analizinde en başarılı sınıflandırma sonucuna kelime çantası kelime temsil yöntemi kullanılarak 0.91 f-skoru değeriyle SVM algoritmasıyla oluşturulan makine öğrenmesi modeliyle ulaşılmıştır. Üç sınıflı duygu analizinde ise en başarılı sınıflandırma sonucuna 0.78 f-skoru değeriyle fastText kelime temsil yöntemi kullanılarak oluşturulan makine öğrenmesi modeliyle ulaşılmıştır.

Anahtar Kelimeler

Kaynakça

  1. Ait Hammou, B., Ait Lahcen, A., & Mouline, S. (2020). Towards a real-time processing framework based on improved distributed recurrent neural network variants with fastText for social big data analytics. Information Processing & Management, 57(1), 1-15. https://doi.org/https://doi.org/10.1016/j.ipm.2019.102122
  2. Akın, A. A., & Akın, M. D. (2007). Zemberek, an open source NLP framework for Turkic Languages. Structure, 10, 1-5.
  3. Albayrak, A. (2018). Duygu analizinde farklı vektör temsil yöntemleri ve sınıflayıcıların karşılaştırılması [Yüksek Lisans Tezi, Sivas Cumhuriyet Üniversitesi]. Sivas Cumhuriyet Üniversitesi Akademik Arşiv Sistemi. https://hdl.handle.net/20.500.12418/12071
  4. Alessa, A., Faezipour, M., & Alhassan, Z. (2018, June 4-7). Text classification of flu-related tweets using fasttext with sentiment and keyword features [Paper presentation]. 2018 IEEE International Conference on Healthcare Informatics, NY, USA.
  5. Altunkaynak, B. (2017). Veri madenciliği yöntemleri ve R uygulamaları. Seçkin Yayıncılık.
  6. Automatic hyperparameter optimization. (n.d.). fastText. https://fasttext.cc/docs/en/autotune.html
  7. Aydoğan, E., & Akcayol, M. A. (2016, August 2-5). A comprehensive survey for sentiment analysis tasks using machine learning techniques [Paper presentation]. 2016 International Symposium on INnovations in Intelligent SysTems and Applications, Sinaia, Romania.
  8. Aydoğan, M., & Karcı, A. (2019). Kelime temsil yöntemleri ile kelime benzerliklerinin incelenmesi. Çukurova Üniversitesi Mühendislik-Mimarlık Fakültesi Dergisi, 34(2), 181-196. https://doi.org/https://doi.org/10.21605/cukurovaummfd.609119

Ayrıntılar

Birincil Dil

Türkçe

Konular

Mühendislik

Bölüm

Araştırma Makalesi

Yayımlanma Tarihi

31 Aralık 2020

Gönderilme Tarihi

3 Ağustos 2020

Kabul Tarihi

13 Ekim 2020

Yayımlandığı Sayı

Yıl 1970 Sayı: 20

Kaynak Göster

APA
Aksu, M. Ç., & Karaman, E. (2020). FastText ve Kelime Çantası Kelime Temsil Yöntemlerinin Turistik Mekanlar İçin Yapılan Türkçe İncelemeler Kullanılarak Karşılaştırılması. Avrupa Bilim ve Teknoloji Dergisi, 20, 311-320. https://doi.org/10.31590/ejosat.776629

Cited By