TR
EN
FastText ve Kelime Çantası Kelime Temsil Yöntemlerinin Turistik Mekanlar İçin Yapılan Türkçe İncelemeler Kullanılarak Karşılaştırılması
Öz
Günümüzde sosyal medya platformlarının sayısının ve kullanımının artmasıyla birlikte artık insanlar satın aldıkları bir ürünle veya gittikleri bir yer ile ilgili deneyimlerini sosyal medya platformlarında daha sıklıkla paylaşmaktadırlar. Sosyal medya platformlarındaki verilerin hacmi düşünüldüğünde, sosyal medya platformlarında paylaşılan incelemeler ve deneyimler içerisinde kurumlar veya şirketler için anlamlı birtakım bilgilerin olduğu düşünülmektedir. Hal böyle olunca sosyal medyada paylaşılan incelemeler ve deneyimler içerisinden anlamlı bilgi çıkarma yöntemlerini daha iyi hale getirmek ve hangi yöntemin daha iyi olduğunu bilmek önem arz etmektedir. Bu çalışmada turistik mekanlar için yapılan Türkçe incelemeler kullanılarak, yukarıda bahsedilen yöntemlerden biri olan duygu analizi yöntemindeki kelime temsil yöntemlerinden kelime çantası ve fastText kelime temsil yöntemlerinin sınıflandırma başarıları karşılaştırılmıştır. Ayrıca karşılaştırma işlemi gerçekleştirilirken duygu analizi işleminin ön hazırlık aşaması olan kelimeleri köklerine ayırma ve kelimeleri olumsuzlaştırma işlemlerinin sınıflandırma başarısına katkılarının olup olmadığı ölçülmüştür. Çalışmada hem iki sınıflı (pozitif, negatif) duygu analizi hem de üç sınıflı (pozitif, negatif, nötr) duygu analizi gerçekleştirilmiştir. Bahsedilen karşılaştırma işlemlerini gerçekleştirebilmek için altı adet veri seti oluşturulmuştur. Veri setleri önce metin madenciliğinde sıklıkla kullanılan Naive Bayes (NB), Multinom Naive Bayes (MNB), k-Nearest Neighbor (k-NN) ve Support Vector Machines (SVM) algoritmaları kullanılarak ve kelime çantası kelime temsil yöntemi esas alınarak WEKA programıyla sınıflandırılmıştır. Tüm veri setlerinin kelime çantası kelime temsil yöntemine göre test sonuçları elde edildikten sonra fastText kelime temsil yöntemine dair testler python programlama dilinin fastText kütüphanesi kullanılarak gerçekleştirilmiştir. Sınıflandırma işlemleri 10 tekrarlı çapraz doğrulama yöntemiyle yapılarak sınıflandırma işlemlerinin f-skor değerleri elde edilmiştir. Nihayetinde iki sınıflı duygu analizinde kelime çantası kelime temsil yönteminin fastText kelime temsil yönteminden daha başarılı sınıflandırma gerçekleştirdiği, üç sınıflı duygu analizinde ise tam tersi bir şekilde fastText kelime temsil yönteminin kelime çantası kelime temsil yönteminden daha başarılı sınıflandırma işlemi gerçekleştirdiği tespit edilmiştir. Duygu analizi ön hazırlık işlemlerinden kelimeleri köklerine ayırma ve olumsuzlaştırma işlemlerinin fastText kelime temsil yöntemiyle gerçekleştirilen sınıflandırma işlemlerinde olumlu ya da olumsuz bir katkı sağlamadığı görülmüştür. Ancak kelime çantası kelime temsil yöntemi kullanılarak gerçekleştirilen duygu analizi işlemlerinde az da olsa bir katkısının olduğu tespit edilmiştir. İki sınıflı duygu analizinde en başarılı sınıflandırma sonucuna kelime çantası kelime temsil yöntemi kullanılarak 0.91 f-skoru değeriyle SVM algoritmasıyla oluşturulan makine öğrenmesi modeliyle ulaşılmıştır. Üç sınıflı duygu analizinde ise en başarılı sınıflandırma sonucuna 0.78 f-skoru değeriyle fastText kelime temsil yöntemi kullanılarak oluşturulan makine öğrenmesi modeliyle ulaşılmıştır.
Anahtar Kelimeler
Kaynakça
- Ait Hammou, B., Ait Lahcen, A., & Mouline, S. (2020). Towards a real-time processing framework based on improved distributed recurrent neural network variants with fastText for social big data analytics. Information Processing & Management, 57(1), 1-15. https://doi.org/https://doi.org/10.1016/j.ipm.2019.102122
- Akın, A. A., & Akın, M. D. (2007). Zemberek, an open source NLP framework for Turkic Languages. Structure, 10, 1-5.
- Albayrak, A. (2018). Duygu analizinde farklı vektör temsil yöntemleri ve sınıflayıcıların karşılaştırılması [Yüksek Lisans Tezi, Sivas Cumhuriyet Üniversitesi]. Sivas Cumhuriyet Üniversitesi Akademik Arşiv Sistemi. https://hdl.handle.net/20.500.12418/12071
- Alessa, A., Faezipour, M., & Alhassan, Z. (2018, June 4-7). Text classification of flu-related tweets using fasttext with sentiment and keyword features [Paper presentation]. 2018 IEEE International Conference on Healthcare Informatics, NY, USA.
- Altunkaynak, B. (2017). Veri madenciliği yöntemleri ve R uygulamaları. Seçkin Yayıncılık.
- Automatic hyperparameter optimization. (n.d.). fastText. https://fasttext.cc/docs/en/autotune.html
- Aydoğan, E., & Akcayol, M. A. (2016, August 2-5). A comprehensive survey for sentiment analysis tasks using machine learning techniques [Paper presentation]. 2016 International Symposium on INnovations in Intelligent SysTems and Applications, Sinaia, Romania.
- Aydoğan, M., & Karcı, A. (2019). Kelime temsil yöntemleri ile kelime benzerliklerinin incelenmesi. Çukurova Üniversitesi Mühendislik-Mimarlık Fakültesi Dergisi, 34(2), 181-196. https://doi.org/https://doi.org/10.21605/cukurovaummfd.609119
Ayrıntılar
Birincil Dil
Türkçe
Konular
Mühendislik
Bölüm
Araştırma Makalesi
Yazarlar
Ersin Karaman
0000-0002-6075-2779
Türkiye
Yayımlanma Tarihi
31 Aralık 2020
Gönderilme Tarihi
3 Ağustos 2020
Kabul Tarihi
13 Ekim 2020
Yayımlandığı Sayı
Yıl 1970 Sayı: 20
APA
Aksu, M. Ç., & Karaman, E. (2020). FastText ve Kelime Çantası Kelime Temsil Yöntemlerinin Turistik Mekanlar İçin Yapılan Türkçe İncelemeler Kullanılarak Karşılaştırılması. Avrupa Bilim ve Teknoloji Dergisi, 20, 311-320. https://doi.org/10.31590/ejosat.776629
Cited By
Döküman dili tanıma için içerik bağımsız yeni bir yaklaşım: Açı Örüntüler
Gazi Üniversitesi Mühendislik-Mimarlık Fakültesi Dergisi
https://doi.org/10.17341/gazimmfd.844700Semantic Similarity Comparison Between Production Line Failures for Predictive Maintenance
Advances in Artificial Intelligence Research
https://doi.org/10.54569/aair.1142568TÜRKÇE DOĞAL DİL İŞLEME TEMELLİ ÇALIŞMALARIN TEORİK DEĞERLENDİRMESİ: YÖNTEMSEL ZORLUKLAR VE GELECEK PERSPEKTİFLERİ
İstanbul Ticaret Üniversitesi Fen Bilimleri Dergisi
https://doi.org/10.55071/ticaretfbd.1677269