Analyzing data by inferring from unstructured data about customers is one of the main purposes of the tourism and many other industries as well. However, performing unstructured data analysis using traditional methods is quite inconvenient and costly. This can be overcome by using sentiment analysis, an area of application of text mining. Since there is no proven methodology for sentiment analysis, researchers often perform their studies by trial and error. Many studies on sentiment analysis have focused on comparing the
preprocessing or the performance of various machine learning algorithms. Both for these reasons and since research on sentiment analysis with Turkish content is limited, this study aimed to determine the effects of labeling, stemming, and negation on the success of sentiment analysis using Turkish touristic site analysis. From the data set prepared for this study, 12 different variations were created according to labeling, number of classes, stemming, and negation. These data sets were classified using the algorithms Naive Bayes (NB), Multinominal Naive Bayes (MNB), k-Nearest Neighbor, and Support Vector Machines (SVM), often used in sentiment analyses, and the findings were compared.
Text mining Sentiment analysis machine learning unstructured data analysisc naïve bayes classification multinominal naïve bayes support vector machines
Müşteriler ile ilgili yapılandırılmamış verilerden çıkarımlar yaparak bu verileri analiz etmek birçok sektör için olduğu gibi turizm sektörü için de temel amaçlardandır. Yapılandırılmamış veri analizinin geleneksel yöntemlerle gerçekleştirilmesi oldukça zahmetli ve maliyetli olmaktadır. Metin analizi uygulama alanlarından biri olan duygu analizi kullanılarak bu sorunun üstesinden gelinebilmektedir. Duygu analizi çalışmalarında henüz kanıtlanmış bir metodoloji bulunmadığı için araştırmacılar genellikle deneme yanılma yoluyla
çalışmalarını yürütmektedirler. Duygu analizi alanında yapılan birçok çalışma duygu analizi ön işlemlerinin ya da farklı makine öğrenimi algoritmalarının performanslarının karşılaştırılması üzerinedir. Hem bu nedenlerden dolayı hem de Türkçe içeriklerle gerçekleştirilmiş duygu analizi çalışmalarının kısıtlı olmasından dolayısıyla bu çalışmada Türkçe turistik mekân incelemeleri kullanılarak duygu analizi ön işlemlerinden etiketleme, köklerine ayırma ve olumsuzlaştırma işlemlerinin duygu analizinin başarısına olan etkileri tespit edilmeye çalışılmıştır. Bu nedenle bu çalışma için hazırlanan veri setinden etiketlenme şekline, sınıf sayısına, köklerine ayırma ve olumsuzlaştırma durumlarına göre 12 farklı varyasyon oluşturulmuştur. Oluşturulan bu veri setleri duygu analizi
çalışmalarında sıklıkla kullanılan Naive Bayes (NB), Multinominal Naive Bayes (MNB), k-Nearest Neighbor ve Support Vector Machines (SVM) algoritmalarıyla sınıflandırılarak elde edilen sonuçlar karşılaştırılmıştır.
Metin madenciliği duygu analizi makine öğrenmesi yapılandırılmamış veri analizi sınıflandırma naive bayes multinominal naive bayes destek vektör makineleri
Birincil Dil | İngilizce |
---|---|
Konular | Bilgisayar Yazılımı |
Bölüm | Araştırma Makalesi |
Yazarlar | |
Yayımlanma Tarihi | 23 Eylül 2021 |
Gönderilme Tarihi | 5 Ocak 2021 |
Yayımlandığı Sayı | Yıl 2021 Cilt: 4 Sayı: 2 |
Zeki Sistemler Teori ve Uygulamaları Dergisi