Günümüzde kullanıcılar satın aldıkları ürün ve/veya hizmetler ile ilgili görüş, öneri ve şikayetlerini e-ticaret sitelerinde paylaşmayı daha çok tercih etmekte veya diğer kullanıcıların yazdıkları yorumları dikkate alarak satın alma işlemine karar verebilmektedir. Duygu analizi, kullanıcıların ürünlere karşı tutumlarını belirlemede oldukça yararlıdır. Bu çalışmada, topluluk öğrenmesi tabanlı duygu analizi yapılması amaçlanmıştır. Bu amaçla, ilk olarak Amazon yemek yorum verileri üzerinde veri önişleme adımları gerçekleştirilmiş, metin önişleme yapılmış ve öznitelik mühendisliği ile veriler öğrenme modelleri için istenilen formata getirilmiştir. Daha sonra Rastgele Orman, CatBoost ve XGBoost topluluk öğrenmesi modelleri kullanılarak olumlu, olumsuz ve tarafsız (nötr) duygular şeklinde sınıflandırma yapılmıştır. Eğitim ve test doğruluğu, kesinlik, duyarlılık ve F1-skor metrikleri açısından sonuçlar değerlendirilmiştir. En yüksek %90,22 test doğruluk değerine Rasgele Orman ve CountVectorizer tekniğinin kullanıldığı sınıflandırmada ulaşılmıştır. Ayrıca web kazıma ile oluşturulan yeni bir veri seti üzerinde modeller test edilmiştir. Elde edilen sonuçlar işletmenin ürün ve hizmetleri ile ilgili bir öngörü sunmaktadır.
Nowadays, users prefer to share their opinions, suggestions, and complaints about the products and/or services they buy more on e-commerce sites, or they can decide to buy based on the comments written by other users. Sentiment analysis is very useful in determining their attitudes towards them. This study aims to perform ensemble learning-based sentiment analysis. For this purpose, firstly, data pre-processing was implemented on Amazon meal review data, the text was preprocessed, and the data was brought into a format suitable for learning models with feature engineering. Then the text has been classified according to whether it contained positive, negative, or neutral sentiments using Random Forest (RF), CatBoost, and XGBoost ensemble learning models. The obtained results have been evaluated in terms of training and test accuracy, precision, recall, and F1-score metrics. The highest test accuracy of 90.22% has been achieved in the classification using RF and CountVectorizer technique. In addition, the models have been tested on a new dataset created with web scraping. The results obtained provide insight into the company's products and services.
Ensemble Learning Natural Language Processing Sentiment Analysis Feature Engineering Web Scraping
Primary Language | Turkish |
---|---|
Subjects | Machine Learning (Other), Engineering |
Journal Section | Articles |
Authors | |
Publication Date | May 31, 2024 |
Submission Date | May 23, 2023 |
Acceptance Date | August 29, 2023 |
Published in Issue | Year 2024 |