Günümüzde kullanıcılar satın aldıkları ürün ve/veya hizmetler ile ilgili görüş, öneri ve şikayetlerini e-ticaret sitelerinde paylaşmayı daha çok tercih etmekte veya diğer kullanıcıların yazdıkları yorumları dikkate alarak satın alma işlemine karar verebilmektedir. Duygu analizi, kullanıcıların ürünlere karşı tutumlarını belirlemede oldukça yararlıdır. Bu çalışmada, topluluk öğrenmesi tabanlı duygu analizi yapılması amaçlanmıştır. Bu amaçla, ilk olarak Amazon yemek yorum verileri üzerinde veri önişleme adımları gerçekleştirilmiş, metin önişleme yapılmış ve öznitelik mühendisliği ile veriler öğrenme modelleri için istenilen formata getirilmiştir. Daha sonra Rastgele Orman, CatBoost ve XGBoost topluluk öğrenmesi modelleri kullanılarak olumlu, olumsuz ve tarafsız (nötr) duygular şeklinde sınıflandırma yapılmıştır. Eğitim ve test doğruluğu, kesinlik, duyarlılık ve F1-skor metrikleri açısından sonuçlar değerlendirilmiştir. En yüksek %90,22 test doğruluk değerine Rasgele Orman ve CountVectorizer tekniğinin kullanıldığı sınıflandırmada ulaşılmıştır. Ayrıca web kazıma ile oluşturulan yeni bir veri seti üzerinde modeller test edilmiştir. Elde edilen sonuçlar işletmenin ürün ve hizmetleri ile ilgili bir öngörü sunmaktadır.
Topluluk Öğrenmesi Doğal Dil İşleme Duygu Analizi Öznitelik Mühendisliği Web Kazıma
Nowadays, users prefer to share their opinions, suggestions, and complaints about the products and/or services they buy more on e-commerce sites, or they can decide to buy based on the comments written by other users. Sentiment analysis is very useful in determining their attitudes towards them. This study aims to perform ensemble learning-based sentiment analysis. For this purpose, firstly, data pre-processing was implemented on Amazon meal review data, the text was preprocessed, and the data was brought into a format suitable for learning models with feature engineering. Then the text has been classified according to whether it contained positive, negative, or neutral sentiments using Random Forest (RF), CatBoost, and XGBoost ensemble learning models. The obtained results have been evaluated in terms of training and test accuracy, precision, recall, and F1-score metrics. The highest test accuracy of 90.22% has been achieved in the classification using RF and CountVectorizer technique. In addition, the models have been tested on a new dataset created with web scraping. The results obtained provide insight into the company's products and services.
Ensemble Learning Natural Language Processing Sentiment Analysis Feature Engineering Web Scraping
Birincil Dil | Türkçe |
---|---|
Konular | Makine Öğrenme (Diğer), Mühendislik |
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 31 Mayıs 2024 |
Gönderilme Tarihi | 23 Mayıs 2023 |
Kabul Tarihi | 29 Ağustos 2023 |
Yayımlandığı Sayı | Yıl 2024 |