In this study, binary and multi-class classification were performed on two different datasets using various text representation methods in conjunction with multiple machine learning and deep learning algorithms. The text representation methods employed include TF-IDF, GloVe, Word2Vec, FastText, and Bag of Words. The machine learning algorithms applied were Naive Bayes, Lojistik Regresyon, Support Vector Machines, Random Forest, Artificial Neural Networks, K-Nearest Neighbors, Decision Trees, XGBoost, and LightGBM. For deep learning algorithms, Convolutional Neural Networks, Recurrent Neural Networks, and Long Short-Term Memory were utilized. The performance of the text representation methods and algorithms was compared based on the results obtained. In the Amazon dataset, the highest accuracy among the machine learning methods was achieved by the LightGBM algorithm. Among the deep learning methods, the LSTM algorithm using TF-IDF and FastText achieved the highest accuracy. In the IMDb dataset, the Lojistik Regresyon algorithm provided the highest accuracy among the machine learning methods, while the LSTM algorithm using FastText achieved the highest accuracy among the deep learning methods.
Machine learning Deep learning Sentiment analysis Text representation methods Natural language processing Text classification
Bu çalışmada, iki farklı veri seti üzerinde çeşitli metin temsil yöntemleri kullanılarak ikili ve üçlü sınıflandırma işlemleri gerçekleştirilmiştir. Metin temsil yöntemleri olarak TF-IDF, GloVe, Word2Vec, FastText ve Bag of Words kullanılmıştır. Makine öğrenimi algoritmalarından Naive Bayes, Lojistik Regresyon, Destek Vektör Makineleri, Rastgele Orman, Yapay Sinir Ağı, En Yakın Komşu Algoritması, Karar Ağacı, XGBoost ve LightGBM uygulanmıştır. Derin öğrenme algoritmaları olarak ise Evrişimli Sinir Ağı, Tekrarlayan Sinir Ağı ve Uzun Kısa Süreli Bellek kullanılmıştır. Elde edilen sonuçlarla, kullanılan metin temsil yöntemleri ve algoritmaların performansları karşılaştırılmıştır. Amazon veri setinde, makine öğrenimi yöntemleri arasında en yüksek doğruluk oranı LightGBM algoritması, derin öğrenme yöntemleri arasında ise TF-IDF ve FastText kullanan LSTM algoritması tarafından elde edilmiştir. IMDb veri setinde, makine öğrenimi yöntemleri arasında en yüksek doğruluk oranı Lojistik Regresyon algoritması, derin öğrenme yöntemleri arasında ise FastText kullanan LSTM algoritması tarafından elde edilmiştir.
Makine öğrenimi Derin öğrenme Duygu analizi Metin temsil yöntemleri Doğal dil işleme Metin sınıflandırma
Yapılan çalışmada araştırma ve yayın etiğine uyulmuştur.
Bu çalışmada açık kaynaklı iki veri kümesi kullanılmıştır. İlk veri kümesine https://www.kaggle.com/datasets/eswarchandt/amazon-music-reviews bağlantından erişilebilir. İkinci veri kümesine ise https://www.kaggle.com/datasets/lakshmi25npathi/imdb-dataset-of-50k-movie-reviews bağlantından erişilebilir. Bu veri kümelerini hazırlayıp kullanıma sunan kuruluşlara teşekkür ederiz.
Birincil Dil | Türkçe |
---|---|
Konular | Bilgisayar Yazılımı, Yazılım Mühendisliği (Diğer) |
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 15 Haziran 2025 |
Gönderilme Tarihi | 20 Ağustos 2024 |
Kabul Tarihi | 13 Mart 2025 |
Yayımlandığı Sayı | Yıl 2025 Cilt: 15 Sayı: 2 |
This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.