With the increasing use of social media in recent years, there are too many comments to be followed on almost every issue. These comments contain both important and unimportant information. But, it is almost impossible to follow of so many comments nowadays. In this study, text classification of user comments made to the Anadolu University mobile application was made. It was estimated whether the comments made on the application were related to the content or the application. In addition, the effect of oversampling and undersampling on text classification performance was investigated. For this purpose, synthetic minority oversampling technique (Smote), condensed nearest neighbor undersampling technique (CNN) and random undersampling (RUS) technique were applied to the data set. 1008 user comments received from mobile application were classified by these techniques. In the Smote oversampling classification, ANN algorithm was found to have the best classification with 93.57% accuracy. In the undersampling classification, Random Forest algorithm was found to have the best classifications with 72.22% accuracy. In the random sampling classification, Extreme Gradient Boosting algorithm was found to have the best classification with 84.44% accuracy.
Text classification Machine learning Artificial Intelligence Natural language processing
Son yıllarda sosyal medya kullanımının artması ile beraber neredeyse her konuda takip edilemeyecek kadar çok yorum bulunmaktadır. Bu yorumlar hem olumlu hem de olumsuz yorumlar içermektedir. Fakat günümüzde çok sayıda yorumu takip etmek neredeyse imkansızdır. Bu çalışmada açık erişimli Anadolu Üniversitesi’nin mobil uygulamasına yapılan kullanıcı yorumlarının çeşitli makine öğrenmesi teknikleri ile metin sınıflandırması yapıldı. Uygulamaya yapılan yorumların içerikle mi yoksa uygulama ile mi ilgili olduğu tahmin edilmeye çalışıldı. Buna ek olarak aşırı örnekleme ve az örneklemenin metin sınıflandırma performansına etkisi incelendi. Bu amaçla sentetik azınlık aşırı örnekleme tekniği (Smote), yoğun en yakın komşu az örnekleme tekniği (CNN) ve rasgele az örnekleme tekniği (RUS) veri setine uygulandı. Mobil uygulamadan alınan 1008 kullanıcı yorumu içerik ve uygulama açısından süreçlerden geçirilerek sınıflandırıldı. Smote aşırı örnekleme sınıflandırmasında ANN algoritması %93.57 doğrulukla en iyi sınıflandırma olarak bulundu. CNN algoritmasında Rassal Orman algoritması %72.22 doğrulukla en iyi sınıflandırmalar olarak bulundu. RUS tekniğinde ise Aşırı Gradient artırma %84.44 doğrulukla en iyi sınıflandırma olarak bulundu.
Metin sınıflandırma Makine öğrenmesi Yapay Zeka Doğal dil işleme
Birincil Dil | İngilizce |
---|---|
Konular | Bilgisayar Yazılımı |
Bölüm | Araştırma Makaleleri \ Research Articles |
Yazarlar | |
Yayımlanma Tarihi | 20 Aralık 2021 |
Gönderilme Tarihi | 30 Mart 2021 |
Kabul Tarihi | 10 Ağustos 2021 |
Yayımlandığı Sayı | Yıl 2021 |