Imbalanced data classification is a common issue in data mining where the classifiers are skewed towards the larger data class. Classification of high-dimensional skewed (imbalanced) data is of great interest to decision-makers as it is more difficult to. The dimension reduction method, a process in which variables are reduced, allows high dimensional datasets to be interpreted more easily with a certain loss. This study, a method combining SMOTE oversampling with principal component analysis is proposed to solve the imbalance problem in high dimensional data. Three classification algorithms consisting of Logistic Regression, K-Nearest Neighbor, Decision Tree methods and two separate datasets were utilized to evaluate the suggested method's efficacy and determine the classifiers' performance. Respectively, raw datasets, converted datasets by PCA, SMOTE and SMOTE+PCA (SMOTE and PCA) methods, were analyzed with the given algorithms. Analyzes were made using WEKA. Analysis results suggest that almost all classification algorithms improve their classification performance using PCA, SOMTE, and SMOTE+PCA methods. However, the SMOTE method gave more efficient results than PCA and PCA+SMOTE methods for data rebalancing. Experimental results also suggest that K-Nearest Neighbor classifier provided higher classification performance compared to other algorithms.
Dengesiz veri sınıflandırması, sınıflandırıcıların daha büyük veri sınıfına doğru çarpıtıldığı veri madenciliğinde yaygın bir konudur. Yüksek boyutlu çarpık (dengesiz) verilerin sınıflandırılması, daha zor olduğundan karar vericiler için büyük ilgi görmektedir. Değişkenlerin azaltıldığı bir süreç olan boyut küçültme yöntemi, yüksek boyutlu veri setlerinin belirli bir kayıpla daha kolay yorumlanmasına olanak tanır. Bu çalışmada, yüksek boyutlu verilerdeki dengesizlik problemini çözmek için SMOTE aşırı örneklemeyi temel bileşen analizi ile birleştiren bir yöntem önerilmiştir. Önerilen yöntemin etkinliğini değerlendirmek ve sınıflandırıcıların performansını belirlemek için Lojistik Regresyon, K-En Yakın Komşu, Karar Ağacı yöntemlerinden oluşan üç sınıflandırma algoritması ve iki ayrı veri kümesi kullanılmıştır. Sırasıyla, ham veri setleri, PCA, SMOTE ve SMOTE +PCA (SMOTE ve PCA) yöntemleriyle dönüştürülen veri setleri, verilen algoritmalarla analiz edilmiştir. Analizler WEKA ile yapılmıştır. Analiz sonuçları, neredeyse tüm sınıflandırma algoritmalarının PCA, SOMTE ve SMOTE+PCA yöntemlerini kullanarak sınıflandırma performanslarını iyileştirdiğini göstermektedir. Bununla birlikte, SMOTE yöntemi, verilerin yeniden dengelenmesi için PCA ve PCA+SMOTE yöntemlerinden daha verimli sonuçlar vermiştir. Deneysel sonuçlar ayrıca K-En Yakın Komşu sınıflandırıcısının diğer algoritmalara kıyasla daha yüksek sınıflandırma performansı sağladığını göstermektedir.
Primary Language | English |
---|---|
Journal Section | Araştırma Makalesi |
Authors | |
Publication Date | September 17, 2021 |
Submission Date | May 20, 2021 |
Acceptance Date | July 28, 2021 |
Published in Issue | Year 2021 |