Introduction: Nowadays, since data sets become very high-dimensional and specific with the data collected from different devices, attribute selection has an important pre-process-ing task in reducing data size in data mining. This study aims to improve classification per-formance by reducing the calculation time and cost by using attribute selection methods. Materials and Methods: Attribute selection methods are examined under three main head-ings: filter method, wrapper method and embedded method. In the study, support vector machine, Naïve Bayes and decision trees methods (J48) among the machine learning clas-sification algorithms were used. Data sets were obtained from UCI and Kaggle databases. Accuracy, sensitivity, specificity, precision and F-measure values were calculated to com-pare the classification performances of the algorithms. WEKA version 3.8.3, R3.3.0 and Tableu programs were performed in all analyzes. After unnecessary features were extract-ed by using appropriate methods in the analysis; classification performances and run times of algorithms were calculated. Results: Accuracy values increased to 87% for Colorectal Histology MNIST, 85% for Parkinson’s disease, 97% for SCADI, 100% for HCC, and 78% for breast cancer after attribute selection. The algorithm with the highest performance was found as a wrapper method with decision trees (J48). While the fastest algorithm was filter method, the longest-running algorithm was the wrapper method. According to results, the performance improvement was higher in feature sets with a large number of attributes after selecting feature. Conclusion: As a result, low-dimensional data sets may provide higher classification accuracy with lower calculation costs
Data mining Feature selection Machine learning Classification Health Datasets
Giriş: Günümüzde veri setleri, farklı cihazlardan toplanan verilerle çok yüksek boyut-lu ve spesifik hale geldiğinden, öznitelik seçimi veri madenciliğinde veri boyutunu azaltmada önemli bir veri ön işleme adımıdır. Bu çalışma, öznitelik seçim yöntemlerini kullanarak makine öğrenmesi yöntemlerinin hesaplama süresini ve maliyetini düşürüp sınıflandırma performansının iyileştirilmesini amaçlamaktadır. Gereç ve Yöntem: Özni-telik seçim yöntemleri; filtreleme yöntemleri, sarmal yöntemler ve gömülü yöntemler olmak üzere üç ana başlık altında incelenmektedir. Çalışmada, makine öğrenmesi sınıf-landırma algoritmalarından destek vektör makinesi, Naïve Bayes ve karar ağaçları yön-temleri kullanılmıştır. Çalışmada kullanılan veriler UCI ve Kaggle veri tabanlarından elde edilmiştir. Algoritmaların sınıflandırma performanslarını karşılaştırmak için doğru-luk, duyarlılık, özgüllük, kesinlik ve F ölçütü değerleri hesaplanmıştır. Tüm analizlerde WEKA 3.8.3, R3.3.0 ve Tableu programları kullanılmıştır. Analizlerde uygun yöntemler kullanılarak gereksiz öznitelikler çıkarıldıktan sonra; algoritmaların sınıflandırma per-formansları ve çalışma süreleri hesaplanmıştır. Bulgular: Doğruluk değerleri, öznitelik seçiminden sonra kullanılan veri setlerinde MNIST için % 87’e, Parkinson için % 85’e, SCADI için % 97’ye, HCC için % 100’e ve meme kanseri için % 78’e yükselmiştir. En yüksek performansa sahip algoritma karar ağaçları (J48) sarmal yöntem öznitelik seçimi ile elde edilmiştir. En hızlı metot filtreleme yöntemi iken, en uzun süre çalışan algoritma sarmal yöntemdir. Bulgulara göre, çok sayıda özniteliğe sahip verilerin sınıflandırma performansları, öznitelik seçimi yapılmış verilere göre daha düşük bulunmuştur. Sonuç: Sonuç olarak; düşük boyutlu veri setleri, daha düşük hesaplama maliyetleri ile daha yüksek sınıflandırma doğruluğu sağlayabilmektedir.
Veri madenciliği Öznitelik seçimi Makine öğrenmesi Sınıflan-dırma Sağlık verileri
Birincil Dil | Türkçe |
---|---|
Konular | Yapay Zeka (Diğer) |
Bölüm | Araştırma Makalesi |
Yazarlar | |
Yayımlanma Tarihi | 15 Nisan 2021 |
Yayımlandığı Sayı | Yıl 2021 Cilt: 1 Sayı: 1 |