Research Article
BibTex RIS Cite

A NEW FEATURE SELECTION METHOD AND COMPARISON OF CLASSIFICATION PERFORMANCES OF FEATURE SELECTION METHODS

Year 2021, Volume: 3 Issue: 1, 72 - 90, 30.06.2021
https://doi.org/10.51541/nicel.909876

Abstract

Feature selection is one of the preliminary processes applied to data preparation in data analysis. Feature selection is simply the process of selecting the most suitable subset of features from the original feature set. These methods try to identify and remove irrelevant and unnecessary information from the original data set. In this study, a new feature selection method based on the coefficient of variation using class information is proposed. The efficiency of the proposed feature selection method has been evaluated by comparing it with other well-known feature selection methods using real data sets. The performance of feature selection methods was examined in terms of classification accuracy and entropy criteria in quadratic discriminant analysis. Three real data sets consisting of quantitative data with the number of units less than the number of features were used in the study. Quadratic discriminant analysis was carried out using the first d features of the features whose importance order was determined according to each feature selection method. Classification accuracy and entropy values in quadratic discriminant analysis of feature selection methods were calculated according to the number of features. The results of the study revealed that the proposed feature selection method is a strong alternative to other well-known feature selection methods for classification analysis in terms of computational simplicity and efficiency.

References

  • Budak, H. (2018), Özellik seçim yöntemleri ve yeni bir yaklaşım, Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü Dergisi, 22, 21-31.
  • Castro B.M. Lemes R.B. Cesar J. Hünemeier T. and Leonardi F. (2018), A model selection approach or multiple sequence segmentation and dimensionality reduction, Journal of Multivariate Analysis, 319-330.
  • Chowdary D, Lathrop J, Skelton J, Curtin K et al. (2006), Prognostic gene expression signatures can be measured in tissues collected in RNAlater preservative, 8(1), 31-39.
  • Dedeoğlu, M. (2011), Elma ve kiraz ağaçlarında çinko noksanlığının görünür yakın kızılötesi (VNIR) spektroradyometrik yöntemle belirlenebilirliğinin araştırılması, Selçuk Üniversitesi, Fen Bilimleri Enstitüsü Toprak Bilimi ve Bitki Besleme Anabilim Dalı Yüksek Lisans Tezi, Konya.
  • Dedeoğlu, M., Başayiğit, L. ve Erişoğlu, M. (2019), Şeker pancarı yapraklarında azot durumunun spektral diskriminant analizi ile belirlenmesi, Toprak Bilimi ve Bitki Besleme Dergisi, 7(2), 128-138.
  • Guo C. and Wu D. (2018), Feature dimensionality reduction for video affect classification: A comparative study, 2018 First Asian Conference on Affective Computing and Intelligent Interaction (ACII Asia), IEEE, 1-6.
  • Kira. K. and Rendell L. A. (1992b), A practical approach to feature selection’, In: D. Sleeman and P. Edwards (eds.): Machine Learning: Proceedings of International Conference (ICML’92), 249–256.
  • Kononenko, I. (1994). Estimating Attributes: Analysis and Extensions of RELIEF. Machine Learning: ECML-94, European Conference on Machine Learning, Secaucus, 6-8 April 1994, 171-182.
  • Kuhn, M. ve Johnson, K. (2013), Applied predictive modelling, New York: Springer.
  • Rencher, A. C. (2003), Methods of multivariate analysis, John Wiley & Sons.
  • Saeys, Y., Inza, I., ve Larranaga, P. (2007), A review of feature selection techniques in bioinformatics, Bioinformatics, 23(19), 2507-2517.
  • Singh G.D.A.A., Balamurugan S.A.A. and Leavline E. J. (2016), Literature review on feature selection methods for high-dimensional data, International Journal of Computer Applications. 8887. Foundation of Computer Science.
  • Yang W. Wang K. and Zuo W. (2012), Neighborhood Component Feature Selection for High-Dimensional Data, JCP, 7(1), 161-168.
  • Yıldız E. ve Sevim Y. (2016), Comparison of linear dimensionality reduction methods on classification methods, Electrical Electronics and Biomedical Engineering (ELECO), 2016 National Conference, IEEE, 161-164.

YENİ BİR ÖZELLİK SEÇİM YÖNTEMİ VE ÖZELLİK SEÇİM YÖNTEMLERİNİN SINIFLAMA PERFORMANSLARININ KARŞILAŞTIRILMASI

Year 2021, Volume: 3 Issue: 1, 72 - 90, 30.06.2021
https://doi.org/10.51541/nicel.909876

Abstract

Özellik seçimi, veri analizinde veri hazırlamak için uygulanan ön işlemlerden biridir. Özellik seçimi basitçe orijinal özellik kümesinden en uygun özelliklerin alt kümesinin seçim işlemidir. Bu yöntemler, orijinal veri setinde alakasız ve gereksiz bilgiyi belirlemeye ve kaldırmaya çalışır. Bu çalışmada sınıf bilgisi kullanılarak değişim katsayısına dayalı yeni bir özellik seçim yöntemi önerilmiştir. Önerilen özellik seçim yönteminin etkinliği, gerçek veri setleri kullanılarak diğer iyi bilinen özellik seçim yöntemleri ile karşılaştırılarak değerlendirilmiştir. Özellik seçim yöntemlerinin performansı, karesel diskriminant analizinde sınıflama doğruluğu ve entropi kriterleri bakımından incelenmiştir. Çalışmada birim sayısının özellik sayısından fazla olduğu nicel verilerden oluşan üç gerçek veri seti kullanılmıştır. Her bir özellik seçim yöntemine göre önem sırası belirlenen özelliklerinden ilk d adet özellik kullanılarak karesel diskriminant analizi gerçekleştirilmiştir. Özellik sayısına göre özellik seçim yöntemlerinin karesel diskriminant analizindeki sınıflama doğruluğu ve entropi değerleri hesaplanmıştır. Çalışma sonuçları, önerilen özellik seçim yönteminin hesaplama basitliği ve etkinlik açısından sınıflama analizleri için iyi bilinen diğer özellik seçim yöntemleri karşısında güçlü bir alternatif olduğunu ortaya koymuştur.

References

  • Budak, H. (2018), Özellik seçim yöntemleri ve yeni bir yaklaşım, Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü Dergisi, 22, 21-31.
  • Castro B.M. Lemes R.B. Cesar J. Hünemeier T. and Leonardi F. (2018), A model selection approach or multiple sequence segmentation and dimensionality reduction, Journal of Multivariate Analysis, 319-330.
  • Chowdary D, Lathrop J, Skelton J, Curtin K et al. (2006), Prognostic gene expression signatures can be measured in tissues collected in RNAlater preservative, 8(1), 31-39.
  • Dedeoğlu, M. (2011), Elma ve kiraz ağaçlarında çinko noksanlığının görünür yakın kızılötesi (VNIR) spektroradyometrik yöntemle belirlenebilirliğinin araştırılması, Selçuk Üniversitesi, Fen Bilimleri Enstitüsü Toprak Bilimi ve Bitki Besleme Anabilim Dalı Yüksek Lisans Tezi, Konya.
  • Dedeoğlu, M., Başayiğit, L. ve Erişoğlu, M. (2019), Şeker pancarı yapraklarında azot durumunun spektral diskriminant analizi ile belirlenmesi, Toprak Bilimi ve Bitki Besleme Dergisi, 7(2), 128-138.
  • Guo C. and Wu D. (2018), Feature dimensionality reduction for video affect classification: A comparative study, 2018 First Asian Conference on Affective Computing and Intelligent Interaction (ACII Asia), IEEE, 1-6.
  • Kira. K. and Rendell L. A. (1992b), A practical approach to feature selection’, In: D. Sleeman and P. Edwards (eds.): Machine Learning: Proceedings of International Conference (ICML’92), 249–256.
  • Kononenko, I. (1994). Estimating Attributes: Analysis and Extensions of RELIEF. Machine Learning: ECML-94, European Conference on Machine Learning, Secaucus, 6-8 April 1994, 171-182.
  • Kuhn, M. ve Johnson, K. (2013), Applied predictive modelling, New York: Springer.
  • Rencher, A. C. (2003), Methods of multivariate analysis, John Wiley & Sons.
  • Saeys, Y., Inza, I., ve Larranaga, P. (2007), A review of feature selection techniques in bioinformatics, Bioinformatics, 23(19), 2507-2517.
  • Singh G.D.A.A., Balamurugan S.A.A. and Leavline E. J. (2016), Literature review on feature selection methods for high-dimensional data, International Journal of Computer Applications. 8887. Foundation of Computer Science.
  • Yang W. Wang K. and Zuo W. (2012), Neighborhood Component Feature Selection for High-Dimensional Data, JCP, 7(1), 161-168.
  • Yıldız E. ve Sevim Y. (2016), Comparison of linear dimensionality reduction methods on classification methods, Electrical Electronics and Biomedical Engineering (ELECO), 2016 National Conference, IEEE, 161-164.
There are 14 citations in total.

Details

Primary Language Turkish
Subjects Statistics
Journal Section Articles
Authors

Tenzile Erbayram 0000-0002-3275-120X

Murat Erisoglu 0000-0002-4589-1383

Publication Date June 30, 2021
Published in Issue Year 2021 Volume: 3 Issue: 1

Cite

APA Erbayram, T., & Erisoglu, M. (2021). YENİ BİR ÖZELLİK SEÇİM YÖNTEMİ VE ÖZELLİK SEÇİM YÖNTEMLERİNİN SINIFLAMA PERFORMANSLARININ KARŞILAŞTIRILMASI. Nicel Bilimler Dergisi, 3(1), 72-90. https://doi.org/10.51541/nicel.909876

Cited By

Fault diagnosis for overcharge and undercharge conditions in refrigeration systems using infrared thermal images
Proceedings of the Institution of Mechanical Engineers, Part E: Journal of Process Mechanical Engineering
https://doi.org/10.1177/09544089221148065