Siber Saldırılar için Rastgele Orman Algoritması Kullanılarak Öznitelik Seçimi
Yıl 2022,
Cilt: 34 Sayı: 1, 31 - 37, 27.03.2022
Abdulkadir Bilen
,
Ahmet Bedri Özer
Öz
Veri boyutlarındaki artışla birlikte araştırmacılar analiz aşamasını daha kolay hale getirmek için çeşitli yöntemlere ihtiyaç duymuşlardır. Veri boyutunu indirgemek ve analiz doğruluğu artırmak önem arz etmektedir. Veri analiz edilirken gereksiz alanlarla uğraşmamak ve daha az girdi ile daha doğru sonuç çıkarmak gerekmektedir. Öznitelik seçimi ve veri analindeki en önemli ilk aşamalardan birisidir. Öznitelik seçerken çeşitli makine öğrenmesi yöntemleri kullanılmaktadır. Çalışmada Tek Değişkenli Öznitelik seçimi, Özyinelemeli Öznitelik Eleme, Ağaç Tabanlı Öznitelik Seçimi ve Temel Bileşen Analizi yöntemleri kullanılmıştır. Bu yöntemlerle veri setindeki 14 öznitelik içenden en önemli olanları tespit edilmiştir. En önemli 6, 5, ve 4 öznitelik ayrı ayrı girdi olarak Rastgele Orman algoritması ile siber saldırı yöntemi tahmini yapılmıştır. Öznitelik sayısı 4’e indirgendiğinde en yüksek doğruluk oranı olan %97.24 elde edilmiştir. Bu oran öznitelik seçiminde ilişkili özniteliklerin tahmine dahil edilmesinin boyut ve hız açısından önemli olduğu sonucuna ulaşılmıştır. Elde edilen sonuçlarla birlikte öznitelik seçiminin veri üzerindeki önemi bir kez daha ortaya koyulmuştur.
Kaynakça
- [1] Li, J., Cheng, K., Wang, S., Morstatter, F., Trevino, R. P., Tang, J., & Liu, H. (2017). Feature selection: A data perspective. ACM Computing Surveys (CSUR), 50(6), 1-45.
- [2] Zhang, Y., Wang, X., Cai, Z., Zhou, Y., & Philip, S. Y. (2021, July). Tensor-Based Unsupervised Multi-View Feature Selection for Image Recognition. In 2021 IEEE International Conference on Multimedia and Expo (ICME) (pp. 1-6). IEEE.
- [3] Hossny, A. H., Mitchell, L., Lothian, N., & Osborne, G. (2020). Feature selection methods for event detection in Twitter: a text mining approach. Social Network Analysis and Mining, 10(1), 1-15.
- [4] Bolón-Canedo, V., & Remeseiro, B. (2020). Feature selection in image analysis: a survey. Artificial Intelligence Review, 53(4), 2905-2931.
- [5] Alazzam, H., Sharieh, A., & Sabri, K. E. (2020). A feature selection algorithm for intrusion detection system based on pigeon inspired optimizer. Expert systems with applications, 148, 113249.
- [6] Liang, S., Ma, A., Yang, S., Wang, Y., & Ma, Q. (2018). A review of matched-pairs feature selection methods for gene expression data analysis. Computational and structural biotechnology journal, 16, 88-97.
- [7] Urbanowicz, R. J., Meeker, M., La Cava, W., Olson, R. S., & Moore, J. H. (2018). Relief-based feature selection: Introduction and review. Journal of biomedical informatics, 85, 189-203.
- [8] Remeseiro, B., & Bolon-Canedo, V. (2019). A review of feature selection methods in medical applications. Computers in biology and medicine, 112, 103375.
- [9] Miao, J., & Niu, L. (2016). A survey on feature selection. Procedia Computer Science, 91, 919-926.
- [10] Li, J., & Liu, H. (2017). Challenges of feature selection for big data analytics. IEEE Intelligent Systems, 32(2), 9-15.
- [11] Bolón-Canedo, V., Sánchez-Maroño, N., & Alonso-Betanzos, A. (2016). Feature selection for high-dimensional data. Progress in Artificial Intelligence, 5(2), 65-75.
- [12] Kumar, S. S., & Shaikh, T. (2017, September). Empirical evaluation of the performance of feature selection approaches on random forest. In 2017 international conference on computer and applications (ICCA) (pp. 227-231). IEEE.
- [13] Yadav, D. C., & Pal, S. A. U. R. A. B. H. (2020). Prediction of heart disease using feature selection and random forest ensemble method. International Journal of Pharmaceutical Research, 12(4), 56-66.
- [14] Hasan, M. A. M., Nasser, M., Ahmad, S., & Molla, K. I. (2016). Feature selection for intrusion detection using random forest. Journal of information security, 7(3), 129-140.
- [15] Li, X., Chen, W., Zhang, Q., & Wu, L. (2020). Building auto-encoder intrusion detection system based on random forest feature selection. Computers & Security, 95, 101851.
- [16] El-Hasnony, I. M., Barakat, S. I., Elhoseny, M., & Mostafa, R. R. (2020). Improved feature selection model for big data analytics. IEEE Access, 8, 66989-67004.
- [17] Bolón-Canedo, V., & Alonso-Betanzos, A. (2019). Ensembles for feature selection: A review and future trends. Information Fusion, 52, 1-12.
- [18] Cai, J., Luo, J., Wang, S., & Yang, S. (2018). Feature selection in machine learning: A new perspective. Neurocomputing, 300, 70-79.
- [19] Zhang, R., Nie, F., Li, X., & Wei, X. (2019). Feature selection with multi-view data: A survey. Information Fusion, 50, 158-167.
- [20] Uddin, M. T., & Uddiny, M. A. (2015, May). A guided random forest based feature selection approach for activity recognition. In 2015 International Conference on Electrical Engineering and Information Communication Technology (ICEEICT) (pp. 1-6). IEEE.