Network Based Intrusion Detection Systems (NIDS) are used to track and analyze traffic from all devices on the network. Nowadays Machine Learning (ML) based NIDS is one of the important tools to protect computer networks against cyber attacks. Network data characteristics have a significant impact for training and evaluation of ML-based NIDS. Therefore, to evaluate the accuracy and performance of the ML model, multiple datasets must contain a common core set of features. In this study, binary classification was performed using NIDS datasets (NF-UNSW-NB15, NF-BoT-IoT, NF-ToN-IoT and NF-CSE-CIC-IDS2018) with common NetFlow features. The attack and benign classes in the datasets show an unbalanced distribution. To overcome this, the Random Undersampling method was used. Random Forest, K-Nearest Neighbors, Support Vector Machines and Artificial Neural Networks were used as classification methods. The accuracy and performance of different datasets were compared to the resampled cases using ML methods. As a result of the study, the Random Forest algorithm gave the best result for all four data sets.
Network Intrusion Detection Systems Machine Learning NetFlow
Ağ tabanlı Saldırı Tespit Sistemleri (NIDS), ağda bulunan tüm cihazlardan gelen trafiği izlemek ve analiz etmek için kullanılır. Makine Öğrenimi (ML) tabanlı NIDS, günümüzde bilgisayar ağlarını siber saldırılara karşı korumak için önemli araçlardan biridir. ML tabanlı NIDS'in eğitimi ve değerlendirilmesi için ağ veri özellikleri önemli bir etkiye sahiptir. Bu nedenle ML modelinin doğruluğunu ve performansını değerlendirmek için birden çok veri kümesinin ortak temel özellik kümesi içermesi gerekir. Bu çalışmada ortak NetFlow özelliklerine sahip NIDS veri setleri (NF-UNSW-NB15, NF-BoT-IoT, NF-ToN-IoT ve NF-CSE-CIC-IDS2018) kullanılarak ikili sınıflandırma yapılmıştır. Veri setlerindeki saldırı ve normal akış (saldırı yok) sınıfları dengesiz dağılım göstermektedir. Bunun üstesinden gelmek için Rastgele Alt Örnekleme yöntemi kullanılmıştır. Sınıflandırma yöntemleri olarak Rastgele Orman, K-En Yakın Komşuluk, Destek Vektör Makineleri ve Yapay Sinir Ağları algoritmaları kullanılmıştır. Farklı veri setlerinin yeniden örneklenmiş durumlarına, ML yöntemleri kullanılarak doğruluk ve performansları karşılaştırılmıştır. Bu çalışma kapsamında kullanılmış olan dört veri seti içinde en iyi sonucu Rastgele Orman algoritması vermiştir.
Birincil Dil | Türkçe |
---|---|
Konular | Mühendislik |
Bölüm | Makaleler |
Yazarlar | |
Erken Görünüm Tarihi | 2 Ekim 2022 |
Yayımlanma Tarihi | 30 Kasım 2022 |
Yayımlandığı Sayı | Yıl 2022 Sayı: 41 |