Android malware attacks grow in both sophistication and volume day by day, thus android users are vulnerable to cyber-attacks. Researchers have developed many machine learning techniques to detect, block or mitigate these attacks. However, technological advancements, increase in Android mobile devices and the applications used on these devices, also increase problems in terms of user privacy due to malware. In this study, a comprehensive study is presented on the detection and classification of malicious applications using an up-to-date dataset containing 241 attributes. First, incorrect and missing data are detected and the relevant lines are removed, then normalization-based scaling is performed. After this preprocessing step, the data set is randomly divided into 70% training and 30% testing using hold-out cross validation. Finally, classification is carried out using 6 different machine learning methods: Multilayer Perceptron (MLP), Logistic Regression (LOGR), K-Nearest Neighbor (KNN), Decision Tree Classifier (DTC), Random Forest (RF). The comparison of modeling results demonstrates that RF machine learning technique can achieve the best performance with the level of 97% accuracy and the various other metrics for Android malware detection in real-world Android application sets.
Android kötü amaçlı yazılım saldırılarının hem karmaşıklığı hem de hacmi her geçen gün artıyor, bu nedenle android kullanıcıları siber saldırılara karşı savunmasız kalıyorlar. Araştırmacılar bu saldırıları tespit etmek, engellemek veya azaltmak için birçok makine öğrenmesi tekniği geliştirdiler. Ancak teknolojik gelişmeler, Android mobil cihazların ve bu cihazlarda kullanılan uygulamaların artması, kötü amaçlı yazılımlardan dolayı kullanıcı gizliliği açısından sorunları da arttırmaktadır. Bu çalışmada, 241 öznitelik içeren güncel bir veri seti kullanılarak kötü amaçlı uygulamaların tespiti ve sınıflandırılması konusunda kapsamlı bir çalışma sunulmaktadır. Öncelikle hatalı ve eksik veriler tespit edilerek ilgili satırlar kaldırılır, ardından normalizasyon bazlı ölçeklendirme gerçekleştirilir. Bu ön işleme adımından sonra veri seti, çapraz doğrulama kullanılarak rastgele %70 eğitim ve %30 test verisine bölünür. Son olarak Çok Katmanlı Algılayıcı (MLP), Lojistik Regresyon (LOGR), K-En Yakın Komşu (KNN), Karar Ağacı Sınıflandırıcı (DTC), Rastgele Orman (RF) olmak üzere 6 farklı makine öğrenmesi yöntemi kullanılarak sınıflandırma işlemi gerçekleştirilir. Modelleme sonuçlarının karşılaştırılması, RF makine öğrenimi tekniğinin, gerçek dünyadaki Android uygulama setlerinde Android kötü amaçlı yazılım tespiti için %97 doğruluk düzeyi ve diğer çeşitli ölçümlerle en iyi performansı elde edebileceğini göstermektedir
Primary Language | English |
---|---|
Subjects | Machine Learning Algorithms |
Journal Section | Makaleler |
Authors | |
Publication Date | August 31, 2024 |
Submission Date | April 1, 2024 |
Acceptance Date | July 17, 2024 |
Published in Issue | Year 2024 Volume: 11 Issue: 23 |