Phishing attacks, which have exponentially increased in recent years, are a form of cyber attack aiming to steal sensitive credentials of innocent users. In general, the attackers attempt to deceive users by creating and submitting a fake but visually similar version of a legitimate web page, which has already been in usage. In this study, we suggest an approach for recognition of phishing web pages by utilizing two global image descriptors namely GIST and local binary patterns (LBP) which have never been employed in phishing web page recognition literature. Moreover, in order to obtain a discriminative representation, we have experimented two kinds of visual feature extraction scheme such as (1) “holistic” and (2) “multi-level patches”. While we have only used whole web page screenshot in “holistic” scheme, screenshots were divided into equally sized smaller crops at growing number of levels during the implementation of “multi-level” patches scheme. In order to evaluate the proposed approach, we have employed a publicly available phishing web page dataset in literature including screenshots of both 14 different highly phished brands and legitimate web pages posing an open-set problem for researchers. Besides, the aforementioned dataset covers 1313 training and 1539 testing cases in total. The visual signatures extracted by use of GIST and LBP descriptors were then fed to various machine learning models such as SVM, Random Forest and XGBoost (regularized gradient tree boosting). According to the results of comprehensively conducted experiments, XGBoost has been found as the best learner. In line with this finding, we obtained 87.7% (GIST) and 83.1% (LBP) validation accuracy along with the representation of “multi-level patches”. Consequently, it has been shown that preferred global image descriptors can be successfully employed for detecting and recognizing phishing web pages. In addition, average required time for processing one screenshot (around 1.12 sec.) with GIST descriptors indicates that the proposed scheme and GIST can be effectively used as a browser based plug-in for recognizing brands of phishing web pages.
İnternetin gelişmesiyle son yıllarda katlanarak artan kimlik avı saldırıları, masum kullanıcıların özel kimlik bilgilerini çalmayı amaçlayan bir siber saldırı şeklidir. Genel olarak saldırganlar, kullanımda olan meşru bir web sayfasının sahte ancak görsel olarak benzer bir sürümünü oluşturup kullanıcılara göndererek aldatmaya çalışırlar. Bu çalışmada oltalayıcı web sayfalarının hedef aldığı markaların tanınmasında alanyazınında denenmemiş olan iki genel amaçlı görsel betimleyicinin (GIST ve Local Binary Patterns) kullanıldığı bir yaklaşım önerilmektedir. Buna ilaveten ayırt ediciliği yüksek temsillerin elde edilebilmesi amacıyla “bütünsel” ve “çok seviyeli parçalama” gibi iki özellik çıkarım yaklaşımı denenmiştir. “Bütünsel” yaklaşımda tüm sayfa şipşakı girdi olarak kullanılırken “çok seviyeli parçalama” yaklaşımında tüm görsel, eşit büyüklükteki parçalar içeren çok katmanlı yapıda ele alınmıştır. Önerilen yaklaşımın performans ölçümünde, oltalama saldırılarına sıklıkla maruz kalan toplamda 14 farklı marka ile birlikte özgün web sayfalarına ait sayfa şipşaklarını içeren ve araştırmacılar açısından “açık küme” problemi teşkil eden bir veri kümesi kullanılmştır. Öte yandan, yukarıda belirtilen veri kümesi toplamda 1313 eğitim ve 1539 test örneğini kapsamaktadır. GIST ve LBP betimleyicileri kullanılarak çıkarılan görsel imzalar daha sonra SVM, Random Forest ve XGBoost gibi çeşitli makine öğrenme modellerine girdi olarak sunulmuştur. Kapsamlı deneylerin sonuçlarına göre, XGBoost en iyi sınıflandırıcı olarak tespit edilmiştir. Öte yandan geçerleme verisi üzerinde “çok seviyeli parçalama” temsili kullanılarak doğruluk kriterinde sırasıyla %87.7 (GIST) ve %83.1 (LBP) değerleri elde edilmiştir. Sonuç olarak seçilen genel görsel betimleyicilerinin oltalayıcı web sayfalarını tespit etme ve marka tanımada başarıyla kullanılabileceği gösterilmiştir. Ek olarak, bir sayfa şipşakının ortalama GIST betimleyicisimnden yararlanarak 1.12 saniyede işlenerek sınıflandırılabilmesi önerilen yaklaşımın oltalayıcı web sayfalarının tanınmasında bir tarayıcı eklentisi olarak da etkin ve verimli şekilde kullanabileceğini göstermetedir.
Primary Language | English |
---|---|
Subjects | Engineering |
Journal Section | Articles |
Authors | |
Publication Date | October 31, 2019 |
Published in Issue | Year 2019 Special Issue 2019 |