With the advent of e-commerce, digital services and social media, scammers have changed their way to gain illegal benefits in various forms such as capturing the credit card information or exploiting personal cloud accounts which is termed as phishing. For this reason, against this cyber crime, last two decades have witnessed a variety of combatting methodologies like HTML content based similarity analysis, URL based classification and recently visual similarity based matching since phishing web pages visually mimic to their legitimate counterparts in order to create an illusion to deceive innocent users. To this end, in this study, we propose a computer vision and machine learning based approach in order to classify whether a suspicious web page is phishing and further recognize its original brand name. In this regard, we have utilized and investigated two different local image descriptors namely Scale Invariant Feature Transform (SIFT) and DAISY. Apart from their common properties such as scale invariance, the aforementioned descriptors have apparent differences such that in addition to rotational invariance, SIFT employs key-point based sampling whereas DAISY applies dense sampling by default. Therefore, we first aimed to investigate the feasibility of these two local image descriptors in addition to revealing the effects of sampling strategy and rotational invariance in problem domain. Furthermore, in order to create a discriminative representation of a web page, we followed the bag of visual words (BOVW) approach having different vocabulary sizes such as 50, 100, 200 and 400. In order to evaluate the proposed approach, we have utilized a publicly available phishing dataset including snapshots of webpages sampled from both 14 different highly phished brands and ordinary legitimate web pages yielding a challenging open-set problem. The aforementioned dataset involves 1313 training and 1539 testing image samples in total. The visual features extracted via SIFT and DAISY were first transformed to a BOVW histogram and fed to three different machine learning methods such as SVM, Random Forest and XGBoost. According to the conducted experiments, based on a 400-D visual vocabulary, SIFT descriptor along with XGBoost has been found as the best descriptor-learner configuration having reached up to 89.34% validation accuracy with 0.76% false positive rate. Moreover, SIFT has outperformed DAISY descriptor in all settings. As a result, it has been shown that SIFT descriptors equipped with BOVW representation can be effectively used for brand identification of phishing web pages.
E-ticaret, sayısal hizmetler ve sosyal medyadaki gelişmelerle birlikte siber saldırganlar illegal kazanç sağlama adına günümüzde "Oltalama" olarak ifade edilen ve kredi kartı veya kişisel bulut hesaplarına ait hesap bilgilerini ele geçirmek gibi amaçları olan yeni bir saldırı türünü benimsemişlerdir. Bu nedenle bu siber suça karşı son yirmi yılda HTML içerik temelli benzerlik analizi, URL tabanlı sınıflandırma ve masum kullanıcıları yanıltmak için sahte sayfaların özgün sürümlerini andırmasından dolayı son zamanlarda görsel benzerlik temelli eşleştirme gibi çeşitli mücadele yöntemleri geliştirilmiştir. Bu çalışmada şüpheli bir web sayfasının oltalayıcı sayfa olup olup olmadığını sınıflandırmak ve orijinal marka adını daha iyi tanımak için bilgisayar görüsü ve makine öğrenmeye dayalı bir yaklaşım önerilmiştir. Bu bağlamda Scale Invariant Feature Transform (SIFT) ve DAISY olmak üzere iki farklı yerel görsel betimleyicisi araştırılmış ve kullanılmıştır. Ölçek duyarsızlığı gibi ortak özelliklerinin yanı sıra, bahsi geçen betimleyicilerin dönme duyarsızlığına ek olarak bazı bariz farklılıkları bulunmaktadır. Örnek olarak SIFT betimleyicileri anahtar nokta temelli örnekleme uygularken, DAISY varsayılan olarak yoğun bir örneklemeyi tercih etmektedir. Bu nedenle, bu calışmada ilk önce örnekleme stratejisi ve dönel değişmezliğin problem uzayındaki sonuçlarından ziyade bu iki yerel görüntü betimleyicisinin uygulanabilirliği araştırılmıştır. Ayrıca, web sayfalarından ayırt edici bir temsil elde etmek için görsel kelime çantası (Bag of Visual Words - BOVW) yaklaşımı benimsenmiş ve 50, 100, 200 ve 400 gibi farklı kelime sayısına sahip temsiller üretilmiştir. Önerilen yaklaşımın değerlendirilmesinde oltalama saldırısına yoğunlukla maruz kalan 14 markaya ve çeşitli özgün web sayfalarına ait sayfa şipşakları içeren zorlayıcı bir veri kümesinden yararlanılmıştır. İlgili veri kümesi makine öğrenimi açısından "açık küme problemi" taşımakta ve bünyesinde toplam 1313 eğitim ve 1539 test görsel örneği ihtiva etmektedir. SIFT ve DAISY betimleyicileri ile çıkarılan görsel özellikler ilk olarak BOVW histogramına dönüştürülmüş, sonrasında SVM, Random Forest ve XGBoost gibi üç farklı makine öğrenme yöntemleri kullanılarak eğitilmiştir. Yapılan deneylere göre 400 görsel kelime dağarcığı ile yapılandırılan SIFT betimleyicileri, XGBoost ile birlikte %0.76 FPR ve %89.34 geçerleme doğruluğuna ulaşmış ve en iyi betimleyici-makine öğrenimi modeli çifti olarak tespit edilmiştir. Ayrıca, SIFT tüm konfigurasyonlarda DAISY betimleyicisindan daha iyi performans göstermektedir. Sonuç olarak, BOVW temsiline dayalı SIFT betimleyicilerinin oltalayıcı web sayfalarının hangi markaya ait olduğunun tanınmasında etkin bir şekilde kullanılabileceği gösterilmiştir.
Primary Language | English |
---|---|
Subjects | Engineering |
Journal Section | Articles |
Authors | |
Publication Date | October 31, 2019 |
Published in Issue | Year 2019 Special Issue 2019 |