Günümüzde
makine öğrenmesi yöntemleri bilgisayarların daha doğru eylemler
gerçekleştirmesi amacıyla birçok farklı şekilde kullanılmaktadır. Bu amaçla
kullanıldıkları bir alan kimlik hırsızı web sitelerinin tespit edilmesidir.
Kimlik hırsızlığı, önemli kişisel bilgileri çalmak amacıyla güvenilir web
sitelerini taklit eden sahte web sitelerinin oluşturulduğu çevrimiçi bir
saldırı biçimidir. Bu tehlikeyi gerçekleşmeden önlemek amacıyla web sitelerinin
farklı özelliklere dayanarak kimlik hırsızı bir site olup olmadığının
belirlenmesi önemlidir. Bu çalışmada, bir web sitesinin kimlik hırsızı olup
olmadığını tahmin etmek amacıyla AdaBoost, çok katmanlı algılayıcı, destek
vektör makinesi, karar ağacı, en yakın k komşu, Naïve Bayes ve rastgele orman
makine öğrenmesi yöntemleri 9 farklı özellik içeren 1353 örnekten oluşan bir
veri kümesinden yararlanarak karşılaştırılmıştır. Eğitim ve sınama şeklinde
ikiye bölünmüş veri kümesiyle yapılan deneylerde karar ağaçlarından oluşturulan
bir topluluk öğrenme yaklaşımı olan rastgele orman yöntemi, karşılaştırılan
diğer yöntemlere göre daha başarılı olsa da çapraz doğrulamanın kullanıldığı
durumda çok katmanlı algılayıcı daha yüksek bir başarım elde etmiştir.
Today,
machine learning approaches are used to make computers act more accurately for
various purposes. In this manner, one area in which the machine learning approaches are used is
the detection of phishing web sites. Phishing is an online threat, which
depends on creating a fake web site that mimics a trustworthy
web site to steal important personal information. It is important to predict
whether a website is a phishing website in order to avoid this danger before it
happens. In this study, AdaBoost, multilayer perceptron, support vector machine, decision tree, k-nearest neighbors, Naïve Bayes and
random forest machine learning techniques are compared to predict the purpose
of a website. This comparison is performed by experimenting over a dataset
containing 1353 instances with 9 different features. The experimental evaluation
is performed in two different settings. The first setting based on splitting
the data into training and test sets. In this setting the evaluation results
show that the random forest algorithm, which is an ensemble learning approach
based on decision trees, outperforms other compared approaches. On the other
hand, in the second setting based on cross validation, multilayer perceptron
shows a better performance.
Primary Language | Turkish |
---|---|
Subjects | Engineering |
Journal Section | Research Article |
Authors | |
Publication Date | October 12, 2018 |
Published in Issue | Year 2018 Volume: 24 Issue: 5 |