Sahte Web Sitelerinin Sınıflandırma Algoritmaları İle Tespit Edilmesi

Adem Korkmaz; Selma Büyükgöze

doi:10.31590/ejosat.598036

TR EN

Sahte Web Sitelerinin Sınıflandırma Algoritmaları İle Tespit Edilmesi

Öz

Günümüzde kimlik avı yapan sahte web sitelerinin sayısı oldukça artmıştır. Bu web sitelerinin amaçları genel anlamda kişilerin, kişisel bilgilerini ele geçirerek çıkar sağlamaktır. Sosyal medya hesaplarımızdaki kimlik ve parola bilgilerimiz, alışveriş sitelerindeki kimlik ve adres bilgilerimiz bize ait kişisel bilgilerimizdir. Bu tür bilgiler istenmeyen kişilerin eline geçmesi durumunda, tahmin bile edemeyeceğimiz kötü sonuçlar doğurabilmektedir. Ayrıca online bankacılık işlemlerimiz gibi finansal işlemlerimizin önemli bir kısmını internet ortamında yapıyor olmamız bu tür sitelerden korunmamız açısından önemli bir sorun teşkil etmektedir. Bu amaçla antivürüs yazılım firmaları, tarayıcılar, arama motorları daha iyi kullanıcı hizmeti ve memnunniyet sağlamak açısından bu tür zararlı sitelerden kullanıcılarını korumak için çalışmalar yapmaktadırlar. Ayrıca sahte web sayfalarının kullanıcıların önüne gelmeden tespit edilip engellenmesi günümüz yapay zeka çalışmalarınında önemli bir çalışma alanı olmaktadır. Hergün milyarlarca insanın gezindiği internet ortamında bu sahte sitelerden korunmasının en kolay yöntemi, sahte web sayfalarının otomatik olarak tespit edilip engellenmesi olacaktır. Makine öğrenmesi sınıflandırma algoritmaları ile bir sayfaya ait bilgilere bakarak sistem tarafından otomatik olarak sahte veya gerçek olarak tespit edilmesi yapay zeka çalışmalarının sunduğu önemli avantajların başında gelmektedir. Bu çalışma ile bir web sitesi adresine ait belirlenmiş 10 özellik kullanılarak; bu adresin sahte mi, yoksa gerçek bir adres mi olduğu tespit edilmeye çalışılmaktadır. Çalışmada kullanılan veriler Machine Learning Repository (UCI)’dan alınmıştır. Verilerin analizi Çapraz Endüstri Standart Süreç Modeli(CRISP-DM) baz alınarak gerçekleştirilmiştir. Veri setinde web sitelerinin durumunu belirleyen nitelik (Class, Kimlik Avı=-1, Şüpheli=0 ve Meşru=1) olarak etiketlenmiştir. Çalışma da RStudio kullanılarak R programlama dili ile analizler yapılmıştır. Kullanılan sınıflandırma algoritmaları Rastgele Orman (RF), Destek Vektör Makineleri (SVM), J48, K-En Yakın Komşu (KNN) ve Naive Bayes algoritmalarıdır. Yapılan değerlendirmeler sonucunda Rastgele Orman algoritması ile en yüksek doğruluk performansı elde edilmiştir.

Anahtar Kelimeler

Detection of Fake Websites by Classification Algorithms

Öz

Nowadays, phishing web sites have been increased. The purpose of these sites is to obtain benefits by acquiring personal information of people in general. Our identity and password information in our social media accounts and identity and address information on shopping sites are our personal information. If such information is received by unwanted people, it can have bad unpredictable consequences. In addition, the fact that we carry out a significant portion of our financial transactions such as our online banking transactions on the internet constitutes an important problem in terms of protection from such sites. For this purpose, antivirus software companies, browsers, search engines are working to protect users from such harmful sites in terms of providing better user service and satisfaction. In addition, the detection and prevention of fake web pages before the users is an important area of work in today's artificial intelligence studies. The easiest method of protecting these fraudulent sites in the internet environment where billions of people are browsing every day will be to detect and block fake web pages automatically. Machine learning classification algorithms are automatically identified as fake or real by the system by looking at the information of a page and this is one of the important advantages offered by artificial intelligence studies. With this study, using 10 properties determined for a website address; it is attempted to determine whether this address is a fake or a real address. The data used in this study were taken from Machine Learning Repository (UCI). Data analysis was performed based on the Cross Industry Standard Process Model (CRISP-DM). In the data set, it is labeled as the attribute that determines the status of websites (Class, Phishing = -1, Suspicious = 0 and Legitimate = 1). The study was also done by using RStudio analysis with R programming language. The classification algorithms used are Random Forest (RF), Support Vector Machines (SVM), J48, K-Nearest Neighbor (KNN) and Naive Bayes algorithms. The highest accuracy performance was obtained by Random Forest algorithm.

Anahtar Kelimeler

Kaynakça

Abdelhamid, N., Ayesh, A., & Thabtah, F. 2014. Phishing detection based associative classification data mining. Expert Systems with Applications, 41(13), 5948-5959.
Aksu, D., Turgut, Z., Üstebay, S., Aydin, M. A. (2019). Phishing Analysis of Websites Using Classification Techniques. In International Telecommunications Conference (pp. 251-258). Springer, Singapore.
Arlot, S., & Celisse, A. 2010. A survey of cross-validation procedures for model selection. Statistics surveys, 4, 40-79.
Aydın, S., & Özkul, A. E. 2015. Veri Madenciliği Ve Anadolu Üniversitesi Açiköğretim Sisteminde Bir Uygulama. Journal of Research in Education and Teaching, 4(3), 36-44.
Balaban, M. E.& Kartal, E. 2015.Veri Madenciliği ve Makine Öğrenmesi Temel Algoritmaları ve R Dili ile Uygulamaları. Çağlayan Kitapevi. 288s, İstanbul.
Basnet, R., Mukkamala, S., Sung, A. H. 2008. “Detection of phishing attacks: A machine learning approach.” In Soft Computing Applications in Industry (pp. 373-383). Springer, Berlin, Heidelberg.
Chebyshev V., Sinitsyn F., Parinov D., Kupreev O., Lopatin E., Liskin A., (2018). IT threat evolution Q3 2018. Statistics https://securelist.com/it-threat-evolution-q3-2018-statistics/88689/, Erişim Tarihi: 25.01.2019
Chiew, K. L., Tan, C. L., Wong, K., Yong, K. S., & Tiong, W. K. (2019). A New Hybrid Ensemble Feature Selection Framework for Machine Learning-based Phishing Detection System. Information Sciences.

Dataschool, 2014. Simple guide to confusion matrix terminology. http://www.dataschool.io/simple-guide-to-confusion-matrix-terminology/. Erişim Tarihi: 30.05.2018
Fette, I., Sadeh, N., Tomasic, A. 2007. “Learning to detect phishing emails.” In Proceedings of the 16th international conference on World Wide Web (pp. 649-656). ACM.
Kalaycı, T. E. 2018. Kimlik hırsızı web sitelerinin sınıflandırılması için makine öğrenmesi yöntemlerinin karşılaştırılması. Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi, 24(5), 870-878.
Kemp S. 2018. Digital in 2018: World’s internet users pass the 4 billion mark https://wearesocial.com/blog/2018/01/global-digital-report-2018, Erişim tarihi: 25.01.2019
Koşan, M. A., Yıldız, O., Karacan, H. 2018. “Kimlik avı web sitelerinin tespitinde makine öğrenmesi algoritmalarının karşılaştırmalı analizi”. Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi, 24(2), 276-282.
Landis JR., Koch GG., 1977 “The measurement of observer agreement for categorical data”, Biometrics, 33: 159-174.
Marshland S. 2015. Machine Learning An Algorithmic Perspective. 2nd ed. New York, USA, Chapman & Hall/CRC Press,
Miyamoto, D., Hazeyama, H., Kadobayashi, Y. 2008. “An evaluation of machine learning-based methods for detection of phishing sites.” In Advances in Neuro-Information Processing (pp. 539-546). Springer, Berlin, Heidelberg.
Paganini P., (2015).New Intel Security study shows that 97% of people can’t identify phishing emails. http://securityaffairs.co/wordpress/36922/cyber-crime/study-phishing-emails-response.html , Erişim Tarihi: 25.01.2019
Phishing Corpus (2006), http://monkey.org/~jose/wiki/doku.php?id=PhishingCorpus
Sahingoz, O. K., Buber, E., Demir, O., Diri, B. (2019). Machine learning based phishing detection from URLs. Expert Systems with Applications, 117, 345-357.
Seker, S. E., 2013, K Fold Cross Validation (K Katlamalı Çapraz Doğrulama), http://bilgisayarkavramlari.sadievrenseker.com/2013/03/31/k-fold-crossvalidation-k-katlamali-carpraz-dogrulama/. Erişim Tarihi: 29.05.2018.
Sönmez, Ü. 2017. “Bilişim Sistemleri Aracılığıyla Dolandırıcılık Suçu”. Dicle Üniversitesi Adalet Meslek Yüksekokulu Dicle Adalet Dergisi, 1(2), 47-68.
Spam Assassin (2006), http://spamassassin.apache.org/
Şirin, E., 2017. Hata Matrisini (ConfusionMatrix) Yorumlama.http://www.datascience.istanbul/2017/07/02/hata-matrisini-confusion-matrix-yorumlama/. Erişim Tarihi: 29.05.2018.

Ayrıntılar

Birincil Dil

Türkçe

Konular

Mühendislik

Bölüm

Araştırma Makalesi

Yazarlar

Adem Korkmaz ^*
0000-0002-7530-7715
Türkiye

Selma Büyükgöze
0000-0002-6559-7704
Türkiye

Yayımlanma Tarihi

31 Ağustos 2019

Gönderilme Tarihi

1 Temmuz 2019

Kabul Tarihi

2 Ağustos 2019

Yayımlandığı Sayı

Yıl 2019 Sayı: 16

DOI

https://doi.org/10.31590/ejosat.598036

IZ

https://izlik.org/JA76DK73UH

Kaynak Göster

RIS / Bibtex

APA

Korkmaz, A., & Büyükgöze, S. (2019). Sahte Web Sitelerinin Sınıflandırma Algoritmaları İle Tespit Edilmesi. Avrupa Bilim ve Teknoloji Dergisi, 16, 826-833. https://doi.org/10.31590/ejosat.598036

AMA

1.Korkmaz A, Büyükgöze S. Sahte Web Sitelerinin Sınıflandırma Algoritmaları İle Tespit Edilmesi. EJOSAT. 2019;(16):826-833. doi:10.31590/ejosat.598036

Chicago

Korkmaz, Adem, ve Selma Büyükgöze. 2019. “Sahte Web Sitelerinin Sınıflandırma Algoritmaları İle Tespit Edilmesi”. Avrupa Bilim ve Teknoloji Dergisi, sy 16: 826-33. https://doi.org/10.31590/ejosat.598036.

EndNote

Korkmaz A, Büyükgöze S (01 Ağustos 2019) Sahte Web Sitelerinin Sınıflandırma Algoritmaları İle Tespit Edilmesi. Avrupa Bilim ve Teknoloji Dergisi 16 826–833.

IEEE

[1]A. Korkmaz ve S. Büyükgöze, “Sahte Web Sitelerinin Sınıflandırma Algoritmaları İle Tespit Edilmesi”, EJOSAT, sy 16, ss. 826–833, Ağu. 2019, doi: 10.31590/ejosat.598036.

ISNAD

Korkmaz, Adem - Büyükgöze, Selma. “Sahte Web Sitelerinin Sınıflandırma Algoritmaları İle Tespit Edilmesi”. Avrupa Bilim ve Teknoloji Dergisi. 16 (01 Ağustos 2019): 826-833. https://doi.org/10.31590/ejosat.598036.

JAMA

1.Korkmaz A, Büyükgöze S. Sahte Web Sitelerinin Sınıflandırma Algoritmaları İle Tespit Edilmesi. EJOSAT. 2019;:826–833.

MLA

Korkmaz, Adem, ve Selma Büyükgöze. “Sahte Web Sitelerinin Sınıflandırma Algoritmaları İle Tespit Edilmesi”. Avrupa Bilim ve Teknoloji Dergisi, sy 16, Ağustos 2019, ss. 826-33, doi:10.31590/ejosat.598036.

Vancouver

1.Adem Korkmaz, Selma Büyükgöze. Sahte Web Sitelerinin Sınıflandırma Algoritmaları İle Tespit Edilmesi. EJOSAT. 01 Ağustos 2019;(16):826-33. doi:10.31590/ejosat.598036

Cited By

Tekdüzen Kaynak Bulucu Yoluyla Kimlik Avı Tespiti için Makine Öğrenmesi Algoritmalarının Özellik Tabanlı Performans Karşılaştırması

Journal of Polytechnic

https://doi.org/10.2339/politeknik.1035286

Sahte Web Sitelerinin Sınıflandırma Algoritmaları İle Tespit Edilmesi

Sahte Web Sitelerinin Sınıflandırma Algoritmaları İle Tespit Edilmesi

Öz

Anahtar Kelimeler

Detection of Fake Websites by Classification Algorithms

Öz

Anahtar Kelimeler

Kaynakça

Ayrıntılar

Birincil Dil

Konular

Bölüm

Yazarlar

Yayımlanma Tarihi

Gönderilme Tarihi

Kabul Tarihi

Yayımlandığı Sayı

DOI

IZ

Kaynak Göster

Cited By

Tekdüzen Kaynak Bulucu Yoluyla Kimlik Avı Tespiti için Makine Öğrenmesi Algoritmalarının Özellik Tabanlı Performans Karşılaştırması

The Role of Artificial Intelligence in Higher Education: ChatGPT Assessment for Anatomy Course

An Efficient Classification of Rice Variety with Quantized Neural Networks

Kabuklu Fındık Meyvesinde Derin Öğrenme Tabanlı Kusurlu Meyvelerin Tespiti

INFRARED THERMOGRAPHY IMAGE BASED CLASSIFICATION OF SOIL DIRT AND FABRIC

Comparative Analysis of Machine Learning Models for Android Malware Detection

Fake News Detection with Machine Learning Algorithms