Araştırma Makalesi

Kötücül Web Sayfalarının Tespitinde Doc2Vec Modeli ve Makine Öğrenmesi Yaklaşımı

Sayı: 27 30 Kasım 2021
PDF İndir
TR EN

Kötücül Web Sayfalarının Tespitinde Doc2Vec Modeli ve Makine Öğrenmesi Yaklaşımı

Öz

Günümüzde birçok işlem dijital ortama taşınmakta ve verilerimizi bu ortamda korumak zorlaşmaktadır. Birçok şeyin internete bağlı olması web güvenliği büyük bir sorun olarak ortaya koymaktadır. İnternet kaynaklı saldırıları başlatmanın en yaygın yolu da kötü amaçlı URL adreslerini kullanmaktır. Kötücül faaliyette bulunan korsanlar bu amaçla hazırladıkları web sitelerini kullanarak birçok veriyi elde etmektedirler. Bu tür kötü amaçlı URL adreslerini veya web sitelerini tespit etmenin geleneksel yolu kara liste kullanmaktır. Ancak bu yöntem yeni oluşturulan kötü amaçlı URL’lerin tespit edilmesinde başarılı olmamaktadır. Bu çalışmada, kötücül URL adreslerinin tespitinde verimliliği artırmak ve kara liste gibi bir takım veri tabanlarına bağımlılığı önlemek için makine öğrenmesi kullanan bir yaklaşım önerildi. Makine öğreniminde sınıflandırma için farklı algoritmalar denenirken, özellik çıkarımı için Doc2Vec yaklaşımı kullanılmıştır. Sadece URL adreslerinden elde edilen özellikler kullanılarak sınıflandırma yapılmaktadır. ISCX2016URL veri seti ile yapılan testlerin birinci aşamasında URL adresinin kötücül ve iyicil olarak sınıflandırma için Logistic Regresyon algoritması ile %99,2 doğruluk yakalanırken, kesinlik, duyarlılık ve F-skoru değerlerinde sırasıyla %98,9, %99,1 ve %99,2 değerleri yakalanmıştır. Testlerin ikinci aşamasında ise kötücül URL adreslerinin spam, kimlik avı, kötücül amaçlı yazılım dağıtan ve tahrif edilmiş sınıflarına aitlikleri test edilmiştir. Sonuçta SVC sınıflandırıcı ile %88,1 doğruluk ile kötücül URL adresleri sınıflandırılmıştır. Sonuçta ortaya çıkan modeli herhangi bir vekil sunucuda veya bir ağ denetleyici platforma üzerinde uygulamak mümkündür.

Anahtar Kelimeler

Kaynakça

  1. Chia-Mei C., Jhe-Jhun H., Ya-Hui O., Efficient suspicious URL filtering based on reputation, Journal of Information Security and Applications, 20, 26-36, 2015.
  2. Imma H., Carlos R. R., David R., Rafael C., CALA: CIAssifying Links Automatically based on their URL, The Journal of Systems and Software, 115, 130-143, 2016.
  3. Jasper P., Shantanu M., Kalliopi Z., Yingqian Z., Term Based Semantic Clusters for Very Short Text Classification, 12th International Conference on Recent Advances in Natural Language Processing, Varna-Bulgaria, 878-887, 2-4 Eylül, 2019.
  4. Florian B., Martin E., Xiaowei X., Frequent term-based text clustering, International Conference on Knowledge Discovery and Data Mining, Newyork-United States, 436-442, 23-25 Temmuz, 2002.
  5. Gideon M. B. W., Thomas D., Eleri A., Herbert T.K., Edwin A. V., Lambert S., Structure-Tags Improve Text Classification for Scholarly Document Quality Prediction, arXiv:2004.03705v3, 2021.
  6. Daniel L.S., Angelica G. A., Juan M. C., Visual Content-based Web Page Categorization with Deep Transfer Learning and Metric Learning, Neurocomputing, 338, 418-431, 2019.
  7. Ali A., Mehran F., Mahmoud K., Intelligent Classification of web pages using contextual and visual features, Applied Soft Computing, 11(2), 1638-1647, 2011.
  8. Jia Z., Qing X., Shoou Y., Wai H. W., Exploting link structure for web page genre identication, Data Mining and Knowledge Discovery, 30, 550-575, 2016.

Ayrıntılar

Birincil Dil

Türkçe

Konular

Mühendislik

Bölüm

Araştırma Makalesi

Yayımlanma Tarihi

30 Kasım 2021

Gönderilme Tarihi

11 Ağustos 2021

Kabul Tarihi

6 Ekim 2021

Yayımlandığı Sayı

Yıl 2021 Sayı: 27

Kaynak Göster

APA
Arslan, R. S. (2021). Kötücül Web Sayfalarının Tespitinde Doc2Vec Modeli ve Makine Öğrenmesi Yaklaşımı. Avrupa Bilim ve Teknoloji Dergisi, 27, 792-801. https://doi.org/10.31590/ejosat.981450
AMA
1.Arslan RS. Kötücül Web Sayfalarının Tespitinde Doc2Vec Modeli ve Makine Öğrenmesi Yaklaşımı. EJOSAT. 2021;(27):792-801. doi:10.31590/ejosat.981450
Chicago
Arslan, Recep Sinan. 2021. “Kötücül Web Sayfalarının Tespitinde Doc2Vec Modeli ve Makine Öğrenmesi Yaklaşımı”. Avrupa Bilim ve Teknoloji Dergisi, sy 27: 792-801. https://doi.org/10.31590/ejosat.981450.
EndNote
Arslan RS (01 Kasım 2021) Kötücül Web Sayfalarının Tespitinde Doc2Vec Modeli ve Makine Öğrenmesi Yaklaşımı. Avrupa Bilim ve Teknoloji Dergisi 27 792–801.
IEEE
[1]R. S. Arslan, “Kötücül Web Sayfalarının Tespitinde Doc2Vec Modeli ve Makine Öğrenmesi Yaklaşımı”, EJOSAT, sy 27, ss. 792–801, Kas. 2021, doi: 10.31590/ejosat.981450.
ISNAD
Arslan, Recep Sinan. “Kötücül Web Sayfalarının Tespitinde Doc2Vec Modeli ve Makine Öğrenmesi Yaklaşımı”. Avrupa Bilim ve Teknoloji Dergisi. 27 (01 Kasım 2021): 792-801. https://doi.org/10.31590/ejosat.981450.
JAMA
1.Arslan RS. Kötücül Web Sayfalarının Tespitinde Doc2Vec Modeli ve Makine Öğrenmesi Yaklaşımı. EJOSAT. 2021;:792–801.
MLA
Arslan, Recep Sinan. “Kötücül Web Sayfalarının Tespitinde Doc2Vec Modeli ve Makine Öğrenmesi Yaklaşımı”. Avrupa Bilim ve Teknoloji Dergisi, sy 27, Kasım 2021, ss. 792-01, doi:10.31590/ejosat.981450.
Vancouver
1.Recep Sinan Arslan. Kötücül Web Sayfalarının Tespitinde Doc2Vec Modeli ve Makine Öğrenmesi Yaklaşımı. EJOSAT. 01 Kasım 2021;(27):792-801. doi:10.31590/ejosat.981450

Cited By