Xgboost ve Shap Kullanılarak Açıklanabilir Kimlik Avı Tespiti: Web Sitesi İçeriği ve URL Yapısı Veri Setleri Üzerine Karşılaştırmalı Bir Çalışma

Rıdvan Avcı; Gülsüm Kayabaşı Koru; Yasemin Zeynep Avcı

doi:10.71340/ubsud.1846061

EN TR

Öz

Explainable Phishing Detection Using Xgboost and Shap: A Comparative Study on Website Content and Url Structure Datasets

Öz

Phishing is a critical cybersecurity issue that requires reliable detection methods. This study addresses the following research question: How do website content and URL structure affect XGBoost-based phishing detection models, and how may SHAP improve interpretability? Machine learning (ML) models, especially gradient boosting approaches like XGBoost, are accurate but opaque, which hinders confidence and implementation in critical security applications. Explainable AI methods like Shapley Additive Explanations (SHAP) reveal model predictions. This study trained and tested XGBoost classifiers on two UCI Machine Learning Repository phishing datasets. Phishing Websites (ID=327) focuses on website content and structure, while PhiUSIIL Phishing URL (ID=967) focuses on URL lexical and host-based properties. Both models performed well, with AUC values of 0.9967 and 1.0000, but PhiUSIIL's perfect score increases overfitting risk. Each model received global and local annotations from SHAP. The comparison analysis shows that the URL-based model is largely regulated by the URLSimilarityIndex, while the website data model is heavily influenced by the url_of_anchor and sslfinal_state characteristics. Local annotations analyze individual predictions, including classification errors, to highlight feature contributions that impact model decisions. This comparative FD method assesses model efficacy, reveals decision processes, and improves phishing detection systems.

Anahtar Kelimeler

Xgboost ve Shap Kullanılarak Açıklanabilir Kimlik Avı Tespiti: Web Sitesi İçeriği ve URL Yapısı Veri Setleri Üzerine Karşılaştırmalı Bir Çalışma

Öz

Kimlik avı (phishing), sağlam ve güvenilir tespit yöntemleri gerektiren önemli bir siber güvenlik tehdidi olmaya devam etmektedir. Bu çalışma, şu araştırma sorusunu yanıtlamayı hedefler: Web sitesi içeriği ve URL yapısına dayalı özellikler, XGBoost tabanlı kimlik avı tespit modellerinin kararlarını nasıl etkiler ve SHAP bu kararların açıklanabilirliğini nasıl artırır? Makine öğrenmesi (MÖ) modelleri, özellikle XGBoost gibi gradyan artırma algoritmaları yüksek doğruluk gösterse de, kara kutu yapıları, kritik güvenlik uygulamalarında güveni ve dağıtımı sıklıkla engellemektedir. Açıklanabilir Yapay Zeka (AYZ) teknikleri, örneğin Shapley Additive exPlanations (SHAP), model tahminlerine ilişkin içgörüler sağlayarak bir çözüm sunar. Bu çalışma, UCI Makine Öğrenmesi Deposundan iki kimlik avı veri seti üzerinde XGBoost sınıflandırıcılarını eğitip değerlendirmiştir. Phishing Websites (ID=327) veri seti web sitesi içeriği ve yapısal özelliklere, PhiUSIIL Phishing URL (ID=967) veri seti ise URL sözcüksel ve ana bilgisayar tabanlı özelliklere odaklanmıştır. Her iki model de sırasıyla 0.9967 ve 1.0000 AUC skorları ile yüksek performansı elde etmiştir; ancak PhiUSIIL’deki mükemmel skor, potansiyel aşırı uyum riskini gündeme getirir. Ardından, her model için hem küresel hem de yerel açıklamalar üretmek üzere SHAP uygulanmıştır. Karşılaştırmalı analiz, belirgin özellik önemi örüntülerini ortaya koymaktadır: web sitesi verisiyle eğitilen model, büyük ölçüde url_of_anchor ve sslfinal_state özelliklerine dayanırken, URL tabanlı model, ezici bir şekilde URLSimilarityIndex tarafından baskındır. Yerel açıklamalar, yanlış sınıflandırmalar da dahil olmak üzere, bireysel tahminleri daha ayrıntılı bir şekilde inceleyerek model kararlarını yönlendiren belirli özellik katkılarını vurgulamaktadır. Bu karşılaştırmalı AYZ yaklaşımı, yalnızca model performansını doğrulamakla kalmaz, aynı zamanda temel alınan karar mekanizmalarını ortaya çıkararak şeffaflığı artırır ve kimlik avı tespit sistemlerini iyileştirmek için eyleme geçirilebilir içgörüler sağlar.

Anahtar Kelimeler

Kaynakça

Adadi, A., & Berrada, M. (2018). Peeking inside the black-box: A survey on explainable artificial intelligence (XAI). IEEE Access, 6, 52138–52160.
Alenezi, R., & Ludwig, S. A. (2021). Explainability of cybersecurity threats data using SHAP. In 2021 IEEE Symposium Series on Computational Intelligence (SSCI) (pp. 1–10). IEEE.
Alzboon, M. S., Al-Batah, M. S., Alqaraleh, M., & Alzboon, F. (2024). Phishing website detection using machine learning. Journal of Electrical Engineering, Electronics, Control and Computer Science, 10(1), 45–52.
APWG. (2024). Phishing activity trends report, 4Q 2024.
Arrieta, A. B., Díaz-Rodríguez, N., Del Ser, J., Bennetot, A., Tabik, S., Barbado, A., Fernández, A., Herrera, F., et al. (2020). Explainable artificial intelligence (XAI): Concepts, taxonomies, opportunities and challenges toward responsible AI. Information Fusion, 58, 82–115.
Basnet, R., Mukkamala, S., & Sung, A. H. (2008). Detection of phishing attacks: A machine learning approach. In A. Abraham, A.-E. Hassanien, & V. Snášel (Eds.), Soft computing applications in industry (pp. 373–383). Springer.
Chen, T., & Guestrin, C. (2016). XGBoost: A scalable tree boosting system. In Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (pp. 785–794). Association for Computing Machinery.
Das, A., & Rad, P. (2020). Opportunities and challenges in explainable artificial intelligence (XAI): A survey (arXiv:2006.11371). arXiv. https://arxiv.org/abs/2006.11371

Dua, D., & Graff, C. (2017). UCI machine learning repository. University of California, Irvine, School of Information and Computer Sciences. https://archive.ics.uci.edu
Galego Hernandes, P. R., Floret, C. P., Cardozo de Almeida, K. F., da Silva, V. C., Papa, J. P., & Pontara da Costa, K. A. (2021). Phishing detection using URL-based XAI techniques. In 2021 IEEE Symposium Series on Computational Intelligence (SSCI) (pp. 1–6). IEEE.
Jain, A. K., & Gupta, B. B. (2018). Towards detection of phishing websites on client-side using machine learning based approach. Telecommunication Systems, 68(4), 687–700.
Kumar, P., Antony, K., Banga, D., & Sohal, A. (2024). PhishNet: A phishing website detection tool using XGBoost (arXiv preprint).
Lundberg, S. M., & Lee, S.-I. (2017). A unified approach to interpreting model predictions. In Advances in Neural Information Processing Systems (Vol. 30, pp. 4765–4774).
Mohammad, R., & McCluskey, L. (2012). Phishing websites [Data set]. UCI Machine Learning Repository. https://archive.ics.uci.edu
Poddar, S., Chowdhury, D., Dwivedi, A. D., & Mukkamala, R. R. (2022). Data driven based malicious URL detection using explainable AI. In 2022 IEEE International Conference on Trust, Security and Privacy in Computing and Communications (TrustCom). IEEE.
Prasad, A., & Chandra, S. (2024). PhiUSIIL phishing URL (website) [Data set]. UCI Machine Learning Repository. https://archive.ics.uci.edu
Raj, M. M., & Jothi, J. A. (2022). Hybrid approach for phishing website detection using classification algorithms. ParadigmPlus, 3(3), Article 2.
Rao, R. S., & Pais, A. R. (2019). Detection of phishing websites using a novel approach based on Random Forest algorithm. Information & Computer Security, 27(1), 57–79.
Ribeiro, M. T., Singh, S., & Guestrin, C. (2016). “Why should I trust you?”: Explaining the predictions of any classifier. In Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (pp. 1135–1144). Association for Computing Machinery.
Rigaki, M., & Garcia, S. (2020). A survey of privacy attacks in machine learning (arXiv:2007.06729). arXiv. https://arxiv.org/abs/2007.06729
Sahingoz, O. K., Buber, E., Demir, O., & Diri, B. (2019). Machine learning based phishing detection from URL features. Expert Systems with Applications, 117, 345–357.
Verizon. (2024). 2024 data breach investigations report (DBIR).
Yerima, S. Y., & Sezer, S. (2019). DroidFusion: A novel deep learning-based Android malware detection model. IEEE Transactions on Information Forensics and Security, 14(5), 1308–1321.
Yuan, B., Zou, Y., Yang, M., & Li, Z. (2020). Phishing website detection based on convolutional neural network. IEEE Access, 8, 135008–135018.
Zhang, Z., Hamadi, H. A., Damiani, E., Yeun, C. Y., & Taher, F. (2022). Explainable artificial intelligence applications in cyber security: State-of-the-art in research. IEEE Access, 10, 93104–93139.

Ayrıntılar

Birincil Dil

Türkçe

Konular

Siber Güvenlik ve Gizlilik (Diğer), Yapay Zeka (Diğer)

Bölüm

Araştırma Makalesi

Yazarlar

Rıdvan Avcı
0009-0000-7524-2061
Türkiye

Gülsüm Kayabaşı Koru ^*
0000-0002-1749-900X
Türkiye

Yasemin Zeynep Avcı Bu kişi benim
0000-0003-1297-6708
Türkiye

Yayımlanma Tarihi

5 Haziran 2026

Gönderilme Tarihi

20 Aralık 2025

Kabul Tarihi

2 Haziran 2026

Yayımlandığı Sayı

Yıl 2026 Cilt: 2 Sayı: 1

DOI

https://doi.org/10.71340/ubsud.1846061

IZ

https://izlik.org/JA88BW65GE

Kaynak Göster

RIS / Bibtex

APA

Avcı, R., Kayabaşı Koru, G., & Avcı, Y. Z. (2026). Xgboost ve Shap Kullanılarak Açıklanabilir Kimlik Avı Tespiti: Web Sitesi İçeriği ve URL Yapısı Veri Setleri Üzerine Karşılaştırmalı Bir Çalışma. ULUSLARARASI BİLİŞİM SİSTEMLERİ VE UYGULAMALARI DERGİSİ, 2(1), 90-111. https://doi.org/10.71340/ubsud.1846061

AMA

1.Avcı R, Kayabaşı Koru G, Avcı YZ. Xgboost ve Shap Kullanılarak Açıklanabilir Kimlik Avı Tespiti: Web Sitesi İçeriği ve URL Yapısı Veri Setleri Üzerine Karşılaştırmalı Bir Çalışma. ubsud. 2026;2(1):90-111. doi:10.71340/ubsud.1846061

Chicago

Avcı, Rıdvan, Gülsüm Kayabaşı Koru, ve Yasemin Zeynep Avcı. 2026. “Xgboost ve Shap Kullanılarak Açıklanabilir Kimlik Avı Tespiti: Web Sitesi İçeriği ve URL Yapısı Veri Setleri Üzerine Karşılaştırmalı Bir Çalışma”. ULUSLARARASI BİLİŞİM SİSTEMLERİ VE UYGULAMALARI DERGİSİ 2 (1): 90-111. https://doi.org/10.71340/ubsud.1846061.

EndNote

Avcı R, Kayabaşı Koru G, Avcı YZ (01 Haziran 2026) Xgboost ve Shap Kullanılarak Açıklanabilir Kimlik Avı Tespiti: Web Sitesi İçeriği ve URL Yapısı Veri Setleri Üzerine Karşılaştırmalı Bir Çalışma. ULUSLARARASI BİLİŞİM SİSTEMLERİ VE UYGULAMALARI DERGİSİ 2 1 90–111.

IEEE

[1]R. Avcı, G. Kayabaşı Koru, ve Y. Z. Avcı, “Xgboost ve Shap Kullanılarak Açıklanabilir Kimlik Avı Tespiti: Web Sitesi İçeriği ve URL Yapısı Veri Setleri Üzerine Karşılaştırmalı Bir Çalışma”, ubsud, c. 2, sy 1, ss. 90–111, Haz. 2026, doi: 10.71340/ubsud.1846061.

ISNAD

Avcı, Rıdvan - Kayabaşı Koru, Gülsüm - Avcı, Yasemin Zeynep. “Xgboost ve Shap Kullanılarak Açıklanabilir Kimlik Avı Tespiti: Web Sitesi İçeriği ve URL Yapısı Veri Setleri Üzerine Karşılaştırmalı Bir Çalışma”. ULUSLARARASI BİLİŞİM SİSTEMLERİ VE UYGULAMALARI DERGİSİ 2/1 (01 Haziran 2026): 90-111. https://doi.org/10.71340/ubsud.1846061.

JAMA

1.Avcı R, Kayabaşı Koru G, Avcı YZ. Xgboost ve Shap Kullanılarak Açıklanabilir Kimlik Avı Tespiti: Web Sitesi İçeriği ve URL Yapısı Veri Setleri Üzerine Karşılaştırmalı Bir Çalışma. ubsud. 2026;2:90–111.

MLA

Avcı, Rıdvan, vd. “Xgboost ve Shap Kullanılarak Açıklanabilir Kimlik Avı Tespiti: Web Sitesi İçeriği ve URL Yapısı Veri Setleri Üzerine Karşılaştırmalı Bir Çalışma”. ULUSLARARASI BİLİŞİM SİSTEMLERİ VE UYGULAMALARI DERGİSİ, c. 2, sy 1, Haziran 2026, ss. 90-111, doi:10.71340/ubsud.1846061.

Vancouver

1.Rıdvan Avcı, Gülsüm Kayabaşı Koru, Yasemin Zeynep Avcı. Xgboost ve Shap Kullanılarak Açıklanabilir Kimlik Avı Tespiti: Web Sitesi İçeriği ve URL Yapısı Veri Setleri Üzerine Karşılaştırmalı Bir Çalışma. ubsud. 01 Haziran 2026;2(1):90-111. doi:10.71340/ubsud.1846061