This study proposes a hybrid deep learning model that processes both textual and visual content for web site classification. The amount of accessible information services on the internet is increasing daily, and within this intense data flow, accurately classifying web sites based on their content is crucial. To develop a deep learning model capable of performing this classification for users, 430 website addresses were selected from the UT1 Blacklist, published by Université Toulouse, and divided into three categories: shopping, news, and gaming. The proposed model uses Long Short-Term Memory (LSTM) for processing the textual content of websites and Convolutional Neural Network (CNN) for analyzing visual data. An Artificial Neural Network (ANN) combining the outputs of LSTM and CNN models performs the final classification. The performance of the proposed website classification model (DeepCLA-Web), which processes visual data with CNN, text with LSTM, and makes the final decision with ANN, was compared to a CNN model using only visual data and an LSTM model using only textual data based on commonly used metrics in the literature. The CNN model achieved an accuracy of 59.22%, the LSTM model 75.85%, while the proposed DeepCLA-Web reached 80.89% accuracy.
Web site classification Hybrid deep learning LongS hort-Term Memory Convolutional Neural Network
Bu çalışmada, web sitelerinin sınıflandırılması için metin ve görsel içerikleri işleyen hibrit bir derin öğrenme modeli önerilmektedir. İnternette erişilebilen bilgi hizmetlerinin miktarı her geçen gün artmakta olup, yoğun veri akışı içinde web sitelerinin içeriğe göre doğru sınıflandırılması önem arz etmektedir. Kullanıcılar için bu işlemi yapabilecek bir derin öğrenme modeli oluşturmak amacıyla, Université Toulouse tarafından yayınlanan UT1 Blacklist içerisinden 430 web adresi seçilmiş ve bu adresler alışveriş, haber ve oyun olmak üzere üç kategoriye ayrılmıştır. Önerilen model, web sitelerinin metin içeriklerini işlemek için Uzun Kısa Süreli Bellek (LSTM) kullanırken, görüntü verilerini analiz etmek için Evrişimli Sinir Ağı (CNN) kullanmaktadır. LSTM ve CNN modellerinin çıktısını birleştiren bir Yapay Sinir Ağı (ANN) nihai sınıflandırmayı gerçekleştirmektedir. CNN ile görsel, LSTM ile metin işleyerek ANN ile nihai karar veren, önerilen web sitesi sınıflandırma modelinin (DeepCLA-Web) başarımı, sadece görsel verileri kullanan CNN modeli ve sadece metin verileri kullanan LSTM modeli ile literatürde sık kullanılan metrikler üzerinden kıyaslanmıştır. CNN modeli %59,22, LSTM modeli %75,85 doğruluk oranına ulaşırken, önerilen DeepCLA-Web %80,89 doğruluk oranına ulaşmıştır.
| Primary Language | Turkish |
|---|---|
| Subjects | Deep Learning |
| Journal Section | Makaleler |
| Authors | |
| Early Pub Date | August 26, 2025 |
| Publication Date | August 31, 2025 |
| Submission Date | February 13, 2025 |
| Acceptance Date | May 4, 2025 |
| Published in Issue | Year 2025 Volume: 7 Issue: 2 |