The internet holds a significant role in all aspects of our lives, and its importance continues to grow each day. Therefore, the usability of the Internet holds great significance. Low data quality and disinformation severely impact the usability of the internet. Consequently, people face challenges in obtaining accurate and clear information. In the present day, websites predominantly feature image-based content like pictures and videos, as opposed to text-based content. The classification of such content holds immense importance for search engines. As a result, the classification of web pages stands as a crucial research area for scholars. This study focuses on the classification of image-based web pages. A deep learning-based approach is proposed to categorize web pages into four main groups: tourism, machinery, music, and sports. The suggested method yielded the most favourable outcomes when utilizing the Stochastic Gradient Descent (SGD) optimization method, achieving an accuracy of 0.9737, a recall of 0.9474, an F1 score of 0.9474, and an Area Under the ROC Curve (AUC) value of 0.9649. Furthermore, the utilization of Deep Learning (DL) led to achieving the most advanced results in web page classification within the existing literature, particularly on the WebScreenshots dataset.
İnternet hayatımızın her alanında önemli bir yere sahip ve önemi her geçen gün artmaya devam ediyor. Bu nedenle internetin kullanılabilirliği büyük önem taşımaktadır. Düşük veri kalitesi ve dezenformasyon, internetin kullanılabilirliğini ciddi şekilde etkilemektedir. Bu nedenle insanlar doğru ve temiz bilgiye ulaşma konusunda zorluklarla karşılaşmaktadır. Günümüzde web sitelerinde metin tabanlı içerik yerine ağırlıklı olarak resim ve video gibi görsel tabanlı içerikler daha çok yer almaktadır. Bu tür içeriklerin sınıflandırılması arama motorları için büyük önem taşımaktadır. Sonuç olarak web sayfalarının sınıflandırılması bilim insanları için önemli bir araştırma alanı olarak karşımıza çıkmaktadır. Bu çalışma görsel tabanlı web sayfalarının sınıflandırılmasına odaklanmaktadır. Web sayfalarını turizm, makine, müzik ve spor olmak üzere dört ana grupta sınıflandırmak için derin öğrenmeye dayalı bir yöntem önerilmiştir. Önerilen yöntem, 0,9737 accuracy, 0,9474 recall, 0,9474 F1-score ve 0,9649 AUC değeriyle en iyi sonuçları Stokastik Gradyan İnişi (SGD) optimizasyon yöntemi ile elde etmiştir. Ayrıca, Derin Öğrenmenin (DL) kullanılması, web sayfası sınıflandırmasında, özellikle WebScreenshots veri kümesinde, mevcut literatürdeki en iyi sonuçların elde edilmesini sağlamıştır.
Primary Language | English |
---|---|
Subjects | Computer Software |
Journal Section | Research Articles |
Authors | |
Early Pub Date | March 29, 2024 |
Publication Date | April 30, 2024 |
Submission Date | October 26, 2023 |
Acceptance Date | November 22, 2023 |
Published in Issue | Year 2024 Volume: 10 Issue: 1 |