Düzeltme

Web Tarayıcıları için Etkili Tohum URL Seçimi ve Kapsam Genişletme Algoritması

Cilt: 35 Sayı: 3 30 Eylül 2023
PDF İndir
TR EN

Web Tarayıcıları için Etkili Tohum URL Seçimi ve Kapsam Genişletme Algoritması

Bu makalenin ilk hali 30 Mart 2023 tarihinde yayımlandı. https://dergipark.org.tr/tr/pub/jeps/article/1174193

Düzeltme Notu

Makaleye Tesekkür eklenmesi unutulduğu için TEŞEKKÜR Bu çalışma, TÜBİTAK tarafından BİDEB-2244 Sanayi Doktora Programı kapsamında 118C127 numara ile desteklenen "İnternette Heterojen Veri Kaynaklarından Veri Toplanması, Doğrulanması ve Sorgulanması" başlıklı projenin bir parçasıdır. Sağladığı destek için TÜBİTAK’a teşekkür ederiz.

Öz

Web, hızla büyüyen ve her türden verilerin bulunduğu devasa bir veri kaynağıdır. Kullanıcılar bu veri kaynağından istedikleri verileri almak için arama motorlarını kullanırlar. Arama motorları bu verileri web tarayıcıları ile elde ederler. Web tarayıcıları web sayfalarındaki tek düzen kaynak bulucuları (URL-Uniform Resource Locator) izleyerek ulaştıkları tüm sayfalardaki verileri alır, ayrıştırır ve indekslerler. Web tarama sürecindeki en önemli konular hangi URL’lerden başlanacağı ve taramanın kapsamıdır. Bu yazıda kapsamı tüm web olan genel bir tarayıcının tohum URL seçim ve kapsam genişletme yöntemleri sunulmuştur. Tohum URL seçiminde 102 farklı ülkede ziyaretçinin günlük harcadığı saat, ziyaretçi başına günlük sayfa görüntüleme sayısı, aramadan gelen trafiğin yüzdesi ve toplam bağlı site sayısı temel alınarak oluşturulmuş üç farklı tohum URL seti oluşturulup detaylı bir şekilde performansları analiz edilmiştir. Ayrıca kapsamı hızlı bir şekilde genişletmek için link skoruna dayalı yeni bir tarama algoritması önerilmiş, tohum URL setleri kullanılarak taramalar yapılmış, karşılaştırılmış ve detaylı analizleri yapılmıştır.

Anahtar Kelimeler

Destekleyen Kurum

TÜBİTAK

Proje Numarası

118C127

Teşekkür

Bu çalışma, TÜBİTAK tarafından BİDEB-2244 Sanayi Doktora Programı kapsamında 118C127 numara ile desteklenen "İnternette Heterojen Veri Kaynaklarından Veri Toplanması, Doğrulanması ve Sorgulanması" başlıklı projenin bir parçasıdır. Sağladığı destek için TÜBİTAK’a teşekkür ederiz.

Kaynakça

  1. [1] "Internet Users Distribution in the World." https://www.internetworldstats.com/stats.htm (accessed 30/03/2022, 2022).
  2. [2] M. Abu Kausar, V. Dhaka, and S. Singh, "Web Crawler: A Review," International Journal of Computer Applications, vol. 63, pp. 31-36, 02/01 2013, doi: 10.5120/10440-5125.
  3. [3] S. M. Pavalam, S. V. K. Raja, F. K. Akorli, and M. Jawahar, "A survey of web crawler algorithms," International Journal of Computer Science Issues (IJCSI), vol. 8, no. 6, p. 309, 2011.
  4. [4] F. Menczer, G. Pant, P. Srinivasan, and M. E. Ruiz, "Evaluating topic-driven Web crawlers," in Proceedings of the 24th annual international ACM SIGIR conference on Research and development in information retrieval, 2001, pp. 241-249.
  5. [5] A. Arasu, J. Cho, H. Garcia-Molina, A. Paepcke, and S. Raghavan, "Searching the web," ACM Transactions on Internet Technology (TOIT), vol. 1, no. 1, pp. 2-43, 2001.
  6. [6] C. Castillo, "Effective web crawling," SIGIR Forum, vol. 39, no. 1, pp. 55–56, 2005, doi: 10.1145/1067268.1067287.
  7. [7] X. Zhang and K. P. Chow, "A Framework for Dark Web Threat Intelligence Analysis," International Journal of Digital Crime and Forensics (IJDCF), vol. 10, no. 4, pp. 108-117, 2018, doi: 10.4018/IJDCF.2018100108.
  8. [8] M. R. Henzinger, "Algorithmic challenges in web search engines," Internet Mathematics, vol. 1, no. 1, pp. 115-123, 2004.

Ayrıntılar

Birincil Dil

Türkçe

Konular

Mühendislik

Bölüm

Düzeltme

Yayımlanma Tarihi

30 Eylül 2023

Gönderilme Tarihi

-

Kabul Tarihi

-

Yayımlandığı Sayı

Yıl 2023 Cilt: 35 Sayı: 3

Kaynak Göster

APA
Alanoğlu, Z., & Akçayol, M. (2023). Web Tarayıcıları için Etkili Tohum URL Seçimi ve Kapsam Genişletme Algoritması. International Journal of Advances in Engineering and Pure Sciences, 35(3), 406-417. https://izlik.org/JA72BB63CW
AMA
1.Alanoğlu Z, Akçayol M. Web Tarayıcıları için Etkili Tohum URL Seçimi ve Kapsam Genişletme Algoritması. JEPS. 2023;35(3):406-417. https://izlik.org/JA72BB63CW
Chicago
Alanoğlu, Zülfü, ve Mehmet Akçayol. 2023. “Web Tarayıcıları için Etkili Tohum URL Seçimi ve Kapsam Genişletme Algoritması”. International Journal of Advances in Engineering and Pure Sciences 35 (3): 406-17. https://izlik.org/JA72BB63CW.
EndNote
Alanoğlu Z, Akçayol M (01 Eylül 2023) Web Tarayıcıları için Etkili Tohum URL Seçimi ve Kapsam Genişletme Algoritması. International Journal of Advances in Engineering and Pure Sciences 35 3 406–417.
IEEE
[1]Z. Alanoğlu ve M. Akçayol, “Web Tarayıcıları için Etkili Tohum URL Seçimi ve Kapsam Genişletme Algoritması”, JEPS, c. 35, sy 3, ss. 406–417, Eyl. 2023, [çevrimiçi]. Erişim adresi: https://izlik.org/JA72BB63CW
ISNAD
Alanoğlu, Zülfü - Akçayol, Mehmet. “Web Tarayıcıları için Etkili Tohum URL Seçimi ve Kapsam Genişletme Algoritması”. International Journal of Advances in Engineering and Pure Sciences 35/3 (01 Eylül 2023): 406-417. https://izlik.org/JA72BB63CW.
JAMA
1.Alanoğlu Z, Akçayol M. Web Tarayıcıları için Etkili Tohum URL Seçimi ve Kapsam Genişletme Algoritması. JEPS. 2023;35:406–417.
MLA
Alanoğlu, Zülfü, ve Mehmet Akçayol. “Web Tarayıcıları için Etkili Tohum URL Seçimi ve Kapsam Genişletme Algoritması”. International Journal of Advances in Engineering and Pure Sciences, c. 35, sy 3, Eylül 2023, ss. 406-17, https://izlik.org/JA72BB63CW.
Vancouver
1.Zülfü Alanoğlu, Mehmet Akçayol. Web Tarayıcıları için Etkili Tohum URL Seçimi ve Kapsam Genişletme Algoritması. JEPS [Internet]. 01 Eylül 2023;35(3):406-17. Erişim adresi: https://izlik.org/JA72BB63CW