Makine Öğrenmesi Yöntemleri ile Web’den Bilgi Çıkarımı Sürecinin İyileştirilmesi

Erkan Özhan

Araştırma Makalesi

Makine Öğrenmesi Yöntemleri ile Web’den Bilgi Çıkarımı Sürecinin İyileştirilmesi

Yıl 2020, Cilt: 3 Sayı: 2, 52 - 59, 15.12.2020

Erkan Özhan

Öz

Web ortamı bilginin doğduğu, yayıldığı ve yaşadığı bir formata sahiptir. Gün geçtikte bilgi morfolojik olarak değişim geçirmekte ve bu değişimle birlikte avantajlar yanında istenilen anlamlı bilgiye ulaşmada zorluklar artmaktadır. Zaman, depolama, iletişim ve veri işleme maliyetleri açısından istenilen bilgiye en verimli şekilde ulaşmak kritik bir görevdir. Bunun yanında verinin yaşam süreci boyunca kullanılabilirliğini de artırabilir. Web sayfalarının “layout” adı verilen bölümlerinin sınıflandırılması bu sorunların çözümüne önemli katkılar sağlayabilir. Özellikle bu bölümlerdeki gereksiz içeriğin bilinmesi faydalı ve anlamlı bilgiye ulaşmayı kolaylaştırıcı ve maliyetleri düşürücü etki sağlayabilir. Bu çalışma makine öğrenmesi yöntemleri ile web sayfası bölümlerinin sınıflandırılması sürecini iyileştirmek amacıyla farklı algoritmalara odaklanmış ve bu algoritmaların iyileştirici sonuçlarını ortaya koymaktadır. Elde edilen sonuçlara göre Random Forest ve KStar algoritmalarının süreci iyileştirici çözümleri olduğu görülmüştür. Random Forest algoritması %98.4602 doğru sınıflandırma oranı sunarken, KStar hız faktörüyle öne çıkmıştır. Çalışmada ayrıca özellikle ağaç ve entropi tabanlı algoritmaların başarımları da karşılaştırılmış ve bulgular hesaplama zamanlarıyla birlikte sunulmuştur.

Anahtar Kelimeler

Web bilgi çıkarımı, Makine öğrenmesi, Sınıflandırma, Veri madenciliği

Teşekkür

Bu araştırmada kullanılan verileri sağlayan ve açık erişim şekilde yayınlayarak paylaşan Tekirdağ Namık Kemal Üniversitesi, Çorlu Mühendislik Fakültesi Bilgisayar Mühendisliği Bölümü öğretim üyesi Doç. Dr. Erdinç Uzun a teşekkürlerimi sunarım.

Kaynakça

Uzun, E., Agun, H.V., Yerlikaya, T., 2013. A hybrid approach for extracting informative content from web pages. Inf. Process. Manag. 49, 928–944. https://doi.org/https://doi.org/10.1016/j.ipm.2013.02.005
Uzun, E., Serdar Güner, E., Kılıçaslan, Y., Yerlikaya, T., Agun, H.V., 2014. An effective and efficient Web content extractor for optimizing the crawling process. Softw. Pract. Exp. 44, 1181–1199. https://doi.org/10.1002/spe.2195

Improving the Information Extraction Process from the Web with Machine Learning Methods

Yıl 2020, Cilt: 3 Sayı: 2, 52 - 59, 15.12.2020

Erkan Özhan

Öz

The web environment has a format in which information is born, propagated and lived. Information changes morphologically day by day, and with this change, difficulties in reaching the desired meaningful information increase as well as advantages. It is a critical task to reach the desired information in the most efficient way in terms of time, storage, communication and data processing costs. In addition, it can increase the availability of data throughout its life cycle. Classification of the parts of web pages called “layout” can make important contributions to the solution of these problems. In particular, knowing the unnecessary content in these sections can facilitate access to useful and meaningful information and provide a cost-reducing effect. This study focuses on different algorithms in order to improve the process of classifying web page sections with machine learning methods and reveals the improvement results of these algorithms. According to the results, it has been seen that Random Forest and KStar algorithms have process improvement solutions. While the Random Forest algorithm offers 98.4602% correct classification rate, KStar stands out with its speed factor. In the study, especially the performance of tree and entropy-based algorithms were compared and the findings were presented together with the computation times.

Anahtar Kelimeler

Web information extraction, Machine learning, Classification, Data mining

Kaynakça

Uzun, E., Agun, H.V., Yerlikaya, T., 2013. A hybrid approach for extracting informative content from web pages. Inf. Process. Manag. 49, 928–944. https://doi.org/https://doi.org/10.1016/j.ipm.2013.02.005
Uzun, E., Serdar Güner, E., Kılıçaslan, Y., Yerlikaya, T., Agun, H.V., 2014. An effective and efficient Web content extractor for optimizing the crawling process. Softw. Pract. Exp. 44, 1181–1199. https://doi.org/10.1002/spe.2195

Toplam 2 adet kaynakça vardır.

Ayrıntılar

Birincil Dil	Türkçe
Konular	Mühendislik
Bölüm	Makaleler
Yazarlar	Erkan Özhan 0000-0002-3971-2676
Yayımlanma Tarihi	15 Aralık 2020
Gönderilme Tarihi	22 Ağustos 2020
Yayımlandığı Sayı	Yıl 2020 Cilt: 3 Sayı: 2

Kaynak Göster

APA	Özhan, E. (2020). Makine Öğrenmesi Yöntemleri ile Web’den Bilgi Çıkarımı Sürecinin İyileştirilmesi. International Journal of Engineering Technology and Applied Science, 3(2), 52-59.

Kapak Resmi İndir

Makale Dosyaları

Tam Metin