Research Article
BibTex RIS Cite

Makine Öğrenmesi Yöntemleri ile Web’den Bilgi Çıkarımı Sürecinin İyileştirilmesi

Year 2020, Volume: 3 Issue: 2, 52 - 59, 15.12.2020

Abstract

Web ortamı bilginin doğduğu, yayıldığı ve yaşadığı bir formata sahiptir. Gün geçtikte bilgi morfolojik olarak değişim geçirmekte ve bu değişimle birlikte avantajlar yanında istenilen anlamlı bilgiye ulaşmada zorluklar artmaktadır. Zaman, depolama, iletişim ve veri işleme maliyetleri açısından istenilen bilgiye en verimli şekilde ulaşmak kritik bir görevdir. Bunun yanında verinin yaşam süreci boyunca kullanılabilirliğini de artırabilir. Web sayfalarının “layout” adı verilen bölümlerinin sınıflandırılması bu sorunların çözümüne önemli katkılar sağlayabilir. Özellikle bu bölümlerdeki gereksiz içeriğin bilinmesi faydalı ve anlamlı bilgiye ulaşmayı kolaylaştırıcı ve maliyetleri düşürücü etki sağlayabilir. Bu çalışma makine öğrenmesi yöntemleri ile web sayfası bölümlerinin sınıflandırılması sürecini iyileştirmek amacıyla farklı algoritmalara odaklanmış ve bu algoritmaların iyileştirici sonuçlarını ortaya koymaktadır. Elde edilen sonuçlara göre Random Forest ve KStar algoritmalarının süreci iyileştirici çözümleri olduğu görülmüştür. Random Forest algoritması %98.4602 doğru sınıflandırma oranı sunarken, KStar hız faktörüyle öne çıkmıştır. Çalışmada ayrıca özellikle ağaç ve entropi tabanlı algoritmaların başarımları da karşılaştırılmış ve bulgular hesaplama zamanlarıyla birlikte sunulmuştur.

Thanks

Bu araştırmada kullanılan verileri sağlayan ve açık erişim şekilde yayınlayarak paylaşan Tekirdağ Namık Kemal Üniversitesi, Çorlu Mühendislik Fakültesi Bilgisayar Mühendisliği Bölümü öğretim üyesi Doç. Dr. Erdinç Uzun a teşekkürlerimi sunarım.

References

  • Uzun, E., Agun, H.V., Yerlikaya, T., 2013. A hybrid approach for extracting informative content from web pages. Inf. Process. Manag. 49, 928–944. https://doi.org/https://doi.org/10.1016/j.ipm.2013.02.005
  • Uzun, E., Serdar Güner, E., Kılıçaslan, Y., Yerlikaya, T., Agun, H.V., 2014. An effective and efficient Web content extractor for optimizing the crawling process. Softw. Pract. Exp. 44, 1181–1199. https://doi.org/10.1002/spe.2195

Improving the Information Extraction Process from the Web with Machine Learning Methods

Year 2020, Volume: 3 Issue: 2, 52 - 59, 15.12.2020

Abstract

The web environment has a format in which information is born, propagated and lived. Information changes morphologically day by day, and with this change, difficulties in reaching the desired meaningful information increase as well as advantages. It is a critical task to reach the desired information in the most efficient way in terms of time, storage, communication and data processing costs. In addition, it can increase the availability of data throughout its life cycle. Classification of the parts of web pages called “layout” can make important contributions to the solution of these problems. In particular, knowing the unnecessary content in these sections can facilitate access to useful and meaningful information and provide a cost-reducing effect. This study focuses on different algorithms in order to improve the process of classifying web page sections with machine learning methods and reveals the improvement results of these algorithms. According to the results, it has been seen that Random Forest and KStar algorithms have process improvement solutions. While the Random Forest algorithm offers 98.4602% correct classification rate, KStar stands out with its speed factor. In the study, especially the performance of tree and entropy-based algorithms were compared and the findings were presented together with the computation times.

References

  • Uzun, E., Agun, H.V., Yerlikaya, T., 2013. A hybrid approach for extracting informative content from web pages. Inf. Process. Manag. 49, 928–944. https://doi.org/https://doi.org/10.1016/j.ipm.2013.02.005
  • Uzun, E., Serdar Güner, E., Kılıçaslan, Y., Yerlikaya, T., Agun, H.V., 2014. An effective and efficient Web content extractor for optimizing the crawling process. Softw. Pract. Exp. 44, 1181–1199. https://doi.org/10.1002/spe.2195
There are 2 citations in total.

Details

Primary Language Turkish
Subjects Engineering
Journal Section Articles
Authors

Erkan Özhan 0000-0002-3971-2676

Publication Date December 15, 2020
Submission Date August 22, 2020
Published in Issue Year 2020 Volume: 3 Issue: 2

Cite

APA Özhan, E. (2020). Makine Öğrenmesi Yöntemleri ile Web’den Bilgi Çıkarımı Sürecinin İyileştirilmesi. International Journal of Engineering Technology and Applied Science, 3(2), 52-59.