Research Article

Metin Madenciliği, Makine ve Derin Öğrenme Algoritmaları ile Web Sayfalarının Sınıflandırılması

Volume: 5 Number: 2 December 31, 2019
TR EN

Metin Madenciliği, Makine ve Derin Öğrenme Algoritmaları ile Web Sayfalarının Sınıflandırılması

Abstract

Web sitelerin sayısı hızlı bir şekilde artmakta ve bu sitelerde bulunabilecek zararlı içeriği engellemek ya da yararlı bilgilere daha kolay ulaşmak için, Web sayfalarını içerikleri doğrultusunda sınıflandırmak bir çözüm olarak ortaya çıkmaktadır. Sınıflandırma sayesinde, belirli sitelerin erişimine izin verilebilir veya bunları engellemek için Web siteleri filtrelenebilir. Bu çalışmada, farklı makine öğrenmesi yöntemleri ve yapay sinir ağları kullanılarak Web sitesi sınıflandırma problemi incelenmiştir. Bu sınıflandırma probleminin çözümü için, İkili Sınıflandırma ve Çoklu Sınıflandırma olarak iki farklı yaklaşım uygulanmış, her iki yaklaşım da çalışma kapsamında toplanan Web siteleri üzerinde test edilip, başarımları karşılaştırılmıştır. Tüm deneysel sonuçlar göz önüne alındığında İkili Sınıflandırma yaklaşımının, sadece istenilen bir Web site sınıfının filtrelenmesi görevini yerine getirmek için kullanıldığında daha etkili olacağı tespit edilmiştir. Başarıma bakıldığında ikili sınıflandırıcılar için en iyi performans gösteren algoritma Lojistik Regresyondur. Çoklu Sınıflandırma yaklaşımında uygulanan algoritmaları arasından ise en yüksek başarıma sahip yöntem Destek Vektör Makineleri (SVM) olmuştur. Ayrıca, Çoklu Sınıflandırma problemi için farklı kelime vektörleştirme yöntemleri denenmiş ve performansları karşılaştırılmıştır. İkili ve Çoklu sınıflandırma yaklaşımlarında kullanılan algoritmalarının ayrı ayrı ve farklı vektörleştirme yöntemleri ile denenmesi, Web sayfalarının sınıflandırılması ve içerik filtrelenmesi problemlerini birlikte ele alınmasını sağlamış olup, alandaki benzer çalışmalardan farkı ortaya konmuştur.

Keywords

References

  1. Chen, Y., Cheng, B. ve Cheng, X. (2016). Food safety document classification using LSTM-based ensemble learning. Revista Técnica de la Facultad de Ingeniería Universidad del Zulia, 39(10), 172-178.
  2. Chen, R. C. ve Hsieh, C. H. (2006). Web page classification based on a support vector machine using a weighted vote schema. Expert Systems with Applications, 31(2), 427-435.
  3. Gali, N., Mariescu-Istodor, R. ve Fränti, P. (2017). Using linguistic features to automatically extract web page title. Expert Systems with Applications, 79, 296-312.
  4. Hartmann, J., Huppertz, J., Schamp, C. ve Heitmann, M. (2019). Comparing automated text classification methods. International Journal of Research in Marketing, 36(1), 20-38.
  5. Hilbe, J. M. (2011). Logistic regression. International encyclopedia of statistical science, 755-758.
  6. Internet Live Stats (2019). “Total Number of Websites”, https://www.internetlivestats.com/total-number-of-websites/ (erişim tarihi: 16.05.2019)
  7. Kowsari, K., Jafari Meimandi, K., Heidarysafa, M., Mendu, S., Barnes, L. ve Brown, D. (2019). Text classification algorithms: A survey. Information, 10(4).
  8. Li, Y. H. ve Jain, A. K. (1998). Classification of text documents. The Computer Journal, 41(8), 537-546.

Details

Primary Language

Turkish

Subjects

-

Journal Section

Research Article

Publication Date

December 31, 2019

Submission Date

November 7, 2019

Acceptance Date

December 24, 2019

Published in Issue

Year 2019 Volume: 5 Number: 2

APA
Chouseinoglou, O., & Şahin, İ. (2019). Metin Madenciliği, Makine ve Derin Öğrenme Algoritmaları ile Web Sayfalarının Sınıflandırılması. Yönetim Bilişim Sistemleri Dergisi, 5(2), 29-43. https://izlik.org/JA66WK52KD
AMA
1.Chouseinoglou O, Şahin İ. Metin Madenciliği, Makine ve Derin Öğrenme Algoritmaları ile Web Sayfalarının Sınıflandırılması. Yönetim Bilişim Sistemleri Dergisi. 2019;5(2):29-43. https://izlik.org/JA66WK52KD
Chicago
Chouseinoglou, Oumout, and İlker Şahin. 2019. “Metin Madenciliği, Makine Ve Derin Öğrenme Algoritmaları Ile Web Sayfalarının Sınıflandırılması”. Yönetim Bilişim Sistemleri Dergisi 5 (2): 29-43. https://izlik.org/JA66WK52KD.
EndNote
Chouseinoglou O, Şahin İ (December 1, 2019) Metin Madenciliği, Makine ve Derin Öğrenme Algoritmaları ile Web Sayfalarının Sınıflandırılması. Yönetim Bilişim Sistemleri Dergisi 5 2 29–43.
IEEE
[1]O. Chouseinoglou and İ. Şahin, “Metin Madenciliği, Makine ve Derin Öğrenme Algoritmaları ile Web Sayfalarının Sınıflandırılması”, Yönetim Bilişim Sistemleri Dergisi, vol. 5, no. 2, pp. 29–43, Dec. 2019, [Online]. Available: https://izlik.org/JA66WK52KD
ISNAD
Chouseinoglou, Oumout - Şahin, İlker. “Metin Madenciliği, Makine Ve Derin Öğrenme Algoritmaları Ile Web Sayfalarının Sınıflandırılması”. Yönetim Bilişim Sistemleri Dergisi 5/2 (December 1, 2019): 29-43. https://izlik.org/JA66WK52KD.
JAMA
1.Chouseinoglou O, Şahin İ. Metin Madenciliği, Makine ve Derin Öğrenme Algoritmaları ile Web Sayfalarının Sınıflandırılması. Yönetim Bilişim Sistemleri Dergisi. 2019;5:29–43.
MLA
Chouseinoglou, Oumout, and İlker Şahin. “Metin Madenciliği, Makine Ve Derin Öğrenme Algoritmaları Ile Web Sayfalarının Sınıflandırılması”. Yönetim Bilişim Sistemleri Dergisi, vol. 5, no. 2, Dec. 2019, pp. 29-43, https://izlik.org/JA66WK52KD.
Vancouver
1.Oumout Chouseinoglou, İlker Şahin. Metin Madenciliği, Makine ve Derin Öğrenme Algoritmaları ile Web Sayfalarının Sınıflandırılması. Yönetim Bilişim Sistemleri Dergisi [Internet]. 2019 Dec. 1;5(2):29-43. Available from: https://izlik.org/JA66WK52KD