Araştırma Makalesi

Metin Madenciliği, Makine ve Derin Öğrenme Algoritmaları ile Web Sayfalarının Sınıflandırılması

Cilt: 5 Sayı: 2 31 Aralık 2019
PDF İndir
TR EN

Metin Madenciliği, Makine ve Derin Öğrenme Algoritmaları ile Web Sayfalarının Sınıflandırılması

Öz

Web sitelerin sayısı hızlı bir şekilde artmakta ve bu sitelerde bulunabilecek zararlı içeriği engellemek ya da yararlı bilgilere daha kolay ulaşmak için, Web sayfalarını içerikleri doğrultusunda sınıflandırmak bir çözüm olarak ortaya çıkmaktadır. Sınıflandırma sayesinde, belirli sitelerin erişimine izin verilebilir veya bunları engellemek için Web siteleri filtrelenebilir. Bu çalışmada, farklı makine öğrenmesi yöntemleri ve yapay sinir ağları kullanılarak Web sitesi sınıflandırma problemi incelenmiştir. Bu sınıflandırma probleminin çözümü için, İkili Sınıflandırma ve Çoklu Sınıflandırma olarak iki farklı yaklaşım uygulanmış, her iki yaklaşım da çalışma kapsamında toplanan Web siteleri üzerinde test edilip, başarımları karşılaştırılmıştır. Tüm deneysel sonuçlar göz önüne alındığında İkili Sınıflandırma yaklaşımının, sadece istenilen bir Web site sınıfının filtrelenmesi görevini yerine getirmek için kullanıldığında daha etkili olacağı tespit edilmiştir. Başarıma bakıldığında ikili sınıflandırıcılar için en iyi performans gösteren algoritma Lojistik Regresyondur. Çoklu Sınıflandırma yaklaşımında uygulanan algoritmaları arasından ise en yüksek başarıma sahip yöntem Destek Vektör Makineleri (SVM) olmuştur. Ayrıca, Çoklu Sınıflandırma problemi için farklı kelime vektörleştirme yöntemleri denenmiş ve performansları karşılaştırılmıştır. İkili ve Çoklu sınıflandırma yaklaşımlarında kullanılan algoritmalarının ayrı ayrı ve farklı vektörleştirme yöntemleri ile denenmesi, Web sayfalarının sınıflandırılması ve içerik filtrelenmesi problemlerini birlikte ele alınmasını sağlamış olup, alandaki benzer çalışmalardan farkı ortaya konmuştur.

Anahtar Kelimeler

Kaynakça

  1. Chen, Y., Cheng, B. ve Cheng, X. (2016). Food safety document classification using LSTM-based ensemble learning. Revista Técnica de la Facultad de Ingeniería Universidad del Zulia, 39(10), 172-178.
  2. Chen, R. C. ve Hsieh, C. H. (2006). Web page classification based on a support vector machine using a weighted vote schema. Expert Systems with Applications, 31(2), 427-435.
  3. Gali, N., Mariescu-Istodor, R. ve Fränti, P. (2017). Using linguistic features to automatically extract web page title. Expert Systems with Applications, 79, 296-312.
  4. Hartmann, J., Huppertz, J., Schamp, C. ve Heitmann, M. (2019). Comparing automated text classification methods. International Journal of Research in Marketing, 36(1), 20-38.
  5. Hilbe, J. M. (2011). Logistic regression. International encyclopedia of statistical science, 755-758.
  6. Internet Live Stats (2019). “Total Number of Websites”, https://www.internetlivestats.com/total-number-of-websites/ (erişim tarihi: 16.05.2019)
  7. Kowsari, K., Jafari Meimandi, K., Heidarysafa, M., Mendu, S., Barnes, L. ve Brown, D. (2019). Text classification algorithms: A survey. Information, 10(4).
  8. Li, Y. H. ve Jain, A. K. (1998). Classification of text documents. The Computer Journal, 41(8), 537-546.

Ayrıntılar

Birincil Dil

Türkçe

Konular

-

Bölüm

Araştırma Makalesi

Yayımlanma Tarihi

31 Aralık 2019

Gönderilme Tarihi

7 Kasım 2019

Kabul Tarihi

24 Aralık 2019

Yayımlandığı Sayı

Yıl 2019 Cilt: 5 Sayı: 2

Kaynak Göster

APA
Chouseinoglou, O., & Şahin, İ. (2019). Metin Madenciliği, Makine ve Derin Öğrenme Algoritmaları ile Web Sayfalarının Sınıflandırılması. Yönetim Bilişim Sistemleri Dergisi, 5(2), 29-43. https://izlik.org/JA66WK52KD
AMA
1.Chouseinoglou O, Şahin İ. Metin Madenciliği, Makine ve Derin Öğrenme Algoritmaları ile Web Sayfalarının Sınıflandırılması. Yönetim Bilişim Sistemleri Dergisi. 2019;5(2):29-43. https://izlik.org/JA66WK52KD
Chicago
Chouseinoglou, Oumout, ve İlker Şahin. 2019. “Metin Madenciliği, Makine ve Derin Öğrenme Algoritmaları ile Web Sayfalarının Sınıflandırılması”. Yönetim Bilişim Sistemleri Dergisi 5 (2): 29-43. https://izlik.org/JA66WK52KD.
EndNote
Chouseinoglou O, Şahin İ (01 Aralık 2019) Metin Madenciliği, Makine ve Derin Öğrenme Algoritmaları ile Web Sayfalarının Sınıflandırılması. Yönetim Bilişim Sistemleri Dergisi 5 2 29–43.
IEEE
[1]O. Chouseinoglou ve İ. Şahin, “Metin Madenciliği, Makine ve Derin Öğrenme Algoritmaları ile Web Sayfalarının Sınıflandırılması”, Yönetim Bilişim Sistemleri Dergisi, c. 5, sy 2, ss. 29–43, Ara. 2019, [çevrimiçi]. Erişim adresi: https://izlik.org/JA66WK52KD
ISNAD
Chouseinoglou, Oumout - Şahin, İlker. “Metin Madenciliği, Makine ve Derin Öğrenme Algoritmaları ile Web Sayfalarının Sınıflandırılması”. Yönetim Bilişim Sistemleri Dergisi 5/2 (01 Aralık 2019): 29-43. https://izlik.org/JA66WK52KD.
JAMA
1.Chouseinoglou O, Şahin İ. Metin Madenciliği, Makine ve Derin Öğrenme Algoritmaları ile Web Sayfalarının Sınıflandırılması. Yönetim Bilişim Sistemleri Dergisi. 2019;5:29–43.
MLA
Chouseinoglou, Oumout, ve İlker Şahin. “Metin Madenciliği, Makine ve Derin Öğrenme Algoritmaları ile Web Sayfalarının Sınıflandırılması”. Yönetim Bilişim Sistemleri Dergisi, c. 5, sy 2, Aralık 2019, ss. 29-43, https://izlik.org/JA66WK52KD.
Vancouver
1.Oumout Chouseinoglou, İlker Şahin. Metin Madenciliği, Makine ve Derin Öğrenme Algoritmaları ile Web Sayfalarının Sınıflandırılması. Yönetim Bilişim Sistemleri Dergisi [Internet]. 01 Aralık 2019;5(2):29-43. Erişim adresi: https://izlik.org/JA66WK52KD