Research Article

Spam Tespitinde Word2Vec ve TF-IDF Yöntemlerinin Karşılaştırılması ve Başarı Oranının Artırılması Üzerine Bir Çalışma

Volume: 8 Number: 2 December 31, 2021
TR EN

Spam Tespitinde Word2Vec ve TF-IDF Yöntemlerinin Karşılaştırılması ve Başarı Oranının Artırılması Üzerine Bir Çalışma

Abstract

Elektronik posta, internet üzerinden gönderilen bir tür dijital mektuptur. Elektronik postalar aracılığı ile belge, resim, video, müzik gibi her türlü dosya gönderilip alınabilmektedir. Düşük maliyeti nedeniyle sıklıkla tercih edilmektedir. Elektronik postalar zaman ve para tasarrufu sağladığı için etkili bir iletişim yoludur. Düşük maliyetinden ve kullanımının kolaylığından dolayı reklam yapmak isteyenler tarafından etkin bir şekilde kullanılmaktadır. Bunun yanında siber saldırganlar da kurbanlarına bu tür elektronik postalar göndererek onlara zarar verebilmektedirler. Bu durumların önüne geçebilmek için, günümüzde makine öğrenmesi algoritmalarıyla spam elektronik postaları sınıflayan modeller tasarlanmaktadır. Bu çalışmanın amacı da spam tespiti konusunda literatürde sıklıkla yer alan Word2Vec ve Term Frequency – Inverse Document Frequency(TF-IDF) yöntemlerinin karşılaştırılmasını Türkçe bir veri seti üzerinde yapmak ve daha önce bahsedilen veri seti üzerinde yapılan çalışmalara göre başarı oranını artırmaktır. Bu amaç doğrultusunda, daha önce yapılan çalışmalar incelendiğinde, çalışmaların genellikle İngilizce veri setleri üzerinde yoğunlaştığı görülmektedir. Bu konudaki eksiği gidermek adına, Türkçe veri seti üzerinde yapılan bu çalışmada bahsedilen özellik çıkarma yöntemlerinin karşılaştırılması yapılarak iki farklı model oluşturulmuştur. Bu modellerde farklı sınıflayıcılar da kullanılarak en etkili yöntemin öne çıkarılması hedeflenmiştir.

Keywords

References

  1. Akçetin, E. & Çelik, U. (2015). İstenmeyen Elektronik Posta (Spam) Tespitinde Karar Ağacı Algoritmalarının Performans Kıyaslaması. İnternet Uygulamaları ve Yönetimi Dergisi, 5(2), 43-56.
  2. Sharaff A., Nagwani N. K. & Dhadse A. (2016). Comparative Study of Classification Algorithms for Spam Email Detection. Emerging Research in Computing, Information, Communication and Applications. Springer, New Delhi, India.
  3. Bozkır, A. S., Şahin, E., Aydos, M., Akçapınar Sezer, E. & Orhan, F. (2017). Spam E-Mail ClassificationbyUtilizing N-Gram Fatures of HyperlinkTexts. The 11th IEEE International Conference AICT2017. 20-22 September, Moscow, Russia, 1-5.
  4. Nazlı, N. (2018). Analysis of Machine Learning-Based Spam Fİlter Techniques. Yüksek Lisans Tezi, Çankaya Üniversitesi, Fen Bilimleri Enstitüsü, Ankara.
  5. Shajideen, N. M. & Bindu, V. (2018). Spam Filtering: A Comparison Between Different Machine Learning Classifiers. Proceedings of the 2nd International conference on Electronics, Communication and Aerospace Technology (ICECA 2018). 29-31 March, Coimbatore, India ,1919-1922.
  6. Özdemir, C., Kaya, Y. & Minaz, M. R. (2018). Motif Örüntüler Yöntemi ile Spam E-Postaların Filtrelenmesi. Uluslararası Mühendislik ve Teknoloji Sempozyumu (IETS’18). 3-5 Mayıs, Batman, 755.
  7. Dada, E.G. & Joseph, S.B. (2018). Random Forests Machine Learning Technique for Email Spam Filtering. University of Maiduguri Seminar Series,9(1).
  8. Aydoğan, M. & Karcı, A. (2018). Apache Spark ile Naïve Bayes Yöntemi Kullanarak Spam Mail Tespiti. International Conference on Artificial Intelligence and Data Processing (IDAP 2018). 28-30 Eylül, Malatya, 1-6.

Details

Primary Language

Turkish

Subjects

Engineering

Journal Section

Research Article

Publication Date

December 31, 2021

Submission Date

May 9, 2021

Acceptance Date

October 22, 2021

Published in Issue

Year 2021 Volume: 8 Number: 2

APA
Ekici, B., & Takcı, H. (2021). Spam Tespitinde Word2Vec ve TF-IDF Yöntemlerinin Karşılaştırılması ve Başarı Oranının Artırılması Üzerine Bir Çalışma. Bilecik Şeyh Edebali Üniversitesi Fen Bilimleri Dergisi, 8(2), 646-655. https://doi.org/10.35193/bseufbd.935247
AMA
1.Ekici B, Takcı H. Spam Tespitinde Word2Vec ve TF-IDF Yöntemlerinin Karşılaştırılması ve Başarı Oranının Artırılması Üzerine Bir Çalışma. Bilecik Şeyh Edebali Üniversitesi Fen Bilimleri Dergisi. 2021;8(2):646-655. doi:10.35193/bseufbd.935247
Chicago
Ekici, Burak, and Hidayet Takcı. 2021. “Spam Tespitinde Word2Vec Ve TF-IDF Yöntemlerinin Karşılaştırılması Ve Başarı Oranının Artırılması Üzerine Bir Çalışma”. Bilecik Şeyh Edebali Üniversitesi Fen Bilimleri Dergisi 8 (2): 646-55. https://doi.org/10.35193/bseufbd.935247.
EndNote
Ekici B, Takcı H (December 1, 2021) Spam Tespitinde Word2Vec ve TF-IDF Yöntemlerinin Karşılaştırılması ve Başarı Oranının Artırılması Üzerine Bir Çalışma. Bilecik Şeyh Edebali Üniversitesi Fen Bilimleri Dergisi 8 2 646–655.
IEEE
[1]B. Ekici and H. Takcı, “Spam Tespitinde Word2Vec ve TF-IDF Yöntemlerinin Karşılaştırılması ve Başarı Oranının Artırılması Üzerine Bir Çalışma”, Bilecik Şeyh Edebali Üniversitesi Fen Bilimleri Dergisi, vol. 8, no. 2, pp. 646–655, Dec. 2021, doi: 10.35193/bseufbd.935247.
ISNAD
Ekici, Burak - Takcı, Hidayet. “Spam Tespitinde Word2Vec Ve TF-IDF Yöntemlerinin Karşılaştırılması Ve Başarı Oranının Artırılması Üzerine Bir Çalışma”. Bilecik Şeyh Edebali Üniversitesi Fen Bilimleri Dergisi 8/2 (December 1, 2021): 646-655. https://doi.org/10.35193/bseufbd.935247.
JAMA
1.Ekici B, Takcı H. Spam Tespitinde Word2Vec ve TF-IDF Yöntemlerinin Karşılaştırılması ve Başarı Oranının Artırılması Üzerine Bir Çalışma. Bilecik Şeyh Edebali Üniversitesi Fen Bilimleri Dergisi. 2021;8:646–655.
MLA
Ekici, Burak, and Hidayet Takcı. “Spam Tespitinde Word2Vec Ve TF-IDF Yöntemlerinin Karşılaştırılması Ve Başarı Oranının Artırılması Üzerine Bir Çalışma”. Bilecik Şeyh Edebali Üniversitesi Fen Bilimleri Dergisi, vol. 8, no. 2, Dec. 2021, pp. 646-55, doi:10.35193/bseufbd.935247.
Vancouver
1.Burak Ekici, Hidayet Takcı. Spam Tespitinde Word2Vec ve TF-IDF Yöntemlerinin Karşılaştırılması ve Başarı Oranının Artırılması Üzerine Bir Çalışma. Bilecik Şeyh Edebali Üniversitesi Fen Bilimleri Dergisi. 2021 Dec. 1;8(2):646-55. doi:10.35193/bseufbd.935247

Cited By