Araştırma Makalesi

Spam Tespitinde Word2Vec ve TF-IDF Yöntemlerinin Karşılaştırılması ve Başarı Oranının Artırılması Üzerine Bir Çalışma

Cilt: 8 Sayı: 2 31 Aralık 2021
PDF İndir
TR EN

Spam Tespitinde Word2Vec ve TF-IDF Yöntemlerinin Karşılaştırılması ve Başarı Oranının Artırılması Üzerine Bir Çalışma

Öz

Elektronik posta, internet üzerinden gönderilen bir tür dijital mektuptur. Elektronik postalar aracılığı ile belge, resim, video, müzik gibi her türlü dosya gönderilip alınabilmektedir. Düşük maliyeti nedeniyle sıklıkla tercih edilmektedir. Elektronik postalar zaman ve para tasarrufu sağladığı için etkili bir iletişim yoludur. Düşük maliyetinden ve kullanımının kolaylığından dolayı reklam yapmak isteyenler tarafından etkin bir şekilde kullanılmaktadır. Bunun yanında siber saldırganlar da kurbanlarına bu tür elektronik postalar göndererek onlara zarar verebilmektedirler. Bu durumların önüne geçebilmek için, günümüzde makine öğrenmesi algoritmalarıyla spam elektronik postaları sınıflayan modeller tasarlanmaktadır. Bu çalışmanın amacı da spam tespiti konusunda literatürde sıklıkla yer alan Word2Vec ve Term Frequency – Inverse Document Frequency(TF-IDF) yöntemlerinin karşılaştırılmasını Türkçe bir veri seti üzerinde yapmak ve daha önce bahsedilen veri seti üzerinde yapılan çalışmalara göre başarı oranını artırmaktır. Bu amaç doğrultusunda, daha önce yapılan çalışmalar incelendiğinde, çalışmaların genellikle İngilizce veri setleri üzerinde yoğunlaştığı görülmektedir. Bu konudaki eksiği gidermek adına, Türkçe veri seti üzerinde yapılan bu çalışmada bahsedilen özellik çıkarma yöntemlerinin karşılaştırılması yapılarak iki farklı model oluşturulmuştur. Bu modellerde farklı sınıflayıcılar da kullanılarak en etkili yöntemin öne çıkarılması hedeflenmiştir.

Anahtar Kelimeler

Kaynakça

  1. Akçetin, E. & Çelik, U. (2015). İstenmeyen Elektronik Posta (Spam) Tespitinde Karar Ağacı Algoritmalarının Performans Kıyaslaması. İnternet Uygulamaları ve Yönetimi Dergisi, 5(2), 43-56.
  2. Sharaff A., Nagwani N. K. & Dhadse A. (2016). Comparative Study of Classification Algorithms for Spam Email Detection. Emerging Research in Computing, Information, Communication and Applications. Springer, New Delhi, India.
  3. Bozkır, A. S., Şahin, E., Aydos, M., Akçapınar Sezer, E. & Orhan, F. (2017). Spam E-Mail ClassificationbyUtilizing N-Gram Fatures of HyperlinkTexts. The 11th IEEE International Conference AICT2017. 20-22 September, Moscow, Russia, 1-5.
  4. Nazlı, N. (2018). Analysis of Machine Learning-Based Spam Fİlter Techniques. Yüksek Lisans Tezi, Çankaya Üniversitesi, Fen Bilimleri Enstitüsü, Ankara.
  5. Shajideen, N. M. & Bindu, V. (2018). Spam Filtering: A Comparison Between Different Machine Learning Classifiers. Proceedings of the 2nd International conference on Electronics, Communication and Aerospace Technology (ICECA 2018). 29-31 March, Coimbatore, India ,1919-1922.
  6. Özdemir, C., Kaya, Y. & Minaz, M. R. (2018). Motif Örüntüler Yöntemi ile Spam E-Postaların Filtrelenmesi. Uluslararası Mühendislik ve Teknoloji Sempozyumu (IETS’18). 3-5 Mayıs, Batman, 755.
  7. Dada, E.G. & Joseph, S.B. (2018). Random Forests Machine Learning Technique for Email Spam Filtering. University of Maiduguri Seminar Series,9(1).
  8. Aydoğan, M. & Karcı, A. (2018). Apache Spark ile Naïve Bayes Yöntemi Kullanarak Spam Mail Tespiti. International Conference on Artificial Intelligence and Data Processing (IDAP 2018). 28-30 Eylül, Malatya, 1-6.

Ayrıntılar

Birincil Dil

Türkçe

Konular

Mühendislik

Bölüm

Araştırma Makalesi

Yayımlanma Tarihi

31 Aralık 2021

Gönderilme Tarihi

9 Mayıs 2021

Kabul Tarihi

22 Ekim 2021

Yayımlandığı Sayı

Yıl 2021 Cilt: 8 Sayı: 2

Kaynak Göster

APA
Ekici, B., & Takcı, H. (2021). Spam Tespitinde Word2Vec ve TF-IDF Yöntemlerinin Karşılaştırılması ve Başarı Oranının Artırılması Üzerine Bir Çalışma. Bilecik Şeyh Edebali Üniversitesi Fen Bilimleri Dergisi, 8(2), 646-655. https://doi.org/10.35193/bseufbd.935247
AMA
1.Ekici B, Takcı H. Spam Tespitinde Word2Vec ve TF-IDF Yöntemlerinin Karşılaştırılması ve Başarı Oranının Artırılması Üzerine Bir Çalışma. Bilecik Şeyh Edebali Üniversitesi Fen Bilimleri Dergisi. 2021;8(2):646-655. doi:10.35193/bseufbd.935247
Chicago
Ekici, Burak, ve Hidayet Takcı. 2021. “Spam Tespitinde Word2Vec ve TF-IDF Yöntemlerinin Karşılaştırılması ve Başarı Oranının Artırılması Üzerine Bir Çalışma”. Bilecik Şeyh Edebali Üniversitesi Fen Bilimleri Dergisi 8 (2): 646-55. https://doi.org/10.35193/bseufbd.935247.
EndNote
Ekici B, Takcı H (01 Aralık 2021) Spam Tespitinde Word2Vec ve TF-IDF Yöntemlerinin Karşılaştırılması ve Başarı Oranının Artırılması Üzerine Bir Çalışma. Bilecik Şeyh Edebali Üniversitesi Fen Bilimleri Dergisi 8 2 646–655.
IEEE
[1]B. Ekici ve H. Takcı, “Spam Tespitinde Word2Vec ve TF-IDF Yöntemlerinin Karşılaştırılması ve Başarı Oranının Artırılması Üzerine Bir Çalışma”, Bilecik Şeyh Edebali Üniversitesi Fen Bilimleri Dergisi, c. 8, sy 2, ss. 646–655, Ara. 2021, doi: 10.35193/bseufbd.935247.
ISNAD
Ekici, Burak - Takcı, Hidayet. “Spam Tespitinde Word2Vec ve TF-IDF Yöntemlerinin Karşılaştırılması ve Başarı Oranının Artırılması Üzerine Bir Çalışma”. Bilecik Şeyh Edebali Üniversitesi Fen Bilimleri Dergisi 8/2 (01 Aralık 2021): 646-655. https://doi.org/10.35193/bseufbd.935247.
JAMA
1.Ekici B, Takcı H. Spam Tespitinde Word2Vec ve TF-IDF Yöntemlerinin Karşılaştırılması ve Başarı Oranının Artırılması Üzerine Bir Çalışma. Bilecik Şeyh Edebali Üniversitesi Fen Bilimleri Dergisi. 2021;8:646–655.
MLA
Ekici, Burak, ve Hidayet Takcı. “Spam Tespitinde Word2Vec ve TF-IDF Yöntemlerinin Karşılaştırılması ve Başarı Oranının Artırılması Üzerine Bir Çalışma”. Bilecik Şeyh Edebali Üniversitesi Fen Bilimleri Dergisi, c. 8, sy 2, Aralık 2021, ss. 646-55, doi:10.35193/bseufbd.935247.
Vancouver
1.Burak Ekici, Hidayet Takcı. Spam Tespitinde Word2Vec ve TF-IDF Yöntemlerinin Karşılaştırılması ve Başarı Oranının Artırılması Üzerine Bir Çalışma. Bilecik Şeyh Edebali Üniversitesi Fen Bilimleri Dergisi. 01 Aralık 2021;8(2):646-55. doi:10.35193/bseufbd.935247

Cited By