TR
EN
Spam Tespitinde Word2Vec ve TF-IDF Yöntemlerinin Karşılaştırılması ve Başarı Oranının Artırılması Üzerine Bir Çalışma
Öz
Elektronik posta, internet üzerinden gönderilen bir tür dijital mektuptur. Elektronik postalar aracılığı ile belge, resim, video, müzik gibi her türlü dosya gönderilip alınabilmektedir. Düşük maliyeti nedeniyle sıklıkla tercih edilmektedir. Elektronik postalar zaman ve para tasarrufu sağladığı için etkili bir iletişim yoludur. Düşük maliyetinden ve kullanımının kolaylığından dolayı reklam yapmak isteyenler tarafından etkin bir şekilde kullanılmaktadır. Bunun yanında siber saldırganlar da kurbanlarına bu tür elektronik postalar göndererek onlara zarar verebilmektedirler. Bu durumların önüne geçebilmek için, günümüzde makine öğrenmesi algoritmalarıyla spam elektronik postaları sınıflayan modeller tasarlanmaktadır. Bu çalışmanın amacı da spam tespiti konusunda literatürde sıklıkla yer alan Word2Vec ve Term Frequency – Inverse Document Frequency(TF-IDF) yöntemlerinin karşılaştırılmasını Türkçe bir veri seti üzerinde yapmak ve daha önce bahsedilen veri seti üzerinde yapılan çalışmalara göre başarı oranını artırmaktır. Bu amaç doğrultusunda, daha önce yapılan çalışmalar incelendiğinde, çalışmaların genellikle İngilizce veri setleri üzerinde yoğunlaştığı görülmektedir. Bu konudaki eksiği gidermek adına, Türkçe veri seti üzerinde yapılan bu çalışmada bahsedilen özellik çıkarma yöntemlerinin karşılaştırılması yapılarak iki farklı model oluşturulmuştur. Bu modellerde farklı sınıflayıcılar da kullanılarak en etkili yöntemin öne çıkarılması hedeflenmiştir.
Anahtar Kelimeler
Kaynakça
- Akçetin, E. & Çelik, U. (2015). İstenmeyen Elektronik Posta (Spam) Tespitinde Karar Ağacı Algoritmalarının Performans Kıyaslaması. İnternet Uygulamaları ve Yönetimi Dergisi, 5(2), 43-56.
- Sharaff A., Nagwani N. K. & Dhadse A. (2016). Comparative Study of Classification Algorithms for Spam Email Detection. Emerging Research in Computing, Information, Communication and Applications. Springer, New Delhi, India.
- Bozkır, A. S., Şahin, E., Aydos, M., Akçapınar Sezer, E. & Orhan, F. (2017). Spam E-Mail ClassificationbyUtilizing N-Gram Fatures of HyperlinkTexts. The 11th IEEE International Conference AICT2017. 20-22 September, Moscow, Russia, 1-5.
- Nazlı, N. (2018). Analysis of Machine Learning-Based Spam Fİlter Techniques. Yüksek Lisans Tezi, Çankaya Üniversitesi, Fen Bilimleri Enstitüsü, Ankara.
- Shajideen, N. M. & Bindu, V. (2018). Spam Filtering: A Comparison Between Different Machine Learning Classifiers. Proceedings of the 2nd International conference on Electronics, Communication and Aerospace Technology (ICECA 2018). 29-31 March, Coimbatore, India ,1919-1922.
- Özdemir, C., Kaya, Y. & Minaz, M. R. (2018). Motif Örüntüler Yöntemi ile Spam E-Postaların Filtrelenmesi. Uluslararası Mühendislik ve Teknoloji Sempozyumu (IETS’18). 3-5 Mayıs, Batman, 755.
- Dada, E.G. & Joseph, S.B. (2018). Random Forests Machine Learning Technique for Email Spam Filtering. University of Maiduguri Seminar Series,9(1).
- Aydoğan, M. & Karcı, A. (2018). Apache Spark ile Naïve Bayes Yöntemi Kullanarak Spam Mail Tespiti. International Conference on Artificial Intelligence and Data Processing (IDAP 2018). 28-30 Eylül, Malatya, 1-6.
Ayrıntılar
Birincil Dil
Türkçe
Konular
Mühendislik
Bölüm
Araştırma Makalesi
Yayımlanma Tarihi
31 Aralık 2021
Gönderilme Tarihi
9 Mayıs 2021
Kabul Tarihi
22 Ekim 2021
Yayımlandığı Sayı
Yıl 2021 Cilt: 8 Sayı: 2
APA
Ekici, B., & Takcı, H. (2021). Spam Tespitinde Word2Vec ve TF-IDF Yöntemlerinin Karşılaştırılması ve Başarı Oranının Artırılması Üzerine Bir Çalışma. Bilecik Şeyh Edebali Üniversitesi Fen Bilimleri Dergisi, 8(2), 646-655. https://doi.org/10.35193/bseufbd.935247
AMA
1.Ekici B, Takcı H. Spam Tespitinde Word2Vec ve TF-IDF Yöntemlerinin Karşılaştırılması ve Başarı Oranının Artırılması Üzerine Bir Çalışma. Bilecik Şeyh Edebali Üniversitesi Fen Bilimleri Dergisi. 2021;8(2):646-655. doi:10.35193/bseufbd.935247
Chicago
Ekici, Burak, ve Hidayet Takcı. 2021. “Spam Tespitinde Word2Vec ve TF-IDF Yöntemlerinin Karşılaştırılması ve Başarı Oranının Artırılması Üzerine Bir Çalışma”. Bilecik Şeyh Edebali Üniversitesi Fen Bilimleri Dergisi 8 (2): 646-55. https://doi.org/10.35193/bseufbd.935247.
EndNote
Ekici B, Takcı H (01 Aralık 2021) Spam Tespitinde Word2Vec ve TF-IDF Yöntemlerinin Karşılaştırılması ve Başarı Oranının Artırılması Üzerine Bir Çalışma. Bilecik Şeyh Edebali Üniversitesi Fen Bilimleri Dergisi 8 2 646–655.
IEEE
[1]B. Ekici ve H. Takcı, “Spam Tespitinde Word2Vec ve TF-IDF Yöntemlerinin Karşılaştırılması ve Başarı Oranının Artırılması Üzerine Bir Çalışma”, Bilecik Şeyh Edebali Üniversitesi Fen Bilimleri Dergisi, c. 8, sy 2, ss. 646–655, Ara. 2021, doi: 10.35193/bseufbd.935247.
ISNAD
Ekici, Burak - Takcı, Hidayet. “Spam Tespitinde Word2Vec ve TF-IDF Yöntemlerinin Karşılaştırılması ve Başarı Oranının Artırılması Üzerine Bir Çalışma”. Bilecik Şeyh Edebali Üniversitesi Fen Bilimleri Dergisi 8/2 (01 Aralık 2021): 646-655. https://doi.org/10.35193/bseufbd.935247.
JAMA
1.Ekici B, Takcı H. Spam Tespitinde Word2Vec ve TF-IDF Yöntemlerinin Karşılaştırılması ve Başarı Oranının Artırılması Üzerine Bir Çalışma. Bilecik Şeyh Edebali Üniversitesi Fen Bilimleri Dergisi. 2021;8:646–655.
MLA
Ekici, Burak, ve Hidayet Takcı. “Spam Tespitinde Word2Vec ve TF-IDF Yöntemlerinin Karşılaştırılması ve Başarı Oranının Artırılması Üzerine Bir Çalışma”. Bilecik Şeyh Edebali Üniversitesi Fen Bilimleri Dergisi, c. 8, sy 2, Aralık 2021, ss. 646-55, doi:10.35193/bseufbd.935247.
Vancouver
1.Burak Ekici, Hidayet Takcı. Spam Tespitinde Word2Vec ve TF-IDF Yöntemlerinin Karşılaştırılması ve Başarı Oranının Artırılması Üzerine Bir Çalışma. Bilecik Şeyh Edebali Üniversitesi Fen Bilimleri Dergisi. 01 Aralık 2021;8(2):646-55. doi:10.35193/bseufbd.935247
Cited By
Türkçe E-postalarda Spam Tespiti için Makine Öğrenme Yöntemlerinin ve Dil Modellerinin Analizi
European Journal of Science and Technology
https://doi.org/10.31590/ejosat.1234079An Analysis of Intelligent Turkish Text Classification Models for Routing Calls in Call Centers: A Case Study on the Republic of Turkiye Ministry of Trade Call Center
Sakarya University Journal of Computer and Information Sciences
https://doi.org/10.35377/saucis...1402414