TR
EN
Spam Tespitinde Word2Vec ve TF-IDF Yöntemlerinin Karşılaştırılması ve Başarı Oranının Artırılması Üzerine Bir Çalışma
Abstract
Elektronik posta, internet üzerinden gönderilen bir tür dijital mektuptur. Elektronik postalar aracılığı ile belge, resim, video, müzik gibi her türlü dosya gönderilip alınabilmektedir. Düşük maliyeti nedeniyle sıklıkla tercih edilmektedir. Elektronik postalar zaman ve para tasarrufu sağladığı için etkili bir iletişim yoludur. Düşük maliyetinden ve kullanımının kolaylığından dolayı reklam yapmak isteyenler tarafından etkin bir şekilde kullanılmaktadır. Bunun yanında siber saldırganlar da kurbanlarına bu tür elektronik postalar göndererek onlara zarar verebilmektedirler. Bu durumların önüne geçebilmek için, günümüzde makine öğrenmesi algoritmalarıyla spam elektronik postaları sınıflayan modeller tasarlanmaktadır. Bu çalışmanın amacı da spam tespiti konusunda literatürde sıklıkla yer alan Word2Vec ve Term Frequency – Inverse Document Frequency(TF-IDF) yöntemlerinin karşılaştırılmasını Türkçe bir veri seti üzerinde yapmak ve daha önce bahsedilen veri seti üzerinde yapılan çalışmalara göre başarı oranını artırmaktır. Bu amaç doğrultusunda, daha önce yapılan çalışmalar incelendiğinde, çalışmaların genellikle İngilizce veri setleri üzerinde yoğunlaştığı görülmektedir. Bu konudaki eksiği gidermek adına, Türkçe veri seti üzerinde yapılan bu çalışmada bahsedilen özellik çıkarma yöntemlerinin karşılaştırılması yapılarak iki farklı model oluşturulmuştur. Bu modellerde farklı sınıflayıcılar da kullanılarak en etkili yöntemin öne çıkarılması hedeflenmiştir.
Keywords
References
- Akçetin, E. & Çelik, U. (2015). İstenmeyen Elektronik Posta (Spam) Tespitinde Karar Ağacı Algoritmalarının Performans Kıyaslaması. İnternet Uygulamaları ve Yönetimi Dergisi, 5(2), 43-56.
- Sharaff A., Nagwani N. K. & Dhadse A. (2016). Comparative Study of Classification Algorithms for Spam Email Detection. Emerging Research in Computing, Information, Communication and Applications. Springer, New Delhi, India.
- Bozkır, A. S., Şahin, E., Aydos, M., Akçapınar Sezer, E. & Orhan, F. (2017). Spam E-Mail ClassificationbyUtilizing N-Gram Fatures of HyperlinkTexts. The 11th IEEE International Conference AICT2017. 20-22 September, Moscow, Russia, 1-5.
- Nazlı, N. (2018). Analysis of Machine Learning-Based Spam Fİlter Techniques. Yüksek Lisans Tezi, Çankaya Üniversitesi, Fen Bilimleri Enstitüsü, Ankara.
- Shajideen, N. M. & Bindu, V. (2018). Spam Filtering: A Comparison Between Different Machine Learning Classifiers. Proceedings of the 2nd International conference on Electronics, Communication and Aerospace Technology (ICECA 2018). 29-31 March, Coimbatore, India ,1919-1922.
- Özdemir, C., Kaya, Y. & Minaz, M. R. (2018). Motif Örüntüler Yöntemi ile Spam E-Postaların Filtrelenmesi. Uluslararası Mühendislik ve Teknoloji Sempozyumu (IETS’18). 3-5 Mayıs, Batman, 755.
- Dada, E.G. & Joseph, S.B. (2018). Random Forests Machine Learning Technique for Email Spam Filtering. University of Maiduguri Seminar Series,9(1).
- Aydoğan, M. & Karcı, A. (2018). Apache Spark ile Naïve Bayes Yöntemi Kullanarak Spam Mail Tespiti. International Conference on Artificial Intelligence and Data Processing (IDAP 2018). 28-30 Eylül, Malatya, 1-6.
Details
Primary Language
Turkish
Subjects
Engineering
Journal Section
Research Article
Publication Date
December 31, 2021
Submission Date
May 9, 2021
Acceptance Date
October 22, 2021
Published in Issue
Year 2021 Volume: 8 Number: 2
APA
Ekici, B., & Takcı, H. (2021). Spam Tespitinde Word2Vec ve TF-IDF Yöntemlerinin Karşılaştırılması ve Başarı Oranının Artırılması Üzerine Bir Çalışma. Bilecik Şeyh Edebali Üniversitesi Fen Bilimleri Dergisi, 8(2), 646-655. https://doi.org/10.35193/bseufbd.935247
AMA
1.Ekici B, Takcı H. Spam Tespitinde Word2Vec ve TF-IDF Yöntemlerinin Karşılaştırılması ve Başarı Oranının Artırılması Üzerine Bir Çalışma. Bilecik Şeyh Edebali Üniversitesi Fen Bilimleri Dergisi. 2021;8(2):646-655. doi:10.35193/bseufbd.935247
Chicago
Ekici, Burak, and Hidayet Takcı. 2021. “Spam Tespitinde Word2Vec Ve TF-IDF Yöntemlerinin Karşılaştırılması Ve Başarı Oranının Artırılması Üzerine Bir Çalışma”. Bilecik Şeyh Edebali Üniversitesi Fen Bilimleri Dergisi 8 (2): 646-55. https://doi.org/10.35193/bseufbd.935247.
EndNote
Ekici B, Takcı H (December 1, 2021) Spam Tespitinde Word2Vec ve TF-IDF Yöntemlerinin Karşılaştırılması ve Başarı Oranının Artırılması Üzerine Bir Çalışma. Bilecik Şeyh Edebali Üniversitesi Fen Bilimleri Dergisi 8 2 646–655.
IEEE
[1]B. Ekici and H. Takcı, “Spam Tespitinde Word2Vec ve TF-IDF Yöntemlerinin Karşılaştırılması ve Başarı Oranının Artırılması Üzerine Bir Çalışma”, Bilecik Şeyh Edebali Üniversitesi Fen Bilimleri Dergisi, vol. 8, no. 2, pp. 646–655, Dec. 2021, doi: 10.35193/bseufbd.935247.
ISNAD
Ekici, Burak - Takcı, Hidayet. “Spam Tespitinde Word2Vec Ve TF-IDF Yöntemlerinin Karşılaştırılması Ve Başarı Oranının Artırılması Üzerine Bir Çalışma”. Bilecik Şeyh Edebali Üniversitesi Fen Bilimleri Dergisi 8/2 (December 1, 2021): 646-655. https://doi.org/10.35193/bseufbd.935247.
JAMA
1.Ekici B, Takcı H. Spam Tespitinde Word2Vec ve TF-IDF Yöntemlerinin Karşılaştırılması ve Başarı Oranının Artırılması Üzerine Bir Çalışma. Bilecik Şeyh Edebali Üniversitesi Fen Bilimleri Dergisi. 2021;8:646–655.
MLA
Ekici, Burak, and Hidayet Takcı. “Spam Tespitinde Word2Vec Ve TF-IDF Yöntemlerinin Karşılaştırılması Ve Başarı Oranının Artırılması Üzerine Bir Çalışma”. Bilecik Şeyh Edebali Üniversitesi Fen Bilimleri Dergisi, vol. 8, no. 2, Dec. 2021, pp. 646-55, doi:10.35193/bseufbd.935247.
Vancouver
1.Burak Ekici, Hidayet Takcı. Spam Tespitinde Word2Vec ve TF-IDF Yöntemlerinin Karşılaştırılması ve Başarı Oranının Artırılması Üzerine Bir Çalışma. Bilecik Şeyh Edebali Üniversitesi Fen Bilimleri Dergisi. 2021 Dec. 1;8(2):646-55. doi:10.35193/bseufbd.935247
Cited By
Türkçe E-postalarda Spam Tespiti için Makine Öğrenme Yöntemlerinin ve Dil Modellerinin Analizi
European Journal of Science and Technology
https://doi.org/10.31590/ejosat.1234079An Analysis of Intelligent Turkish Text Classification Models for Routing Calls in Call Centers: A Case Study on the Republic of Turkiye Ministry of Trade Call Center
Sakarya University Journal of Computer and Information Sciences
https://doi.org/10.35377/saucis...1402414