Elektronik posta, internet üzerinden gönderilen bir tür dijital mektuptur. Elektronik postalar aracılığı ile belge, resim, video, müzik gibi her türlü dosya gönderilip alınabilmektedir. Düşük maliyeti nedeniyle sıklıkla tercih edilmektedir. Elektronik postalar zaman ve para tasarrufu sağladığı için etkili bir iletişim yoludur. Düşük maliyetinden ve kullanımının kolaylığından dolayı reklam yapmak isteyenler tarafından etkin bir şekilde kullanılmaktadır. Bunun yanında siber saldırganlar da kurbanlarına bu tür elektronik postalar göndererek onlara zarar verebilmektedirler. Bu durumların önüne geçebilmek için, günümüzde makine öğrenmesi algoritmalarıyla spam elektronik postaları sınıflayan modeller tasarlanmaktadır. Bu çalışmanın amacı da spam tespiti konusunda literatürde sıklıkla yer alan Word2Vec ve Term Frequency – Inverse Document Frequency(TF-IDF) yöntemlerinin karşılaştırılmasını Türkçe bir veri seti üzerinde yapmak ve daha önce bahsedilen veri seti üzerinde yapılan çalışmalara göre başarı oranını artırmaktır. Bu amaç doğrultusunda, daha önce yapılan çalışmalar incelendiğinde, çalışmaların genellikle İngilizce veri setleri üzerinde yoğunlaştığı görülmektedir. Bu konudaki eksiği gidermek adına, Türkçe veri seti üzerinde yapılan bu çalışmada bahsedilen özellik çıkarma yöntemlerinin karşılaştırılması yapılarak iki farklı model oluşturulmuştur. Bu modellerde farklı sınıflayıcılar da kullanılarak en etkili yöntemin öne çıkarılması hedeflenmiştir.
Electronic mail is a kind of digital letter sent over the Internet. A lot of documents such as, images, videos, and music can be transferred via electronic mail. E-mails are often preferred due to their cheapness and easy usage. E-mail is an effective way of communication as it saves time and money. E-mails are used due to its easy usage and low cost by the people who want to advertise their products. Also, hackers can hurt their victims by sending e-mails to them. Nowadays, to prevent these situations, classifiers of the spam electronic mails with some machine algorithms are designed. The aim of this study is to compare Word2Vec and Term Frequency – Inverse Document Frequency (TF-IDF) methods which are frequently included in the literature on Spam Detection, on a Turkish data set and to increase the success rate over previous studies on the related data set. For this purpose, when the previous studies are examined, it is seen that studies generally focus on English data sets. In order to eliminate the lack in this matter, by comparing the mentioned feature extraction methods, two different models are created on a Turkish data set in this study. It is aimed to highlight the most effective method by using different classifiers in these models.
Primary Language | Turkish |
---|---|
Subjects | Engineering |
Journal Section | Articles |
Authors | |
Publication Date | December 31, 2021 |
Submission Date | May 9, 2021 |
Acceptance Date | October 22, 2021 |
Published in Issue | Year 2021 Volume: 8 Issue: 2 |