Email, which stands for electronic mail, is a form of digital communication between two or more individuals. These technological instruments that facilitate communication can have a positive and negative impact on our lives due to junk e-mails, widely known as spam mail. These spam messages, which are typically delivered for commercial purposes by organizations/individuals for indirect or direct benefits, not only distract people but also consume a significant amount of system resources such as processing power, memory, and network bandwidth. In this study, a method based on LBP (Local Binary Patterns) feature extraction and statistical pooling is proposed to classify spam or raw (non-spam) images. Two datasets are used to test the proposed method. The ISH dataset is widely used in the literature and contains 1738 images. In addition to this dataset, the dataset our collect consists of 1015 images in total. Feature extraction was performed on these images. Obtained features were classified by SVM (Support Vector Machine) algorithm. In the proposed method, 98.56% and 79.01% accuracy were calculated for the ISH dataset and our collected dataset, respectively. The results obtained were compared with the studies in the literature.
Spam image detection Machine learning LBP feature extraction SVM.
Elektronik posta anlamına gelen e-posta, iki veya daha fazla kişi arasındaki bir dijital iletişim biçimidir. İletişimi kolaylaştıran bu teknolojik araçlar, yaygın olarak spam mail olarak bilinen önemsiz e-postalar nedeniyle hayatımızı olumlu ve olumsuz bir şekilde etkileyebilir. Genellikle kuruluşlar/bireyler tarafından dolaylı veya doğrudan çıkar elde etmek amacıyla ticari amaçlarla iletilen bu spam iletiler, yalnızca insanların dikkatini dağıtmakla kalmaz, aynı zamanda işlem gücü, bellek ve ağ bant genişliği gibi önemli miktarda sistem kaynağını da tüketir. Bu çalışmada, spam veya ham (spam olmayan) görüntüleri sınıflandırmak için LBP (Local Binary Patterns) özellik çıkarma ve istatistiksel havuzlamaya dayalı bir yöntem önerilmiştir. Önerilen yöntemi test etmek için iki veri seti kullanılmıştır. ISH veri seti literatürde yaygın olarak kullanılmaktadır ve 1738 görüntü içermektedir. Bu veri setine ek olarak, topladığımız veri seti toplamda 1015 görüntüden oluşmaktadır. Bu görüntüler üzerinde özellik çıkarımı yapılmıştır. Elde edilen öznitelikler SVM (Support Vector Machine) algoritması ile sınıflandırılmıştır. Önerilen yöntemde ISH veri setinde %98.56, topladığımız veri setinde ise %79.01 doğruluk oranı hesaplanmıştır. Elde edilen sonuçlar literatürdeki çalışmalarla karşılaştırıldı.
Spam görüntü algılama Makine öğrenimi LBP özellik çıkarma SVM.
Birincil Dil | İngilizce |
---|---|
Konular | Yapay Zeka |
Bölüm | PAPERS |
Yazarlar | |
Erken Görünüm Tarihi | 8 Haziran 2023 |
Yayımlanma Tarihi | 8 Haziran 2023 |
Gönderilme Tarihi | 21 Mart 2023 |
Kabul Tarihi | 5 Mayıs 2023 |
Yayımlandığı Sayı | Yıl 2023 Cilt: Vol:8 Sayı: Issue:1 |
The Creative Commons Attribution 4.0 International License is applied to all research papers published by JCS and
a Digital Object Identifier (DOI) is assigned for each published paper.