This paper presents a comparison of support
vector machines (SVM), memory-based learning
(MBL) and Naïve Bayes (NB) techniques for the
classification of legitimate and spam mails.
Although there are a number of methodcomparative
studies regarding spam mail
filtering, most of the studies are tested on
separate data sets. In order to evaluate the
effectiveness of SVM, MBL and NB methods, we
have used a common publicly available corpus
(LINGSPAM). As MBL and NB methods are
previously tested with this corpus, the obtained
best parameters are used in the experiments with
few changes. On the other hand, intense
experiments are made to find the best attribute
dimensions with SVMs. Results show that SVM
has significantly better performance for no-cost
and high-cost cases, but NB performs best when
the cost is extremely high.
Bu makalenin amacı, yaramaz (spam) epostaları, normal e-postalardan ayırma süreci için, karar destek makineleri (Support Vector Machines - SVM), bellek tabanlı öğrenme (Memory Based Learning - MBL) ve Naïve Bayes (NB) yöntemlerinin karşılaştırmalı değerlendirmesini yapmaktır. Yaramaz e-posta-ların süzülmesinde kullanılan yöntemleri karşılaştıran birçok çalışma olmasına karşın, bu çalışmaların büyük çoğunluğu, farklı veri kümeleri kullandıklarından karşılaştırılabilir nitelikte değildir. Bu çalışmada, SVM, MBL ve NB yöntemleri karşılaştırılırken, herkesin erişimine açık olan ortak bir derlem (corpus) olan LINGSPAM derlemi kullanılmıştır. MBL ve NB yöntemleri, önceki çalışmalarda bu veri kümesi üzerinde sınandığı için, önceki deneylerden elde edilen en iyi parametreler ufak değişikliklerle kullanılmıştır. Ancak SVM yönteminin en iyi sonucu vermesini sağlamak için çok sayıda deney yapılmıştır. Çalışmamızda bir e-postanın, yaramaz olarak tanınması durumunda, bu e-postaya nasıl davranılacağına ilişkin senaryo önerileri verilmiş ve gerçeklenen sınıflandırıcıların hatalı çalışması durumunda ilgili senaryolara göre ortaya çıkabilecek hataların bedeli göz önüne alınarak bu üç sınıflandırma yöntemi değerlendirilmiştir. Ortaya çıkan sonuçlarda, SVM yönteminin hata bedelinin sıfır olduğu ya da yüksek olduğu senaryolar için başarımının diğer yöntemlerden daha iyi olduğu görülmüştür. Ancak hata bedelinin çok yüksek olması durumunda ise NB yöntemi en iyi sonucu vermiştir.
Birincil Dil | Türkçe |
---|---|
Konular | Mühendislik |
Diğer ID | JA37GC69BB |
Bölüm | Makaleler(Araştırma) |
Yazarlar | |
Yayımlanma Tarihi | 24 Haziran 2016 |
Yayımlandığı Sayı | Yıl 2005 Cilt: 1 Sayı: 1 - Cilt: 1 Sayı: 1 |
https://i.creativecommons.org/l/by-nc/4.0Makale Kabulü | |
Çevrimiçi makale yüklemesi yapmak için kullanıcı kayıt/girişini kullanınız. Dergiye gönderilen makalelerin kabul süreci şu aşamalardan oluşmaktadır: 1. Gönderilen her makale ilk aşamada en az iki hakeme gönderilmektedir. 2. Hakem ataması, dergi editörleri tarafından yapılmaktadır. Derginin hakem havuzunda yaklaşık 200 hakem bulunmaktadır ve bu hakemler ilgi alanlarına göre sınıflandırılmıştır. Her hakeme ilgilendiği konuda makale gönderilmektedir. Hakem seçimi menfaat çatışmasına neden olmayacak biçimde yapılmaktadır. 3. Hakemlere gönderilen makalelerde yazar adları kapatılmaktadır. 4. Hakemlere bir makalenin nasıl değerlendirileceği açıklanmaktadır ve aşağıda görülen değerlendirme formunu doldurmaları istenmektedir. 5. İki hakemin olumlu görüş bildirdiği makaleler editörler tarafından benzerlik incelemesinden geçirilir. Makalelerdeki benzerliğin %25’ten küçük olması beklenir. 6. Tüm aşamaları geçmiş olan bir bildiri dil ve sunuş açısından editör tarafından incelenir ve gerekli düzeltme ve iyileştirmeler yapılır. Gerekirse yazarlara durum bildirilir.
Bu eser Creative Commons Atıf-GayriTicari 4.0 Uluslararası Lisansı ile lisanslanmıştır. |