Research Article
BibTex RIS Cite

Yaramaz E-Postaların Süzülmesinde, Karar Destek Makineleri, Naïve Bayes ve Bellek Tabanlı Öğrenme Yöntemlerinin Karşılaştırılması

Year 2005, Volume: 1 Issue: 1 - Volume: 1 Issue: 1, - , 24.06.2016

Abstract

This paper presents a comparison of support
vector machines (SVM), memory-based learning
(MBL) and Naïve Bayes (NB) techniques for the
classification of legitimate and spam mails.
Although there are a number of methodcomparative
studies regarding spam mail
filtering, most of the studies are tested on
separate data sets. In order to evaluate the
effectiveness of SVM, MBL and NB methods, we
have used a common publicly available corpus
(LINGSPAM). As MBL and NB methods are
previously tested with this corpus, the obtained
best parameters are used in the experiments with
few changes. On the other hand, intense
experiments are made to find the best attribute
dimensions with SVMs. Results show that SVM
has significantly better performance for no-cost
and high-cost cases, but NB performs best when
the cost is extremely high.

References

  • 1 Horvitz. 1998. “A Bayesian Approach to Filtering Junk E-Mail”. Learning for Text Categorization – Papers from the AAAI Workshop, pages 55–62, Madison Wisconsin. AAAI Technical Report WS-98-05.
  • [2] Androutsopoulos I., Koutsias J., Chandrinos K.V., Paliouras G., Spyropoulos C.D., 2000. “An Evaluation of Naive Bayesian Anti-Spam Filtering“. Proceedings of the workshop on machine Learning in the New Information Age, 11th European Conference on Machine Learning (ECML 2000), Barcelona, Spain, pp. 9-17.
  • [3] Sakkis G., Androutsopoulos I., Paliouras G., Karkaletsis V., Spyropoulos C.D., Stamatopoulos P., 2003, “A Memory-Based Approach to Anti-Spam Filtering for Mailing Lists”, Information Retrieval 6(1), 49-73, Kluwer Publishing
  • [4] Xavier Carreras, Lluís Marquez, Boosting Trees for Anti-Spam Email Filtering (2001), Proceedings of RANLP-01, 4th International Conference on Recent Advances in Natural Language Processing
  • [5] Drucker H., Wu D., Vapnik V.N., 1999. “Support Vector Machines for Spam Categorization”, IEEE Transactions On Neural Networks, pages 1048-1054.
  • [6] Karl-Michael Schneider, A Comparison of Event Models for Naive Bayes Anti-Spam EMail Filtering, 10th Conference of the European Chapter of the Association for Computational Linguistics (EACL 03), pp. 207-314, 2003.
  • [7] Androutsopoulos I., Paliouras G., Karkaletsis V., Sakkis G., Spyropoulos C.D., Stamatopoulos P., 2000, “Learning to filter Spam E-Mail: AComparison of a Naïve Bayesian and a Memory-Based Approach ”, Proc. of the workshop on Machine Learning and Textual Information Access, 4th European Conference on Principles and Practice of Knowledge Discovery in Databases, France
  • [8] Duda, R.O. and P.E. Hart. 1973. “Bayes Decision Theory”. Chapter 2 in Pattern Classification and Scene Analysis, pages 10–43. John Wiley.
  • [9] Chih-Chung Chang and Chih-Jen Lin, LIBSVM : a library for support vector machines, 2001. Software available at http://www.csie.ntu.edu.tw/~cjlin/libsvm
  • [10] Vapnik, 1995. “The Nature of Statistical Learning Theory”. Springer-Verlag, 1995.
  • [11] J. C. Platt, 1998. “Sequential minimal optimization: A fast algorithm for training support vector machines,” in Advances in Kernel Method: Support Vector Learning, Scholkopf, Burges, and Smola, Eds. Cambridge, MA: MIT Press, pp. 185–208.
  • [12] E. Osuna, R. Freund, F. Girosi, 1997. “Improved training algorithm for support vector machines,” in Proc. IEEE NNSP’97.

Yaramaz E-Postaların Süzülmesinde, Karar Destek Makineleri, Naïve Bayes ve Bellek Tabanlı Öğrenme Yöntemlerinin Karşılaştırılması

Year 2005, Volume: 1 Issue: 1 - Volume: 1 Issue: 1, - , 24.06.2016

Abstract

Bu makalenin amacı, yaramaz (spam) epostaları, normal e-postalardan ayırma süreci için, karar destek makineleri (Support Vector Machines - SVM), bellek tabanlı öğrenme (Memory Based Learning - MBL) ve Naïve Bayes (NB) yöntemlerinin karşılaştırmalı değerlendirmesini yapmaktır. Yaramaz e-posta-ların süzülmesinde kullanılan yöntemleri karşılaştıran birçok çalışma olmasına karşın, bu çalışmaların büyük çoğunluğu, farklı veri kümeleri kullandıklarından karşılaştırılabilir nitelikte değildir. Bu çalışmada, SVM, MBL ve NB yöntemleri karşılaştırılırken, herkesin erişimine açık olan ortak bir derlem (corpus) olan LINGSPAM derlemi kullanılmıştır. MBL ve NB yöntemleri, önceki çalışmalarda bu veri kümesi üzerinde sınandığı için, önceki deneylerden elde edilen en iyi parametreler ufak değişikliklerle kullanılmıştır. Ancak SVM yönteminin en iyi sonucu vermesini sağlamak için çok sayıda deney yapılmıştır. Çalışmamızda bir e-postanın, yaramaz olarak tanınması durumunda, bu e-postaya nasıl davranılacağına ilişkin senaryo önerileri verilmiş ve gerçeklenen sınıflandırıcıların hatalı çalışması durumunda ilgili senaryolara göre ortaya çıkabilecek hataların bedeli göz önüne alınarak bu üç sınıflandırma yöntemi değerlendirilmiştir. Ortaya çıkan sonuçlarda, SVM yönteminin hata bedelinin sıfır olduğu ya da yüksek olduğu senaryolar için başarımının diğer yöntemlerden daha iyi olduğu görülmüştür. Ancak hata bedelinin çok yüksek olması durumunda ise NB yöntemi en iyi sonucu vermiştir.

References

  • 1 Horvitz. 1998. “A Bayesian Approach to Filtering Junk E-Mail”. Learning for Text Categorization – Papers from the AAAI Workshop, pages 55–62, Madison Wisconsin. AAAI Technical Report WS-98-05.
  • [2] Androutsopoulos I., Koutsias J., Chandrinos K.V., Paliouras G., Spyropoulos C.D., 2000. “An Evaluation of Naive Bayesian Anti-Spam Filtering“. Proceedings of the workshop on machine Learning in the New Information Age, 11th European Conference on Machine Learning (ECML 2000), Barcelona, Spain, pp. 9-17.
  • [3] Sakkis G., Androutsopoulos I., Paliouras G., Karkaletsis V., Spyropoulos C.D., Stamatopoulos P., 2003, “A Memory-Based Approach to Anti-Spam Filtering for Mailing Lists”, Information Retrieval 6(1), 49-73, Kluwer Publishing
  • [4] Xavier Carreras, Lluís Marquez, Boosting Trees for Anti-Spam Email Filtering (2001), Proceedings of RANLP-01, 4th International Conference on Recent Advances in Natural Language Processing
  • [5] Drucker H., Wu D., Vapnik V.N., 1999. “Support Vector Machines for Spam Categorization”, IEEE Transactions On Neural Networks, pages 1048-1054.
  • [6] Karl-Michael Schneider, A Comparison of Event Models for Naive Bayes Anti-Spam EMail Filtering, 10th Conference of the European Chapter of the Association for Computational Linguistics (EACL 03), pp. 207-314, 2003.
  • [7] Androutsopoulos I., Paliouras G., Karkaletsis V., Sakkis G., Spyropoulos C.D., Stamatopoulos P., 2000, “Learning to filter Spam E-Mail: AComparison of a Naïve Bayesian and a Memory-Based Approach ”, Proc. of the workshop on Machine Learning and Textual Information Access, 4th European Conference on Principles and Practice of Knowledge Discovery in Databases, France
  • [8] Duda, R.O. and P.E. Hart. 1973. “Bayes Decision Theory”. Chapter 2 in Pattern Classification and Scene Analysis, pages 10–43. John Wiley.
  • [9] Chih-Chung Chang and Chih-Jen Lin, LIBSVM : a library for support vector machines, 2001. Software available at http://www.csie.ntu.edu.tw/~cjlin/libsvm
  • [10] Vapnik, 1995. “The Nature of Statistical Learning Theory”. Springer-Verlag, 1995.
  • [11] J. C. Platt, 1998. “Sequential minimal optimization: A fast algorithm for training support vector machines,” in Advances in Kernel Method: Support Vector Learning, Scholkopf, Burges, and Smola, Eds. Cambridge, MA: MIT Press, pp. 185–208.
  • [12] E. Osuna, R. Freund, F. Girosi, 1997. “Improved training algorithm for support vector machines,” in Proc. IEEE NNSP’97.
There are 12 citations in total.

Details

Primary Language Turkish
Subjects Engineering
Other ID JA37GC69BB
Journal Section Makaleler(Araştırma)
Authors

G. Eryiğit This is me

C. Tantuğ This is me

E. Adalı This is me

Publication Date June 24, 2016
Published in Issue Year 2005 Volume: 1 Issue: 1 - Volume: 1 Issue: 1

Cite

APA Eryiğit, G., Tantuğ, C., & Adalı, E. (2016). Yaramaz E-Postaların Süzülmesinde, Karar Destek Makineleri, Naïve Bayes ve Bellek Tabanlı Öğrenme Yöntemlerinin Karşılaştırılması. Türkiye Bilişim Vakfı Bilgisayar Bilimleri Ve Mühendisliği Dergisi, 1(1).
AMA Eryiğit G, Tantuğ C, Adalı E. Yaramaz E-Postaların Süzülmesinde, Karar Destek Makineleri, Naïve Bayes ve Bellek Tabanlı Öğrenme Yöntemlerinin Karşılaştırılması. TBV-BBMD. June 2016;1(1).
Chicago Eryiğit, G., C. Tantuğ, and E. Adalı. “Yaramaz E-Postaların Süzülmesinde, Karar Destek Makineleri, Naïve Bayes Ve Bellek Tabanlı Öğrenme Yöntemlerinin Karşılaştırılması”. Türkiye Bilişim Vakfı Bilgisayar Bilimleri Ve Mühendisliği Dergisi 1, no. 1 (June 2016).
EndNote Eryiğit G, Tantuğ C, Adalı E (June 1, 2016) Yaramaz E-Postaların Süzülmesinde, Karar Destek Makineleri, Naïve Bayes ve Bellek Tabanlı Öğrenme Yöntemlerinin Karşılaştırılması. Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi 1 1
IEEE G. Eryiğit, C. Tantuğ, and E. Adalı, “Yaramaz E-Postaların Süzülmesinde, Karar Destek Makineleri, Naïve Bayes ve Bellek Tabanlı Öğrenme Yöntemlerinin Karşılaştırılması”, TBV-BBMD, vol. 1, no. 1, 2016.
ISNAD Eryiğit, G. et al. “Yaramaz E-Postaların Süzülmesinde, Karar Destek Makineleri, Naïve Bayes Ve Bellek Tabanlı Öğrenme Yöntemlerinin Karşılaştırılması”. Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi 1/1 (June 2016).
JAMA Eryiğit G, Tantuğ C, Adalı E. Yaramaz E-Postaların Süzülmesinde, Karar Destek Makineleri, Naïve Bayes ve Bellek Tabanlı Öğrenme Yöntemlerinin Karşılaştırılması. TBV-BBMD. 2016;1.
MLA Eryiğit, G. et al. “Yaramaz E-Postaların Süzülmesinde, Karar Destek Makineleri, Naïve Bayes Ve Bellek Tabanlı Öğrenme Yöntemlerinin Karşılaştırılması”. Türkiye Bilişim Vakfı Bilgisayar Bilimleri Ve Mühendisliği Dergisi, vol. 1, no. 1, 2016.
Vancouver Eryiğit G, Tantuğ C, Adalı E. Yaramaz E-Postaların Süzülmesinde, Karar Destek Makineleri, Naïve Bayes ve Bellek Tabanlı Öğrenme Yöntemlerinin Karşılaştırılması. TBV-BBMD. 2016;1(1).

Article Acceptance

Use user registration/login to upload articles online.

The acceptance process of the articles sent to the journal consists of the following stages:

1. Each submitted article is sent to at least two referees at the first stage.

2. Referee appointments are made by the journal editors. There are approximately 200 referees in the referee pool of the journal and these referees are classified according to their areas of interest. Each referee is sent an article on the subject he is interested in. The selection of the arbitrator is done in a way that does not cause any conflict of interest.

3. In the articles sent to the referees, the names of the authors are closed.

4. Referees are explained how to evaluate an article and are asked to fill in the evaluation form shown below.

5. The articles in which two referees give positive opinion are subjected to similarity review by the editors. The similarity in the articles is expected to be less than 25%.

6. A paper that has passed all stages is reviewed by the editor in terms of language and presentation, and necessary corrections and improvements are made. If necessary, the authors are notified of the situation.

0

.   This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.