Araştırma Makalesi
BibTex RIS Kaynak Göster

İstenmeyen Elektronik Posta (Spam) Tespitinde Karar Ağacı Algoritmalarının Performans Kıyaslaması

Yıl 2014, Cilt: 5 Sayı: 2, 43 - 56, 01.10.2014
https://doi.org/10.5505/iuyd.2014.43531

Öz

Bu çalışmanın amacı istenmeyen elektronik postaların (spam) tespiti için veri madenciliği yöntemlerinden karar ağaçları algoritmalarının performanslarının kıyaslanarak doğruluk ve sınıflandırma modeli oluşum zamanı açısından en uygun olanının tespit edilmesidir. İstenmeyen elektronik postaların sınıflandırılması için gerekli olan veriler Kaliforniya Üniversitesi makine öğrenmesi veri setlerinden alınan 4601 adet elektronik posta ile sağlanmıştır. Veri madenciliği yöntemlerinden 12 farklı karar ağacı WEKA makine öğrenmesi yazılımı kullanılarak, 10 katlı çapraz doğrulama ile veri setinde istenmeyen elektronik postalar (spam) sınıflandırılmıştır. Bu sınıflandırmanın performansı, alıcı işlem karakteristiği analizi yapılarak belirlenmiştir. Bu çalışmada, istenmeyen elektronik postaların (spam) tespiti için karar ağaçlarının performansı incelendiğinde, 12 sınıflandırıcının doğruluk oranlarının %94.68 ile %91 arasında değiştiği tespit edilmiştir. Yapılan çalışmada, performans sonuçlarına göre rastgele orman algoritmasının %94.68 doğruluk oranı ile en iyi sınıflandırma başarısını elde ettiği tespit edilmiştir. Bu algoritmanın 4601 elektronik posta için sınıflandırma modeli oluşturma zamanı 2.11 saniye olup, yoğun bir elektronik posta alışverişi sisteminde istenmeyen elektronik postaları (spam) hızlı bir şekilde ayırt edebileceği anlaşılmıştır.

The Performance Benchmark of Decision Tree Algorithms for Spam e-mail Detection

Yıl 2014, Cilt: 5 Sayı: 2, 43 - 56, 01.10.2014
https://doi.org/10.5505/iuyd.2014.43531

Öz

The objective of this study is to determine the most convenient decision tree method in terms of accuracy and classification built time by comparing the performance of decision tree algorithms with the purpose of identifying the spam e-mails. The data were gathered from one of the datasets of University of California machine learning datasets including 4601 e-mails for the classification of spam. The spam e-mails were classified utilizing 10 fold cross validation by using WEKA machine learning software involving 12 different decision trees. The performance of this classification was found by implementing the principle component analysis. It was found that the performance of decision trees on determining spam e-mails showed accuracy rate ranging between 91% and 94.68%.Random Forest algorithm was found to be the best classifier with the accuracy rate of 94.68%. It was understood that this algorithm can classify spam e-mails quickly in a hectic e-mail exchange system because the classification built time of the algorithm is 2.11 seconds for the 4601 e-mails.

Toplam 0 adet kaynakça vardır.

Ayrıntılar

Birincil Dil Türkçe
Konular İşletme
Diğer ID JA96SD34RE
Bölüm Araştırma Makalesi
Yazarlar

Eyüp Akçetin1 Bu kişi benim

Ufuk Çelik2 Bu kişi benim

Yayımlanma Tarihi 1 Ekim 2014
Yayımlandığı Sayı Yıl 2014 Cilt: 5 Sayı: 2

Kaynak Göster

APA Akçetin1, E., & Çelik2, U. (2014). İstenmeyen Elektronik Posta (Spam) Tespitinde Karar Ağacı Algoritmalarının Performans Kıyaslaması. İnternet Uygulamaları Ve Yönetimi Dergisi, 5(2), 43-56. https://doi.org/10.5505/iuyd.2014.43531