İstenmeyen Elektronik Posta (Spam) Tespitinde Karar Ağacı Algoritmalarının Performans Kıyaslaması

Eyüp Akçetin1; Ufuk Çelik2

doi:10.5505/iuyd.2014.43531

Araştırma Makalesi

İstenmeyen Elektronik Posta (Spam) Tespitinde Karar Ağacı Algoritmalarının Performans Kıyaslaması

Yıl 2014, Cilt: 5 Sayı: 2, 43 - 56, 01.10.2014

Eyüp Akçetin1 Ufuk Çelik2

https://doi.org/10.5505/iuyd.2014.43531

Cited By: 4

Öz

Bu çalışmanın amacı istenmeyen elektronik postaların (spam) tespiti için veri madenciliği yöntemlerinden karar ağaçları algoritmalarının performanslarının kıyaslanarak doğruluk ve sınıflandırma modeli oluşum zamanı açısından en uygun olanının tespit edilmesidir. İstenmeyen elektronik postaların sınıflandırılması için gerekli olan veriler Kaliforniya Üniversitesi makine öğrenmesi veri setlerinden alınan 4601 adet elektronik posta ile sağlanmıştır. Veri madenciliği yöntemlerinden 12 farklı karar ağacı WEKA makine öğrenmesi yazılımı kullanılarak, 10 katlı çapraz doğrulama ile veri setinde istenmeyen elektronik postalar (spam) sınıflandırılmıştır. Bu sınıflandırmanın performansı, alıcı işlem karakteristiği analizi yapılarak belirlenmiştir. Bu çalışmada, istenmeyen elektronik postaların (spam) tespiti için karar ağaçlarının performansı incelendiğinde, 12 sınıflandırıcının doğruluk oranlarının %94.68 ile %91 arasında değiştiği tespit edilmiştir. Yapılan çalışmada, performans sonuçlarına göre rastgele orman algoritmasının %94.68 doğruluk oranı ile en iyi sınıflandırma başarısını elde ettiği tespit edilmiştir. Bu algoritmanın 4601 elektronik posta için sınıflandırma modeli oluşturma zamanı 2.11 saniye olup, yoğun bir elektronik posta alışverişi sisteminde istenmeyen elektronik postaları (spam) hızlı bir şekilde ayırt edebileceği anlaşılmıştır.

Anahtar Kelimeler

Elektronik posta, spam, karar ağaçları, veri madenciliği, makine öğrenmesi

The Performance Benchmark of Decision Tree Algorithms for Spam e-mail Detection

Yıl 2014, Cilt: 5 Sayı: 2, 43 - 56, 01.10.2014

Eyüp Akçetin1 Ufuk Çelik2

https://doi.org/10.5505/iuyd.2014.43531

Cited By: 4

Öz

The objective of this study is to determine the most convenient decision tree method in terms of accuracy and classification built time by comparing the performance of decision tree algorithms with the purpose of identifying the spam e-mails. The data were gathered from one of the datasets of University of California machine learning datasets including 4601 e-mails for the classification of spam. The spam e-mails were classified utilizing 10 fold cross validation by using WEKA machine learning software involving 12 different decision trees. The performance of this classification was found by implementing the principle component analysis. It was found that the performance of decision trees on determining spam e-mails showed accuracy rate ranging between 91% and 94.68%.Random Forest algorithm was found to be the best classifier with the accuracy rate of 94.68%. It was understood that this algorithm can classify spam e-mails quickly in a hectic e-mail exchange system because the classification built time of the algorithm is 2.11 seconds for the 4601 e-mails.

Anahtar Kelimeler

E-mail, spam, decision trees, data mining, machine learning.

Toplam 0 adet kaynakça vardır.

Ayrıntılar

Birincil Dil	Türkçe
Konular	İşletme
Diğer ID	JA96SD34RE
Bölüm	Araştırma Makalesi
Yazarlar	Eyüp Akçetin1 Bu kişi benim Ufuk Çelik2 Bu kişi benim
Yayımlanma Tarihi	1 Ekim 2014
Yayımlandığı Sayı	Yıl 2014 Cilt: 5 Sayı: 2

Kaynak Göster

APA	Akçetin1, E., & Çelik2, U. (2014). İstenmeyen Elektronik Posta (Spam) Tespitinde Karar Ağacı Algoritmalarının Performans Kıyaslaması. Journal of Internet Applications and Management, 5(2), 43-56. https://doi.org/10.5505/iuyd.2014.43531

İnternet Uygulamaları ve Yönetimi Dergisi

İstenmeyen Elektronik Posta (Spam) Tespitinde Karar Ağacı Algoritmalarının Performans Kıyaslaması

Öz

Anahtar Kelimeler

The Performance Benchmark of Decision Tree Algorithms for Spam e-mail Detection

Öz

Anahtar Kelimeler

Ayrıntılar

Kaynak Göster

Cited By

Data Mining, Weka Decision Trees

Orclever Proceedings of Research and Development

https://doi.org/10.56038/oprd.v3i1.376

YÜKSEK RAFLI DEPOLAMA SİSTEMLERİNİN ENERJİ OPTİMİZASYONUNDA ANOMALİ TESPİTİ İÇİN SINIFLAMA ALGORİTMALARININ KARŞILAŞTIRILMASI

Uluslararası Yönetim Bilişim Sistemleri ve Bilgisayar Bilimleri Dergisi

https://doi.org/10.33461/uybisbbd.790369

SOSYAL MEDYA İLE HİSSE SENEDİ FİYATININ GÜNLÜK HAREKET YÖNÜ ARASINDAKİ İLİŞKİNİN İNCELENMESİ: DUYGU ANALİZİ UYGULAMASI

Uluslararası İktisadi ve İdari İncelemeler Dergisi

https://doi.org/10.18092/ulikidince.352414

Evaluation of Traffic Accidents Using Machine Learning Methods

Uluslararası Muhendislik Arastirma ve Gelistirme Dergisi

https://doi.org/10.29137/umagd.705156