─ Today, electronic mail (email) is one of the widely used communication tool because it is simple and easily accessible. With increasing number of internet usage, e-mail users have been increased dramatically in the last four decade. By the way, it has brought many problems. Unwanted email issue is one of the biggest problem for internet users. This type of emails often contains malicious codes and consumes redundant internet resources. At the same time, user’s run out of mail quota due to the legal or illegal content. In literature, many unwanted email filter approaches are proposed, however neither them are successfully applicable. In recent years, researchers try to find best, simple and feasible method. For that reason, one of the promising research field emerges to overcome this problem which is called text mining for filtering unwanted email. On the other hand, globalization is another concern for non English based email filtering such as Turkish. In this study, three different classification algorithms (Support Vector Machine, k Nearest Neighbor and, Naive Bayes) were used to determine unwanted Turkish contents. Our dataset contains 800 samples as 400 normal and 400 unwanted emails. In order to achieve these tasks, emails were transformed into binary, frequency and TF-IDF vectors for proper classification. The best accuracy was obtained with k-nearest-neighbor algorithm with respect to the 96.5% accuracy rate.
─ Spam advertising email detection text mining classification
Elektronik posta (eposta), internet kullanımının yaygınlaşması, basit ve kolay erişilebilir olması sebebiyle son kırk yıl içinde ciddi oranda artarak, günümüzde en yaygın kullanılan iletişim aracı olmuştur. Artan eposta kullanımı birtakım sorunları da beraberinde getirmiştir. Ortaya çıkan önemli sorunlardan biri istenmeyen, reklam içerikli elektronik postalardır. Bunlar, eposta kullanıcılarını rahatsız etmekte, ayrıca gereksiz kaynak israfına yol açmaktadırlar. Reklam içerikli epostalar ile legal veya illegal pek çok ürünün tanıtımı yapılmakta, pek çok kaynaktan farklı amaçla yollanan milyonlarca istenmeyen eposta internet kullanıcılarının posta kutularını doldurmaktadır. Giderek büyük bir sorun haline gelen reklam epostaları, hem internet trafiğini hem de posta sunucularını meşgul etmektedir. İstenmeyen epostaların filtrelemesi üzerine pek çok çalışma yapılmış olmasına rağmen Türkçe içerikli reklam epostalarının filtrelenmesi üzerine yapılan çalışma çok azdır. Bu çalışmalar incelendiğinde ya başarı istenen düzeyde değildir ya da önerilen algoritmalar oldukça karmaşıktır. Bu çalışmada metin madenciliği yöntemleri kullanılarak Türkçe içerikli reklam epostalarının tespiti gerçekleştirilmiştir. Bu amaçla Destek Vektör Makinesi, k En Yakın Komşu ve Naive Bayes sınıflandırma algoritmaları kullanılmıştır. Çalışmada reklam içerikli eposta binary, frekans ve TF-IDF ağırlıklandırma yöntemleri ile vektörel olarak ifade edilmiştir. Yapılan çalışmada Reklam epostalarının tespit edilmesi için Türkçe içerikli 400'ü normal, 400'ü de reklam içerikli olmak üzere 800 eposta kullanılmıştır. Yapılan deneysel çalışmalarda reklam epostaları, kNN ile %96,5 doğrulukta sınıflandırma başarısı elde edilmiştir.
Birincil Dil | Türkçe |
---|---|
Konular | Mühendislik |
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 7 Mayıs 2013 |
Gönderilme Tarihi | 12 Ağustos 2012 |
Yayımlandığı Sayı | Yıl 2013 Cilt: 6 Sayı: 1 |