SPAM İÇERİKLİ E-POSTALARIN TESPİTİ İÇİN BİR METİN MADENCİLİĞİ UYGULAMASI: TERİMLERİN GAMA İLİŞKİ KATSAYISINA DAYALI POLARİZASYONU
Öz
Teknolojinin gelişimi,
iletişimin düzey ve şeklini de değiştirmiştir. İki nokta arası kapalı devre
iletişim (telefon, mektup, telgraf, vb.) modellerinin yerini daha çok, tek
noktadan tüm dünyaya açılan (Facebook, Twitter, Instagram, vb.) iletişim
modelleri almıştır. Bu durum iletişimin sınırlarını kişisel olarak
belirlememizi imkânsız hale getirirken, gizlemesi mümkün olmayan (E-mail,
Whatsapp numarası, vb.) birçok kişisel iletişim yolunu da
dünyaya açık hale getirmektedir. Basit bir e-mail yoluyla, bilgisayarda kayıtlı
özel verilerin istenmeyen kişilerin eline geçmesi gibi, mevcut durum birçok risk
taşımaktadır. Buna engel olmak amacıyla birçok virüs yazılımı geliştirilmekte
ve elektronik ortamda karşılaşılan riskli unsurların tespitinde yardımcı olmaktadır.
Ancak bazı riskli unsurlar virüs formatından uzak, normal bir metin olarak karşımıza
çıkmaktadır. Bu tarz durumlarda ilgili metnin içerik olarak incelenip, riskli
olup olmadığına karar vermek gerekmektedir. Bu çalışmada, istenen ve istenmeyen
içeriğe sahip e-postaların bir metin madenciliği algoritması ile tespit edilip
sınıflandırılması işlemi yapılmaktadır. Bu amaçla, gama ilişki katsayısına
dayalı kompozit bir polarite değişkeni oluşturulmuş ve bu değişken üzerine
genelleştirilmiş lineer modeller kurulmuştur. Modellerin sınıflandırma başarısı
ortalama ise yaklaşık % 81,2’dir.
Anahtar Kelimeler
Kaynakça
- Akman,M., (2010).“Veri Madenciliğine Genel Bakış ve Random Forests Yönteminin İncelenmesi: Sağlık Alanında Bir Uygulama”, Yüksek Lisans Tezi, Ankara Üniversitesi, ,Sağlık Bil. Enstitüsü, Ankara.
- Cambridge English Dictionary, (2018). https://dictionary.cambridge.org/dictionary/essential-american-english adresinden 27.11.2018 tarihinde erişilmiştir.
- Cobb, S., (2003). “The Economics of Spam”.ePrivacy Group, https://www. cobbsblog.com/spam/economics_of_spam.pdf adresinden 27.11.2018 tarihinde erişilmiştir.
- Çıtlak, O. (2018). “Sosyal Ağlara Yönelik Öğrenmeye Dayalı Bir Spam Hesap Tespit Modeli ve Uygulaması”Gazi Üniversitesi Fen Bilimleri Enstitüsü. Yayınlanmış Yüksek Lisans Tezi.
- Dagon, D.,Qin, X., Gu, G., Lee, W., Grizzard, J., Levine, J. andOwen, H. (2004).Honeystat: Local worm detection using honey pots. In International Workshop on Recent Advances in Intrusion Detection, Springer, Berlin, Heidelberg, 39-58.ttps://link.springer.com/chapter/10.1007/978-3-540-30143-1_3 adresinden 27.11.2018 tarihinde erişilmiştir.
- Hambrick, M. E. (2012). Six degrees of information: Using social network analysist of explore the spread of information within sport social networks. International Journal of Sport Communication, 5(1), 16-34.
- Kalıkov, A., (2006), “Veri Madenciliği ve Bir E-Ticaret Uygulaması”, Yayınlanmış Yüksek Lisans Tezi, Gazi Üniversitesi, Fen Bilimleri Enstitüsü. Ankara.
- Levy, R. (2012). "Probabilistic Models in the Study of Language" , ch. 6, November 6. http:// idiom.ucsd.edu/~rlevy/pmsl_textbook/book_draft.pdf adresinden 27.11.2018tarihinde erişilmiştir.
Ayrıntılar
Birincil Dil
Türkçe
Konular
Bilgisayar Yazılımı
Bölüm
Araştırma Makalesi
Yayımlanma Tarihi
28 Aralık 2018
Gönderilme Tarihi
29 Kasım 2018
Kabul Tarihi
27 Aralık 2018
Yayımlandığı Sayı
Yıl 2018 Cilt: 2 Sayı: 2
