Year 2018, Volume 2 , Issue 2, Pages 95 - 104 2018-12-28

SPAM İÇERİKLİ E-POSTALARIN TESPİTİ İÇİN BİR METİN MADENCİLİĞİ UYGULAMASI: TERİMLERİN GAMA İLİŞKİ KATSAYISINA DAYALI POLARİZASYONU
A TEXT MINING APPLICATION ON THE DETERMINATION OF SPAM-CONTENTED E-MAIL: POLARIZATION OF TERMS BASED ON THE GAMA RELATIONSHIP COEFFICIENT

Ahmet YÜCEL [1] , Meltem KESKİN KÖYLÜ [2]


Teknolojinin gelişimi, iletişimin düzey ve şeklini de değiştirmiştir. İki nokta arası kapalı devre iletişim (telefon, mektup, telgraf, vb.) modellerinin yerini daha çok, tek noktadan tüm dünyaya açılan (Facebook, Twitter, Instagram, vb.) iletişim modelleri almıştır. Bu durum iletişimin sınırlarını kişisel olarak belirlememizi imkânsız hale getirirken, gizlemesi mümkün olmayan (E-mail, Whatsapp numarası, vb.) birçok kişisel iletişim yolunu da dünyaya açık hale getirmektedir. Basit bir e-mail yoluyla, bilgisayarda kayıtlı özel verilerin istenmeyen kişilerin eline geçmesi gibi, mevcut durum birçok risk taşımaktadır. Buna engel olmak amacıyla birçok virüs yazılımı geliştirilmekte ve elektronik ortamda karşılaşılan riskli unsurların tespitinde yardımcı olmaktadır. Ancak bazı riskli unsurlar virüs formatından uzak, normal bir metin olarak karşımıza çıkmaktadır. Bu tarz durumlarda ilgili metnin içerik olarak incelenip, riskli olup olmadığına karar vermek gerekmektedir. Bu çalışmada, istenen ve istenmeyen içeriğe sahip e-postaların bir metin madenciliği algoritması ile tespit edilip sınıflandırılması işlemi yapılmaktadır. Bu amaçla, gama ilişki katsayısına dayalı kompozit bir polarite değişkeni oluşturulmuş ve bu değişken üzerine genelleştirilmiş lineer modeller kurulmuştur. Modellerin sınıflandırma başarısı ortalama ise yaklaşık % 81,2’dir.

The development of technology has also changed the level and form of communication. Two-ended closed-circuit communication (telephone, letter, telegraph, etc.) models have been replaced by communication models that are originated from a single point and opens to the world (Facebook, Twitter, Instagram, etc.). While this makes it impossible for us to determine the limits of communication personally, it also makes a lot of personal communication paths that cannot be hidden (E-mail, Whatsapp number, etc.). The current situation carries many risks, such as by a simple e-mail, that private data stored on the computer gets into the hands of undesirable people. In order to prevent this, many virus software is being developed and it helps to detect the risky elements encountered in electronic environment. However, some risky elements appear as a normal text rather than a virus format. In such cases it is necessary to examine the relevant text as content and decide whether it is risky or not. In this study, e-mails with spam and ham content are determined and classified by a text mining algorithm. For this purpose, a composite polarity variable based on the gamma relationship coefficient was created and generalized linear models were established on this variable. The average classification success of the models is approximately 81.2%.

  • Akman,M., (2010).“Veri Madenciliğine Genel Bakış ve Random Forests Yönteminin İncelenmesi: Sağlık Alanında Bir Uygulama”, Yüksek Lisans Tezi, Ankara Üniversitesi, ,Sağlık Bil. Enstitüsü, Ankara.
  • Cambridge English Dictionary, (2018). https://dictionary.cambridge.org/dictionary/essential-american-english adresinden 27.11.2018 tarihinde erişilmiştir.
  • Cobb, S., (2003). “The Economics of Spam”.ePrivacy Group, https://www. cobbsblog.com/spam/economics_of_spam.pdf adresinden 27.11.2018 tarihinde erişilmiştir.
  • Çıtlak, O. (2018). “Sosyal Ağlara Yönelik Öğrenmeye Dayalı Bir Spam Hesap Tespit Modeli ve Uygulaması”Gazi Üniversitesi Fen Bilimleri Enstitüsü. Yayınlanmış Yüksek Lisans Tezi.
  • Dagon, D.,Qin, X., Gu, G., Lee, W., Grizzard, J., Levine, J. andOwen, H. (2004).Honeystat: Local worm detection using honey pots. In International Workshop on Recent Advances in Intrusion Detection, Springer, Berlin, Heidelberg, 39-58.ttps://link.springer.com/chapter/10.1007/978-3-540-30143-1_3 adresinden 27.11.2018 tarihinde erişilmiştir.
  • Hambrick, M. E. (2012). Six degrees of information: Using social network analysist of explore the spread of information within sport social networks. International Journal of Sport Communication, 5(1), 16-34.
  • Kalıkov, A., (2006), “Veri Madenciliği ve Bir E-Ticaret Uygulaması”, Yayınlanmış Yüksek Lisans Tezi, Gazi Üniversitesi, Fen Bilimleri Enstitüsü. Ankara.
  • Levy, R. (2012). "Probabilistic Models in the Study of Language" , ch. 6, November 6. http:// idiom.ucsd.edu/~rlevy/pmsl_textbook/book_draft.pdf adresinden 27.11.2018tarihinde erişilmiştir.
  • Renuka, D. K.,Visalakshi P.and. Rajamohana, S (2017). “An Ensembled Classifier for Email Spam Classification in Hadoop Environment”. Appl.Math, 2017. 11(4): p. 1123-1128.http://www.naturalspublishing.com/files/published/7ttcu333pd8l38.pdf adresinden 27. 11.2018 tarihinde erişilmiştir.
  • Richardson, B.B., (2017).“Aggregating Email”.US Patent.
  • Sarıkoz, K. (2010). “Veri Madenciliği Yöntemleri İle Spam Filtreleme”. Gazi Üniversitesi Bileşim Enstitüsü. Yayınlanmış Yüksek Lisans Tezi.
  • Shearer, C., (2000), “The Crisp-DM Model: The New Blue print for Data Mining ”Journal of Data Warehousing, Cilt 5 No 4, 13-23.
  • Şahin, E., (2018). “Makine Öğrenme Yöntemleri ve Kelime Kümesi Tekniği İle İstenmeyen E-Posta / E-Posta Sınıflaması”. Hacettepe Üniversitesi Yayınlanmış Yüksek Lisans Tezi. Ankara.
  • Ünver, Ö.,Gamgam, H. Ve Altunkaynak, B., (2016). SPSS Uygulamalı Temel İstatistik Yöntemler Olasılık – Hipotez Testleri – Regresyon Analizi. Seçkin Yayıncılık. Ankara.
Primary Language tr
Subjects Computer Science, Information System
Journal Section Articles
Authors

Orcid: 0000-0002-2364-9449
Author: Ahmet YÜCEL (Primary Author)
Institution: ANKARA YILDIRIM BEYAZIT ÜNİVERSİTESİ
Country: Turkey


Orcid: 0000-0002-8536-4940
Author: Meltem KESKİN KÖYLÜ
Institution: ANKARA YILDIRIM BEYAZIT ÜNİVERSİTESİ
Country: Turkey


Dates

Publication Date : December 28, 2018

APA YÜCEL, A , KESKİN KÖYLÜ, M . (2018). SPAM İÇERİKLİ E-POSTALARIN TESPİTİ İÇİN BİR METİN MADENCİLİĞİ UYGULAMASI: TERİMLERİN GAMA İLİŞKİ KATSAYISINA DAYALI POLARİZASYONU. Uluslararası Yönetim Bilişim Sistemleri ve Bilgisayar Bilimleri Dergisi , 2 (2) , 95-104 . Retrieved from https://dergipark.org.tr/en/pub/uybisbbd/issue/41787/490147