Research Article
BibTex RIS Cite

A TEXT MINING APPLICATION ON THE DETERMINATION OF SPAM-CONTENTED E-MAIL: POLARIZATION OF TERMS BASED ON THE GAMA RELATIONSHIP COEFFICIENT

Year 2018, Volume: 2 Issue: 2, 95 - 104, 28.12.2018

Abstract

The
development of technology has also changed the level and form of communication.
Two-ended closed-circuit communication (telephone, letter, telegraph, etc.)
models have been replaced by communication models that are originated from a
single point and opens to the world (Facebook, Twitter, Instagram, etc.). While
this makes it impossible for us to determine the limits of communication
personally, it also makes a lot of personal communication paths that cannot be
hidden (E-mail, Whatsapp number, etc.). The current situation carries many
risks, such as by a simple e-mail, that private data stored on the computer
gets into the hands of undesirable people. In order to prevent this, many virus
software is being developed and it helps to detect the risky elements
encountered in electronic environment. However, some risky elements appear as a
normal text rather than a virus format. In such cases it is necessary to
examine the relevant text as content and decide whether it is risky or not. In
this study, e-mails with spam and ham content are determined and classified by
a text mining algorithm. For this purpose, a composite polarity variable based
on the gamma relationship coefficient was created and generalized linear models
were established on this variable. The average classification success of the
models is approximately 81.2%.

References

  • Akman,M., (2010).“Veri Madenciliğine Genel Bakış ve Random Forests Yönteminin İncelenmesi: Sağlık Alanında Bir Uygulama”, Yüksek Lisans Tezi, Ankara Üniversitesi, ,Sağlık Bil. Enstitüsü, Ankara.
  • Cambridge English Dictionary, (2018). https://dictionary.cambridge.org/dictionary/essential-american-english adresinden 27.11.2018 tarihinde erişilmiştir.
  • Cobb, S., (2003). “The Economics of Spam”.ePrivacy Group, https://www. cobbsblog.com/spam/economics_of_spam.pdf adresinden 27.11.2018 tarihinde erişilmiştir.
  • Çıtlak, O. (2018). “Sosyal Ağlara Yönelik Öğrenmeye Dayalı Bir Spam Hesap Tespit Modeli ve Uygulaması”Gazi Üniversitesi Fen Bilimleri Enstitüsü. Yayınlanmış Yüksek Lisans Tezi.
  • Dagon, D.,Qin, X., Gu, G., Lee, W., Grizzard, J., Levine, J. andOwen, H. (2004).Honeystat: Local worm detection using honey pots. In International Workshop on Recent Advances in Intrusion Detection, Springer, Berlin, Heidelberg, 39-58.ttps://link.springer.com/chapter/10.1007/978-3-540-30143-1_3 adresinden 27.11.2018 tarihinde erişilmiştir.
  • Hambrick, M. E. (2012). Six degrees of information: Using social network analysist of explore the spread of information within sport social networks. International Journal of Sport Communication, 5(1), 16-34.
  • Kalıkov, A., (2006), “Veri Madenciliği ve Bir E-Ticaret Uygulaması”, Yayınlanmış Yüksek Lisans Tezi, Gazi Üniversitesi, Fen Bilimleri Enstitüsü. Ankara.
  • Levy, R. (2012). "Probabilistic Models in the Study of Language" , ch. 6, November 6. http:// idiom.ucsd.edu/~rlevy/pmsl_textbook/book_draft.pdf adresinden 27.11.2018tarihinde erişilmiştir.
  • Renuka, D. K.,Visalakshi P.and. Rajamohana, S (2017). “An Ensembled Classifier for Email Spam Classification in Hadoop Environment”. Appl.Math, 2017. 11(4): p. 1123-1128.http://www.naturalspublishing.com/files/published/7ttcu333pd8l38.pdf adresinden 27. 11.2018 tarihinde erişilmiştir.
  • Richardson, B.B., (2017).“Aggregating Email”.US Patent.
  • Sarıkoz, K. (2010). “Veri Madenciliği Yöntemleri İle Spam Filtreleme”. Gazi Üniversitesi Bileşim Enstitüsü. Yayınlanmış Yüksek Lisans Tezi.
  • Shearer, C., (2000), “The Crisp-DM Model: The New Blue print for Data Mining ”Journal of Data Warehousing, Cilt 5 No 4, 13-23.
  • Şahin, E., (2018). “Makine Öğrenme Yöntemleri ve Kelime Kümesi Tekniği İle İstenmeyen E-Posta / E-Posta Sınıflaması”. Hacettepe Üniversitesi Yayınlanmış Yüksek Lisans Tezi. Ankara.
  • Ünver, Ö.,Gamgam, H. Ve Altunkaynak, B., (2016). SPSS Uygulamalı Temel İstatistik Yöntemler Olasılık – Hipotez Testleri – Regresyon Analizi. Seçkin Yayıncılık. Ankara.

SPAM İÇERİKLİ E-POSTALARIN TESPİTİ İÇİN BİR METİN MADENCİLİĞİ UYGULAMASI: TERİMLERİN GAMA İLİŞKİ KATSAYISINA DAYALI POLARİZASYONU

Year 2018, Volume: 2 Issue: 2, 95 - 104, 28.12.2018

Abstract

Teknolojinin gelişimi,
iletişimin düzey ve şeklini de değiştirmiştir. İki nokta arası kapalı devre
iletişim (telefon, mektup, telgraf, vb.) modellerinin yerini daha çok, tek
noktadan tüm dünyaya açılan (Facebook, Twitter, Instagram, vb.) iletişim
modelleri almıştır. Bu durum iletişimin sınırlarını kişisel olarak
belirlememizi imkânsız hale getirirken, gizlemesi mümkün olmayan (E-mail,
Whatsapp numarası, vb.) birçok
kişisel iletişim yolunu da
dünyaya açık hale getirmektedir. Basit bir e-mail yoluyla, bilgisayarda kayıtlı
özel verilerin istenmeyen kişilerin eline geçmesi gibi, mevcut durum birçok risk
taşımaktadır. Buna engel olmak amacıyla birçok virüs yazılımı geliştirilmekte
ve elektronik ortamda karşılaşılan riskli unsurların tespitinde yardımcı olmaktadır.
Ancak bazı riskli unsurlar virüs formatından uzak, normal bir metin olarak karşımıza
çıkmaktadır. Bu tarz durumlarda ilgili metnin içerik olarak incelenip, riskli
olup olmadığına karar vermek gerekmektedir. Bu çalışmada, istenen ve istenmeyen
içeriğe sahip e-postaların bir metin madenciliği algoritması ile tespit edilip
sınıflandırılması işlemi yapılmaktadır. Bu amaçla, gama ilişki katsayısına
dayalı kompozit bir polarite değişkeni oluşturulmuş ve bu değişken üzerine
genelleştirilmiş lineer modeller kurulmuştur. Modellerin sınıflandırma başarısı
ortalama ise yaklaşık % 81,2’dir.

References

  • Akman,M., (2010).“Veri Madenciliğine Genel Bakış ve Random Forests Yönteminin İncelenmesi: Sağlık Alanında Bir Uygulama”, Yüksek Lisans Tezi, Ankara Üniversitesi, ,Sağlık Bil. Enstitüsü, Ankara.
  • Cambridge English Dictionary, (2018). https://dictionary.cambridge.org/dictionary/essential-american-english adresinden 27.11.2018 tarihinde erişilmiştir.
  • Cobb, S., (2003). “The Economics of Spam”.ePrivacy Group, https://www. cobbsblog.com/spam/economics_of_spam.pdf adresinden 27.11.2018 tarihinde erişilmiştir.
  • Çıtlak, O. (2018). “Sosyal Ağlara Yönelik Öğrenmeye Dayalı Bir Spam Hesap Tespit Modeli ve Uygulaması”Gazi Üniversitesi Fen Bilimleri Enstitüsü. Yayınlanmış Yüksek Lisans Tezi.
  • Dagon, D.,Qin, X., Gu, G., Lee, W., Grizzard, J., Levine, J. andOwen, H. (2004).Honeystat: Local worm detection using honey pots. In International Workshop on Recent Advances in Intrusion Detection, Springer, Berlin, Heidelberg, 39-58.ttps://link.springer.com/chapter/10.1007/978-3-540-30143-1_3 adresinden 27.11.2018 tarihinde erişilmiştir.
  • Hambrick, M. E. (2012). Six degrees of information: Using social network analysist of explore the spread of information within sport social networks. International Journal of Sport Communication, 5(1), 16-34.
  • Kalıkov, A., (2006), “Veri Madenciliği ve Bir E-Ticaret Uygulaması”, Yayınlanmış Yüksek Lisans Tezi, Gazi Üniversitesi, Fen Bilimleri Enstitüsü. Ankara.
  • Levy, R. (2012). "Probabilistic Models in the Study of Language" , ch. 6, November 6. http:// idiom.ucsd.edu/~rlevy/pmsl_textbook/book_draft.pdf adresinden 27.11.2018tarihinde erişilmiştir.
  • Renuka, D. K.,Visalakshi P.and. Rajamohana, S (2017). “An Ensembled Classifier for Email Spam Classification in Hadoop Environment”. Appl.Math, 2017. 11(4): p. 1123-1128.http://www.naturalspublishing.com/files/published/7ttcu333pd8l38.pdf adresinden 27. 11.2018 tarihinde erişilmiştir.
  • Richardson, B.B., (2017).“Aggregating Email”.US Patent.
  • Sarıkoz, K. (2010). “Veri Madenciliği Yöntemleri İle Spam Filtreleme”. Gazi Üniversitesi Bileşim Enstitüsü. Yayınlanmış Yüksek Lisans Tezi.
  • Shearer, C., (2000), “The Crisp-DM Model: The New Blue print for Data Mining ”Journal of Data Warehousing, Cilt 5 No 4, 13-23.
  • Şahin, E., (2018). “Makine Öğrenme Yöntemleri ve Kelime Kümesi Tekniği İle İstenmeyen E-Posta / E-Posta Sınıflaması”. Hacettepe Üniversitesi Yayınlanmış Yüksek Lisans Tezi. Ankara.
  • Ünver, Ö.,Gamgam, H. Ve Altunkaynak, B., (2016). SPSS Uygulamalı Temel İstatistik Yöntemler Olasılık – Hipotez Testleri – Regresyon Analizi. Seçkin Yayıncılık. Ankara.
There are 14 citations in total.

Details

Primary Language Turkish
Subjects Computer Software
Journal Section Articles
Authors

Ahmet Yücel 0000-0002-2364-9449

Meltem Keskin Köylü 0000-0002-8536-4940

Publication Date December 28, 2018
Published in Issue Year 2018 Volume: 2 Issue: 2

Cite

APA Yücel, A., & Keskin Köylü, M. (2018). SPAM İÇERİKLİ E-POSTALARIN TESPİTİ İÇİN BİR METİN MADENCİLİĞİ UYGULAMASI: TERİMLERİN GAMA İLİŞKİ KATSAYISINA DAYALI POLARİZASYONU. International Journal of Management Information Systems and Computer Science, 2(2), 95-104.