SPAM İÇERİKLİ E-POSTALARIN TESPİTİ İÇİN BİR METİN MADENCİLİĞİ UYGULAMASI: TERİMLERİN GAMA İLİŞKİ KATSAYISINA DAYALI POLARİZASYONU

Ahmet Yücel; Meltem Keskin Köylü

EN TR

A TEXT MINING APPLICATION ON THE DETERMINATION OF SPAM-CONTENTED E-MAIL: POLARIZATION OF TERMS BASED ON THE GAMA RELATIONSHIP COEFFICIENT

Öz

The development of technology has also changed the level and form of communication. Two-ended closed-circuit communication (telephone, letter, telegraph, etc.) models have been replaced by communication models that are originated from a single point and opens to the world (Facebook, Twitter, Instagram, etc.). While this makes it impossible for us to determine the limits of communication personally, it also makes a lot of personal communication paths that cannot be hidden (E-mail, Whatsapp number, etc.). The current situation carries many risks, such as by a simple e-mail, that private data stored on the computer gets into the hands of undesirable people. In order to prevent this, many virus software is being developed and it helps to detect the risky elements encountered in electronic environment. However, some risky elements appear as a normal text rather than a virus format. In such cases it is necessary to examine the relevant text as content and decide whether it is risky or not. In this study, e-mails with spam and ham content are determined and classified by a text mining algorithm. For this purpose, a composite polarity variable based on the gamma relationship coefficient was created and generalized linear models were established on this variable. The average classification success of the models is approximately 81.2%.

Anahtar Kelimeler

Text Mining,Data Mining,Generalized Linear Model,Polarity,Gamma Relationship Coefficient,Classification,Communication,Spam Content

SPAM İÇERİKLİ E-POSTALARIN TESPİTİ İÇİN BİR METİN MADENCİLİĞİ UYGULAMASI: TERİMLERİN GAMA İLİŞKİ KATSAYISINA DAYALI POLARİZASYONU

Öz

Teknolojinin gelişimi, iletişimin düzey ve şeklini de değiştirmiştir. İki nokta arası kapalı devre iletişim (telefon, mektup, telgraf, vb.) modellerinin yerini daha çok, tek noktadan tüm dünyaya açılan (Facebook, Twitter, Instagram, vb.) iletişim modelleri almıştır. Bu durum iletişimin sınırlarını kişisel olarak belirlememizi imkânsız hale getirirken, gizlemesi mümkün olmayan (E-mail, Whatsapp numarası, vb.) birçok kişisel iletişim yolunu da dünyaya açık hale getirmektedir. Basit bir e-mail yoluyla, bilgisayarda kayıtlı özel verilerin istenmeyen kişilerin eline geçmesi gibi, mevcut durum birçok risk taşımaktadır. Buna engel olmak amacıyla birçok virüs yazılımı geliştirilmekte ve elektronik ortamda karşılaşılan riskli unsurların tespitinde yardımcı olmaktadır. Ancak bazı riskli unsurlar virüs formatından uzak, normal bir metin olarak karşımıza çıkmaktadır. Bu tarz durumlarda ilgili metnin içerik olarak incelenip, riskli olup olmadığına karar vermek gerekmektedir. Bu çalışmada, istenen ve istenmeyen içeriğe sahip e-postaların bir metin madenciliği algoritması ile tespit edilip sınıflandırılması işlemi yapılmaktadır. Bu amaçla, gama ilişki katsayısına dayalı kompozit bir polarite değişkeni oluşturulmuş ve bu değişken üzerine genelleştirilmiş lineer modeller kurulmuştur. Modellerin sınıflandırma başarısı ortalama ise yaklaşık % 81,2’dir.

Anahtar Kelimeler

Metin Madenciliği,Veri Madenciliği,Genelleştirilmiş Lineer Model,Polarite,Gama İlişki Katsayısı,Sınıflandırma,İletişim,İstenmeyen İçerik

Kaynakça

Akman,M., (2010).“Veri Madenciliğine Genel Bakış ve Random Forests Yönteminin İncelenmesi: Sağlık Alanında Bir Uygulama”, Yüksek Lisans Tezi, Ankara Üniversitesi, ,Sağlık Bil. Enstitüsü, Ankara.
Cambridge English Dictionary, (2018). https://dictionary.cambridge.org/dictionary/essential-american-english adresinden 27.11.2018 tarihinde erişilmiştir.
Cobb, S., (2003). “The Economics of Spam”.ePrivacy Group, https://www. cobbsblog.com/spam/economics_of_spam.pdf adresinden 27.11.2018 tarihinde erişilmiştir.
Çıtlak, O. (2018). “Sosyal Ağlara Yönelik Öğrenmeye Dayalı Bir Spam Hesap Tespit Modeli ve Uygulaması”Gazi Üniversitesi Fen Bilimleri Enstitüsü. Yayınlanmış Yüksek Lisans Tezi.
Dagon, D.,Qin, X., Gu, G., Lee, W., Grizzard, J., Levine, J. andOwen, H. (2004).Honeystat: Local worm detection using honey pots. In International Workshop on Recent Advances in Intrusion Detection, Springer, Berlin, Heidelberg, 39-58.ttps://link.springer.com/chapter/10.1007/978-3-540-30143-1_3 adresinden 27.11.2018 tarihinde erişilmiştir.
Hambrick, M. E. (2012). Six degrees of information: Using social network analysist of explore the spread of information within sport social networks. International Journal of Sport Communication, 5(1), 16-34.
Kalıkov, A., (2006), “Veri Madenciliği ve Bir E-Ticaret Uygulaması”, Yayınlanmış Yüksek Lisans Tezi, Gazi Üniversitesi, Fen Bilimleri Enstitüsü. Ankara.
Levy, R. (2012). "Probabilistic Models in the Study of Language" , ch. 6, November 6. http:// idiom.ucsd.edu/~rlevy/pmsl_textbook/book_draft.pdf adresinden 27.11.2018tarihinde erişilmiştir.

Ayrıntılar

Birincil Dil

Türkçe

Konular

Bilgisayar Yazılımı

Bölüm

Araştırma Makalesi

Yazarlar

Ahmet Yücel ^*
0000-0002-2364-9449
Türkiye

Meltem Keskin Köylü
0000-0002-8536-4940
Türkiye

Yayımlanma Tarihi

28 Aralık 2018

Gönderilme Tarihi

29 Kasım 2018

Kabul Tarihi

27 Aralık 2018

Yayımlandığı Sayı

Yıl 2018 Cilt: 2 Sayı: 2

IZ

https://izlik.org/JA58ZE22DG

Kaynak Göster

RIS / Bibtex

APA

Yücel, A., & Keskin Köylü, M. (2018). SPAM İÇERİKLİ E-POSTALARIN TESPİTİ İÇİN BİR METİN MADENCİLİĞİ UYGULAMASI: TERİMLERİN GAMA İLİŞKİ KATSAYISINA DAYALI POLARİZASYONU. International Journal of Management Information Systems and Computer Science, 2(2), 95-104. https://izlik.org/JA58ZE22DG

AMA

1.Yücel A, Keskin Köylü M. SPAM İÇERİKLİ E-POSTALARIN TESPİTİ İÇİN BİR METİN MADENCİLİĞİ UYGULAMASI: TERİMLERİN GAMA İLİŞKİ KATSAYISINA DAYALI POLARİZASYONU. UYBİSBBD. 2018;2(2):95-104. https://izlik.org/JA58ZE22DG

Chicago

Yücel, Ahmet, ve Meltem Keskin Köylü. 2018. “SPAM İÇERİKLİ E-POSTALARIN TESPİTİ İÇİN BİR METİN MADENCİLİĞİ UYGULAMASI: TERİMLERİN GAMA İLİŞKİ KATSAYISINA DAYALI POLARİZASYONU”. International Journal of Management Information Systems and Computer Science 2 (2): 95-104. https://izlik.org/JA58ZE22DG.

EndNote

Yücel A, Keskin Köylü M (01 Aralık 2018) SPAM İÇERİKLİ E-POSTALARIN TESPİTİ İÇİN BİR METİN MADENCİLİĞİ UYGULAMASI: TERİMLERİN GAMA İLİŞKİ KATSAYISINA DAYALI POLARİZASYONU. International Journal of Management Information Systems and Computer Science 2 2 95–104.

IEEE

[1]A. Yücel ve M. Keskin Köylü, “SPAM İÇERİKLİ E-POSTALARIN TESPİTİ İÇİN BİR METİN MADENCİLİĞİ UYGULAMASI: TERİMLERİN GAMA İLİŞKİ KATSAYISINA DAYALI POLARİZASYONU”, UYBİSBBD, c. 2, sy 2, ss. 95–104, Ara. 2018, [çevrimiçi]. Erişim adresi: https://izlik.org/JA58ZE22DG

ISNAD

Yücel, Ahmet - Keskin Köylü, Meltem. “SPAM İÇERİKLİ E-POSTALARIN TESPİTİ İÇİN BİR METİN MADENCİLİĞİ UYGULAMASI: TERİMLERİN GAMA İLİŞKİ KATSAYISINA DAYALI POLARİZASYONU”. International Journal of Management Information Systems and Computer Science 2/2 (01 Aralık 2018): 95-104. https://izlik.org/JA58ZE22DG.

JAMA

1.Yücel A, Keskin Köylü M. SPAM İÇERİKLİ E-POSTALARIN TESPİTİ İÇİN BİR METİN MADENCİLİĞİ UYGULAMASI: TERİMLERİN GAMA İLİŞKİ KATSAYISINA DAYALI POLARİZASYONU. UYBİSBBD. 2018;2:95–104.

MLA

Yücel, Ahmet, ve Meltem Keskin Köylü. “SPAM İÇERİKLİ E-POSTALARIN TESPİTİ İÇİN BİR METİN MADENCİLİĞİ UYGULAMASI: TERİMLERİN GAMA İLİŞKİ KATSAYISINA DAYALI POLARİZASYONU”. International Journal of Management Information Systems and Computer Science, c. 2, sy 2, Aralık 2018, ss. 95-104, https://izlik.org/JA58ZE22DG.

Vancouver

1.Ahmet Yücel, Meltem Keskin Köylü. SPAM İÇERİKLİ E-POSTALARIN TESPİTİ İÇİN BİR METİN MADENCİLİĞİ UYGULAMASI: TERİMLERİN GAMA İLİŞKİ KATSAYISINA DAYALI POLARİZASYONU. UYBİSBBD [Internet]. 01 Aralık 2018;2(2):95-104. Erişim adresi: https://izlik.org/JA58ZE22DG