Temporary e-mail addresses are e-mail addresses that users can quickly create without signing up. These e-mail addresses are useful for privacy and to avoid spam. However, they also pose several serious cyber threats, including fraud, spam campaigns, and fake account creation In this study, a method utilizing natural language processing and machine learning techniques is proposed to classify real and temporary e-mail addresses. First, temporary and real e-mail addresses are analyzed, and features are developed to identify the differences between them. These features include lexical structures, broad contexts, and structural features of e-mail addresses. Various machine learning algorithms were then applied on the resulting feature set to differentiate e-mail addresses. The results were evaluated with K-fold cross-validation method and an accuracy rate of 96% was obtained. This success rate shows that the developed method can successfully distinguish between real and temporary e-mail addresses.
E-mail classification Natural language processing Artificial neural network Machine learning
Geçici e-posta adresleri, kullanıcıların üye olmadan hızlı bir şekilde oluşturabildikleri e-posta adresleridir. Bu e-posta adresleri gizlilik ve istenmeyen e-postalardan kaçınmak için yararlıdır. Fakat bu e-postalar adreslerinin dolandırıcılığa, spam kampanyalarında kullanılma ve sahte hesap oluşturmaya kadar bir dizi ciddi siber tehdidi de bulunmaktadır. Bu çalışmada, gerçek ve geçici e-posta adreslerini sınıflandırmak için doğal dil işleme ve makine öğrenme tekniklerinden yararlanan bir yöntem önerilmiştir. Öncelikle, geçici ve gerçek e-posta adresleri analiz edilmiş ve arasındaki farkları belirlemeye yönelik öznitelikler geliştirilmiştir. Bu öznitelikler, e-posta adreslerinin leksik yapılarını, geniş bağlamlarını ve yapısal özelliklerini içermektedir. Sonrasında elde edilen öznitelik seti üzerinde, çeşitli makine öğrenme algoritmaları uygulanmış ve e-posta adresleri ayırt edilmeye çalışılmıştır. Elde edilen sonuçlar, K-katlı çapraz doğrulama yöntemiyle değerlendirilmiş ve %96 doğruluk oranı elde edilmiştir. Bu başarı oranı, geliştirilen yöntemin gerçek ve geçici e-posta adreslerini başarılı bir şekilde ayırt edebileceğini göstermektedir.
Primary Language | English |
---|---|
Subjects | Information Security Management |
Journal Section | Articles |
Authors | |
Publication Date | September 26, 2024 |
Submission Date | July 20, 2024 |
Acceptance Date | September 12, 2024 |
Published in Issue | Year 2024 Volume: 13 Issue: 3 |
This work is licensed under the Creative Commons Attribution-Non-Commercial-Non-Derivable 4.0 International License.