Temporary e-mail addresses are e-mail addresses that users can quickly create without signing up. These e-mail addresses are useful for privacy and to avoid spam. However, they also pose several serious cyber threats, including fraud, spam campaigns, and fake account creation In this study, a method utilizing natural language processing and machine learning techniques is proposed to classify real and temporary e-mail addresses. First, temporary and real e-mail addresses are analyzed, and features are developed to identify the differences between them. These features include lexical structures, broad contexts, and structural features of e-mail addresses. Various machine learning algorithms were then applied on the resulting feature set to differentiate e-mail addresses. The results were evaluated with K-fold cross-validation method and an accuracy rate of 96% was obtained. This success rate shows that the developed method can successfully distinguish between real and temporary e-mail addresses.
E-mail classification Natural language processing Artificial neural network Machine learning
Geçici e-posta adresleri, kullanıcıların üye olmadan hızlı bir şekilde oluşturabildikleri e-posta adresleridir. Bu e-posta adresleri gizlilik ve istenmeyen e-postalardan kaçınmak için yararlıdır. Fakat bu e-postalar adreslerinin dolandırıcılığa, spam kampanyalarında kullanılma ve sahte hesap oluşturmaya kadar bir dizi ciddi siber tehdidi de bulunmaktadır. Bu çalışmada, gerçek ve geçici e-posta adreslerini sınıflandırmak için doğal dil işleme ve makine öğrenme tekniklerinden yararlanan bir yöntem önerilmiştir. Öncelikle, geçici ve gerçek e-posta adresleri analiz edilmiş ve arasındaki farkları belirlemeye yönelik öznitelikler geliştirilmiştir. Bu öznitelikler, e-posta adreslerinin leksik yapılarını, geniş bağlamlarını ve yapısal özelliklerini içermektedir. Sonrasında elde edilen öznitelik seti üzerinde, çeşitli makine öğrenme algoritmaları uygulanmış ve e-posta adresleri ayırt edilmeye çalışılmıştır. Elde edilen sonuçlar, K-katlı çapraz doğrulama yöntemiyle değerlendirilmiş ve %96 doğruluk oranı elde edilmiştir. Bu başarı oranı, geliştirilen yöntemin gerçek ve geçici e-posta adreslerini başarılı bir şekilde ayırt edebileceğini göstermektedir.
E-mail sınıflandırma Doğal dil işleme Yapay sinir ağı Makine öğrenme
Birincil Dil | İngilizce |
---|---|
Konular | Bilgi Güvenliği Yönetimi |
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 26 Eylül 2024 |
Gönderilme Tarihi | 20 Temmuz 2024 |
Kabul Tarihi | 12 Eylül 2024 |
Yayımlandığı Sayı | Yıl 2024 |
Bu eser Creative Commons Atıf-GayriTicari-Türetilemez 4.0 Uluslararası Lisansı ile lisanslanmıştır.