Crime refers to an action legally defined as harmful to society, and it is important to understand the type of crime to prevent these actions. However, crime can occur at any time and place, making it difficult to predict. Data generated based on previously committed crimes contributes to overcoming this difficulty. This study proposes a novel model for classifying criminal activities using a Doc2Vec that can cause a numerical representation of texts regardless of length and a stacking ensemble model that includes 8 different machine-learning models. Unlike the literature, the model processes the features as text and converts them into vectors rather than categorically. In this way, it enables using features that cannot be used in the literature. The proposed model is tested using a distributed online competition database, Francisco Crime Classification, which contains crimes committed over 12 years. An accuracy value of 99.28% was obtained for the 15 crime categories with the highest crime records, while precision, recall, and f-score values were 99.18%, 99.38%, and 99.20%, respectively. With cross-validation (k=10), 99.80% performance was achieved with a std. value of 0.001. These performance values are higher than those of all the studies in the literature using categorical feature structures. The results show that converting criminal activity reports, which contain text-based features, into vectors that can be processed with natural language processing techniques such as Doc2vec instead of using them categorically in model training can directly contribute to the classification performance and provide a more efficient model with less preprocessing.
Crime prediction Criminology Doc2vec Stacking ensemble model
Suç, toplum açısından kanuni olarak zararlı olarak tanımlanmış eylemi ifade eder ve bu eylemlerin engellenmesi için suç türünün anlaşılması oldukça önemlidir. Ancak suç herhangi bir zamanda ve yerde meydana gelebilmektedir ve bu durum suçun tahmin edilebilirliğini zorlaştırmaktadır. Daha önce işlenmiş suçlara dayalı olarak oluşturulan verilerin kullanılması bu zorluğun aşılmasına katkı sağlamaktadır. Bu çalışmada suç faaliyetlerini sınıflandırma için uzunluğundan bağımsız olarak metinlerin sayısal temsilini üretebilen Doc2Vec yapısı ve 8 farklı yapay öğrenme modelini içeren bir yığınlama topluluk öğrenimi modelin kullanıldığı özgün bir model önerilmiştir. Model literatürden farklı olarak öznitelikleri kategorik olarak değil metin olarak işlemekte ve vektör haline dönüştürmektedir. Bu sayede literatürde kullanılamayan özniteliklerin kullanılmasını sağlamaktadır. Önerilen model 12 yıl boyunca işlenen suçları içeren, Francisco Crime Classification, isimli online dağıtımlı bir çevrimiçi yarışma veriseti kullanılarak test edilmiştir. En yüksek suç kaydının olduğu 15 suç kategorisi için %99,28 doğruluk değeri elde edilirken, kesinlik, geri çağırma ve f-değeri sırasıyla %99,18, %99,38 ve %99,28 olmuştur. Çapraz doğrulama (k=10) ile 0,001 std. değeri ile %99,8 başarım yakalanmıştır. Bu performans değerleri kategorik özellik yapısının kullanıldığı literatürdeki tüm çalışmalardan yüksektir. Elde edilen sonuçlar metin tabanlı özellikler barındıran suç faaliyet raporlarının kategorik olarak model eğitimlerinde kullanılması yerine Doc2Vec gibi doğal dil işleme teknikleri ile işlenebilir vektörlere dönüştürülmesinin sınıflandırma performansına doğrudan katkı sunabildiğini göstermiş ve daha az ön işlem sayesinde daha verimli bir modelin ortaya çıkmasını sağlamıştır.
Birincil Dil | İngilizce |
---|---|
Konular | Veri Modelleri, Depolama ve Dizinleme, Bilgisayar Yazılımı |
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 28 Aralık 2023 |
Gönderilme Tarihi | 16 Ekim 2023 |
Kabul Tarihi | 25 Aralık 2023 |
Yayımlandığı Sayı | Yıl 2023 |