Suç toplumlara zarar veren yasal olarak da cezai bir karşılığı da olan tüm eylem ve davranışlardır. Suçla mücadele temelde devletin görevi olarak yorumlanmakla birlikte bu çalışmaya benzer uygulamalar mücadeleyi destekleyebilmek adına önemlidir. Çünkü suç verileri üzerinden yapılan farklı analizler ile yorumlanabilir durumlar ortaya çıkarabilir. Buradan hareketle alınan ek tedbirler suç ile mücadele de yardımcı öge olmuş olur. Oluşabilecek suçun tahmin edilebilmesi suç durumu oluşmadan önlenmesini sağlar. Bu nedenle suçların analizi ve tahmini gelecekteki suçları belirlemede ve azaltmada önemlidir. Bu çalışmada DistilBERT ile özniteliklerin elde edildiği ve 8 farklı makine öğrenim algoritmasının sınıflandırıcı olarak kullanıldığı bir model önerilmiştir. Veriseti olarak Kaggle Inc. Tarafından yönetilen çevrimiçi bir yarışma için kullanılan San Francisco suç veriseti kullanılmıştır. Literatürden farklı olarak verisetindeki tüm suç kategorileri (39 kategori) çalışmaya dâhil edilmiştir. Ayrıca DistilBERT ile özniteliklerin elde edilmesi de çalışmayı farklılaştıran diğer bir noktadır. Parametre optimizasyonu için GridSearchCV tercih edilmiş ve default parametrelere göre 1-2% aralığında genel iyileşme gözlemlenmiştir. En yüksek doğruluk oranı 99.78% ile Destek Vektör Makinesi (DVM) ile elde edilmiştir. Ayrıca 10 kat çapraz doğrulama ile de yine DVM ve Lojistik Regresyon (LR) sınıflandırıcılarında daha yüksek doğruluk değerlerine ulaşılmıştır.
Crime is all actions and behaviors that harm societies and have a legal and criminal counterpart. Although the fight against crime is basically interpreted as the duty of the state, practices similar to this study are important in order to support the struggle. Because it can create situations that can be interpreted with different analyzes made on crime data. From this point of view, additional measures taken will be an auxiliary element in the fight against crime. Being able to predict the crime that may occur ensures that it is prevented before the crime situation occurs. Therefore, the analysis and prediction of crimes is important in identifying and reducing future crimes. In this research, a model in which features are obtained with DistilBERT and 8 different machine learning algorithms are used as classifiers is proposed. The San Francisco crime dataset, which was used for an online competition managed by Kaggle Inc, was used as the dataset. Unlike the literature, all crime categories (39 categories) in the dataset were included in the study. In addition, obtaining features with DistilBERT is another point that differentiates the study. GridSearchCV was preferred for parameter optimization and a general improvement was observed in the range of 1-2% compared to the default parameters. The highest accuracy rate was accomplished with the Support Vector Machine (SVM) with 99.78%. In addition, with 10-fold cross-validation, higher accuracy values were achieved in SVM and Logistic Regression (LR) classifiers.
Google BERT Natural language processing Crime analysis Machine learning
Birincil Dil | İngilizce |
---|---|
Konular | Doğal Dil İşleme |
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 25 Aralık 2024 |
Gönderilme Tarihi | 26 Temmuz 2024 |
Kabul Tarihi | 23 Aralık 2024 |
Yayımlandığı Sayı | Yıl 2024 Cilt: 39 Sayı: 4 |