Machine learning enables machines to learn information and make inferences using the information it has learned. In this article, five years of crime data were analyzed and the learning process was completed with the data in the machine's hands. One-Hot Encoding and Min-Max Normalization methods and Principal Component Analysis algorithm were used in the analysis of the data. The model was asked to predict whether the criminal could be caught, the security of the area, and the type of crime committed using the K-Nearest Neighborhood, Random Forest and Extreme Gradient Boosting algorithms. However, no matter how successful the model is in imbalanced datasets, the result will be misleading. Therefore, the main purpose of this article is to transform the imbalanced data into a balanced one by various methods and to find the most accurate sampling method for the data, which is compatible with the classification method. For this purpose, one statistical sampling method (Stratify), three over sampling method (Random Over Sampler, Synthetic Minority Over, Adaptive Synthetic), three under sampling method (Random Under Sampler, Near Miss, Neighborhood Cleaning Rule) and mix samplig method (Smote Tomek) have been applied to avoid imbalance of data in target areas such as Arrest, Crime Type,Security. As a result of the sampling methods applied, efficient and effective results were obtained.
Sampling Techniques Classification Data Pre-Processing Machine Learning Crime Analysis Data Analysis Data Visualization.
-
-
-
Makine öğrenmesi, makinelerin bilgiyi öğrenmesini ve öğrendiği bilgiyi kullarak çıkarımlar yapmasını sağlar. Bu makalede, beş yıla ait suç verileri ele alınarak analiz edildi ve makinenin elindeki verilerle öğreme işleminin tamamlanması sağlandı. Verinin analizi sürecinde One-Hot Encoding ve Min-Max Normalizasyon methodları ile Principal Component Analysis algoritması kullanıldı. Modelden suçlunun yakalanıp yakalanamaması, bölgenin güvenliği ve işlenen suçun tipini K-Nearest Neighborhood, Random Forest ve Extreme Gradient Boosting algoritmaları kullanılarak tahmin etmesi istendi. Fakat dengesiz veri setlerinde model ne kadar başarılı olursa olsun sonuç yanıltıcı olur. Bu nedenle bu makalenin asıl amacı dengesiz verinin çeşitli methodlarla dengeli hale dönüştürülmesi ve veri için sınıflandırma methodu ile uyumlu en doğru örnekleme methodunu bulmaktır. Bu amaçla tutuklanma, suç tipi, güvenlik gibi hedef alanlarında verinin dengesizliğinin önüne geçmek için bir tane istatistiki örnekleme methodu (Tabakalaştırma), üç tane üst önekleyici method (Rastgele Üst Örnekleyici, Sentetik Azınlık Üstü, Uyarlamalı Sentetik), üç tanem alt örnekleyici method (Rastgele Alt Örnekleyici, Ramak Kala, Yakın Komşu Temizleme Kuralı) ve bir tane alt ve üst karışık örnekleme methodu (Smote Tomek) uygulanmıştır. Uygulanan örnekleme yöntemleri sonucunda verimli ve etkili sonuçlar elde edilmiştir.
Örnekleme Teknikleri Sınıflandırma Veri Ön İnceleme Makine Öğrenmesi Suç Analizi Veri Analizi Veri Görselleştirme.
-
Primary Language | English |
---|---|
Subjects | Engineering |
Journal Section | Articles |
Authors | |
Project Number | - |
Publication Date | August 31, 2022 |
Published in Issue | Year 2022 |