The aim of the study is to determine the households shopping online in Turkey. During the modeling phase, the Random Forest method, which is frequently preferred in classification problems, was used. The data set in the TÜİK 2019 Household Budget Survey and gathered from 11521 households was used. The data set of the study was balanced with SMOTE and Random Undersampling methods. The cross-validation method was used to increase the accuracy of the study. The performances of the established models were compared and interpreted, and it was shown that the classifier performance could be increased with the correct use of sampling methods and cross-validation. In the training dataset, the model established by applying the SMOTE method was found to be more successful than the results of all criteria (F, DP, G-Means and MCC ) compared to other models. In the test data set, while it was observed that the model with the SMOTE method was more successful than the results of the F and MCC criteria, the model established with the Undersampling method was more successful according to the result of the G-Means criterion, and the model created without using any method was found to be successful according to the result of the DP criterion.
Random forest shop on the internet imbalanced dataset SMOTE random undersampling
Gerçekleştirilen çalışmanın amacı Türkiye hanehalkının internetten alışveriş yapma durumunun tespit edilmesidir. Çalışmada, TÜİK 2019 Hanehalkı Bütçe Anketinde yer alan ve 11521 haneden derlenen veri seti kullanılmıştır. İnternetten alışveriş yapan ve yapmayan hane sayısının dengesiz olduğu görülmüştür. Dengesiz veri SMOTE yöntemi kullanılarak dengeli hale getirilmiş ve Rastgele Orman yöntemiyle modellenmiştir. Çalışmanın doğruluğunu artırmak için 10’lu çapraz doğrulama yöntemi kullanılmıştır. Analiz sonuçlarına göre pozitif sınıflar için SMOTE yöntemi uygulanan modelin SMOTE yöntemi uygulanmayan modele göre F, G-Means ve MCC ölçütlerinde daha başarılı olduğu görülürken DP ölçütünde birbirine yakın sonuçlar elde ettiği görülmüştür. Negatif sınıflar için SMOTE yöntemi uygulanan modelin SMOTE yöntemi uygulanmayan modele göre G-Means ve MCC ölçütlerinde daha başarılı olduğu görülürken F ve DP ölçütlerinde birbirine yakın sonuçlar elde ettiği görülmüştür.
Rastgele orman internetten alışveriş dengesiz veri seti SMOTE rastgele yetersiz örnekleme
Birincil Dil | Türkçe |
---|---|
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 21 Aralık 2021 |
Kabul Tarihi | 23 Kasım 2021 |
Yayımlandığı Sayı | Yıl 2021 |
KAÜİİBFD, Kafkas Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergi Yayıncılığı'nın kurumsal dergisidir.
KAÜİİBFD 2022 yılından itibaren Web of Science'a dahil edilerek, Clarivate ürünü olan Emerging Sources Citation Index (ESCI) uluslararası alan endeksinde taranmaya başlamıştır.
2025 Haziran sayısı makale kabul ve değerlendirmeleri devam etmektedir.