Müşteri Kaybı Tahmininde Sınıf Dengesizliği Problemi

M. Aslı Aydın

doi:10.2339/politeknik.734916

EN TR

Class Imbalance Problem In Churn Prediction

Öz

Customer churn prediction is determining the customers most likely to leave by examining customer data. Machine learning is one of the solution approaches. Class imbalance is typical for this problem since more customers are labeled as Non-Churn than Churn. Handling class imbalance is crucial since the classifier’s performance is highly affected.
This work focuses on churn prediction in telecommunications. We use publicly available churn data from 7043 customers having 21 features. We use Minimal Redundancy Maximal Relevance for feature selection. We handle class imbalance problem with resampling methods including Synthetic Minority Oversampling Technique, Adaptive Synthetic Sampling, Majority Weighted Minority Oversampling, Rapidly Converging Gibbs Algorithm, Random Walk Oversampling and Random Oversampling Examples. We employ classifiers including Naïve Bayes, Decision Trees, Random Forest, Artificial Neural Networks, Logistic Regression, Support Vector Machines and k-Nearest Neighbours with 10-fold cross validation (CV). We try two approaches in experiments: i) resampling during CV and ii) resampling before CV. We compare the results with original data using Accuracy, Precision, Recall, F-measure and ROC-Curve as performance measures. The results show 5.7% increase in model performance for Support Vector Machines with ROSE when we apply first approach. We observe that classifier’s performance is overoptimized if second approach is applied.

Anahtar Kelimeler

Müşteri Kaybı Tahmininde Sınıf Dengesizliği Problemi

Öz

Müşteri kaybı tahmini, müşteri verilerinin incelenerek ayrılması muhtemel müşterinin önceden tespit edilmesidir. Çözümünde makine öğrenmesi yöntemlerinden faydalanılmaktadır. Yapısı itibariyle veride Ayrılan sınıfındaki veri sayısının Ayrılmayan sınıfındakinden çok daha az olduğu gözlenir. Dengesiz sınıf dağılımı, makine öğrenmesi yöntemlerinin performansını olumsuz etkilediğinden verinin dengelenmesi önemlidir.

Çalışmada telekomünikasyon sektöründeki müşteri kaybı tahminine odaklanılmıştır. Uygulama, açık erişimli veri tabanından elde edilen 7043 müşteriye ait 21 öznitelik içeren veri üzerinde gerçekleştirilmiştir. Öncelikle Minimum Fazlalık Maksimum Bağımlılık yöntemiyle öznitelik seçimi yapılmıştır. Yeniden örnekleme, Sentetik Azınlık Aşırı Örnekleme Yöntemi (SMOTE), Uyarlanabilir Sentetik Örnekleme (ADASYN), Çoğunluk Ağırlıklı Azınlık Örnekleme (MWMOTE), Hızlı Yakınsayan Gibbs Algoritması (RACOG), Rastgele Yürüyüş Aşırı Örnekleme (RWO) ve Rastgele Aşırı Örnekleme (ROSE) yöntemleriyle uygulanmıştır. Sınıflandırma problemi için Naïve Bayes, Karar Ağaçları, Rastgele Orman, Yapay Sinir Ağları, Lojistik Regresyon, Destek Vektör Makineleri ve K-En Yakın Komşuluk yöntemleri 10 kat Çapraz Geçerlemeyle uygulanmıştır. Deneyler yeniden örneklemenin çapraz geçerlemeden önce ve çapraz geçerleme sırasında uygulandığı iki farklı yaklaşımla gerçekleştirilmiştir. Yöntemlerin performansı Doğruluk, Kesinlik, Duyarlılık, F-Ölçütü, Alıcı İşletim Karakteristiği Eğrisiyle ölçülmüştür. Uygulanan yöntemlerin performansı orijinal verininkilerle kıyaslanmıştır. Destek Vektör Makinelerinin performansında ROSE’la çapraz geçerleme esnasında yeniden örneklenmiş veride orijinal veriye göre %5.7 iyileşme gözlenmiş, yeniden örnekleme çapraz geçerlemeden önce yapıldığında iyileşme miktarının gerçek değerinin üzerinde kaydedildiği sonucuna ulaşılmıştır.

Anahtar Kelimeler

Kaynakça

[1] Cao, J., Yu, X. & Zhang, Z., “Integrating OWA and data mining for analyzing customers churn in E-commerce.”, J Syst Sci Complex, 28: 381–392, (2015).
[2] Koçoğlu, F.Ö., Özcan, T., Baray, Ş.A., “Veri madenciliğinde ayrılan müşteri analizi problemi üzerine bir literatür araştırması”, Uluslararası katılımlı 16. Üretim Araştırmaları Sempozyumu, 868-874, (2016).
[3] Keramati, A., Jafari-Marandi, R., Aliannejadi, M., Ahmadian, I., Mozaffari, M., Abbasi, U., “Improved churn prediction in telecommunication industry using data mining techniques”, Applied Soft Computing, 24: 994-1012, (2014).
[4] Kaynar, O. , Tuna, M. , Görmez, Y. , Deveci, M., “Makine öğrenmesi yöntemleriyle müşteri kaybı analizi”, Cumhuriyet Üniversitesi İktisadi ve İdari Bilimler Dergisi, 18:1 , 1-14, (2017).
[5] Günay, M. and Ensarı,T., “Predictive churn analysis with machine learning methods.” 26th Signal Processing and Communications Applications Conference (SIU), Izmir, 1-4, (2018).
[6] Yıldız, M. and Albayrak, S., “Customer churn prediction in telecommunication”, 23nd Signal Processing and Communications Applications Conference (SIU), Malatya, 256-259, (2015).
[7] Vafeiadis, T., Diamantaras, K.I., Sarigiannidis, G., Chatzisavvas, K.Ch., “A comparison of machine learning techniques for customer churn prediction”, Simulation Modelling Practice and Theory, 55: 1-9, (2015).
[8] Ullah,I., Raza,B., Malik, A. K. , Imran, M., Islam, S. U. and Kim, S. W., “A Churn Prediction Model Using Random Forest: Analysis of Machine Learning Techniques for Churn Prediction and Factor Identification in Telecom Sector”, IEEE Access, 7: 60134-60149, (2019).

[9] Amin A., Shah B., Abbas A., Anwar S., Alfandi O., Moreira F., “Features Weight Estimation Using a Genetic Algorithm for Customer Churn Prediction in the Telecom Sector”, In: Rocha Á., Adeli H., Reis L., Costanzo S. (eds) New Knowledge in Information Systems and Technologies. WorldCIST'19 2019. Advances in Intelligent Systems and Computing, 931: 483-491, (2019).
[10] Kartal, E., Özen, Z., “Dengesiz Veri Setlerinde Sınıflandırma”, Mühendislikte Yapay Zekâ Uygulamaları, Sakarya, 109-131, (2017).
[11] Gui, C., “Analysis of imbalanced data set problem: The case of churn prediction for telecommunication”, Artif. Intell. Research, 6:2, 93, (2017).
[12] Durahim, A., “Comparison Of Sampling Techniques For Imbalanced Learning”. Yönetim Bilişim Sistemleri Dergisi , 2:2, 181-191, (2016).
[13] Effendy, V., Adiwijaya and Baizal, Z. K. A., “Handling imbalanced data in customer churn prediction using combined sampling and weighted random forest”, 2nd International Conference on Information and Communication Technology (ICoICT), Bandung, 2014, 325-330, (2014).
[14] Amin, A. et al., “Comparing Oversampling Techniques to Handle the Class Imbalance Problem: A Customer Churn Prediction Case Study, IEEE Access, 4: 7940-7957, (2016). doi: 10.1109/ACCESS.2016.2619719
[15] Aditsania, A., Adiwijaya and Saonard, A. L., “Handling imbalanced data in churn prediction using ADASYN and backpropagation algorithm”, 3rd International Conference on Science in Information Technology (ICSITech), Bandung, 2017, 533-536, (2017).
[16] Koçoğlu, F. ve Ozcan, T., “Dengeli-Dengesiz Veri Seti Dağılımının Aşırı Öğrenme Makinesi Yöntemi Performansına Etkisi”, Mühendislik ve Teknoloji Yönetimi Zirvesi-ETMS2018, İstanbul, 201-209, (2018).
[17] Blagus, R. and Lusa,L. “Joint use of over-and under-sampling techniques and cross-validation for the development and assessment of prediction models,” BMC bioinformatics, 16:1, 1–10, (2015).
[18] https://www.kaggle.com/blastchar/telco-customer-churn/version/1 (Son erişim tarihi: 05/06/2019)
[19] Chawla, N. V. et.al., “SMOTE: Synthetic Minority Over-Sampling Technique”, Journal of Artificial Intelligence Research, 16, 321–357 (2002).
[20] He, H., Bai, Y., Garcia, E. A. and Li, S., “ADASYN: Adaptive synthetic sampling approach for imbalanced learning”, IEEE International Joint Conference on Neural Networks (IEEE World Congress on Computational Intelligence), Hong Kong, 1322-1328, (2008).
[21] Barua, S., Islam, M.M., Yao, X., Murase, K., “MWMOTE–majority weighted minority oversampling technique for imbalanced data set learning”, IEEE Trans. Knowl. Data Eng. 26:2, 405–425, (2014).
[22] Das, B., Krishnan, N.C., Cook, D.J., “RACOG and wRACOG: two probabilistic over- sampling techniques”, IEEE Trans. Knowl. Data Eng. 27:1, 222–234, (2015).
[23] Zhang, H., Li, M., “RWO-sampling: a random walk oversampling approach to imbalanced data classification”, Inf. Fusion 20: 99–116, (2014).
[24] Menardi, G. and Torelli, N., “Training and assessing classification rules with imbalanced data”, Data Mining and Knowledge Discovery, 28: 92–122, (2014).
[25] R Development Core Team, “R: A language and environment for statistical computing”, R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, (2008). URL http://www.R-project.org. (Son erişim tarihi: 07/01/2020)
[26] Cordón I, García S, Fernández A, Herrera F., "Imbalance: Oversampling algorithms for imbalanced classification in R", Knowledge-Based Systems, 161: 329-341, (2018).
[27] Lunardon, N., Menardi, G., and Torelli, N., “ROSE: a Package for Binary Imbalanced Learning”, R Journal, 6:1, 82-92, (2014).
[28] Weka. https://www.cs.waikato.ac.nz/ml/weka/index.html. (Son erişim tarihi: 07/01/2020

Ayrıntılar

Birincil Dil

Türkçe

Konular

Mühendislik

Bölüm

Araştırma Makalesi

Yazarlar

M. Aslı Aydın ^*
0000-0002-8905-7518
Türkiye

Yayımlanma Tarihi

1 Mart 2022

Gönderilme Tarihi

9 Mayıs 2020

Kabul Tarihi

14 Eylül 2020

Yayımlandığı Sayı

Yıl 2022 Cilt: 25 Sayı: 1

DOI

https://doi.org/10.2339/politeknik.734916

IZ

https://izlik.org/JA95MZ27WB

Kaynak Göster

RIS / Bibtex

APA

Aydın, M. A. (2022). Müşteri Kaybı Tahmininde Sınıf Dengesizliği Problemi. Politeknik Dergisi, 25(1), 351-360. https://doi.org/10.2339/politeknik.734916

AMA

1.Aydın MA. Müşteri Kaybı Tahmininde Sınıf Dengesizliği Problemi. Politeknik Dergisi. 2022;25(1):351-360. doi:10.2339/politeknik.734916

Chicago

Aydın, M. Aslı. 2022. “Müşteri Kaybı Tahmininde Sınıf Dengesizliği Problemi”. Politeknik Dergisi 25 (1): 351-60. https://doi.org/10.2339/politeknik.734916.

EndNote

Aydın MA (01 Mart 2022) Müşteri Kaybı Tahmininde Sınıf Dengesizliği Problemi. Politeknik Dergisi 25 1 351–360.

IEEE

[1]M. A. Aydın, “Müşteri Kaybı Tahmininde Sınıf Dengesizliği Problemi”, Politeknik Dergisi, c. 25, sy 1, ss. 351–360, Mar. 2022, doi: 10.2339/politeknik.734916.

ISNAD

Aydın, M. Aslı. “Müşteri Kaybı Tahmininde Sınıf Dengesizliği Problemi”. Politeknik Dergisi 25/1 (01 Mart 2022): 351-360. https://doi.org/10.2339/politeknik.734916.

JAMA

1.Aydın MA. Müşteri Kaybı Tahmininde Sınıf Dengesizliği Problemi. Politeknik Dergisi. 2022;25:351–360.

MLA

Aydın, M. Aslı. “Müşteri Kaybı Tahmininde Sınıf Dengesizliği Problemi”. Politeknik Dergisi, c. 25, sy 1, Mart 2022, ss. 351-60, doi:10.2339/politeknik.734916.

Vancouver

1.M. Aslı Aydın. Müşteri Kaybı Tahmininde Sınıf Dengesizliği Problemi. Politeknik Dergisi. 01 Mart 2022;25(1):351-60. doi:10.2339/politeknik.734916