Research Article
BibTex RIS Cite

Class Imbalance Problem In Churn Prediction

Year 2022, Volume: 25 Issue: 1, 351 - 360, 01.03.2022
https://doi.org/10.2339/politeknik.734916

Abstract

Customer churn prediction is determining the customers most likely to leave by examining customer data. Machine learning is one of the solution approaches. Class imbalance is typical for this problem since more customers are labeled as Non-Churn than Churn. Handling class imbalance is crucial since the classifier’s performance is highly affected.
This work focuses on churn prediction in telecommunications. We use publicly available churn data from 7043 customers having 21 features. We use Minimal Redundancy Maximal Relevance for feature selection. We handle class imbalance problem with resampling methods including Synthetic Minority Oversampling Technique, Adaptive Synthetic Sampling, Majority Weighted Minority Oversampling, Rapidly Converging Gibbs Algorithm, Random Walk Oversampling and Random Oversampling Examples. We employ classifiers including Naïve Bayes, Decision Trees, Random Forest, Artificial Neural Networks, Logistic Regression, Support Vector Machines and k-Nearest Neighbours with 10-fold cross validation (CV). We try two approaches in experiments: i) resampling during CV and ii) resampling before CV. We compare the results with original data using Accuracy, Precision, Recall, F-measure and ROC-Curve as performance measures. The results show 5.7% increase in model performance for Support Vector Machines with ROSE when we apply first approach. We observe that classifier’s performance is overoptimized if second approach is applied.

References

  • [1] Cao, J., Yu, X. & Zhang, Z., “Integrating OWA and data mining for analyzing customers churn in E-commerce.”, J Syst Sci Complex, 28: 381–392, (2015).
  • [2] Koçoğlu, F.Ö., Özcan, T., Baray, Ş.A., “Veri madenciliğinde ayrılan müşteri analizi problemi üzerine bir literatür araştırması”, Uluslararası katılımlı 16. Üretim Araştırmaları Sempozyumu, 868-874, (2016).
  • [3] Keramati, A., Jafari-Marandi, R., Aliannejadi, M., Ahmadian, I., Mozaffari, M., Abbasi, U., “Improved churn prediction in telecommunication industry using data mining techniques”, Applied Soft Computing, 24: 994-1012, (2014).
  • [4] Kaynar, O. , Tuna, M. , Görmez, Y. , Deveci, M., “Makine öğrenmesi yöntemleriyle müşteri kaybı analizi”, Cumhuriyet Üniversitesi İktisadi ve İdari Bilimler Dergisi, 18:1 , 1-14, (2017).
  • [5] Günay, M. and Ensarı,T., “Predictive churn analysis with machine learning methods.” 26th Signal Processing and Communications Applications Conference (SIU), Izmir, 1-4, (2018).
  • [6] Yıldız, M. and Albayrak, S., “Customer churn prediction in telecommunication”, 23nd Signal Processing and Communications Applications Conference (SIU), Malatya, 256-259, (2015).
  • [7] Vafeiadis, T., Diamantaras, K.I., Sarigiannidis, G., Chatzisavvas, K.Ch., “A comparison of machine learning techniques for customer churn prediction”, Simulation Modelling Practice and Theory, 55: 1-9, (2015).
  • [8] Ullah,I., Raza,B., Malik, A. K. , Imran, M., Islam, S. U. and Kim, S. W., “A Churn Prediction Model Using Random Forest: Analysis of Machine Learning Techniques for Churn Prediction and Factor Identification in Telecom Sector”, IEEE Access, 7: 60134-60149, (2019).
  • [9] Amin A., Shah B., Abbas A., Anwar S., Alfandi O., Moreira F., “Features Weight Estimation Using a Genetic Algorithm for Customer Churn Prediction in the Telecom Sector”, In: Rocha Á., Adeli H., Reis L., Costanzo S. (eds) New Knowledge in Information Systems and Technologies. WorldCIST'19 2019. Advances in Intelligent Systems and Computing, 931: 483-491, (2019).
  • [10] Kartal, E., Özen, Z., “Dengesiz Veri Setlerinde Sınıflandırma”, Mühendislikte Yapay Zekâ Uygulamaları, Sakarya, 109-131, (2017).
  • [11] Gui, C., “Analysis of imbalanced data set problem: The case of churn prediction for telecommunication”, Artif. Intell. Research, 6:2, 93, (2017).
  • [12] Durahim, A., “Comparison Of Sampling Techniques For Imbalanced Learning”. Yönetim Bilişim Sistemleri Dergisi , 2:2, 181-191, (2016).
  • [13] Effendy, V., Adiwijaya and Baizal, Z. K. A., “Handling imbalanced data in customer churn prediction using combined sampling and weighted random forest”, 2nd International Conference on Information and Communication Technology (ICoICT), Bandung, 2014, 325-330, (2014).
  • [14] Amin, A. et al., “Comparing Oversampling Techniques to Handle the Class Imbalance Problem: A Customer Churn Prediction Case Study, IEEE Access, 4: 7940-7957, (2016). doi: 10.1109/ACCESS.2016.2619719
  • [15] Aditsania, A., Adiwijaya and Saonard, A. L., “Handling imbalanced data in churn prediction using ADASYN and backpropagation algorithm”, 3rd International Conference on Science in Information Technology (ICSITech), Bandung, 2017, 533-536, (2017).
  • [16] Koçoğlu, F. ve Ozcan, T., “Dengeli-Dengesiz Veri Seti Dağılımının Aşırı Öğrenme Makinesi Yöntemi Performansına Etkisi”, Mühendislik ve Teknoloji Yönetimi Zirvesi-ETMS2018, İstanbul, 201-209, (2018).
  • [17] Blagus, R. and Lusa,L. “Joint use of over-and under-sampling techniques and cross-validation for the development and assessment of prediction models,” BMC bioinformatics, 16:1, 1–10, (2015).
  • [18] https://www.kaggle.com/blastchar/telco-customer-churn/version/1 (Son erişim tarihi: 05/06/2019)
  • [19] Chawla, N. V. et.al., “SMOTE: Synthetic Minority Over-Sampling Technique”, Journal of Artificial Intelligence Research, 16, 321–357 (2002).
  • [20] He, H., Bai, Y., Garcia, E. A. and Li, S., “ADASYN: Adaptive synthetic sampling approach for imbalanced learning”, IEEE International Joint Conference on Neural Networks (IEEE World Congress on Computational Intelligence), Hong Kong, 1322-1328, (2008).
  • [21] Barua, S., Islam, M.M., Yao, X., Murase, K., “MWMOTE–majority weighted minority oversampling technique for imbalanced data set learning”, IEEE Trans. Knowl. Data Eng. 26:2, 405–425, (2014).
  • [22] Das, B., Krishnan, N.C., Cook, D.J., “RACOG and wRACOG: two probabilistic over- sampling techniques”, IEEE Trans. Knowl. Data Eng. 27:1, 222–234, (2015).
  • [23] Zhang, H., Li, M., “RWO-sampling: a random walk oversampling approach to imbalanced data classification”, Inf. Fusion 20: 99–116, (2014).
  • [24] Menardi, G. and Torelli, N., “Training and assessing classification rules with imbalanced data”, Data Mining and Knowledge Discovery, 28: 92–122, (2014).
  • [25] R Development Core Team, “R: A language and environment for statistical computing”, R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, (2008). URL http://www.R-project.org. (Son erişim tarihi: 07/01/2020)
  • [26] Cordón I, García S, Fernández A, Herrera F., "Imbalance: Oversampling algorithms for imbalanced classification in R", Knowledge-Based Systems, 161: 329-341, (2018).
  • [27] Lunardon, N., Menardi, G., and Torelli, N., “ROSE: a Package for Binary Imbalanced Learning”, R Journal, 6:1, 82-92, (2014).
  • [28] Weka. https://www.cs.waikato.ac.nz/ml/weka/index.html. (Son erişim tarihi: 07/01/2020

Müşteri Kaybı Tahmininde Sınıf Dengesizliği Problemi

Year 2022, Volume: 25 Issue: 1, 351 - 360, 01.03.2022
https://doi.org/10.2339/politeknik.734916

Abstract

Müşteri kaybı tahmini, müşteri verilerinin incelenerek ayrılması muhtemel müşterinin önceden tespit edilmesidir. Çözümünde makine öğrenmesi yöntemlerinden faydalanılmaktadır. Yapısı itibariyle veride Ayrılan sınıfındaki veri sayısının Ayrılmayan sınıfındakinden çok daha az olduğu gözlenir. Dengesiz sınıf dağılımı, makine öğrenmesi yöntemlerinin performansını olumsuz etkilediğinden verinin dengelenmesi önemlidir.

Çalışmada telekomünikasyon sektöründeki müşteri kaybı tahminine odaklanılmıştır. Uygulama, açık erişimli veri tabanından elde edilen 7043 müşteriye ait 21 öznitelik içeren veri üzerinde gerçekleştirilmiştir. Öncelikle Minimum Fazlalık Maksimum Bağımlılık yöntemiyle öznitelik seçimi yapılmıştır. Yeniden örnekleme, Sentetik Azınlık Aşırı Örnekleme Yöntemi (SMOTE), Uyarlanabilir Sentetik Örnekleme (ADASYN), Çoğunluk Ağırlıklı Azınlık Örnekleme (MWMOTE), Hızlı Yakınsayan Gibbs Algoritması (RACOG), Rastgele Yürüyüş Aşırı Örnekleme (RWO) ve Rastgele Aşırı Örnekleme (ROSE) yöntemleriyle uygulanmıştır. Sınıflandırma problemi için Naïve Bayes, Karar Ağaçları, Rastgele Orman, Yapay Sinir Ağları, Lojistik Regresyon, Destek Vektör Makineleri ve K-En Yakın Komşuluk yöntemleri 10 kat Çapraz Geçerlemeyle uygulanmıştır. Deneyler yeniden örneklemenin çapraz geçerlemeden önce ve çapraz geçerleme sırasında uygulandığı iki farklı yaklaşımla gerçekleştirilmiştir. Yöntemlerin performansı Doğruluk, Kesinlik, Duyarlılık, F-Ölçütü, Alıcı İşletim Karakteristiği Eğrisiyle ölçülmüştür. Uygulanan yöntemlerin performansı orijinal verininkilerle kıyaslanmıştır. Destek Vektör Makinelerinin performansında ROSE’la çapraz geçerleme esnasında yeniden örneklenmiş veride orijinal veriye göre %5.7 iyileşme gözlenmiş, yeniden örnekleme çapraz geçerlemeden önce yapıldığında iyileşme miktarının gerçek değerinin üzerinde kaydedildiği sonucuna ulaşılmıştır.

References

  • [1] Cao, J., Yu, X. & Zhang, Z., “Integrating OWA and data mining for analyzing customers churn in E-commerce.”, J Syst Sci Complex, 28: 381–392, (2015).
  • [2] Koçoğlu, F.Ö., Özcan, T., Baray, Ş.A., “Veri madenciliğinde ayrılan müşteri analizi problemi üzerine bir literatür araştırması”, Uluslararası katılımlı 16. Üretim Araştırmaları Sempozyumu, 868-874, (2016).
  • [3] Keramati, A., Jafari-Marandi, R., Aliannejadi, M., Ahmadian, I., Mozaffari, M., Abbasi, U., “Improved churn prediction in telecommunication industry using data mining techniques”, Applied Soft Computing, 24: 994-1012, (2014).
  • [4] Kaynar, O. , Tuna, M. , Görmez, Y. , Deveci, M., “Makine öğrenmesi yöntemleriyle müşteri kaybı analizi”, Cumhuriyet Üniversitesi İktisadi ve İdari Bilimler Dergisi, 18:1 , 1-14, (2017).
  • [5] Günay, M. and Ensarı,T., “Predictive churn analysis with machine learning methods.” 26th Signal Processing and Communications Applications Conference (SIU), Izmir, 1-4, (2018).
  • [6] Yıldız, M. and Albayrak, S., “Customer churn prediction in telecommunication”, 23nd Signal Processing and Communications Applications Conference (SIU), Malatya, 256-259, (2015).
  • [7] Vafeiadis, T., Diamantaras, K.I., Sarigiannidis, G., Chatzisavvas, K.Ch., “A comparison of machine learning techniques for customer churn prediction”, Simulation Modelling Practice and Theory, 55: 1-9, (2015).
  • [8] Ullah,I., Raza,B., Malik, A. K. , Imran, M., Islam, S. U. and Kim, S. W., “A Churn Prediction Model Using Random Forest: Analysis of Machine Learning Techniques for Churn Prediction and Factor Identification in Telecom Sector”, IEEE Access, 7: 60134-60149, (2019).
  • [9] Amin A., Shah B., Abbas A., Anwar S., Alfandi O., Moreira F., “Features Weight Estimation Using a Genetic Algorithm for Customer Churn Prediction in the Telecom Sector”, In: Rocha Á., Adeli H., Reis L., Costanzo S. (eds) New Knowledge in Information Systems and Technologies. WorldCIST'19 2019. Advances in Intelligent Systems and Computing, 931: 483-491, (2019).
  • [10] Kartal, E., Özen, Z., “Dengesiz Veri Setlerinde Sınıflandırma”, Mühendislikte Yapay Zekâ Uygulamaları, Sakarya, 109-131, (2017).
  • [11] Gui, C., “Analysis of imbalanced data set problem: The case of churn prediction for telecommunication”, Artif. Intell. Research, 6:2, 93, (2017).
  • [12] Durahim, A., “Comparison Of Sampling Techniques For Imbalanced Learning”. Yönetim Bilişim Sistemleri Dergisi , 2:2, 181-191, (2016).
  • [13] Effendy, V., Adiwijaya and Baizal, Z. K. A., “Handling imbalanced data in customer churn prediction using combined sampling and weighted random forest”, 2nd International Conference on Information and Communication Technology (ICoICT), Bandung, 2014, 325-330, (2014).
  • [14] Amin, A. et al., “Comparing Oversampling Techniques to Handle the Class Imbalance Problem: A Customer Churn Prediction Case Study, IEEE Access, 4: 7940-7957, (2016). doi: 10.1109/ACCESS.2016.2619719
  • [15] Aditsania, A., Adiwijaya and Saonard, A. L., “Handling imbalanced data in churn prediction using ADASYN and backpropagation algorithm”, 3rd International Conference on Science in Information Technology (ICSITech), Bandung, 2017, 533-536, (2017).
  • [16] Koçoğlu, F. ve Ozcan, T., “Dengeli-Dengesiz Veri Seti Dağılımının Aşırı Öğrenme Makinesi Yöntemi Performansına Etkisi”, Mühendislik ve Teknoloji Yönetimi Zirvesi-ETMS2018, İstanbul, 201-209, (2018).
  • [17] Blagus, R. and Lusa,L. “Joint use of over-and under-sampling techniques and cross-validation for the development and assessment of prediction models,” BMC bioinformatics, 16:1, 1–10, (2015).
  • [18] https://www.kaggle.com/blastchar/telco-customer-churn/version/1 (Son erişim tarihi: 05/06/2019)
  • [19] Chawla, N. V. et.al., “SMOTE: Synthetic Minority Over-Sampling Technique”, Journal of Artificial Intelligence Research, 16, 321–357 (2002).
  • [20] He, H., Bai, Y., Garcia, E. A. and Li, S., “ADASYN: Adaptive synthetic sampling approach for imbalanced learning”, IEEE International Joint Conference on Neural Networks (IEEE World Congress on Computational Intelligence), Hong Kong, 1322-1328, (2008).
  • [21] Barua, S., Islam, M.M., Yao, X., Murase, K., “MWMOTE–majority weighted minority oversampling technique for imbalanced data set learning”, IEEE Trans. Knowl. Data Eng. 26:2, 405–425, (2014).
  • [22] Das, B., Krishnan, N.C., Cook, D.J., “RACOG and wRACOG: two probabilistic over- sampling techniques”, IEEE Trans. Knowl. Data Eng. 27:1, 222–234, (2015).
  • [23] Zhang, H., Li, M., “RWO-sampling: a random walk oversampling approach to imbalanced data classification”, Inf. Fusion 20: 99–116, (2014).
  • [24] Menardi, G. and Torelli, N., “Training and assessing classification rules with imbalanced data”, Data Mining and Knowledge Discovery, 28: 92–122, (2014).
  • [25] R Development Core Team, “R: A language and environment for statistical computing”, R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, (2008). URL http://www.R-project.org. (Son erişim tarihi: 07/01/2020)
  • [26] Cordón I, García S, Fernández A, Herrera F., "Imbalance: Oversampling algorithms for imbalanced classification in R", Knowledge-Based Systems, 161: 329-341, (2018).
  • [27] Lunardon, N., Menardi, G., and Torelli, N., “ROSE: a Package for Binary Imbalanced Learning”, R Journal, 6:1, 82-92, (2014).
  • [28] Weka. https://www.cs.waikato.ac.nz/ml/weka/index.html. (Son erişim tarihi: 07/01/2020
There are 28 citations in total.

Details

Primary Language Turkish
Subjects Engineering
Journal Section Research Article
Authors

M. Aslı Aydın 0000-0002-8905-7518

Publication Date March 1, 2022
Submission Date May 9, 2020
Published in Issue Year 2022 Volume: 25 Issue: 1

Cite

APA Aydın, M. A. (2022). Müşteri Kaybı Tahmininde Sınıf Dengesizliği Problemi. Politeknik Dergisi, 25(1), 351-360. https://doi.org/10.2339/politeknik.734916
AMA Aydın MA. Müşteri Kaybı Tahmininde Sınıf Dengesizliği Problemi. Politeknik Dergisi. March 2022;25(1):351-360. doi:10.2339/politeknik.734916
Chicago Aydın, M. Aslı. “Müşteri Kaybı Tahmininde Sınıf Dengesizliği Problemi”. Politeknik Dergisi 25, no. 1 (March 2022): 351-60. https://doi.org/10.2339/politeknik.734916.
EndNote Aydın MA (March 1, 2022) Müşteri Kaybı Tahmininde Sınıf Dengesizliği Problemi. Politeknik Dergisi 25 1 351–360.
IEEE M. A. Aydın, “Müşteri Kaybı Tahmininde Sınıf Dengesizliği Problemi”, Politeknik Dergisi, vol. 25, no. 1, pp. 351–360, 2022, doi: 10.2339/politeknik.734916.
ISNAD Aydın, M. Aslı. “Müşteri Kaybı Tahmininde Sınıf Dengesizliği Problemi”. Politeknik Dergisi 25/1 (March 2022), 351-360. https://doi.org/10.2339/politeknik.734916.
JAMA Aydın MA. Müşteri Kaybı Tahmininde Sınıf Dengesizliği Problemi. Politeknik Dergisi. 2022;25:351–360.
MLA Aydın, M. Aslı. “Müşteri Kaybı Tahmininde Sınıf Dengesizliği Problemi”. Politeknik Dergisi, vol. 25, no. 1, 2022, pp. 351-60, doi:10.2339/politeknik.734916.
Vancouver Aydın MA. Müşteri Kaybı Tahmininde Sınıf Dengesizliği Problemi. Politeknik Dergisi. 2022;25(1):351-60.