Customer churn prediction is determining the customers most likely to leave by examining customer data. Machine learning is one of the solution approaches. Class imbalance is typical for this problem since more customers are labeled as Non-Churn than Churn. Handling class imbalance is crucial since the classifier’s performance is highly affected.
This work focuses on churn prediction in telecommunications. We use publicly available churn data from 7043 customers having 21 features. We use Minimal Redundancy Maximal Relevance for feature selection. We handle class imbalance problem with resampling methods including Synthetic Minority Oversampling Technique, Adaptive Synthetic Sampling, Majority Weighted Minority Oversampling, Rapidly Converging Gibbs Algorithm, Random Walk Oversampling and Random Oversampling Examples. We employ classifiers including Naïve Bayes, Decision Trees, Random Forest, Artificial Neural Networks, Logistic Regression, Support Vector Machines and k-Nearest Neighbours with 10-fold cross validation (CV). We try two approaches in experiments: i) resampling during CV and ii) resampling before CV. We compare the results with original data using Accuracy, Precision, Recall, F-measure and ROC-Curve as performance measures. The results show 5.7% increase in model performance for Support Vector Machines with ROSE when we apply first approach. We observe that classifier’s performance is overoptimized if second approach is applied.
Churn prediction machine learning class imbalance problem telecommunication
Müşteri kaybı tahmini, müşteri verilerinin incelenerek ayrılması muhtemel müşterinin önceden tespit edilmesidir. Çözümünde makine öğrenmesi yöntemlerinden faydalanılmaktadır. Yapısı itibariyle veride Ayrılan sınıfındaki veri sayısının Ayrılmayan sınıfındakinden çok daha az olduğu gözlenir. Dengesiz sınıf dağılımı, makine öğrenmesi yöntemlerinin performansını olumsuz etkilediğinden verinin dengelenmesi önemlidir.
Çalışmada telekomünikasyon sektöründeki müşteri kaybı tahminine odaklanılmıştır. Uygulama, açık erişimli veri tabanından elde edilen 7043 müşteriye ait 21 öznitelik içeren veri üzerinde gerçekleştirilmiştir. Öncelikle Minimum Fazlalık Maksimum Bağımlılık yöntemiyle öznitelik seçimi yapılmıştır. Yeniden örnekleme, Sentetik Azınlık Aşırı Örnekleme Yöntemi (SMOTE), Uyarlanabilir Sentetik Örnekleme (ADASYN), Çoğunluk Ağırlıklı Azınlık Örnekleme (MWMOTE), Hızlı Yakınsayan Gibbs Algoritması (RACOG), Rastgele Yürüyüş Aşırı Örnekleme (RWO) ve Rastgele Aşırı Örnekleme (ROSE) yöntemleriyle uygulanmıştır. Sınıflandırma problemi için Naïve Bayes, Karar Ağaçları, Rastgele Orman, Yapay Sinir Ağları, Lojistik Regresyon, Destek Vektör Makineleri ve K-En Yakın Komşuluk yöntemleri 10 kat Çapraz Geçerlemeyle uygulanmıştır. Deneyler yeniden örneklemenin çapraz geçerlemeden önce ve çapraz geçerleme sırasında uygulandığı iki farklı yaklaşımla gerçekleştirilmiştir. Yöntemlerin performansı Doğruluk, Kesinlik, Duyarlılık, F-Ölçütü, Alıcı İşletim Karakteristiği Eğrisiyle ölçülmüştür. Uygulanan yöntemlerin performansı orijinal verininkilerle kıyaslanmıştır. Destek Vektör Makinelerinin performansında ROSE’la çapraz geçerleme esnasında yeniden örneklenmiş veride orijinal veriye göre %5.7 iyileşme gözlenmiş, yeniden örnekleme çapraz geçerlemeden önce yapıldığında iyileşme miktarının gerçek değerinin üzerinde kaydedildiği sonucuna ulaşılmıştır.
Müşteri Kaybı Tahmini Makine Öğrenmesi Sınıf Dengesizliği Problemi Telekomünikasyon
Birincil Dil | Türkçe |
---|---|
Konular | Mühendislik |
Bölüm | Araştırma Makalesi |
Yazarlar | |
Yayımlanma Tarihi | 1 Mart 2022 |
Gönderilme Tarihi | 9 Mayıs 2020 |
Yayımlandığı Sayı | Yıl 2022 |
Bu eser Creative Commons Atıf-AynıLisanslaPaylaş 4.0 Uluslararası ile lisanslanmıştır.