Customer churn is one of the major problems for large companies, especially in banking and telecommunication. Recently, telecommunication companies tend to prevent customer churn since the cost of gaining new customers is more than retaining existing customers. Therefore, the companies would like to have to determine potential churns using different prediction methods such as machine learning algorithms. XGBoost, Adaptive, and Gradient Boosting algorithms are widely used as supervised machine learning methods. Although boosting algorithms are known as superior algorithms in comparison with other machine learning methods, the performances of these models can be greatly affected when the data set is highly imbalanced. In the study, the data set including 26.4% churned customers were considered for the study to evaluate Boosting algorithms. Features are consist of the variables which can be related to the churn decision of the customers such as gender, online security, internet service, online backup, etc. Firstly, Exploratory data analysis was applied to understand the distribution of customers in terms of the related features. Then, the Adaptive-oversampling method was used to eliminate the imbalanced data problem. Lastly, in order to evaluate prediction results of the compared algorithms accuracy, precision, and F1 metrics were calculated for the prediction results. 10 fold cross-validation was also applied in order to validate accuracy results.
Customer Churn Telecommunication Machine Learning Imbalanced Data
Müşteri kaybı, özellikle bankacılık ve telekomünikasyon alanındaki büyük şirketler için en büyük sorunlardan biridir. Son zamanlarda, telekomünikasyon şirketleri, yeni müşteriler kazanmanın maliyeti, mevcut müşterileri elde tutmaktan daha fazla olduğu için müşteri kaybını önleme eğilimindedir. Bu nedenle şirketler, makine öğrenimi algoritmaları gibi farklı tahmin yöntemlerini kullanarak potansiyel kayıpları belirlemek istemektedir. XGBoost, Adaptive ve Gradyant Boost algoritmaları, denetimli makine öğrenimi yöntemleri olarak yaygın şekilde kullanılmaktadır. Güçlendirme algoritmaları, diğer makine öğrenimi yöntemlerine kıyasla üstün algoritmalar olarak bilinmesine rağmen, bu modellerin performansları, veri seti oldukça dengesiz olduğunda büyük ölçüde etkilenebilir. Çalışmada, güçlendirme algoritmalarını değerlendirmek için % 26,4'ü kaybedilen müşterileri içeren veri seti dikkate alınmıştır. Özellikler, müşterilerin cinsiyet, çevrimiçi güvenlik, internet hizmeti, çevrimiçi yedekleme gibi müşteri kaybetme durumuyla ilişkili olabilecek değişkenlerden oluşmaktadır. İlk olarak, Müşterilerin ilgili özellikler açısından dağılımını anlamak için keşifsel veri analizi uygulandı. Daha sonra, dengesiz veri problemini ortadan kaldırmak için Adaptive-oversampling yöntemi kullanılmıştır. Son olarak, karşılaştırılan algoritmaların tahmin sonuçlarını değerlendirmek amacıyla doğruluk, kesinlik ve F1 ölçümleri hesaplandı. Tahmin sonuçlarını doğrulamak için 10 kat çapraz geçerlilik de uygulandı.
Müşteri Kaybı Telekomünikasyon Makine Öğrenmesi Dengesiz Veri
Birincil Dil | İngilizce |
---|---|
Bölüm | Araştırma Makalesi |
Yazarlar | |
Yayımlanma Tarihi | 1 Mart 2021 |
Yayımlandığı Sayı | Yıl 2021 Cilt: 5 Sayı: Özel Sayı 1 |