Bu çalışmada, inşaat sektöründe faaliyet gösteren bir işletmenin müşterileriyle yüz yüze veya telefonla yapılan görüşmelerinin kayıtlarına çeşitli metin madenciliği ve makine öğrenmesi teknikleri uygulanmıştır. Temel amaç, bu metin tabanlı doküman kümesinden (korpus), yeni görüşme yapılan herhangi bir müşterinin ileride şirketten konut satın alıp almayacağını doğru bir şekilde tahmin edebilecek bir model geliştirmektir. Bu amaçla metinsel verilere bir takım veri ön işleme aşamaları uygulandıktan sonra anahtar kelimeler ve vektör uzay modeli oluşturmuş ve metin tabanlı veri analize uygun formata dönüştürülmüştür. CART(Classification And Regression Tree), RF(Random Forest) ve XGBoost(eXtreme Gradient Boosting) makine öğrenmesi yöntemleri uygulanarak farklı tahmin modelleri oluşturulmuş ve daha sonra bu modeller farklı sınıflandırma ölçütlerine göre karşılaştırılmıştır. Sınıflandırma problemlerinde sınıflardaki gözlem sayıları arasında dengesizlikler olması durumunda yaygın sınıflandırma ölçütlerine göre modellerin karşılaştırılması yanlı sonuçlar verebilmektedir. Bu nedenle literatürde bu gibi durumlar için genel karşılaştırma ölçütlerine ek olarak yeni ölçütler geliştirilmiştir. Çalışmadaki uygulamada da sınıflar arası dengesizlik olduğundan bu ölçütlerden birisi olan PR (Precision- Recall) eğrileri kullanılmıştır. Analiz sonucunda, PR eğrileri dikkate alındığında, görüşme yapılan yeni müşterilerin ileride konut alıp almayacağını en iyi tahmin eden yöntemin Random Forest olduğu görülmüştür.
In this study, various text mining and machine learning techniques were applied to the recordings of face-to-face or telephone interviews with customers of a company operating in the construction industry. The main objective is to develop a model from this set of text-based documents (corpus) that can accurately predict whether a new customer interviewed will purchase a house from the company in the future. For this purpose, a number of data preprocessing steps were applied to the textual data, then keywords and vector space model were created and the text-based data were converted into a format suitable for further analysis. Different prediction models were created by applying CART(Classification And Regression Tree), RF(Random Forest) and XGBoost(eXtreme Gradient Boosting) methods and then these models were compared according to different classification metrics. In classification problems, imbalances between classes make it difficult to compare models. For this reason, in literature new metrics have been developed in addition to the classical performance metrics. Since there is an imbalance between classes in the application in this study, PR (precision-recall) curves, one of the developed criteria, were used. As a result of the analysis, when the PR curves are taken into account, it is seen that Random Forest shows the best performance for predicting whether interviewed new customers will buy a house in the future.
Birincil Dil | Türkçe |
---|---|
Konular | Makine Öğrenme (Diğer), Veri Madenciliği ve Bilgi Keşfi, Doğal Dil İşleme |
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 31 Ekim 2024 |
Gönderilme Tarihi | 14 Mayıs 2024 |
Kabul Tarihi | 19 Ekim 2024 |
Yayımlandığı Sayı | Yıl 2024 |