TY - JOUR TT - SAĞLIK HARCAMASININ TAHMİNİNDE MAKİNE ÖĞRENMESİ REGRESYON YÖNTEMLERİNİN KARŞILAŞTIRILMASI AU - Çınaroğlu, Songül PY - 2017 DA - August Y2 - 2017 DO - 10.17482/uumfd.338805 JF - Uludağ Üniversitesi Mühendislik Fakültesi Dergisi JO - UUJFE PB - Bursa Uludağ Üniversitesi WT - DergiPark SN - 2148-4155 SP - 179 EP - 200 VL - 22 IS - 2 KW - Machine Learning KW - Lasso Regression KW - Random Forest Regression KW - Support Vector Regression KW - Health Expenditure N2 - Farklı veri setleri üzerinde yapılan uygulamalarsonucunda modellenmesi zor olan değişkenlerin varlığında klasik regresyonyöntemlerine alternatif olarak makine öğrenmesi regresyon yöntemlerininkullanımı tavsiye edilmektedir. Sağlık harcaması modellenmesi zor olan birdeğişken olup, literatürde makine öğrenmesi regresyon yöntemleri karşılaştırılarakbu değişkenin modellendiği bir çalışmaya rastlanmamıştır. Bu çalışmada kişibaşı sağlık harcamasının tahmini amacıyla bir çoklu regresyon modelioluşturulmuştur. Farklı hiperparametre değerleri belirlendiğinde elde edilenLasso Regresyon, Rastgele Ağaç Regresyonu ile Destek Vektör Makinesi Regresyonperformans sonuçları karşılaştırılmıştır. Çalışmada hiperparametre değeriolarak Lasso Regresyon için lamda (λ) değeri, Rastgele Ağaç Regresyonu içinağaç sayısı, Destek Vektör Regresyonu için epsilon () değeri esas alınmıştır. Sonuçlar 5 ile 50arasında değişen “k” parça çapraz geçerlilik uygulanarak performe edildiğinde makineöğrenmesi regresyon yöntemlerine ait performans sonuçlarının R2,RMSE ve MAE değerleri bakımından istatistiksel olarak anlamlı farklılıklar gösterdiği(p<0.001) tespitedilmiştir. Tahmin performanslarına ait yüzey ve çubuk grafikleri ileistatistiksel test sonuçları incelendiğinde farklı hiperparametre değerlerinegöre Rastgele Ağaç Regresyonun (R2 ˃ 0.7500, RMSE ≤ 0.6000 ve MAE ≤0.4000) daha iyi tahmin sonuçlarına sahip olduğu belirlenmiştir. Çalışmasonuçlarının, sağlık harcamasının modellendiği araştırmalar için makineöğrenmesi regresyon yöntemleri kullanıldığında en uygun hiperparametredeğerlerinin belirlenmesi konusunda katkı sağlaması beklenmektedir. CR - Alpar R. (2011) Uygulamalı çok değişkenli istatistiksel yöntemler, Detay Yayıncılık, Ankara, 415-620. CR - Basu, A., Manning, W.G. ve Mullahy, J. (2004). Comparing alternative model: log and cox proportional hazard? Health Economics, 13(8), 749-765. doi: 10.1002/hec.852. CR - Belloni, A., Chernozhukov, V., Hansen, C. (2012) Inference for high-dimensional sparse econometric models. https://arxiv.org/abs/1201.0220. doi: 10.1017/CBO9781139060035.008. Erişim Tarihi: 01.01.2016. CR - Bergstra, J. ve Bengio, Y. (2012) Random search for hyper-parameter optimization. Journal of Machine Learning Research, 13, 281-305. http://www.jmlr.org/papers/volume13/bergstra12a/bergstra12a.pdf. Erişim Tarihi: 01.02.2016. CR - Box, G.E.P. ve Cox, D.R. (1964) An analysis of transformations, Journal of the Royal Statistical Society, 26(2), 211-252. doi: 10.1.1.321.3819. CR - Brieman, L. (2001) Random forests, Machine Learning, 45, 5-32. doi: 10.1023%2FA%3A1010933404324. CR - Cherkassky, V. ve Ma, Y. (2004) Practical selection of SVM parameters and noise estimation for SVM regression, Neural Networks, 17(1), 113-126. doi:10.1016/S0893-6080(03)00169-2. CR - Cosgun E., Karaağaoğlu E. (2011). Veri madenciliği yöntemleriyle mikrodizilim gen ifade analizi, Hacettepe Tıp Dergisi, 42, 180-189. http://docplayer.biz.tr/3432783-Veri-madencili-i-yontemleriyle-mikrodizilim-gen-ifade-analizi.html. Erişim Tarihi: 01.02.2016. CR - Collins, B. (2016) Big data and health economics: strengths, weaknesses, opportunities and threats, Pharmacoeconomics, 34(2), 101-106. doi: 10.1007/s40273-015-0306-7. CR - Cristianini, N. ve Shawe-Taylor, J. (2000). An introduction to support vector machines and other Kernel based learning methods, Cambridge University Press, UK, 93-122. CR - Crown, W.H. (2015) Potential application of machine learning in health outcomes research and statistical cautions, Value in Health, 18(2), 137-140. doi: 10.1016/j.jval.2014.12.005. CR - Duan, K., Keerthi, S.S., Poo, A.N. (2003) Evaluation of simple performance measures for tuning SVM hyperparameters, Neurocomputing, 51, 41-59. doi.org/10.1016/S0925-2312(02)00601-X. CR - Einav, L., Levin, J.D. (2014) The data revolution and economic analysis. NBER/Innovation Policy and the Economy, 14(1): 1-24. doi: 10.3386/w19035. CR - Elasan, S., Keskin, S., Arı E. (2016) İlişkili bileşen regresyonu: DNA hasarını belirleme modeli üzerinde uygulanması, Türkiye Klinikleri Biyoistatistik Dergisi, 8(1): 45-52. doi: 10.5336/biostatic.2015-48311. CR - Frank, I.E., Friedman J.H. (1993) A statistical view of some chemometrics regression tools. Technometrics, 35, 109-148. doi: 10.2307/1269656. CR - Frenk, J. (2010) The global health system: strengthening national health systems as the next step for global progress, PLOS Medicine, 7(1), 1-3. doi: 10.1371/journal.pmed.1000089. CR - Gislason, P.O., Benediktsson, J.A., Sveinsson, J.R. (2006) Random Forest for land cover classification. Pattern Recognition Letters, 27(4), 294-300. doi: 10.1016/j.patrec.2005.08.011. CR - Gupta, I., Mitra, A. (2004) Economic growth, health and poverty: an exploratory study for India, Development Policy Review, 22(2), 193-206. doi: 10.1111/j.1467-7679.2004.00245.x. CR - Hassan, S.S., Farhan, M., Mangayil, R., Huttunen, H., Aho, T. (2013) Bioprocess data mining using regularized regression and random forests, BMC System Biology, 7(1):1-7. doi: 10.1186/1752-0509-7-S1-S5. CR - Hastie, T., Tibshirani, R. ve Friedman, J. (2009) Random Forest. The elements of statistical learning data mining, Inference and Prediction. Springer Series in Statistics, 587-613. CR - Hawkins, D.M. (2004) The problem of overfitting, Journal of Chemical Information and Modeling, 44(1), 1-12. doi: 10.1021/ci0342472. CR - Jaggi, M. (2014) An equivalence between the lasso and support vector machines, https://arxiv.org/pdf/1303.1152.pdf, Erişim Tarihi: 16.5.2017. arXiv:1303.1152v2. CR - Jones, A.M., Rice, N., d’Uva, T.B. ve Balai, S. (2007) Applied health economics, Routledge, Taylor & Francis, London and New York, 280-319. CR - Kavaklıoğlu, K. (2011) Modeling and prediction of Turkey’s electricity consumption using support vector regression, Applied Energy, 88(1), 368-375. doi: 10.1016/j.apenergy.2010.07.021. CR - Kazem, A., Sharifi, E., Hussain, F.K., Saberi, M. ve Hussain, O.K. (2013) Support vector regression with chaos-based firefly algorithm for stock market price forecasting. Applied Soft Computing, 13(2), 947-958. doi: 10.1016/j.asoc.2012.09.024. CR - Kohavi, R. (1995) A study of cross-validation and bootstrap for accuracy estimation and model selection, International Joint Conference on Artificial Intelligence (IJCAI’95), vol.2, 1137-1143. CR - Liaw, A., Wiener, M. (2002) Classification and regression by random forest, R News, vol.2/3, 18-22. http://www.bios.unc.edu/~dzeng/BIOS740/randomforest.pdf. Erişim Tarihi: 01.01.2016. CR - Manning, W. (2006) Dealing with skewed data on costs and expenditures, Jones A.M. (2006) The Elgar Companion to Health Economics, Second Edition, Edward Elgar Publishing, Inc. Massachusetts, USA, p.439-446. CR - Manning, W.G. (1998) The logged dependent variable, heteroscedasticity, and the retransformation problem, Journal of Health Economics, 17(3), 283-295. doi: 10.1016/S0167-6296(98)00025-3. CR - Martin, M.J.J., Gonzalez, M.P.L.A. ve Garcia, M.D.C. (2011) Review of the literature on the determinants of healthcare expenditure, Applied Economics, 43(1), 19-46. doi: 10.1080/00036841003689754. CR - Mattera, D. ve Haykin, S. (1999) Support vector machines for dynamic reconstruction of a chaotic system, Ed. Schöl B. Burges C.J.C. Smola A.J. (1999) Advances in Kernel Methods, Massachusetts Institute of Technology (MIT), 211-239. CR - Mihaylova, B., Briggs, A., O’Hagan, A. ve Thompson, S.G. (2011) Review of statistical methods for analysing healthcare resources and costs, Health Economics, 20(8), 897-916. doi: 10.1002/hec.1653. CR - Rodriguez, J.J., Diez-Pastor, J.F., Gonzalez A.A. ve Garcia-Osorio, C. (2015) An experimental study on combining binarization techniques and ensemble methods of decision trees, Multiple Classifier Systems 12th International Workshop, MCS 2015, Günzburg, Germany, June 29-July 1 2015 Proceedings, Springer. CR - Schölkopf, B., Smola, A.J. (2002) Learning with kernels. Support vector machines, regularization, optimization, and beyond, The MIT Press, Cambridge, Massachusetts, London, England. CR - Sinha, R.K., Chatterjee, K., Nair, N. ve Tripathy, P.K. (2016) Determinants of out-of-pocket and catastrophic health expenditure: a cross sectional study, British Journal of Medicine & Medical Research, 11(8), 1-11. doi : 10.9734/BJMMR/2016/21470. CR - Suthaharan, S. (2016) Support vector machine. Machine learning models and algorithms for big data classification, Integrated Series in Information Systems, vol.36, 207-235. CR - Tibshirani, R. (1996) Regression shrinkage and selection via the lasso, Journal of the Royal Statistical Society, 58(1): 267-288. doi: 10.1111/j.1467-9868.2011.00771.x. CR - Tsamardinos, I., Rakhshani, A. ve Lagani, V. (2015). Performance-estimation properties of cross-validation-based protocols with simultaneous hyper-parameter optimization, International Journal of Artificial Intelligence Tools, 24(5), 1- CR - http://www.mensxmachina.org/wp-content/uploads/2014/03/SETN-2014-Model Selection.pdf. Erişim Tarihi: 01.02.2016. CR - Vapnik, V., Golowich, S.E. ve Smola, A. (1997). Support vector method for function approximation, regression estimation and signal processing, In M. Mozer, M. Jordan and T. Petshe, editors, Advances in Neural Information Processing Systems, 9. Cambridge MA. 1997. MIT Press. 281-287. CR - Wang, W. ve Xu, Z. (2004). A heuristic training for support vector regression, Neurocomputing, 61, 259-275. doi: 10.1016/j.neucom.2003.11.012. CR - WHO (World Health Organization) The World Health Report 2000: Improving health systems: improving performance, The World Health Organization. CR - Witten, I.H. ve Frank, E. (2005) Data mining practical machine learning tools and techniques, Second Edition, Morgan Kaufmann Publications, Elsevier, San Francisco, USA. CR - Yılmaz, E. (2016). Kardiotokogram verisinden fetal iyilik halinin belirlenmesi için bir karar destek sistemi, Uludag University Journal of The Faculty of Engineering, 21(2):331-340. doi: 10.17482/uumfd.278033. CR - Zheng, A. (2015) Evaluating machine learning models a beginner’s guide to key concepts and pitfalls, O’Reilly, USA. UR - https://doi.org/10.17482/uumfd.338805 L1 - http://dergipark.org.tr/tr/download/article-file/343260 ER -