Research Article
BibTex RIS Cite

Predicting Countries’ Development Levels Using the Decision Tree and Random Forest Methods

Year 2023, Issue: 38, 87 - 104, 28.07.2023
https://doi.org/10.26650/ekoist.2023.38.1172190

Abstract

A very close relationship exists between countries’ development levels and economic level. Countries can be examined according to various criteria and evaluated under different groups based on their level of development, from underdeveloped to highly developed. Socioeconomic factors generally play a decisive role in determining countries’ levels of development. Although the level of development is determined with the help of socioeconomic variables, different organizations (e.g., United Nations [UN], International Monetary Fund [IMF]) may make country classifications with different methods. This situation causes a country’s development level to occur in different categories based on the method used and the organization that performed it. The aim of this study is to propose a machine learning model that predicts the development level for 193 countries. Development level consists of the categories of high income, upper middle income, lower middle income, and low income. The 26 variables that affect countries’ development levels were obtained from the World Development Indicators (WDI) database. Firstly, random forest based variable importance was used to determine the variables which have the most important effects on countries’ development levels. Afterwards, countries’ development levels were classified using decision trees and random forest algorithms with the most important variables selected through variable importance. The model composed with the random forest algorithm was determined to have correctly classified countries’ development levels at an accuracy of 70%. In addition, the findings show the variables of adolescent fertility rate, total fertility rate, and the share of agriculture, forestry, and fisheries in gross domestic product GDP) to be the most important variables affecting countries’ development levels.

References

  • Ahmad Z ve Saleem A. (2012). Predicting Level of Development for Different Countries. Journal of Sustainable Development, 5(11). doi:10.5539/jsd.v5n11p15 google scholar
  • Biau G ve Scornet E. (2016). A random forest guided tour. Test, 25(2), 197-227. google scholar
  • Bloom DE ve Canning D. (2000). The health and wealth of nations. Science, 287(5456), 1207-1209. google scholar
  • Breiman L. (2001). Random forests. Machine learning, 45(1), 5-32. google scholar
  • Bulut Ş, Babacan A, ve Ertekin Ş. (2021). Ekonomik Büyümenin Belirleyicilerinin Farklı İnsani Gelişmişlik Düzeyindeki Ülkelere Göre Analizi. Sayıştay Dergisi, (120), 89-114. google scholar
  • Bühlmann P ve Yu B. (2002). Analyzing bagging. The Annals of Statistics, 30(4), 927-961. google scholar
  • Çene E. (2022). Makine Öğrenmesi Yöntemleriyle Euroleague Basketbol Maç Sonuçlarının Tahmin Edilmesi Ve Maç Sonuçları Üzerinde En Etkili Değişkenlerin Bulunması. Spor ve Performans Araştırmaları Dergisi, 13(1), 29-52. google scholar
  • Çeştepe H, Vergil H, ve Ergun H. (2012). Hizmet Ticaretinin Büyümeye Etkisi: Gelişmiş ve Gelişmekte Olan Ülkeler Üzerine Bir Panel Veri Analizi. Business and Economics Research Journal, 3(4), 91-105. google scholar
  • Demiray Erol E. (2013). Türkiye ve Avrupa Birliği Üyesi Ülkelerin Sosyo-Ekonomik Gelişmişlik Düzeylerinin Karşılaştırmalı Analizi. Sosyal ve Beşeri Bilimler Dergisi, 5(1), 198-208. google scholar
  • Demirci E ve Karaatlı M. (2019). Ülkelerin Gelişmişlik Seviyelerinin Tahmininde Kullanılan Sınıflandırma Algoritmalarının Karşılaştırılması. Süleyman Demirel Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi, 24(3), 703-714. google scholar
  • Erden Özsoy C ve Tosunoğlu BT. (2017). GSYH’nin ötesi: ekonomik gelişmenin ölçümünde alternatif metrikler. Çukurova Üniversitesi Sosyal Bilimler Enstitüsü Dergisi, 26(1), 285-301. google scholar
  • Guisan M-C ve Aguayo E. (2007). Health expenditure, poverty and economic development in Latin America 2000-2005. International journal of Applied Econometrics and Quantitative studies, 4(1), 5-24. google scholar
  • Guyon I ve Elisseeff A. (2003). An introduction to variable and feature selection. Journal of machine learning research, 3(Mar), 1157-1182. google scholar
  • Guyon I, Weston J, ve Barnhill S. (2002). Gene selection for cancer classification using DCA. Machine Learning, 46, 389-422. google scholar
  • Jemna D-V. (2015). Causality Relationship between Economic Development and Fertility in Romania on Regional Level. Procedia Economics and Finance, 20(15), 334-341. doi:10.1016/ s2212-5671(15)00081-7 google scholar
  • Kalousis A, Prados J, ve Hilario M. (2007). Stability of feature selection algorithms: a study on high-dimensional spaces. Knowledge and information systems, 12(1), 95-116. google scholar
  • Kleiner A, Talwalkar A, Sarkar P, ve Jordan MI. (2014). A scalable bootstrap for massive data. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 76(4), 795-816. google scholar
  • Koçak E ve Uçan O. (2018). İnsani gelişme endeksi ile büyüme ilişkisi: Pedroni eşbütünleşme örneği. Journal of Politics Economy and Management, 1(2), 55-61. google scholar
  • Koşar Taş Ç ve Örk Özel S. (2017). Faktör Analizi Yöntemi İle Türkiye ve Avrupa Birliği Üyesi Ülkelerin Sosyo-Ekonomik Göstergeler Bakımından Gelişmişlik Düzeylerinin Karşılaştırılması. Çukurova Üniversitesi Sosyal Bilimler Enstitüsü Dergisi, 26(3), 60-77. google scholar
  • Kubar Y. (2016). Az gelişmiş ve gelişmekte olan ülkelerin kalkınma göstergeleri ile ekonomik büyüme arasındaki ilişki: Bir panel veri analizi (1995-2010). Ardahan Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi, 2(4), 65-99. google scholar
  • Kumar V ve Minz S. (2014). Feature selection: a literature review. SmartCR, 4(3), 211-229. google scholar
  • Lacalle-Calderon M, Perez-Trujillo M, ve Neira I. (2017). Fertility and Economic Development: Quantile Regression Evidence on the Inverse J-shaped Pattern. European Journal of Population, 33(1), 1-31. doi:10.1007/s10680-016-9382-4 google scholar
  • Max A, Wing J, Weston S, Williams A, Keefer C, Engelhardt A, ... Kuhn MM. (2021). Package ‘ caret ’ R topics documented : google scholar
  • Molina LC, Belanche L, ve Nebot A. (2002). Feature selection algorithms: A survey and expeıimental evaluation. IEEE International Conference on Data Mining Proceedings. içinde (ss. 306-313). IEEE. google scholar
  • Özkan B, Çene E, ve Parim C. (2018). İstanbul’daki Üniversite Öğrencilerinin Memnuniyet Düzeylerinin Çok Değişkenli İstatistiksel Yöntemler ve Karar Ağacıyla İncelenmesi. International Conference on Data Science and Applications içinde (ss. 489-505). google scholar
  • Öztürk SG. (2007). Classifying and predicting country types through development factors that influence economic, social, educational and health environments of countries. SWDI Proceedings papers S, 759, 665-674. google scholar
  • Parim C, Özkan B, ve Cene E. (2019). Clustering of Countries by the Factors Affecting Levels of Development and It’s Comparison by Years. Data Science and Applications, 2(1), 4-7. google scholar
  • Probst P, Wright MN, ve Boulesteix A. (2019). Hyperparameters and tuning strategies for random forest. Wiley Interdisciplinary Reviews: data mining and knowledge discovery, 9(3), e1301. google scholar
  • R Core Team. (2021). R: A language and environment for statistical computing, R Foundation for Statistical Computing,. Vienna, Austria. https://www.r-project.org/. adresinden erişildi. google scholar
  • Rebala G, Ravi A, ve Churiwala S. (2019). An introduction to machine learning. Cham: Springer. google scholar
  • Stec M, Filip P, Grzebyk M, ve Pierscieniak A. (2014). Socio-economic development in the eu member states - Concept and classification. Engineering Economics, 25(5), 504-512. doi:10.5755/j01.ee.25.5.6413 google scholar
  • Upreti P. (2015). Factors affecting economic growth in developing countries. Major Themes in Economics, 17(1), 37-54. google scholar
  • Wager S, Hastie T, ve Efron B. (2014). Confidence intervals for random forests: The jackknife and the infinitesimal jackknife. The Journal of Machine Learning Research, 15(1), 1625-1651. google scholar
  • World Bank. (2022). The World Bank Atlas method - detailed methodology. 6 Temmuz 2022 tarihinde https://datahelpdesk.worldbank.org/knowledgebase/articles/378832-what-is-the-world-bank-atlas-method adresinden erişildi. google scholar
  • Yang P, Hwa Yang Y, B Zhou B, ve Y Zomaya A. (2010). A review of ensemble methods in bioinformatics. Current Bioinformatics, 5(4), 296-308. google scholar
  • Zhang J ve Danish. (2019). The dynamic linkage between information and communication technology, human development index, and economic growth: evidence from Asian economies. Environmental Science and Pollution Research, 26(26), 26982-26990. google scholar

Ülkelerin Gelişmişlik Düzeylerinin Karar Ağacı ve Rastgele Orman Yöntemleriyle Tahmin Edilmesi

Year 2023, Issue: 38, 87 - 104, 28.07.2023
https://doi.org/10.26650/ekoist.2023.38.1172190

Abstract

Ülkelerin gelişmişlik düzeyleri ile ekonomik açıdan kalkınma düzeyleri arasında çok yakın bir ilişki söz konusudur. Ülkeler, çeşitli ölçütlere göre incelenerek, gelişmişlik düzeylerine göre az gelişmişten çok gelişmişe doğru farklı gruplarda değerlendirilebilirler. Ülkelerin gelişmişlik düzeylerinin belirlenmesinde, genellikle sosyo-ekonomik faktörler belirleyici rol oynamaktadır. Gelişmişlik düzeyi her ne kadar sosyo-ekonomik değişkenler yardımıyla belirlense de, ülkelerin sınıflandırılması farklı organizasyonlar (Birleşmiş Milletler, Uluslararası Para Fonu vb.) tarafından farklı yöntemlerle yapılabilmektedir. Bu durum bir ülkenin gelişmişlik düzeyinin yönteme ve organizasyona göre farklı kategoride yer almasına sebep olmaktadır. Bu çalışmanın amacı, 193 ülke için gelişmişlik düzeyini tahmin eden bir makine öğrenmesi modeli geliştirmektir. Gelişmişlik düzeyi, “Yüksek Gelir”, “Üst Orta Gelir”, “Alt Orta Gelir” ve “Düşük Gelir” kategorilerinden oluşmaktadır. Ülkelerin gelişmişlik seviyesini etkileyen 26 değişken ise, Dünya Gelişmişlik İndeksi (World Development Indicators - WDI) veri tabanından elde edilmiştir. İlk olarak özellik seçimi olarak gelişmişlik düzeyini etkileyen en önemli değişkenlerin belirlenmesinde, rastgele orman metodu yardımıyla değişken önemi kullanılmıştır. Önemli bulunan bağımsız değişkenler yardımıyla, karar ağaçları ve rastgele orman algoritmaları kullanılarak gelişmişlik düzeyleri sınıflandırılmıştır. Rastgele orman algoritmasıyla oluşturulan modelin ülkelerin gelişmişliklerini %70 oranında doğru sınıflandırdığı belirlenmiştir. Ayrıca, bulgular Ergen Doğurganlık Hızı, Toplam Doğurganlık Oranı ve Tarım, Orman ve Balıkçılık’ın GSYİH (Gayri Safi Yurtiçi Hasıla) daki payının ülkelerin gelişmişliklerini etkileyen en önemli değişkenler olduğunu göstermektedir.

References

  • Ahmad Z ve Saleem A. (2012). Predicting Level of Development for Different Countries. Journal of Sustainable Development, 5(11). doi:10.5539/jsd.v5n11p15 google scholar
  • Biau G ve Scornet E. (2016). A random forest guided tour. Test, 25(2), 197-227. google scholar
  • Bloom DE ve Canning D. (2000). The health and wealth of nations. Science, 287(5456), 1207-1209. google scholar
  • Breiman L. (2001). Random forests. Machine learning, 45(1), 5-32. google scholar
  • Bulut Ş, Babacan A, ve Ertekin Ş. (2021). Ekonomik Büyümenin Belirleyicilerinin Farklı İnsani Gelişmişlik Düzeyindeki Ülkelere Göre Analizi. Sayıştay Dergisi, (120), 89-114. google scholar
  • Bühlmann P ve Yu B. (2002). Analyzing bagging. The Annals of Statistics, 30(4), 927-961. google scholar
  • Çene E. (2022). Makine Öğrenmesi Yöntemleriyle Euroleague Basketbol Maç Sonuçlarının Tahmin Edilmesi Ve Maç Sonuçları Üzerinde En Etkili Değişkenlerin Bulunması. Spor ve Performans Araştırmaları Dergisi, 13(1), 29-52. google scholar
  • Çeştepe H, Vergil H, ve Ergun H. (2012). Hizmet Ticaretinin Büyümeye Etkisi: Gelişmiş ve Gelişmekte Olan Ülkeler Üzerine Bir Panel Veri Analizi. Business and Economics Research Journal, 3(4), 91-105. google scholar
  • Demiray Erol E. (2013). Türkiye ve Avrupa Birliği Üyesi Ülkelerin Sosyo-Ekonomik Gelişmişlik Düzeylerinin Karşılaştırmalı Analizi. Sosyal ve Beşeri Bilimler Dergisi, 5(1), 198-208. google scholar
  • Demirci E ve Karaatlı M. (2019). Ülkelerin Gelişmişlik Seviyelerinin Tahmininde Kullanılan Sınıflandırma Algoritmalarının Karşılaştırılması. Süleyman Demirel Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi, 24(3), 703-714. google scholar
  • Erden Özsoy C ve Tosunoğlu BT. (2017). GSYH’nin ötesi: ekonomik gelişmenin ölçümünde alternatif metrikler. Çukurova Üniversitesi Sosyal Bilimler Enstitüsü Dergisi, 26(1), 285-301. google scholar
  • Guisan M-C ve Aguayo E. (2007). Health expenditure, poverty and economic development in Latin America 2000-2005. International journal of Applied Econometrics and Quantitative studies, 4(1), 5-24. google scholar
  • Guyon I ve Elisseeff A. (2003). An introduction to variable and feature selection. Journal of machine learning research, 3(Mar), 1157-1182. google scholar
  • Guyon I, Weston J, ve Barnhill S. (2002). Gene selection for cancer classification using DCA. Machine Learning, 46, 389-422. google scholar
  • Jemna D-V. (2015). Causality Relationship between Economic Development and Fertility in Romania on Regional Level. Procedia Economics and Finance, 20(15), 334-341. doi:10.1016/ s2212-5671(15)00081-7 google scholar
  • Kalousis A, Prados J, ve Hilario M. (2007). Stability of feature selection algorithms: a study on high-dimensional spaces. Knowledge and information systems, 12(1), 95-116. google scholar
  • Kleiner A, Talwalkar A, Sarkar P, ve Jordan MI. (2014). A scalable bootstrap for massive data. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 76(4), 795-816. google scholar
  • Koçak E ve Uçan O. (2018). İnsani gelişme endeksi ile büyüme ilişkisi: Pedroni eşbütünleşme örneği. Journal of Politics Economy and Management, 1(2), 55-61. google scholar
  • Koşar Taş Ç ve Örk Özel S. (2017). Faktör Analizi Yöntemi İle Türkiye ve Avrupa Birliği Üyesi Ülkelerin Sosyo-Ekonomik Göstergeler Bakımından Gelişmişlik Düzeylerinin Karşılaştırılması. Çukurova Üniversitesi Sosyal Bilimler Enstitüsü Dergisi, 26(3), 60-77. google scholar
  • Kubar Y. (2016). Az gelişmiş ve gelişmekte olan ülkelerin kalkınma göstergeleri ile ekonomik büyüme arasındaki ilişki: Bir panel veri analizi (1995-2010). Ardahan Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi, 2(4), 65-99. google scholar
  • Kumar V ve Minz S. (2014). Feature selection: a literature review. SmartCR, 4(3), 211-229. google scholar
  • Lacalle-Calderon M, Perez-Trujillo M, ve Neira I. (2017). Fertility and Economic Development: Quantile Regression Evidence on the Inverse J-shaped Pattern. European Journal of Population, 33(1), 1-31. doi:10.1007/s10680-016-9382-4 google scholar
  • Max A, Wing J, Weston S, Williams A, Keefer C, Engelhardt A, ... Kuhn MM. (2021). Package ‘ caret ’ R topics documented : google scholar
  • Molina LC, Belanche L, ve Nebot A. (2002). Feature selection algorithms: A survey and expeıimental evaluation. IEEE International Conference on Data Mining Proceedings. içinde (ss. 306-313). IEEE. google scholar
  • Özkan B, Çene E, ve Parim C. (2018). İstanbul’daki Üniversite Öğrencilerinin Memnuniyet Düzeylerinin Çok Değişkenli İstatistiksel Yöntemler ve Karar Ağacıyla İncelenmesi. International Conference on Data Science and Applications içinde (ss. 489-505). google scholar
  • Öztürk SG. (2007). Classifying and predicting country types through development factors that influence economic, social, educational and health environments of countries. SWDI Proceedings papers S, 759, 665-674. google scholar
  • Parim C, Özkan B, ve Cene E. (2019). Clustering of Countries by the Factors Affecting Levels of Development and It’s Comparison by Years. Data Science and Applications, 2(1), 4-7. google scholar
  • Probst P, Wright MN, ve Boulesteix A. (2019). Hyperparameters and tuning strategies for random forest. Wiley Interdisciplinary Reviews: data mining and knowledge discovery, 9(3), e1301. google scholar
  • R Core Team. (2021). R: A language and environment for statistical computing, R Foundation for Statistical Computing,. Vienna, Austria. https://www.r-project.org/. adresinden erişildi. google scholar
  • Rebala G, Ravi A, ve Churiwala S. (2019). An introduction to machine learning. Cham: Springer. google scholar
  • Stec M, Filip P, Grzebyk M, ve Pierscieniak A. (2014). Socio-economic development in the eu member states - Concept and classification. Engineering Economics, 25(5), 504-512. doi:10.5755/j01.ee.25.5.6413 google scholar
  • Upreti P. (2015). Factors affecting economic growth in developing countries. Major Themes in Economics, 17(1), 37-54. google scholar
  • Wager S, Hastie T, ve Efron B. (2014). Confidence intervals for random forests: The jackknife and the infinitesimal jackknife. The Journal of Machine Learning Research, 15(1), 1625-1651. google scholar
  • World Bank. (2022). The World Bank Atlas method - detailed methodology. 6 Temmuz 2022 tarihinde https://datahelpdesk.worldbank.org/knowledgebase/articles/378832-what-is-the-world-bank-atlas-method adresinden erişildi. google scholar
  • Yang P, Hwa Yang Y, B Zhou B, ve Y Zomaya A. (2010). A review of ensemble methods in bioinformatics. Current Bioinformatics, 5(4), 296-308. google scholar
  • Zhang J ve Danish. (2019). The dynamic linkage between information and communication technology, human development index, and economic growth: evidence from Asian economies. Environmental Science and Pollution Research, 26(26), 26982-26990. google scholar
There are 36 citations in total.

Details

Primary Language Turkish
Subjects Econometrics (Other)
Journal Section RESEARCH ARTICLE
Authors

Batuhan Özkan 0000-0002-1773-9317

Coşkun Parim 0000-0002-6412-1325

Erhan Çene 0000-0001-5336-6004

Publication Date July 28, 2023
Submission Date September 7, 2022
Published in Issue Year 2023 Issue: 38

Cite

APA Özkan, B., Parim, C., & Çene, E. (2023). Ülkelerin Gelişmişlik Düzeylerinin Karar Ağacı ve Rastgele Orman Yöntemleriyle Tahmin Edilmesi. EKOIST Journal of Econometrics and Statistics(38), 87-104. https://doi.org/10.26650/ekoist.2023.38.1172190