BibTex RIS Cite

Classification Tree Approach via R: A Case Sudy for Missing Child Profiling

Year 2015, Volume: 3 Issue: 1, 1 - 10, 23.07.2016

Abstract

Missing children problem is one of the major problems in Turkey as well as all over the world. This problem is affected by the rapid change process in society and is becoming a growing problem. The increase in numbers observed in recent years lead to a concern in the society. Therefore, profiling missing children is of utmost importance. In this study, classification and regression trees are employed to classify missing children. Data set for classification of missing children consists of sex, height, weight, skin color, eye color, hair color and a derived variable, missing age from birth year and missing year. Seven different classes are obtained from classification tree by using Gini purity measure. One of dominant class consists of girls aged greater or equal to 14 and in 1.11-1.50, 1.51-1.60 and 1.61-1.70 height intervals, which covers 62% of the whole missing children subjected to this study.

References

  • Archer, K. J. (2010). rpartOrdinal: An R Package for Deriving a Classification Tree for Predicting an Ordinal Response. Journal of Statistical Software, 34 (7), 1–17.
  • Aydın, H. (2010), Yerel Yönetimlerin Sorumlulukları Çerçevesinde Türkiye’de Kayıp Çocuklar Sorunu. İdarecilerin Sesi, 139, 25-30.
  • Azam, M, M. Aslam ve K. P. Pfeiffer (2014). Three Steps Strategy to Search for Optimum Classification Trees. Communications in Statistics - Simulation and Computation, DOI:10.1080/03610918.2013.867991.
  • Balakrishnan, N., S. Kotz, C. Read, B. Vidakovic ve N. L. Johnson (2006). T: Twoing Index. Encyclopedia of Statistical Sciences, 2nd Ed. A John Wiley & Sons, Inc.
  • BİHB (2007). Kayıp Çocuklar Raporu. Başbakanlık İnsan Hakları Başkanlığı. http://www. tihk.gov.tr/www/files/Kayip_cocuklar_raporu_4_8_2008.pdf (10.03.2015).
  • CİGM (2014). Kayıp Şahıslar Yönergesi. Adalet Bakanlığı Ceza İşleri Genel Müdürlüğü. http://www.cigm.adalet.gov.tr/duyurular/2014/kayipsahisyonek.pdf (10.03.2015).
  • CRAN (2015). The Comprehensive R Archive Network. http://cran.r-project.org/ (10.03.2015).
  • EGM (2014). Emniyet Genel Müdürlüğü Asayiş Dairesi Başkanlığı. http://www.asayis.pol.tr /Sayfalar/kayip_ve_aranan_sahislar.aspx (10.03.2015).
  • Koon S. ve Y. Petscher (2015). Comparing Methodologies for Developing an Early Warning System: Classification and Regression Tree Model Versus Logistic Regression. Applied Research Methods http://ies.ed.gov/pubsearch/pubsinfo.asp?pubid=REL2015077 (10.03. 2015).
  • Li, Y. ve C. E. Schwartz (2012). Erratum to: Data mining for response shift patterns in multiple sclerosis patients using recursive partitioning tree analysis. Quality of Life Research, 21 (1), 1543–1553.
  • James, G., D. Witten, T. Hastie ve R. Tibshirani (2013), An Introduction to Statistical Learning with Applications in R, Springer.
  • Quatch, A., J. Symanzik ve N. Forsgren (2015). Soul of the Community: An Attempt to Assess Attachment to a Community. Journal of Computational Statistics, yayın kabul.
  • Quick – R (2014). Tree-Based Models. http://www.statmethods.net/advstats/cart.html (10.03.2015).
  • R Core Team (2014). R: A language and environment for statistical computing. R Foundation for Statistical Computing. http://www.R-project.org/ (10.03.2015).
  • Sasaki, T., J. Imanishi, K. Ioki, Y. Morimoto ve K. Kitada (2012). Object-based classification of land cover and tree species by integrating airborne LiDAR and high spatial resolution imagery data. Landscape and Ecological Engineering, 8 (2), 157–171.
  • Sampurno, F. (2006). Identifying risk factors associated with new onset cardiovascular disease in patients with type I diabetes using Classification Tree. Melbourne: The University of Melbourne.
  • Spruill, T. B., W. J. Showers ve S. S. Howe (2002). Application of Classification-Tree Methods to Identify Nitrate Sources in Ground Water. Journal of Environmental Quality, 31, 1538–1549 DOI:10.2134/jeq2002.1538.
  • Stephen Milborrow (2014). rpart.plot: Plot rpart models. An enhanced version of plot.rpart, R package version 1.4-5. http://CRAN.R-project.org/package=rpart.plot.
  • TBMM (2010). Kayıp Çocuklar Basta Olmak Üzere Çocukların Mağdur Olduğu Sorunların Araştırılarak Alınması Gereken Önlemlerin Belirlenmesi Amacıyla Kurulan Meclis Araştırması Komisyonu Raporu. http://www.tbmm.gov.tr/sirasayi/donem23/yil01/ss589. pdf (10.03.2015).
  • Therneau, T. M. ve E. J. Atkinson (2015), An Introduction to Recursive Partitioning Using the RPART Routines. Mayo Foundation. http://cran.r-project.org/web/packages/rpart/ vignettes/longintro.pdf (10.03.2015).
  • UNICEF (2011). Türkiye’de Çocukların Durumu Raporu. http://unicef.deparyazilim.com/files /bilgimerkezi/doc/sitan-tur-2011.pdf (10.03.2015).
  • Wen, L., J. Ling, N. Saintilan ve K. Rogers (2009). An investigation of the hydrological requirements of River Red Gum (Eucalyptus camaldulensis) Forest, using Classification and Regression Tree modelling. Ecohydrology, 2 (2), 143–155.
  • Williams, G. (2011). Data Mining with Rattle and R. Springer

Sınıflandırma Ağacı Yaklaşımının R ile Çözümlenmesi: Kayıp Çocuk Profil Örneği

Year 2015, Volume: 3 Issue: 1, 1 - 10, 23.07.2016

Abstract

Kayıp çocuk sorunu, tüm dünyada olduğu gibi ülkemizde de yaşanan önemli sorunlardan birisidir. Bu sorun, toplumdaki hızlı değişim sürecinden de etkilenmekte ve giderek büyüyen bir sorun haline gelmektedir. Son yıllarda gözlemlenen bu büyüme toplumda da tedirginliğe yol açmaktadır. Bu yüzden kayıp çocuk profilinin ortaya çıkarılması büyük önem taşımaktadır. Bu çalışmada, sınıflandırma ve regresyon ağaçları kullanılarak kayıp çocukların sınıflandırılmasına çalışılmıştır. Kullanılan veri seti, cinsiyet, doğum yılı, kayıp yılı, boy, kilo, ten rengi, göz rengi, saç rengi değişkenlerinden oluşmaktadır. Doğum yılı ve kayıp yılı değişkenleri doğrudan kullanılmamış, bunun yerine, bu değişkenlerden kayıp yaşı değişkeni türetilmiştir. Sınıflandırma ağacı ile gini saflık ölçüsü kullanılarak elde edilen sınıflandırma sonucunda, 7 farklı sınıf elde edilmiştir. Bu sınıflardan, 14 yaşından büyük eşit ve 1.11-1.50,1.51-1.60 ve 1.61- 1.70 boy aralıklarındaki kız çocuklarının oluşturduğu sınıf, en baskın sınıf olarak ortaya çıkmıştır ve tüm kayıp çocukların %62’sinin bu sınıfa ait olduğu gözlemlenmiştir.

References

  • Archer, K. J. (2010). rpartOrdinal: An R Package for Deriving a Classification Tree for Predicting an Ordinal Response. Journal of Statistical Software, 34 (7), 1–17.
  • Aydın, H. (2010), Yerel Yönetimlerin Sorumlulukları Çerçevesinde Türkiye’de Kayıp Çocuklar Sorunu. İdarecilerin Sesi, 139, 25-30.
  • Azam, M, M. Aslam ve K. P. Pfeiffer (2014). Three Steps Strategy to Search for Optimum Classification Trees. Communications in Statistics - Simulation and Computation, DOI:10.1080/03610918.2013.867991.
  • Balakrishnan, N., S. Kotz, C. Read, B. Vidakovic ve N. L. Johnson (2006). T: Twoing Index. Encyclopedia of Statistical Sciences, 2nd Ed. A John Wiley & Sons, Inc.
  • BİHB (2007). Kayıp Çocuklar Raporu. Başbakanlık İnsan Hakları Başkanlığı. http://www. tihk.gov.tr/www/files/Kayip_cocuklar_raporu_4_8_2008.pdf (10.03.2015).
  • CİGM (2014). Kayıp Şahıslar Yönergesi. Adalet Bakanlığı Ceza İşleri Genel Müdürlüğü. http://www.cigm.adalet.gov.tr/duyurular/2014/kayipsahisyonek.pdf (10.03.2015).
  • CRAN (2015). The Comprehensive R Archive Network. http://cran.r-project.org/ (10.03.2015).
  • EGM (2014). Emniyet Genel Müdürlüğü Asayiş Dairesi Başkanlığı. http://www.asayis.pol.tr /Sayfalar/kayip_ve_aranan_sahislar.aspx (10.03.2015).
  • Koon S. ve Y. Petscher (2015). Comparing Methodologies for Developing an Early Warning System: Classification and Regression Tree Model Versus Logistic Regression. Applied Research Methods http://ies.ed.gov/pubsearch/pubsinfo.asp?pubid=REL2015077 (10.03. 2015).
  • Li, Y. ve C. E. Schwartz (2012). Erratum to: Data mining for response shift patterns in multiple sclerosis patients using recursive partitioning tree analysis. Quality of Life Research, 21 (1), 1543–1553.
  • James, G., D. Witten, T. Hastie ve R. Tibshirani (2013), An Introduction to Statistical Learning with Applications in R, Springer.
  • Quatch, A., J. Symanzik ve N. Forsgren (2015). Soul of the Community: An Attempt to Assess Attachment to a Community. Journal of Computational Statistics, yayın kabul.
  • Quick – R (2014). Tree-Based Models. http://www.statmethods.net/advstats/cart.html (10.03.2015).
  • R Core Team (2014). R: A language and environment for statistical computing. R Foundation for Statistical Computing. http://www.R-project.org/ (10.03.2015).
  • Sasaki, T., J. Imanishi, K. Ioki, Y. Morimoto ve K. Kitada (2012). Object-based classification of land cover and tree species by integrating airborne LiDAR and high spatial resolution imagery data. Landscape and Ecological Engineering, 8 (2), 157–171.
  • Sampurno, F. (2006). Identifying risk factors associated with new onset cardiovascular disease in patients with type I diabetes using Classification Tree. Melbourne: The University of Melbourne.
  • Spruill, T. B., W. J. Showers ve S. S. Howe (2002). Application of Classification-Tree Methods to Identify Nitrate Sources in Ground Water. Journal of Environmental Quality, 31, 1538–1549 DOI:10.2134/jeq2002.1538.
  • Stephen Milborrow (2014). rpart.plot: Plot rpart models. An enhanced version of plot.rpart, R package version 1.4-5. http://CRAN.R-project.org/package=rpart.plot.
  • TBMM (2010). Kayıp Çocuklar Basta Olmak Üzere Çocukların Mağdur Olduğu Sorunların Araştırılarak Alınması Gereken Önlemlerin Belirlenmesi Amacıyla Kurulan Meclis Araştırması Komisyonu Raporu. http://www.tbmm.gov.tr/sirasayi/donem23/yil01/ss589. pdf (10.03.2015).
  • Therneau, T. M. ve E. J. Atkinson (2015), An Introduction to Recursive Partitioning Using the RPART Routines. Mayo Foundation. http://cran.r-project.org/web/packages/rpart/ vignettes/longintro.pdf (10.03.2015).
  • UNICEF (2011). Türkiye’de Çocukların Durumu Raporu. http://unicef.deparyazilim.com/files /bilgimerkezi/doc/sitan-tur-2011.pdf (10.03.2015).
  • Wen, L., J. Ling, N. Saintilan ve K. Rogers (2009). An investigation of the hydrological requirements of River Red Gum (Eucalyptus camaldulensis) Forest, using Classification and Regression Tree modelling. Ecohydrology, 2 (2), 143–155.
  • Williams, G. (2011). Data Mining with Rattle and R. Springer
There are 23 citations in total.

Details

Other ID JA57RC59GM
Journal Section Articles
Authors

Levent Terlemez

Publication Date July 23, 2016
Submission Date July 23, 2016
Published in Issue Year 2015 Volume: 3 Issue: 1

Cite

APA Terlemez, L. (2016). Sınıflandırma Ağacı Yaklaşımının R ile Çözümlenmesi: Kayıp Çocuk Profil Örneği. İktisadi Yenilik Dergisi, 3(1), 1-10.