Research Article
BibTex RIS Cite

Determination of Homogeneous Subgroups Using Breiman’s Algorithm: An Application

Year 2014, Volume: 7 Issue: 1, 19 - 24, 16.04.2014

Abstract

Breiman said that the data can be cluster by finding “high density” areas where lots of data collected in close proximity to each other. In this study, it was aimed to introduce operation steps of Breiman's clustering algorithm, to show application steps of the method using a data set and to interpretation of the results. In the practice section of the study, socio-demographic and clinical characteristics of 433 individuals who admitted to the hospital with complaints of night eating syndrome, were used. CART algorithm was used to produce clusters that may be in the data set. In the obtained optimal tree, 31 decision points were found totally, but it was determined that the subjects located 14 of 31 decision points were clustered within itself. 350 of the individuals included in the study, entered into these created 14 clusters and 273 (78%) of them were diagnosed clinically as there is no habit of eating at night. It can be said that individuals involved in the 12 of 14 obtained clusters have diagnosis of there is no habit of eating at night. And according to this result, we can say that the clusters obtained from this data set, can be distinguish individuals who have not habit of night eating. As a result, when the target or dependent variable is unknown, Breiman’s algorithm, which is not affected by the shape of the distribution and type of the variables, can be used effectively. 

References

  • (REFERENCES) Ş. Koltan Yılmaz ve S. Patır, “Kümeleme Analizi ve Pazarlamada Kullanımı”, Akademik Yaklaşımlar Dergisi, 2(1), 91-113, 2011.
  • L. Breiman ve A. Cutler, RFtools--for Predicting and Understanding Data, Interface WorkshopApril 2004.
  • Ç. Taşkın ve GG. Emel, “Veri Madenciliğinde Kümeleme Yaklaşımları ve Kohonen Ağları ile Perakendecilik Sektöründe Bir Uygulama”, Süleyman Demirel Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi, 15(3), 395-409, 2010.
  • Ö. Terzi, EU. Küçüksille, G. Ergin ve A. İlker, “Veri Madenciliği Süreci Kullanılarak Güneş Işınımı Tahmini”, SDU International Technologic Science, (3)2, 29-37, 2011.
  • YZ. Ayık, A. Özdemir ve U. Yavuz, “Lise Türü ve Lise Mezuniyet Başarısının, Kazanılan Fakülte İle İlişkisinin Veri Madenciliği Tekniği ile Analizi”, Sosyal Bilimler Enstitüsü Dergisi, 10(2), 441-454, 200 Y. Özkan, Veri Madenciliği Yöntemleri, Papatya Yayıncılık, 2008.
  • İnternet: Notes On Setting Up, Using, And Understanding Random Forests, http://www.stat.berkeley.edu/~breiman/notes_on _random_forests_v2.pdf, 30.05.2013.
  • İnternet: Salford Systems Predictive Modeler Unsupervised Learning, http://1.salfordsystems.com/Portals/160602/docs/Unsupervised_ Learning_slides.pdf, 22.05.2013.
  • İnternet: Unsupervised Learning and Cluster Analysis with CART, http://www.salfordsystems.com/blog/dan-steinberg/item/572unsupervised-learning-and-cluster-analysis-withcart, 02.06.2013.
  • H. Çamdeviren Ankaralı, AC. Yazıcı, Z. Akkus, R. Bugdayci ve MA.Sungur, “Comparison of logistic regression model and classification tree: An application to postpartum depression data”, Expert Systems with Applications, 32(4), 987-994, 2007.
  • LF. Handfield, YT. Chong, J. Simmons, BJ. Andrews ve AM. Moses, “Unsupervised Clustering of Subcellular Protein Expression Patterns in HighThroughput Microscopy Images Reveals Protein Complexes and Functional Relationships Between Proteins”, PLoS Comput Biol., 9(6), 2013, doi: 1371/journal.pcbi.1003085.
  • MJ. Overman, J. Zhang, S. Kopetz, M. Davies, J. Zhi-Qin, K. Stemke-Hale, P. Rümmele, C. Pilarsky, R. Grützmann, S. Hamilton, R. Hwang, JL. Abbruzzese, G. Varadhachary, B. Broom ve H. Wang, “Gene Expression Profiling of Ampullary Carcinomas Classifies Ampullary Carcinomas in to Biliary-Like and Intestinal-Like Subtypes That are Prognostic of Outcome”, PLoS One, 8(6), 2013, doi: 1371/journal.pone.0065144.
  • P. Stegmaier, A. Kel, E. Wingender ve J. Borlak, “A Discriminative Approach for Unsupervised Clustering of DNA Sequence Motifs”, PLoS Comput Biol., 2013, doi: 10.1371/journal.pcbi.1002958.
  • T. Shi, S. Horvath, “Unsupervised Learning With Random Forest Predictors”, Journal of Computational and Graphical Statistics, 15(1), 118– 138, 2006.
  • T. Shi, D. Seligson, AS. Belldegrun, A. Palotie ve S. Horvath, “Tumor Classification by Tissue Microarray Profiling: Random Forest Clustering Applied to Renal Cell Carcinoma”, Mod Pathol., 18(4), 547-57, 2005.
  • L. Breiman, “Random forests”, Machine Learning, 45(1), 5-32, 2001.

Breiman Algoritması Kullanılarak Homojen Alt Grupların Belirlenmesi: Bir Uygulama

Year 2014, Volume: 7 Issue: 1, 19 - 24, 16.04.2014

Abstract

– Breiman, birçok verinin birbirine yakın olarak toplandığı “yüksek yoğunluklu” alanları bularak verilerin kümelenebileceğini söylemiştir. Bu çalışmada, Breiman’ın kümeleme algoritmasının işleyiş adımları tanıtılarak bir veri seti üzerinde uygulama adımlarının gösterilmesi ve sonuçlarının yorumlanması amaçlanmıştır. Uygulama bölümünde, hastaneye gece yeme sendromu şikâyetiyle başvuran 433 kişiye ilişkin sosyo-demografik ve klinik özellikler kullanılmıştır. Veri setinde olabilecek kümelerin ortaya konmasında, CART algoritmasından yararlanılmıştır. Elde edilen optimum ağaçta toplam 31 karar noktası bulunmuş ancak bunların 14’ ünde yer alan deneklerin kendi içinde kümelenme gösterdiği belirlenmiştir. Çalışmaya alınan kişilerin 350’si oluşturulan 14 küme içine girmiş ve bunların 273 (%78)’ü klinik olarak gece yeme alışkanlığı yoktur tanısı almıştır. Elde edilen 14 kümenin 12’sinde yer alan kişilerin ağırlıklı olarak gece yeme alışkanlığı yok tanısı alanlardan oluştuğu ve bu sonuca göre, bu veri setinden elde edilen kümelerin, genel olarak gece yeme alışkanlığı olmayan bireyleri ayırt edebildiği söylenebilir. Sonuç olarak, hedef veya bağımlı değişkenin bilinmediği durumlarda, veri setinde var olan homojen alt grupların belirlenmesinde, danışmansız öğrenme yöntemlerinden biri olan kümeleme analizinin uygulanması için değişkenlerin dağılım şekli ve tipinden etkilenmeyen Breiman algoritması etkin bir şekilde kullanılabilir.

References

  • (REFERENCES) Ş. Koltan Yılmaz ve S. Patır, “Kümeleme Analizi ve Pazarlamada Kullanımı”, Akademik Yaklaşımlar Dergisi, 2(1), 91-113, 2011.
  • L. Breiman ve A. Cutler, RFtools--for Predicting and Understanding Data, Interface WorkshopApril 2004.
  • Ç. Taşkın ve GG. Emel, “Veri Madenciliğinde Kümeleme Yaklaşımları ve Kohonen Ağları ile Perakendecilik Sektöründe Bir Uygulama”, Süleyman Demirel Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi, 15(3), 395-409, 2010.
  • Ö. Terzi, EU. Küçüksille, G. Ergin ve A. İlker, “Veri Madenciliği Süreci Kullanılarak Güneş Işınımı Tahmini”, SDU International Technologic Science, (3)2, 29-37, 2011.
  • YZ. Ayık, A. Özdemir ve U. Yavuz, “Lise Türü ve Lise Mezuniyet Başarısının, Kazanılan Fakülte İle İlişkisinin Veri Madenciliği Tekniği ile Analizi”, Sosyal Bilimler Enstitüsü Dergisi, 10(2), 441-454, 200 Y. Özkan, Veri Madenciliği Yöntemleri, Papatya Yayıncılık, 2008.
  • İnternet: Notes On Setting Up, Using, And Understanding Random Forests, http://www.stat.berkeley.edu/~breiman/notes_on _random_forests_v2.pdf, 30.05.2013.
  • İnternet: Salford Systems Predictive Modeler Unsupervised Learning, http://1.salfordsystems.com/Portals/160602/docs/Unsupervised_ Learning_slides.pdf, 22.05.2013.
  • İnternet: Unsupervised Learning and Cluster Analysis with CART, http://www.salfordsystems.com/blog/dan-steinberg/item/572unsupervised-learning-and-cluster-analysis-withcart, 02.06.2013.
  • H. Çamdeviren Ankaralı, AC. Yazıcı, Z. Akkus, R. Bugdayci ve MA.Sungur, “Comparison of logistic regression model and classification tree: An application to postpartum depression data”, Expert Systems with Applications, 32(4), 987-994, 2007.
  • LF. Handfield, YT. Chong, J. Simmons, BJ. Andrews ve AM. Moses, “Unsupervised Clustering of Subcellular Protein Expression Patterns in HighThroughput Microscopy Images Reveals Protein Complexes and Functional Relationships Between Proteins”, PLoS Comput Biol., 9(6), 2013, doi: 1371/journal.pcbi.1003085.
  • MJ. Overman, J. Zhang, S. Kopetz, M. Davies, J. Zhi-Qin, K. Stemke-Hale, P. Rümmele, C. Pilarsky, R. Grützmann, S. Hamilton, R. Hwang, JL. Abbruzzese, G. Varadhachary, B. Broom ve H. Wang, “Gene Expression Profiling of Ampullary Carcinomas Classifies Ampullary Carcinomas in to Biliary-Like and Intestinal-Like Subtypes That are Prognostic of Outcome”, PLoS One, 8(6), 2013, doi: 1371/journal.pone.0065144.
  • P. Stegmaier, A. Kel, E. Wingender ve J. Borlak, “A Discriminative Approach for Unsupervised Clustering of DNA Sequence Motifs”, PLoS Comput Biol., 2013, doi: 10.1371/journal.pcbi.1002958.
  • T. Shi, S. Horvath, “Unsupervised Learning With Random Forest Predictors”, Journal of Computational and Graphical Statistics, 15(1), 118– 138, 2006.
  • T. Shi, D. Seligson, AS. Belldegrun, A. Palotie ve S. Horvath, “Tumor Classification by Tissue Microarray Profiling: Random Forest Clustering Applied to Renal Cell Carcinoma”, Mod Pathol., 18(4), 547-57, 2005.
  • L. Breiman, “Random forests”, Machine Learning, 45(1), 5-32, 2001.
There are 15 citations in total.

Details

Primary Language Turkish
Subjects Engineering
Journal Section Articles
Authors

Özge Akşehirli

Handan Ankaralı

Şengül Cangür

Mehmet Ali Sungur

Publication Date April 16, 2014
Submission Date June 28, 2013
Published in Issue Year 2014 Volume: 7 Issue: 1

Cite

APA Akşehirli, Ö., Ankaralı, H., Cangür, Ş., Sungur, M. A. (2014). Breiman Algoritması Kullanılarak Homojen Alt Grupların Belirlenmesi: Bir Uygulama. Bilişim Teknolojileri Dergisi, 7(1), 19-24.