Breiman Algoritması Kullanılarak Homojen Alt Grupların Belirlenmesi: Bir Uygulama

Özge Akşehirli; Handan Ankaralı; Şengül Cangür; Mehmet Ali Sungur

Araştırma Makalesi

Determination of Homogeneous Subgroups Using Breiman’s Algorithm: An Application

Yıl 2014, Cilt: 7 Sayı: 1, 19 - 24, 16.04.2014

Özge Akşehirli , Handan Ankaralı , Şengül Cangür , Mehmet Ali Sungur

Öz

Breiman said that the data can be cluster by finding “high density” areas where lots of data collected in close proximity to each other. In this study, it was aimed to introduce operation steps of Breiman's clustering algorithm, to show application steps of the method using a data set and to interpretation of the results. In the practice section of the study, socio-demographic and clinical characteristics of 433 individuals who admitted to the hospital with complaints of night eating syndrome, were used. CART algorithm was used to produce clusters that may be in the data set. In the obtained optimal tree, 31 decision points were found totally, but it was determined that the subjects located 14 of 31 decision points were clustered within itself. 350 of the individuals included in the study, entered into these created 14 clusters and 273 (78%) of them were diagnosed clinically as there is no habit of eating at night. It can be said that individuals involved in the 12 of 14 obtained clusters have diagnosis of there is no habit of eating at night. And according to this result, we can say that the clusters obtained from this data set, can be distinguish individuals who have not habit of night eating. As a result, when the target or dependent variable is unknown, Breiman’s algorithm, which is not affected by the shape of the distribution and type of the variables, can be used effectively.

Anahtar Kelimeler

– Data mining , unsupervised learning , cluster analysis , Breiman algorithm , CART

Kaynakça

(REFERENCES) Ş. Koltan Yılmaz ve S. Patır, “Kümeleme Analizi ve Pazarlamada Kullanımı”, Akademik Yaklaşımlar Dergisi, 2(1), 91-113, 2011.
L. Breiman ve A. Cutler, RFtools--for Predicting and Understanding Data, Interface WorkshopApril 2004.
Ç. Taşkın ve GG. Emel, “Veri Madenciliğinde Kümeleme Yaklaşımları ve Kohonen Ağları ile Perakendecilik Sektöründe Bir Uygulama”, Süleyman Demirel Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi, 15(3), 395-409, 2010.
Ö. Terzi, EU. Küçüksille, G. Ergin ve A. İlker, “Veri Madenciliği Süreci Kullanılarak Güneş Işınımı Tahmini”, SDU International Technologic Science, (3)2, 29-37, 2011.
YZ. Ayık, A. Özdemir ve U. Yavuz, “Lise Türü ve Lise Mezuniyet Başarısının, Kazanılan Fakülte İle İlişkisinin Veri Madenciliği Tekniği ile Analizi”, Sosyal Bilimler Enstitüsü Dergisi, 10(2), 441-454, 200 Y. Özkan, Veri Madenciliği Yöntemleri, Papatya Yayıncılık, 2008.
İnternet: Notes On Setting Up, Using, And Understanding Random Forests, http://www.stat.berkeley.edu/~breiman/notes_on _random_forests_v2.pdf, 30.05.2013.
İnternet: Salford Systems Predictive Modeler Unsupervised Learning, http://1.salfordsystems.com/Portals/160602/docs/Unsupervised_ Learning_slides.pdf, 22.05.2013.
İnternet: Unsupervised Learning and Cluster Analysis with CART, http://www.salfordsystems.com/blog/dan-steinberg/item/572unsupervised-learning-and-cluster-analysis-withcart, 02.06.2013.
H. Çamdeviren Ankaralı, AC. Yazıcı, Z. Akkus, R. Bugdayci ve MA.Sungur, “Comparison of logistic regression model and classification tree: An application to postpartum depression data”, Expert Systems with Applications, 32(4), 987-994, 2007.
LF. Handfield, YT. Chong, J. Simmons, BJ. Andrews ve AM. Moses, “Unsupervised Clustering of Subcellular Protein Expression Patterns in HighThroughput Microscopy Images Reveals Protein Complexes and Functional Relationships Between Proteins”, PLoS Comput Biol., 9(6), 2013, doi: 1371/journal.pcbi.1003085.
MJ. Overman, J. Zhang, S. Kopetz, M. Davies, J. Zhi-Qin, K. Stemke-Hale, P. Rümmele, C. Pilarsky, R. Grützmann, S. Hamilton, R. Hwang, JL. Abbruzzese, G. Varadhachary, B. Broom ve H. Wang, “Gene Expression Profiling of Ampullary Carcinomas Classifies Ampullary Carcinomas in to Biliary-Like and Intestinal-Like Subtypes That are Prognostic of Outcome”, PLoS One, 8(6), 2013, doi: 1371/journal.pone.0065144.
P. Stegmaier, A. Kel, E. Wingender ve J. Borlak, “A Discriminative Approach for Unsupervised Clustering of DNA Sequence Motifs”, PLoS Comput Biol., 2013, doi: 10.1371/journal.pcbi.1002958.
T. Shi, S. Horvath, “Unsupervised Learning With Random Forest Predictors”, Journal of Computational and Graphical Statistics, 15(1), 118– 138, 2006.
T. Shi, D. Seligson, AS. Belldegrun, A. Palotie ve S. Horvath, “Tumor Classification by Tissue Microarray Profiling: Random Forest Clustering Applied to Renal Cell Carcinoma”, Mod Pathol., 18(4), 547-57, 2005.
L. Breiman, “Random forests”, Machine Learning, 45(1), 5-32, 2001.

Breiman Algoritması Kullanılarak Homojen Alt Grupların Belirlenmesi: Bir Uygulama

Yıl 2014, Cilt: 7 Sayı: 1, 19 - 24, 16.04.2014

Özge Akşehirli , Handan Ankaralı , Şengül Cangür , Mehmet Ali Sungur

Öz

– Breiman, birçok verinin birbirine yakın olarak toplandığı “yüksek yoğunluklu” alanları bularak verilerin kümelenebileceğini söylemiştir. Bu çalışmada, Breiman’ın kümeleme algoritmasının işleyiş adımları tanıtılarak bir veri seti üzerinde uygulama adımlarının gösterilmesi ve sonuçlarının yorumlanması amaçlanmıştır. Uygulama bölümünde, hastaneye gece yeme sendromu şikâyetiyle başvuran 433 kişiye ilişkin sosyo-demografik ve klinik özellikler kullanılmıştır. Veri setinde olabilecek kümelerin ortaya konmasında, CART algoritmasından yararlanılmıştır. Elde edilen optimum ağaçta toplam 31 karar noktası bulunmuş ancak bunların 14’ ünde yer alan deneklerin kendi içinde kümelenme gösterdiği belirlenmiştir. Çalışmaya alınan kişilerin 350’si oluşturulan 14 küme içine girmiş ve bunların 273 (%78)’ü klinik olarak gece yeme alışkanlığı yoktur tanısı almıştır. Elde edilen 14 kümenin 12’sinde yer alan kişilerin ağırlıklı olarak gece yeme alışkanlığı yok tanısı alanlardan oluştuğu ve bu sonuca göre, bu veri setinden elde edilen kümelerin, genel olarak gece yeme alışkanlığı olmayan bireyleri ayırt edebildiği söylenebilir. Sonuç olarak, hedef veya bağımlı değişkenin bilinmediği durumlarda, veri setinde var olan homojen alt grupların belirlenmesinde, danışmansız öğrenme yöntemlerinden biri olan kümeleme analizinin uygulanması için değişkenlerin dağılım şekli ve tipinden etkilenmeyen Breiman algoritması etkin bir şekilde kullanılabilir.

Anahtar Kelimeler

Veri madenciliği , danışmansız öğrenme , kümeleme analizi , Breiman algoritması , CART

Kaynakça

(REFERENCES) Ş. Koltan Yılmaz ve S. Patır, “Kümeleme Analizi ve Pazarlamada Kullanımı”, Akademik Yaklaşımlar Dergisi, 2(1), 91-113, 2011.
L. Breiman ve A. Cutler, RFtools--for Predicting and Understanding Data, Interface WorkshopApril 2004.
Ç. Taşkın ve GG. Emel, “Veri Madenciliğinde Kümeleme Yaklaşımları ve Kohonen Ağları ile Perakendecilik Sektöründe Bir Uygulama”, Süleyman Demirel Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi, 15(3), 395-409, 2010.
Ö. Terzi, EU. Küçüksille, G. Ergin ve A. İlker, “Veri Madenciliği Süreci Kullanılarak Güneş Işınımı Tahmini”, SDU International Technologic Science, (3)2, 29-37, 2011.
YZ. Ayık, A. Özdemir ve U. Yavuz, “Lise Türü ve Lise Mezuniyet Başarısının, Kazanılan Fakülte İle İlişkisinin Veri Madenciliği Tekniği ile Analizi”, Sosyal Bilimler Enstitüsü Dergisi, 10(2), 441-454, 200 Y. Özkan, Veri Madenciliği Yöntemleri, Papatya Yayıncılık, 2008.
İnternet: Notes On Setting Up, Using, And Understanding Random Forests, http://www.stat.berkeley.edu/~breiman/notes_on _random_forests_v2.pdf, 30.05.2013.
İnternet: Salford Systems Predictive Modeler Unsupervised Learning, http://1.salfordsystems.com/Portals/160602/docs/Unsupervised_ Learning_slides.pdf, 22.05.2013.
İnternet: Unsupervised Learning and Cluster Analysis with CART, http://www.salfordsystems.com/blog/dan-steinberg/item/572unsupervised-learning-and-cluster-analysis-withcart, 02.06.2013.
H. Çamdeviren Ankaralı, AC. Yazıcı, Z. Akkus, R. Bugdayci ve MA.Sungur, “Comparison of logistic regression model and classification tree: An application to postpartum depression data”, Expert Systems with Applications, 32(4), 987-994, 2007.
LF. Handfield, YT. Chong, J. Simmons, BJ. Andrews ve AM. Moses, “Unsupervised Clustering of Subcellular Protein Expression Patterns in HighThroughput Microscopy Images Reveals Protein Complexes and Functional Relationships Between Proteins”, PLoS Comput Biol., 9(6), 2013, doi: 1371/journal.pcbi.1003085.
MJ. Overman, J. Zhang, S. Kopetz, M. Davies, J. Zhi-Qin, K. Stemke-Hale, P. Rümmele, C. Pilarsky, R. Grützmann, S. Hamilton, R. Hwang, JL. Abbruzzese, G. Varadhachary, B. Broom ve H. Wang, “Gene Expression Profiling of Ampullary Carcinomas Classifies Ampullary Carcinomas in to Biliary-Like and Intestinal-Like Subtypes That are Prognostic of Outcome”, PLoS One, 8(6), 2013, doi: 1371/journal.pone.0065144.
P. Stegmaier, A. Kel, E. Wingender ve J. Borlak, “A Discriminative Approach for Unsupervised Clustering of DNA Sequence Motifs”, PLoS Comput Biol., 2013, doi: 10.1371/journal.pcbi.1002958.
T. Shi, S. Horvath, “Unsupervised Learning With Random Forest Predictors”, Journal of Computational and Graphical Statistics, 15(1), 118– 138, 2006.
T. Shi, D. Seligson, AS. Belldegrun, A. Palotie ve S. Horvath, “Tumor Classification by Tissue Microarray Profiling: Random Forest Clustering Applied to Renal Cell Carcinoma”, Mod Pathol., 18(4), 547-57, 2005.
L. Breiman, “Random forests”, Machine Learning, 45(1), 5-32, 2001.

Toplam 15 adet kaynakça vardır.

Ayrıntılar

Birincil Dil	Türkçe
Konular	Mühendislik
Bölüm	Makaleler
Yazarlar	Özge Akşehirli Handan Ankaralı Şengül Cangür Mehmet Ali Sungur
Yayımlanma Tarihi	16 Nisan 2014
Gönderilme Tarihi	28 Haziran 2013
Yayımlandığı Sayı	Yıl 2014 Cilt: 7 Sayı: 1

Kaynak Göster

APA	Akşehirli, Ö., Ankaralı, H., Cangür, Ş., Sungur, M. A. (2014). Breiman Algoritması Kullanılarak Homojen Alt Grupların Belirlenmesi: Bir Uygulama. Bilişim Teknolojileri Dergisi, 7(1), 19-24.

Kapak Resmi İndir

Makale Dosyaları

Tam Metin