BibTex RIS Cite

-

Year 2014, Sayı: 6, 53 - 99, 01.12.2014

Abstract

The data sets used in scientific studies pose a very complex structure from time to time. At this point, data mining is making a big contribution in terms of improving the quality of services by revealing useful information from large databases. Generally on studies, to predict future data trends utilization of the methods, data mining techniques in one of the most widely used are classification and regression models. In this study, among data mining methods, classification and regression models most commonly used ones are decision tree algorithms. By comparing Classification and Regression Trees (CART) algorithm which belongs to decision trees and logistic regression shows classification characteristics on real data set and success rates of these two methods. In this context, taken by the Social Security Administration pharmacy provision system, from the respiratory disease which is one of 11 diagnoses for 6,772,313 entries in the prescribed antibiotics in the penicillin group was used to analyze that profiling the patients and the analysis found the CART analysis has better classification success than logistic regression analysis

References

  • Ahmad, I., “Data Warehousing in Construction Organizations”, Construction Congress VI, Florida, 194–203 (2000).
  • Akpınar H., “Veri Tabanlarında bilgi keşfi ve Veri Madenciliği”, İ.Ü. İşletme Fakültesi Dergisi, 29 (1), 1-22 (2000).
  • Allison, D. P., “Logistic Regression Using The SAS System 2nd ed.”, SAS Institute, (2000).
  • Ayık Y. Z., Özdemir A., Yavuz U., “Lise Türü Ve Lise Mezuniyet Başarısının, Kazanılan Fakülte İle İlişkisinin Veri Madenciliği Tekniği İle Analizi”, Atatürk Üniversitesi Sosyal Bilimler Enstitüsü Dergisi, 10(2): 441-454 (2007).
  • Berry, M. J., Linoff, G. S., “Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management 2nd ed.”, Wiley, USA, (2004).
  • Bigus, J. P., “Data Mining With Neural Networks: Solving Business Problems from Application Development to Decision Support”, McGraw Hill, (1996).
  • Collet, D., “Modelling Binary Data”, Chapman & Hall, Florida, (2003).
  • Deconinck, E., Hancock, T., Coomans, D., Massart, D.L., Heyden, Y.V., “Classification of drugs in absorption classes using the classification and regression trees (CART) methodology”, Journal of Pharmaceutical and Biomedical Analysis, 39 : 91–103 (2005).
  • Fayyad, U., Piatetsky-Shapiro, G., Smyth, P., “The KDD Process for Extracting Useful Knowledge From Volumes of Data”, Communications of the ACM, 39 (11): 27-34 (1996).
  • Hosmer, D. W., Lemeshow, S., “Applied Logistic Regression”, John Wiley & Sons, New York, 5-50 (1989).
  • Kecman, V., “Learning and Soft Computing: Support Vector Machines, Neural Networks, and Fuzzy Logic Models”, The MIT Pres, Cambridge, MA, 1-4 (2001).
  • Kim, M., “Two-stage Logistic Regression Model”, Expert Systems with Applications, 36: 6727–6734 (2009).
  • Kleinbaum,G., D., “A Self-learning Text Logistic Regression”, Springer, Atlanta, (1994).
  • Köktürk, F., Ankaralı, H., Sümbüloğlu, V., “Veri Madenciliği Yöntemlerine Genel Bakış”, Türkiye Klinikleri Journal of Biostatistics, 1 (1): 20-25 (2009).
  • Kurt, I., Ture, M., Kurum, A. T., “Comparing Performances of Logistic Regression, Classification and Regression Tree, and Neural Networks for Predicting Coronary Artery Disease”, Expert Systems with Applications, 34 : 366–374 (2008).
  • Masseglia, F., Poncelet, P., Teisseire, M., “Using Data Mining Techniques on Web Access Logs to Dynamically Improve Hypertext Structure”, ACM Sigweb Newsletter, 8 (3): 1-19 (1999).
  • Özkan, Y., “Veri Madenciliği Yöntemleri”, Papatya Yayıncılık Eğitim, İstanbul, 106-113 (2008).
  • Pehlivan, G., “Chaid Analizi ve Bir Uygulama”, Yüksek Lisans Tezi, Yıldız Teknik Üniversitesi Fen Bilimleri Enstitüsü, İstanbul, 17 (2006).
  • Silahtaroğlu, G., “Kavram ve Algoritmalarıyla Temel Veri Madenciliği”, Papatya Yayıncılık Eğitim, İstanbul, 33, 45-47, 58 (2008).
  • Tatlıdil, H., “Uygulamalı Çok Değişkenli İstatistiksel Analiz”, Cem Web Ofset, Ankara, (1996).
  • Temel, G. O., Çamdeviren, H., Akkuş, Z., “Sınıflama Ağaçları Yardımıyla Restless Legs Syndrome (RLS) Hastalarına Tanı Koyma”, İnönü Üniversitesi Tıp Fakültesi Dergisi, 12 (2): 111-117 (2005).
  • Teng, J., Lin, K., Ho, B., “Application of Classification Tree and Logistic Regression for The Management and Health İntervention Plans in A Community-Based Study”, Journal of Evaluation in Clinical Practice, 13 : 741-748 (2007)
  • Thomas, Lyn. C., “A Survey of Credit and Behavioral Scoring: Forecasting Financial Risk of Lending to Consumer”, International Journal of Forecasting, 16 (2): 149–172 (2000).
  • Zhou, Z., “Three Perspectives of Data Mining”, Artificial Intelligence, 143 (1): 139-146 (2003).

Veri Madenciliğinde Cart ve Lojistik Regresyon Analizinin Yeri: İlaç Provizyon Sistemi Verileri Üzerinde Örnek Bir Uygulama

Year 2014, Sayı: 6, 53 - 99, 01.12.2014

Abstract

Bilimsel çalışmalarda kullanılan veri setleri zaman zaman karmaşık
bir yapı teşkil etmektedir. Bu noktada veri madenciliği, büyük veri
tabanlarından faydalı bilgileri ortaya çıkararak hizmet kalitesinin
artırılması bakımından büyük katkılar sağlamaktadır. Genellikle
araştırmalarda büyük veri kümelerini sınıflandırarak önemli veri
sınıflarını ortaya koyan veya gelecek veri eğilimlerini tahmin etmede
faydalanılan yöntemlerden, veri madenciliği teknikleri içerisinde en
yaygın kullanıma sahip olanlarından bir tanesi sınıflama ve regresyon
modelleridir. Bu çalışmada veri madenciliği metotları içerisinde,
sınıflama ve regresyon modellerinden en çok kullanılan karar ağacı
algoritmalarından biri olan sınıflama ve regresyon ağaçları (CART)
algoritması ile lojistik regresyonun sınıflama özellikleri karşılaştırılarak
gerçek bir veri seti üzerinde uygulama yapılmış ve söz konusu iki
yöntemin başarısını göstermek amaçlanmıştır. Bu sayede mevcut
veriler ile yapılan analiz sonuçlarına göre; aynı özellikte verilerle
yapılacak ileriki çalışmalarda genel geçer kurallar tanımlanmasında, söz
konusu analizleri kullanmanın uygun olacağı gösterilmek istenmiştir.
Bu kapsamda, penisilin grubu antibiyotik kullanan hastaların profilini
belirlemek amacıyla bir uygulama yapılmış ve çalışmaya alınan veri seti
için CART analizinin lojistik regresyon analizine göre daha iyi bir doğru
sınıflandırma oranına sahip olduğu görülmüştür.

References

  • Ahmad, I., “Data Warehousing in Construction Organizations”, Construction Congress VI, Florida, 194–203 (2000).
  • Akpınar H., “Veri Tabanlarında bilgi keşfi ve Veri Madenciliği”, İ.Ü. İşletme Fakültesi Dergisi, 29 (1), 1-22 (2000).
  • Allison, D. P., “Logistic Regression Using The SAS System 2nd ed.”, SAS Institute, (2000).
  • Ayık Y. Z., Özdemir A., Yavuz U., “Lise Türü Ve Lise Mezuniyet Başarısının, Kazanılan Fakülte İle İlişkisinin Veri Madenciliği Tekniği İle Analizi”, Atatürk Üniversitesi Sosyal Bilimler Enstitüsü Dergisi, 10(2): 441-454 (2007).
  • Berry, M. J., Linoff, G. S., “Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management 2nd ed.”, Wiley, USA, (2004).
  • Bigus, J. P., “Data Mining With Neural Networks: Solving Business Problems from Application Development to Decision Support”, McGraw Hill, (1996).
  • Collet, D., “Modelling Binary Data”, Chapman & Hall, Florida, (2003).
  • Deconinck, E., Hancock, T., Coomans, D., Massart, D.L., Heyden, Y.V., “Classification of drugs in absorption classes using the classification and regression trees (CART) methodology”, Journal of Pharmaceutical and Biomedical Analysis, 39 : 91–103 (2005).
  • Fayyad, U., Piatetsky-Shapiro, G., Smyth, P., “The KDD Process for Extracting Useful Knowledge From Volumes of Data”, Communications of the ACM, 39 (11): 27-34 (1996).
  • Hosmer, D. W., Lemeshow, S., “Applied Logistic Regression”, John Wiley & Sons, New York, 5-50 (1989).
  • Kecman, V., “Learning and Soft Computing: Support Vector Machines, Neural Networks, and Fuzzy Logic Models”, The MIT Pres, Cambridge, MA, 1-4 (2001).
  • Kim, M., “Two-stage Logistic Regression Model”, Expert Systems with Applications, 36: 6727–6734 (2009).
  • Kleinbaum,G., D., “A Self-learning Text Logistic Regression”, Springer, Atlanta, (1994).
  • Köktürk, F., Ankaralı, H., Sümbüloğlu, V., “Veri Madenciliği Yöntemlerine Genel Bakış”, Türkiye Klinikleri Journal of Biostatistics, 1 (1): 20-25 (2009).
  • Kurt, I., Ture, M., Kurum, A. T., “Comparing Performances of Logistic Regression, Classification and Regression Tree, and Neural Networks for Predicting Coronary Artery Disease”, Expert Systems with Applications, 34 : 366–374 (2008).
  • Masseglia, F., Poncelet, P., Teisseire, M., “Using Data Mining Techniques on Web Access Logs to Dynamically Improve Hypertext Structure”, ACM Sigweb Newsletter, 8 (3): 1-19 (1999).
  • Özkan, Y., “Veri Madenciliği Yöntemleri”, Papatya Yayıncılık Eğitim, İstanbul, 106-113 (2008).
  • Pehlivan, G., “Chaid Analizi ve Bir Uygulama”, Yüksek Lisans Tezi, Yıldız Teknik Üniversitesi Fen Bilimleri Enstitüsü, İstanbul, 17 (2006).
  • Silahtaroğlu, G., “Kavram ve Algoritmalarıyla Temel Veri Madenciliği”, Papatya Yayıncılık Eğitim, İstanbul, 33, 45-47, 58 (2008).
  • Tatlıdil, H., “Uygulamalı Çok Değişkenli İstatistiksel Analiz”, Cem Web Ofset, Ankara, (1996).
  • Temel, G. O., Çamdeviren, H., Akkuş, Z., “Sınıflama Ağaçları Yardımıyla Restless Legs Syndrome (RLS) Hastalarına Tanı Koyma”, İnönü Üniversitesi Tıp Fakültesi Dergisi, 12 (2): 111-117 (2005).
  • Teng, J., Lin, K., Ho, B., “Application of Classification Tree and Logistic Regression for The Management and Health İntervention Plans in A Community-Based Study”, Journal of Evaluation in Clinical Practice, 13 : 741-748 (2007)
  • Thomas, Lyn. C., “A Survey of Credit and Behavioral Scoring: Forecasting Financial Risk of Lending to Consumer”, International Journal of Forecasting, 16 (2): 149–172 (2000).
  • Zhou, Z., “Three Perspectives of Data Mining”, Artificial Intelligence, 143 (1): 139-146 (2003).
There are 24 citations in total.

Details

Primary Language Turkish
Journal Section Makaleler
Authors

Zeynep Güner This is me

Publication Date December 1, 2014
Published in Issue Year 2014 Sayı: 6

Cite

APA Güner, Z. (2014). Veri Madenciliğinde Cart ve Lojistik Regresyon Analizinin Yeri: İlaç Provizyon Sistemi Verileri Üzerinde Örnek Bir Uygulama. Sosyal Güvence(6), 53-99.