Araştırma Makalesi
BibTex RIS Kaynak Göster

Makine Öğrenmesi Teknikleriyle Diyabet Hastalığının Sınıflandırılması

Yıl 2021, , 112 - 120, 20.04.2021
https://doi.org/10.19113/sdufenbed.842460

Öz

Diyabet, dünya çapında artan ve gerçekleşen ölümlerin önde gelen nedenlerinden biridir. Sürekli artan vaka sayısı diyabetin önlenmesi, erken teşhisi, tedavisi ve takibi konularında bilimsel çalışmalara ihtiyaç duyulduğunu göstermektedir. Son dönemlerde medikal alanda yaşanan teknolojik gelişmeler sayesinde elde edilen verinin analiz edilmesi, hastalıkların tanı ve tedavi sürecine olumlu katkılar yapmaktadır. Diyabet hastalığı kapsamında da araştırmacılar, hastalığın teşhis edilmesine yönelik, veriye dayalı sistematik yaklaşımlar geliştirmeye çalışmaktadırlar. Bu amaç doğrultusunda çalışmada, 1999-2008 yılları arasında ABD’de bulunan 130 hastanedeki 70000 kayda ait sağlık vakalarından elde edilmiş veri seti düzenlenerek, bireylerin diyabet durumuna göre sınıflandırılması hedeflenmiştir. Sınıflandırma için veri setine uygun makine öğrenmesi algoritmalarından yararlanılmış ve bu algoritmaların sonuçları performans ölçütlerine göre karşılaştırılmıştır. Elde edilen sonuçlara göre, en iyi performans gösteren beş sınıflandırma algoritması (Karar ağaçları, k-en yakın komşuluk, Lojistik regresyon, Naive Bayes ve Rastgele orman) değerlendirmeye alınmış olup en iyi doğru sınıflandırma performansı Rastgele orman algoritması ile elde edilmiştir.

Destekleyen Kurum

Mimar Sinan Güzel Sanatlar Üniversitesi

Proje Numarası

2019-30

Teşekkür

Bu çalışma, Mimar Sinan Güzel Sanatlar Üniversitesi, Bilimsel Araştırma Projeleri birimi tarafından 2019-30 numaralı proje ile maddi olarak desteklenmiştir.

Kaynakça

  • [1] Siva, Z. O. http://www.diyabet.com/diyabet-hakkinda/diyabet-nedir/diyabet-nasil-bir-hastaliktir.html (Erişim Tarihi: 10.01.2020).
  • [2] Anonim, Dünya Sağlık Örgütü, “World Health Organization”. https://www.who.int/health-topics/diabetes#tab=tab_1 (Erişim Tarihi: 05.06.2020).
  • [3] Kaggle, 2018. http://www.kaggle.com/ kumargh/pimaindiansdiabetescsv (Erişim Tarihi: 10.01.2020).
  • [4] Joshi S., Priyanka Shetty, S. R. 2015. Performance Analysis of Different Classification Methods in Data Mining for Diabetes Dataset using WEKA Tool. International Journal on Recent and Innovation Trends in Computing and Communication, 3(3), 1168-1173.
  • [5] Walia N., Kumar M., Kakkar L. 2018. Classification of Diabetes Patient by using Data Mining Techniques. International Journal for Research in Engineering Application & Management, 4(5), 347-351.
  • [6] Karegowda, A. G., Punya, V., Jayaram, M. A., Manjunath, A. S. 2012. Rule Based Classification for Diabetic Patients using Cascaded k-means and Decision Tree C4. 5. International Journal of Computer Applications, 45(12), 45-50.
  • [7] Chen, P., Pan, C. 2018. Diabetes Classification Model Based on Boosting Algorithms. BMC Bioinformatics, 19(1), 1-9.
  • [8] https://archive.ics.uci.edu/ml/datasets/diabetes+130-us+hospitals+for+years+1999-2008# (Erişim Tarihi: 10.12.2019).
  • [9] Strack B., DeShazo J. P., Gennings C., Olmo J. L., Ventura S., Cios K. J., Clore J. N. 2014. Impact of HbA1c Measurement on Hospital Readmission Rates: Analysis of 70,000 Clinical Database Patient Records. BioMed Research International, Article ID 781670, 11s.
  • [10] Çınar, A. 2019. Veri Madenciliğinde Sınıflandırma Algoritmalarının Performans Değerlendirmesi ve R Dili ile Bir Uygulama. Öneri dergisi, 14(51), 90-111.
  • [11] Han, J., Kamber, M., Pei J. 2011. Data Mining: Concepts and Techniques. Third edition. The Morgan Kaufmann Series in Data Management Systems, 5(4), 83-124.
  • [12] Singh, A., Tiwari, V., Tentu, A. N. 2018. A Machine Vision Attack Model on Image Based CAPTCHAs Challenge: Large Scale Evaluation. In International Conference on Security, Privacy, and Applied Cryptography Engineering, Springer, Cham, December 15-19, Kanpur, India, 52-64.
  • [13] Arlot, S., Celisse, A. 2010. A Survey of Cross-validation Procedures for Model Selection. Statistics Surveys, 4, 40-79.
  • [14] Wiens, T. S., Dale, B. C., Boyce, M. S., Kershaw, G. P. 2008. Three Way k-fold Cross-validation of Resource Selection Functions. Ecological Modelling, 212(3-4), 244-255.
  • [15] Mitchell, M. T. 1997. Machine Learning. Sinagapore, TheMcGraw-Hill, 414s.
  • [16] Breiman, L. 2001. Random Forests. Machine Learning, 45(1), 5-32.
  • [17] Rokach, L., Maimon, O. Z. 2008. Data Mining with Decision Trees: Theory and Applications. 2nd Edition, World Scientific, 305s.
  • [18] Hosmer Jr., D. W., Lemeshow, S., Sturdivant, R. X. 2013. Applied Logistic Regression. 3rd Edition, John Wiley & Sons, 510s.
  • [19] Kuyucu, Y.E. 2012. Lojistik regresyon analizi (LRA), yapay sinir ağları (YSA) ve sınıflandırma ve regresyon ağaçları (CART) yöntemlerinin karşılaştırılması ve tıp alanında bir uygulama. Gaziosmanpaşa Üniversitesi, Sağlık Bilimleri Enstitüsü, Yüksek Lisans Tezi, 128s, Tokat.
  • [20] Dudoit, S., Fridlyand, J., Speed, T. P. 2002. Comparison of Discrimination Methods for the Classification of Tumors using Gene Expression Data. Journal of the American Statistical Association, 97(457), 77-87.
  • [21] Chawla, N. V., Bowyer, K. W., Hall, L. O., Kegelmeyer, W. P. 2002. SMOTE: Synthetic Minority Over-sampling Technique. Journal of Artificial Intelligence Research, 16, 321-357.
  • [22] Blagus, R., Lusa, L. 2010. Class Prediction for High-dimensional Class-imbalanced Data. BMC Bioinformatics, 11(523), 1-17.
  • [23] Blagus, R., Lusa, L. 2013. Improved Shrunken Centroid Classifiers for High-dimensional Class-imbalanced Data. BMC Bioinformatics, 14(64), 1-13.

Classification of Diabetes Mellitus with Machine Learning Techniques

Yıl 2021, , 112 - 120, 20.04.2021
https://doi.org/10.19113/sdufenbed.842460

Öz

Diabetes is one of the leading causes of rising and occurring deaths worldwide. The ever-increasing number of cases indicates the need for scientific studies on the prevention, early diagnosis, treatment, and follow-up of diabetes. Analyzing the data obtained with the recent technological developments in the medical field makes positive contributions to the diagnosis and treatment process of diseases. As related to diabetes, researchers are trying to develop data-based systematic approaches to diagnose the disease. Following this purpose, the study aims to classify individuals according to their diabetes status by arranging a data set obtained from 70000 records of health cases in 130 hospitals in the USA between 1999-2008. Machine learning algorithms suitable for the data set are used for the classification and the results of these algorithms are compared regarding the performance criteria. According to the results, the best performing five classification algorithms (Decision trees, k-nearest neighborhood, Logistic regression, Naive Bayes, and Random forest) are evaluated and the best classification performance is obtained with the Random forest algorithm.

Proje Numarası

2019-30

Kaynakça

  • [1] Siva, Z. O. http://www.diyabet.com/diyabet-hakkinda/diyabet-nedir/diyabet-nasil-bir-hastaliktir.html (Erişim Tarihi: 10.01.2020).
  • [2] Anonim, Dünya Sağlık Örgütü, “World Health Organization”. https://www.who.int/health-topics/diabetes#tab=tab_1 (Erişim Tarihi: 05.06.2020).
  • [3] Kaggle, 2018. http://www.kaggle.com/ kumargh/pimaindiansdiabetescsv (Erişim Tarihi: 10.01.2020).
  • [4] Joshi S., Priyanka Shetty, S. R. 2015. Performance Analysis of Different Classification Methods in Data Mining for Diabetes Dataset using WEKA Tool. International Journal on Recent and Innovation Trends in Computing and Communication, 3(3), 1168-1173.
  • [5] Walia N., Kumar M., Kakkar L. 2018. Classification of Diabetes Patient by using Data Mining Techniques. International Journal for Research in Engineering Application & Management, 4(5), 347-351.
  • [6] Karegowda, A. G., Punya, V., Jayaram, M. A., Manjunath, A. S. 2012. Rule Based Classification for Diabetic Patients using Cascaded k-means and Decision Tree C4. 5. International Journal of Computer Applications, 45(12), 45-50.
  • [7] Chen, P., Pan, C. 2018. Diabetes Classification Model Based on Boosting Algorithms. BMC Bioinformatics, 19(1), 1-9.
  • [8] https://archive.ics.uci.edu/ml/datasets/diabetes+130-us+hospitals+for+years+1999-2008# (Erişim Tarihi: 10.12.2019).
  • [9] Strack B., DeShazo J. P., Gennings C., Olmo J. L., Ventura S., Cios K. J., Clore J. N. 2014. Impact of HbA1c Measurement on Hospital Readmission Rates: Analysis of 70,000 Clinical Database Patient Records. BioMed Research International, Article ID 781670, 11s.
  • [10] Çınar, A. 2019. Veri Madenciliğinde Sınıflandırma Algoritmalarının Performans Değerlendirmesi ve R Dili ile Bir Uygulama. Öneri dergisi, 14(51), 90-111.
  • [11] Han, J., Kamber, M., Pei J. 2011. Data Mining: Concepts and Techniques. Third edition. The Morgan Kaufmann Series in Data Management Systems, 5(4), 83-124.
  • [12] Singh, A., Tiwari, V., Tentu, A. N. 2018. A Machine Vision Attack Model on Image Based CAPTCHAs Challenge: Large Scale Evaluation. In International Conference on Security, Privacy, and Applied Cryptography Engineering, Springer, Cham, December 15-19, Kanpur, India, 52-64.
  • [13] Arlot, S., Celisse, A. 2010. A Survey of Cross-validation Procedures for Model Selection. Statistics Surveys, 4, 40-79.
  • [14] Wiens, T. S., Dale, B. C., Boyce, M. S., Kershaw, G. P. 2008. Three Way k-fold Cross-validation of Resource Selection Functions. Ecological Modelling, 212(3-4), 244-255.
  • [15] Mitchell, M. T. 1997. Machine Learning. Sinagapore, TheMcGraw-Hill, 414s.
  • [16] Breiman, L. 2001. Random Forests. Machine Learning, 45(1), 5-32.
  • [17] Rokach, L., Maimon, O. Z. 2008. Data Mining with Decision Trees: Theory and Applications. 2nd Edition, World Scientific, 305s.
  • [18] Hosmer Jr., D. W., Lemeshow, S., Sturdivant, R. X. 2013. Applied Logistic Regression. 3rd Edition, John Wiley & Sons, 510s.
  • [19] Kuyucu, Y.E. 2012. Lojistik regresyon analizi (LRA), yapay sinir ağları (YSA) ve sınıflandırma ve regresyon ağaçları (CART) yöntemlerinin karşılaştırılması ve tıp alanında bir uygulama. Gaziosmanpaşa Üniversitesi, Sağlık Bilimleri Enstitüsü, Yüksek Lisans Tezi, 128s, Tokat.
  • [20] Dudoit, S., Fridlyand, J., Speed, T. P. 2002. Comparison of Discrimination Methods for the Classification of Tumors using Gene Expression Data. Journal of the American Statistical Association, 97(457), 77-87.
  • [21] Chawla, N. V., Bowyer, K. W., Hall, L. O., Kegelmeyer, W. P. 2002. SMOTE: Synthetic Minority Over-sampling Technique. Journal of Artificial Intelligence Research, 16, 321-357.
  • [22] Blagus, R., Lusa, L. 2010. Class Prediction for High-dimensional Class-imbalanced Data. BMC Bioinformatics, 11(523), 1-17.
  • [23] Blagus, R., Lusa, L. 2013. Improved Shrunken Centroid Classifiers for High-dimensional Class-imbalanced Data. BMC Bioinformatics, 14(64), 1-13.
Toplam 23 adet kaynakça vardır.

Ayrıntılar

Birincil Dil Türkçe
Konular Mühendislik
Bölüm Makaleler
Yazarlar

Bilge Özlüer Başer 0000-0002-2400-6584

Metin Yangın 0000-0002-9451-5157

E. Selin Sarıdaş Bu kişi benim 0000-0002-2584-116X

Proje Numarası 2019-30
Yayımlanma Tarihi 20 Nisan 2021
Yayımlandığı Sayı Yıl 2021

Kaynak Göster

APA Özlüer Başer, B., Yangın, M., & Sarıdaş, E. S. (2021). Makine Öğrenmesi Teknikleriyle Diyabet Hastalığının Sınıflandırılması. Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü Dergisi, 25(1), 112-120. https://doi.org/10.19113/sdufenbed.842460
AMA Özlüer Başer B, Yangın M, Sarıdaş ES. Makine Öğrenmesi Teknikleriyle Diyabet Hastalığının Sınıflandırılması. Süleyman Demirel Üniv. Fen Bilim. Enst. Derg. Nisan 2021;25(1):112-120. doi:10.19113/sdufenbed.842460
Chicago Özlüer Başer, Bilge, Metin Yangın, ve E. Selin Sarıdaş. “Makine Öğrenmesi Teknikleriyle Diyabet Hastalığının Sınıflandırılması”. Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü Dergisi 25, sy. 1 (Nisan 2021): 112-20. https://doi.org/10.19113/sdufenbed.842460.
EndNote Özlüer Başer B, Yangın M, Sarıdaş ES (01 Nisan 2021) Makine Öğrenmesi Teknikleriyle Diyabet Hastalığının Sınıflandırılması. Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü Dergisi 25 1 112–120.
IEEE B. Özlüer Başer, M. Yangın, ve E. S. Sarıdaş, “Makine Öğrenmesi Teknikleriyle Diyabet Hastalığının Sınıflandırılması”, Süleyman Demirel Üniv. Fen Bilim. Enst. Derg., c. 25, sy. 1, ss. 112–120, 2021, doi: 10.19113/sdufenbed.842460.
ISNAD Özlüer Başer, Bilge vd. “Makine Öğrenmesi Teknikleriyle Diyabet Hastalığının Sınıflandırılması”. Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü Dergisi 25/1 (Nisan 2021), 112-120. https://doi.org/10.19113/sdufenbed.842460.
JAMA Özlüer Başer B, Yangın M, Sarıdaş ES. Makine Öğrenmesi Teknikleriyle Diyabet Hastalığının Sınıflandırılması. Süleyman Demirel Üniv. Fen Bilim. Enst. Derg. 2021;25:112–120.
MLA Özlüer Başer, Bilge vd. “Makine Öğrenmesi Teknikleriyle Diyabet Hastalığının Sınıflandırılması”. Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü Dergisi, c. 25, sy. 1, 2021, ss. 112-20, doi:10.19113/sdufenbed.842460.
Vancouver Özlüer Başer B, Yangın M, Sarıdaş ES. Makine Öğrenmesi Teknikleriyle Diyabet Hastalığının Sınıflandırılması. Süleyman Demirel Üniv. Fen Bilim. Enst. Derg. 2021;25(1):112-20.

Cited By

















e-ISSN :1308-6529
Linking ISSN (ISSN-L): 1300-7688

Dergide yayımlanan tüm makalelere ücretiz olarak erişilebilinir ve Creative Commons CC BY-NC Atıf-GayriTicari lisansı ile açık erişime sunulur. Tüm yazarlar ve diğer dergi kullanıcıları bu durumu kabul etmiş sayılırlar. CC BY-NC lisansı hakkında detaylı bilgiye erişmek için tıklayınız.