Makine Öğrenmesi Teknikleriyle Diyabet Hastalığının Sınıflandırılması

Bilge Özlüer Başer; Metin Yangın; E. Selin Sarıdaş

doi:10.19113/sdufenbed.842460

Research Article

Classification of Diabetes Mellitus with Machine Learning Techniques

Year 2021, Volume: 25 Issue: 1, 112 - 120, 20.04.2021

Bilge Özlüer Başer , Metin Yangın , E. Selin Sarıdaş

https://doi.org/10.19113/sdufenbed.842460

Cited By: 27

https://izlik.org/JA23WB69CB

Abstract

Diabetes is one of the leading causes of rising and occurring deaths worldwide. The ever-increasing number of cases indicates the need for scientific studies on the prevention, early diagnosis, treatment, and follow-up of diabetes. Analyzing the data obtained with the recent technological developments in the medical field makes positive contributions to the diagnosis and treatment process of diseases. As related to diabetes, researchers are trying to develop data-based systematic approaches to diagnose the disease. Following this purpose, the study aims to classify individuals according to their diabetes status by arranging a data set obtained from 70000 records of health cases in 130 hospitals in the USA between 1999-2008. Machine learning algorithms suitable for the data set are used for the classification and the results of these algorithms are compared regarding the performance criteria. According to the results, the best performing five classification algorithms (Decision trees, k-nearest neighborhood, Logistic regression, Naive Bayes, and Random forest) are evaluated and the best classification performance is obtained with the Random forest algorithm.

Keywords

Diabetes Mellitus , Machine Learning , Classification Algorithms

Project Number

2019-30

References

[1] Siva, Z. O. http://www.diyabet.com/diyabet-hakkinda/diyabet-nedir/diyabet-nasil-bir-hastaliktir.html (Erişim Tarihi: 10.01.2020).
[2] Anonim, Dünya Sağlık Örgütü, “World Health Organization”. https://www.who.int/health-topics/diabetes#tab=tab_1 (Erişim Tarihi: 05.06.2020).
[3] Kaggle, 2018. http://www.kaggle.com/ kumargh/pimaindiansdiabetescsv (Erişim Tarihi: 10.01.2020).
[4] Joshi S., Priyanka Shetty, S. R. 2015. Performance Analysis of Different Classification Methods in Data Mining for Diabetes Dataset using WEKA Tool. International Journal on Recent and Innovation Trends in Computing and Communication, 3(3), 1168-1173.
[5] Walia N., Kumar M., Kakkar L. 2018. Classification of Diabetes Patient by using Data Mining Techniques. International Journal for Research in Engineering Application & Management, 4(5), 347-351.
[6] Karegowda, A. G., Punya, V., Jayaram, M. A., Manjunath, A. S. 2012. Rule Based Classification for Diabetic Patients using Cascaded k-means and Decision Tree C4. 5. International Journal of Computer Applications, 45(12), 45-50.
[7] Chen, P., Pan, C. 2018. Diabetes Classification Model Based on Boosting Algorithms. BMC Bioinformatics, 19(1), 1-9.
[8] https://archive.ics.uci.edu/ml/datasets/diabetes+130-us+hospitals+for+years+1999-2008# (Erişim Tarihi: 10.12.2019).
[9] Strack B., DeShazo J. P., Gennings C., Olmo J. L., Ventura S., Cios K. J., Clore J. N. 2014. Impact of HbA1c Measurement on Hospital Readmission Rates: Analysis of 70,000 Clinical Database Patient Records. BioMed Research International, Article ID 781670, 11s.
[10] Çınar, A. 2019. Veri Madenciliğinde Sınıflandırma Algoritmalarının Performans Değerlendirmesi ve R Dili ile Bir Uygulama. Öneri dergisi, 14(51), 90-111.
[11] Han, J., Kamber, M., Pei J. 2011. Data Mining: Concepts and Techniques. Third edition. The Morgan Kaufmann Series in Data Management Systems, 5(4), 83-124.
[12] Singh, A., Tiwari, V., Tentu, A. N. 2018. A Machine Vision Attack Model on Image Based CAPTCHAs Challenge: Large Scale Evaluation. In International Conference on Security, Privacy, and Applied Cryptography Engineering, Springer, Cham, December 15-19, Kanpur, India, 52-64.
[13] Arlot, S., Celisse, A. 2010. A Survey of Cross-validation Procedures for Model Selection. Statistics Surveys, 4, 40-79.
[14] Wiens, T. S., Dale, B. C., Boyce, M. S., Kershaw, G. P. 2008. Three Way k-fold Cross-validation of Resource Selection Functions. Ecological Modelling, 212(3-4), 244-255.
[15] Mitchell, M. T. 1997. Machine Learning. Sinagapore, TheMcGraw-Hill, 414s.
[16] Breiman, L. 2001. Random Forests. Machine Learning, 45(1), 5-32.
[17] Rokach, L., Maimon, O. Z. 2008. Data Mining with Decision Trees: Theory and Applications. 2nd Edition, World Scientific, 305s.
[18] Hosmer Jr., D. W., Lemeshow, S., Sturdivant, R. X. 2013. Applied Logistic Regression. 3rd Edition, John Wiley & Sons, 510s.
[19] Kuyucu, Y.E. 2012. Lojistik regresyon analizi (LRA), yapay sinir ağları (YSA) ve sınıflandırma ve regresyon ağaçları (CART) yöntemlerinin karşılaştırılması ve tıp alanında bir uygulama. Gaziosmanpaşa Üniversitesi, Sağlık Bilimleri Enstitüsü, Yüksek Lisans Tezi, 128s, Tokat.
[20] Dudoit, S., Fridlyand, J., Speed, T. P. 2002. Comparison of Discrimination Methods for the Classification of Tumors using Gene Expression Data. Journal of the American Statistical Association, 97(457), 77-87.
[21] Chawla, N. V., Bowyer, K. W., Hall, L. O., Kegelmeyer, W. P. 2002. SMOTE: Synthetic Minority Over-sampling Technique. Journal of Artificial Intelligence Research, 16, 321-357.
[22] Blagus, R., Lusa, L. 2010. Class Prediction for High-dimensional Class-imbalanced Data. BMC Bioinformatics, 11(523), 1-17.
[23] Blagus, R., Lusa, L. 2013. Improved Shrunken Centroid Classifiers for High-dimensional Class-imbalanced Data. BMC Bioinformatics, 14(64), 1-13.

Makine Öğrenmesi Teknikleriyle Diyabet Hastalığının Sınıflandırılması

Year 2021, Volume: 25 Issue: 1, 112 - 120, 20.04.2021

Bilge Özlüer Başer , Metin Yangın , E. Selin Sarıdaş

https://doi.org/10.19113/sdufenbed.842460

Cited By: 27

https://izlik.org/JA23WB69CB

Abstract

Diyabet, dünya çapında artan ve gerçekleşen ölümlerin önde gelen nedenlerinden biridir. Sürekli artan vaka sayısı diyabetin önlenmesi, erken teşhisi, tedavisi ve takibi konularında bilimsel çalışmalara ihtiyaç duyulduğunu göstermektedir. Son dönemlerde medikal alanda yaşanan teknolojik gelişmeler sayesinde elde edilen verinin analiz edilmesi, hastalıkların tanı ve tedavi sürecine olumlu katkılar yapmaktadır. Diyabet hastalığı kapsamında da araştırmacılar, hastalığın teşhis edilmesine yönelik, veriye dayalı sistematik yaklaşımlar geliştirmeye çalışmaktadırlar. Bu amaç doğrultusunda çalışmada, 1999-2008 yılları arasında ABD’de bulunan 130 hastanedeki 70000 kayda ait sağlık vakalarından elde edilmiş veri seti düzenlenerek, bireylerin diyabet durumuna göre sınıflandırılması hedeflenmiştir. Sınıflandırma için veri setine uygun makine öğrenmesi algoritmalarından yararlanılmış ve bu algoritmaların sonuçları performans ölçütlerine göre karşılaştırılmıştır. Elde edilen sonuçlara göre, en iyi performans gösteren beş sınıflandırma algoritması (Karar ağaçları, k-en yakın komşuluk, Lojistik regresyon, Naive Bayes ve Rastgele orman) değerlendirmeye alınmış olup en iyi doğru sınıflandırma performansı Rastgele orman algoritması ile elde edilmiştir.

Keywords

Diyabet , Makine Öğrenmesi , Sınıflandırma Algoritmaları

Supporting Institution

Mimar Sinan Güzel Sanatlar Üniversitesi

Project Number

2019-30

Thanks

Bu çalışma, Mimar Sinan Güzel Sanatlar Üniversitesi, Bilimsel Araştırma Projeleri birimi tarafından 2019-30 numaralı proje ile maddi olarak desteklenmiştir.

References

[1] Siva, Z. O. http://www.diyabet.com/diyabet-hakkinda/diyabet-nedir/diyabet-nasil-bir-hastaliktir.html (Erişim Tarihi: 10.01.2020).
[2] Anonim, Dünya Sağlık Örgütü, “World Health Organization”. https://www.who.int/health-topics/diabetes#tab=tab_1 (Erişim Tarihi: 05.06.2020).
[3] Kaggle, 2018. http://www.kaggle.com/ kumargh/pimaindiansdiabetescsv (Erişim Tarihi: 10.01.2020).
[4] Joshi S., Priyanka Shetty, S. R. 2015. Performance Analysis of Different Classification Methods in Data Mining for Diabetes Dataset using WEKA Tool. International Journal on Recent and Innovation Trends in Computing and Communication, 3(3), 1168-1173.
[5] Walia N., Kumar M., Kakkar L. 2018. Classification of Diabetes Patient by using Data Mining Techniques. International Journal for Research in Engineering Application & Management, 4(5), 347-351.
[6] Karegowda, A. G., Punya, V., Jayaram, M. A., Manjunath, A. S. 2012. Rule Based Classification for Diabetic Patients using Cascaded k-means and Decision Tree C4. 5. International Journal of Computer Applications, 45(12), 45-50.
[7] Chen, P., Pan, C. 2018. Diabetes Classification Model Based on Boosting Algorithms. BMC Bioinformatics, 19(1), 1-9.
[8] https://archive.ics.uci.edu/ml/datasets/diabetes+130-us+hospitals+for+years+1999-2008# (Erişim Tarihi: 10.12.2019).
[9] Strack B., DeShazo J. P., Gennings C., Olmo J. L., Ventura S., Cios K. J., Clore J. N. 2014. Impact of HbA1c Measurement on Hospital Readmission Rates: Analysis of 70,000 Clinical Database Patient Records. BioMed Research International, Article ID 781670, 11s.
[10] Çınar, A. 2019. Veri Madenciliğinde Sınıflandırma Algoritmalarının Performans Değerlendirmesi ve R Dili ile Bir Uygulama. Öneri dergisi, 14(51), 90-111.
[11] Han, J., Kamber, M., Pei J. 2011. Data Mining: Concepts and Techniques. Third edition. The Morgan Kaufmann Series in Data Management Systems, 5(4), 83-124.
[12] Singh, A., Tiwari, V., Tentu, A. N. 2018. A Machine Vision Attack Model on Image Based CAPTCHAs Challenge: Large Scale Evaluation. In International Conference on Security, Privacy, and Applied Cryptography Engineering, Springer, Cham, December 15-19, Kanpur, India, 52-64.
[13] Arlot, S., Celisse, A. 2010. A Survey of Cross-validation Procedures for Model Selection. Statistics Surveys, 4, 40-79.
[14] Wiens, T. S., Dale, B. C., Boyce, M. S., Kershaw, G. P. 2008. Three Way k-fold Cross-validation of Resource Selection Functions. Ecological Modelling, 212(3-4), 244-255.
[15] Mitchell, M. T. 1997. Machine Learning. Sinagapore, TheMcGraw-Hill, 414s.
[16] Breiman, L. 2001. Random Forests. Machine Learning, 45(1), 5-32.
[17] Rokach, L., Maimon, O. Z. 2008. Data Mining with Decision Trees: Theory and Applications. 2nd Edition, World Scientific, 305s.
[18] Hosmer Jr., D. W., Lemeshow, S., Sturdivant, R. X. 2013. Applied Logistic Regression. 3rd Edition, John Wiley & Sons, 510s.
[19] Kuyucu, Y.E. 2012. Lojistik regresyon analizi (LRA), yapay sinir ağları (YSA) ve sınıflandırma ve regresyon ağaçları (CART) yöntemlerinin karşılaştırılması ve tıp alanında bir uygulama. Gaziosmanpaşa Üniversitesi, Sağlık Bilimleri Enstitüsü, Yüksek Lisans Tezi, 128s, Tokat.
[20] Dudoit, S., Fridlyand, J., Speed, T. P. 2002. Comparison of Discrimination Methods for the Classification of Tumors using Gene Expression Data. Journal of the American Statistical Association, 97(457), 77-87.
[21] Chawla, N. V., Bowyer, K. W., Hall, L. O., Kegelmeyer, W. P. 2002. SMOTE: Synthetic Minority Over-sampling Technique. Journal of Artificial Intelligence Research, 16, 321-357.
[22] Blagus, R., Lusa, L. 2010. Class Prediction for High-dimensional Class-imbalanced Data. BMC Bioinformatics, 11(523), 1-17.
[23] Blagus, R., Lusa, L. 2013. Improved Shrunken Centroid Classifiers for High-dimensional Class-imbalanced Data. BMC Bioinformatics, 14(64), 1-13.

There are 23 citations in total.

Details

Primary Language	Turkish
Subjects	Engineering
Journal Section	Research Article
Authors	Bilge Özlüer Başer 0000-0002-2400-6584 Metin Yangın 0000-0002-9451-5157 E. Selin Sarıdaş This is me 0000-0002-2584-116X
Project Number	2019-30
Publication Date	April 20, 2021
DOI	https://doi.org/10.19113/sdufenbed.842460
IZ	https://izlik.org/JA23WB69CB
Published in Issue	Year 2021 Volume: 25 Issue: 1

Cite

APA	Özlüer Başer, B., Yangın, M., & Sarıdaş, E. S. (2021). Makine Öğrenmesi Teknikleriyle Diyabet Hastalığının Sınıflandırılması. Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü Dergisi, 25(1), 112-120. https://doi.org/10.19113/sdufenbed.842460
AMA	1.Özlüer Başer B, Yangın M, Sarıdaş ES. Makine Öğrenmesi Teknikleriyle Diyabet Hastalığının Sınıflandırılması. J. Nat. Appl. Sci. 2021;25(1):112-120. doi:10.19113/sdufenbed.842460
Chicago	Özlüer Başer, Bilge, Metin Yangın, and E. Selin Sarıdaş. 2021. “Makine Öğrenmesi Teknikleriyle Diyabet Hastalığının Sınıflandırılması”. Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü Dergisi 25 (1): 112-20. https://doi.org/10.19113/sdufenbed.842460.
EndNote	Özlüer Başer B, Yangın M, Sarıdaş ES (April 1, 2021) Makine Öğrenmesi Teknikleriyle Diyabet Hastalığının Sınıflandırılması. Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü Dergisi 25 1 112–120.
IEEE	[1]B. Özlüer Başer, M. Yangın, and E. S. Sarıdaş, “Makine Öğrenmesi Teknikleriyle Diyabet Hastalığının Sınıflandırılması”, J. Nat. Appl. Sci., vol. 25, no. 1, pp. 112–120, Apr. 2021, doi: 10.19113/sdufenbed.842460.
ISNAD	Özlüer Başer, Bilge - Yangın, Metin - Sarıdaş, E. Selin. “Makine Öğrenmesi Teknikleriyle Diyabet Hastalığının Sınıflandırılması”. Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü Dergisi 25/1 (April 1, 2021): 112-120. https://doi.org/10.19113/sdufenbed.842460.
JAMA	1.Özlüer Başer B, Yangın M, Sarıdaş ES. Makine Öğrenmesi Teknikleriyle Diyabet Hastalığının Sınıflandırılması. J. Nat. Appl. Sci. 2021;25:112–120.
MLA	Özlüer Başer, Bilge, et al. “Makine Öğrenmesi Teknikleriyle Diyabet Hastalığının Sınıflandırılması”. Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü Dergisi, vol. 25, no. 1, Apr. 2021, pp. 112-20, doi:10.19113/sdufenbed.842460.
Vancouver	1.Bilge Özlüer Başer, Metin Yangın, E. Selin Sarıdaş. Makine Öğrenmesi Teknikleriyle Diyabet Hastalığının Sınıflandırılması. J. Nat. Appl. Sci. 2021 Apr. 1;25(1):112-20. doi:10.19113/sdufenbed.842460

Cited By

Classification of Type 2 Diabetes Using Machine Learning Techniques

European Journal of Science and Technology

https://doi.org/10.31590/ejosat.1014878

Destek Vektör Makineleri ve Naive Bayes Sınıflandırma Algoritmalarını Kullanarak Diabetes Mellitus Tahmini

European Journal of Science and Technology

https://doi.org/10.31590/ejosat.1041186

Diyabet tanısının tahminlenmesinde denetimli makine öğrenme algoritmalarının performans karşılaştırması

Gümüşhane Üniversitesi Fen Bilimleri Enstitüsü Dergisi

https://doi.org/10.17714/gumusfenbil.820882

Akut Lenfositik Löseminin Makine Öğrenimi Yöntemleriyle Otomatik Tespitine İlişkin Karşılaştırmalı Bir Çalışma

Deu Muhendislik Fakultesi Fen ve Muhendislik

https://doi.org/10.21205/deufmd.2022247229

Şeker hastalığı teşhisi ve önerilen modellerinin karşılaştırılması

Ömer Halisdemir Üniversitesi Mühendislik Bilimleri Dergisi

https://doi.org/10.28948/ngumuh.1161768

Makine Öğrenmesi Yöntemleri Kullanılarak Öğrencilerin Kazanım Bilgileri ile Sınavlardaki Başarı Durumunun Tahmini

Journal of Intelligent Systems: Theory and Applications

https://doi.org/10.38016/jista.1183353

Yapay Sinir Ağları Kullanılarak Protein Katlanması Tanıma

Bilişim Teknolojileri Dergisi

https://doi.org/10.17671/gazibtd.1141468

Parkinson Hastalığında Ses Sinyalleri Üzerinden Makine Öğrenmesi Algoritmalarının Karşılaştırılması

Harran Üniversitesi Mühendislik Dergisi

https://doi.org/10.46578/humder.1217255

Makine öğrenmesi algoritmaları ile deprem katalogları kullanılarak deprem tahmini

Gümüşhane Üniversitesi Fen Bilimleri Enstitüsü Dergisi

https://doi.org/10.17714/gumusfenbil.1268504

Performance comparison machine learning algorithms in diabetes disease prediction

European Mechanical Science

https://doi.org/10.26701/ems.1335503

Netflix verileri üzerinde TF-IDF algoritması ve Kosinüs benzerliği ile bir İçerik Öneri Sistemi Uygulaması

AJIT-e Online Academic Journal of Information Technology

https://doi.org/10.5824/ajite.2022.01.002.x

Makine Öğrenme Teknikleri Kullanılarak Kükürt Giderme İşleminde Kullanılan Malzeme Miktarının Tahmini

Journal of Intelligent Systems: Theory and Applications

https://doi.org/10.38016/jista.993853

Analysis of Static Plantar Pressure Data with Capsule Networks: Diagnosing Ataxia in MS Patients with a Deep Learning-Based Approach

Multiple Sclerosis and Related Disorders

https://doi.org/10.1016/j.msard.2024.105465

Effect of dimension reduction with PCA and machine learning algorithms on diabetes diagnosis performance

Turkish Journal of Engineering

https://doi.org/10.31127/tuje.1413087

Detecting diabetes in an ensemble model using a unique PSO-GWO hybrid approach to hyperparameter optimization

Neural Computing and Applications

https://doi.org/10.1007/s00521-024-10160-y

Comparative Analysis of Diabetes Diagnosis with Machine Learning Methods

International Scientific and Vocational Studies Journal

https://doi.org/10.47897/bilmes.1447878

Early stage diabetes prediction using decision tree-based ensemble learning model

International Advanced Researches and Engineering Journal

https://doi.org/10.35860/iarej.1188039

DİYABET RİSK DURUMUNUN BELİRLENMESİNDE SINIFLANDIRMA ALGORİTMALARININ PERFORMANSLARININ KAPSAMLI BİR ŞEKİLDE KARŞILAŞTIRILMASI

Kahramanmaraş Sütçü İmam Üniversitesi Mühendislik Bilimleri Dergisi

https://doi.org/10.17780/ksujes.1465177

Cheating Detection in Online Exams Using Deep Learning and Machine Learning

Applied Sciences

https://doi.org/10.3390/app15010400

Alzheimer Hastalığının Manyetik Rezonans Görüntülerden Hibrit Derin Öğrenme Yaklaşımı ile Otomatik Tespiti

Fırat Üniversitesi Mühendislik Bilimleri Dergisi

https://doi.org/10.35234/fumbd.1556671

Anatomical and Morphological Characteristics of Salvia pachystachya Trautv. (Lamiaceae) and Phytochemical Profiling and Bioactivities of Its Essential Oils and Extracts

Flavour and Fragrance Journal

https://doi.org/10.1002/ffj.3864

A Comparative Analysis of Different Machine Learning Models for Classifying Student Achievement

Adıyaman Üniversitesi Eğitim Bilimleri Dergisi

https://doi.org/10.17984/adyuebd.1551029

Diyabet hastalığı teşhisinde makine öğrenimi modelleri ile açıklanabilir yapay zeka yöntemlerinin analizi

Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi

https://doi.org/10.17341/gazimmfd.1552790

MULTILAYER ANALYSIS OF NICOTINE-INDUCED GENE EXPRESSION ALTERATIONS IN BREAST CANCER CELLS USING CLUSTERING AND SUPERVISED LEARNING METHODS

Kahramanmaraş Sütçü İmam Üniversitesi Mühendislik Bilimleri Dergisi

https://doi.org/10.17780/ksujes.1730962

Understanding Prostate Cancer Risk Using Statistical and Machine Learning Approaches: A Comparative Methodological Analysis

Hamidiye Medical Journal

https://doi.org/10.4274/hamidiyemedj.galenos.2025.73745

Profiling Teachers' Technology Acceptance and Digital Competence Using Machine Learning Techniques

Turkish Journal of Mathematics and Computer Science

https://doi.org/10.47000/tjmcs.1778991

ENHANCING DIABETES PREDICTION WITH INTERPRETABLE MACHINE LEARNING: A COMPARATIVE ANALYSIS OF ADDITIVE–MULTIPLICATIVE NEURAL NETWORKS AND KOLMOGOROV–ARNOLD NETWORKS

Eskişehir Teknik Üniversitesi Bilim ve Teknoloji Dergisi - C Yaşam Bilimleri Ve Biyoteknoloji

https://doi.org/10.18036/estubtdc.1674345

Article Files

Full Text

e-ISSN :1308-6529
Linking ISSN (ISSN-L): 1300-7688

All published articles in the journal can be accessed free of charge and are open access under the Creative Commons CC BY-NC (Attribution-NonCommercial) license. All authors and other journal users are deemed to have accepted this situation. Click here to access detailed information about the CC BY-NC license.