Heart diseases are one of the biggest health problems of today. Early diagnosis for the disease can prevent early deaths. For this purpose, by using 13 independent variables in the data set obtained from the Kaggle database, people with low probability of heart disease and people with excess were tried to be distinguished. Seven classification algorithms were used in the study, namely support vector machines (SVM), k-NN, decision trees, linear discriminant analysis (LDA), Gausian Naive Bayes (GNB), Gradient Boosting (GB) and Random Forest (RF). Random forest was the algorithm that made the best estimation of the study according to the values of specificity (100%), Matthews correlation coefficient (0.90), Fowlkes-Mallows index (0.82), F1 score (89.7%) and accuracy (90.2%). There was no statistically significant difference between the groups in fasting blood glucose and it was found to be the least important among the features. No significant performance change was observed in the classification processes made by removing this feature. Only the processing times are slightly shorter. This study will help predict heart disease as it will support early diagnosis.
Kalp hastalıkları, günümüzün en büyük sağlık problemlerinden birisidir. Hastalık için erken teşhis, erken ölümlerin önüne geçilebilir. Bu amaçla Kaggle veri tabanından elde dilen veri setinde bulunan 13 bağımsız değişken kullanılarak kalp hastalığı olma olasılığı az (KHOA) ve fazla (KHOF) olan kişiler ayırt edilmeye çalışılmıştır. Çalışmada destek vektör makinaları (DVM), k-en yakın komşu (k-NN), karar ağaçları (KA), lineer diskriminant analiz (LDA), Gausian Naive Bayes (GNB), Gradient Boosting (GB) ve Random Forest (RF) olmak üzere 7 sınıflandırma algoritması kullanılmıştır. Random forest, özgüllük (%100), Matthews korelasyon katsayısı (0.90), Fowlkes-Mallows indeks (0.82), F1 skoru (%89.7) ve doğruluk (%90.2) değerlerine göre çalışmanın en iyi tahminini yapan algoritması olmuştur. Açlık kan şekeri, KHOA ve KHOF grupları arasında istatiksel olarak anlamlı fark saptanamamış ve özellikler arasında en az önemli olduğu bulunmuştur. Bu özellik çıkarılarak yapılan sınıflandırma işlemlerinde önemli bir performans değişikliği görülmemiştir. Sadece işlem zamanları, az da olsa kısalmıştır. Bu çalışma, erken teşhislere destek olacağından dolayı kalp hastalığının tahmininde fayda sağlayacaktır.
Primary Language | Turkish |
---|---|
Journal Section | Research Article |
Authors | |
Publication Date | September 15, 2021 |
Published in Issue | Year 2021 |
Dokuz Eylül Üniversitesi, Mühendislik Fakültesi Dekanlığı Tınaztepe Yerleşkesi, Adatepe Mah. Doğuş Cad. No: 207-I / 35390 Buca-İZMİR.