Hastalık tanısının doğru sınıflandırılmasında, hangi değişkenlerin analize alınacağı ve sonuçların nasıl değerlendirileceği klinik karar verme sürecinin yanı sıra istatistiksel yaklaşımda da doğru bir şekilde tanımlanmalıdır. Bu çalışmada en iyi sınıflandırma performansına sahip algoritmaya iki farklı yaklaşımla karar verilmesi amaçlanmıştır. Kullanılan veri seti, Haziran–Eylül 2013 arasında bir devlet hastanesinin endokrinoloji polikliniğine gelen yaşı 18 ve üstü olan toplam 232 hastadan elde edilmiştir. Diyabet tanısının sınıflandırılması için iki farklı yaklaşım kullanılmıştır. İlk yaklaşımda çokterimli lojistik regresyon yönteminde istatistiksel olarak anlamlı bulunan 18 değişken, ikinci yaklaşımda ise endokrinoloji uzmanı tarafından belirlenen ve klinik olarak önemli bulunan 21 değişkenle modeller kurulmuştur. Diyabet tanısı, denetimli makine öğrenme algoritmalarından Naïve Bayes, Bayes ağları, rastgele orman, karar ağaçları, destek vektör makinaları, k-en yakın komşuluk, yapay sinir ağları ve çokterimli lojistik regresyon yöntemleri ile sınıflandırılmıştır. Model performansları, doğrulukları, Kappa istatistikleri, ortalama mutlak hataları, hata kareler ortalamalarının karekökleri, göreceli mutlak hataları, duyarlılıkları, seçicilikleri, kesinlikleri, F-ölçütleri, Matthews korelasyon katsayıları, ROC eğrileri ve Youden indeksleri kriterlerine göre karşılaştırılmıştır. Model performanslarının test edilmesinde 10-katlı çapraz geçerlilik yöntemi uygulanmış, her algoritmanın çalışma süreleri hesaplanmıştır. Tüm analizler, WEKA 3.8.2 ve R Studio 1.1.383 ile yapılmıştır. Genel anlamda en iyi performansa sahip algoritma, rastgele orman algoritması olarak belirlenmiş, model doğrulukları sırasıyla %84,48 ve %81,90 olarak bulunmuştur. Diyabet hastalığının tanısının konulmasında, doğru sınıflandırma yapabilen modelin seçiminde klinik anlamlılığın yanı sıra istatistiksel anlamlılığa da önem verilmelidir.
In correct classification of disease diagnosis which variables are analyzed and how results are evaluated should be correctly defined in clinical decision making process as well as in statistical approach. It is aimed to determine the algorithm which has the best classification performance by using two different approaches in this study. The data set was obtained from 232 patients aged≥18 who were admitted to endocrinology outpatient clinic of a public hospital between June-September, 2013. Two different approaches were used to classify diagnosis of diabetes. In the first approach, 18 variables which were found statistically significant in multinomial logistic regression method were utilized; in the second approach, all models were built with 21 clinically significant variables which were determined by expert endocrinologist. Diabetes was classified with supervised machine learning methods; including Naïve Bayes, Bayes network, random forest, decision trees, support vector machine, k-nearest neighbors, artificial neural network and multinomial logistic regression. The performance of models was evaluated with accuracy, Kappa statistics, mean absolute error, root mean squared error, relative absolute error, sensitivity, specificity, precision, F-measure, Matthews correlation coefficient, ROC curve and Youden index. 10-folds cross-validation method was applied to test performance of models; runtimes of each algorithm were calculated. Analyses were performed with WEKA 3.8.2 and R Studio 1.1.383. Generally, random forest algorithm had the best performance with accuracy 84.48% and 81.90%, respectively. Clinical significance should be emphasized as well as statistical significance when choosing correct classification model for diagnosis of diabetes.
Supervised learning Diabetes mellitus diagnosis Machine learning algorithms Prediabetes Classification
Primary Language | Turkish |
---|---|
Journal Section | Articles |
Authors | |
Publication Date | January 15, 2022 |
Submission Date | November 4, 2020 |
Acceptance Date | December 6, 2021 |
Published in Issue | Year 2022 Volume: 12 Issue: 1 |