Araştırma Makalesi

Diyabet tanısının tahminlenmesinde denetimli makine öğrenme algoritmalarının performans karşılaştırması

Cilt: 12 Sayı: 1 15 Ocak 2022
PDF İndir
TR EN

Diyabet tanısının tahminlenmesinde denetimli makine öğrenme algoritmalarının performans karşılaştırması

Öz

Hastalık tanısının doğru sınıflandırılmasında, hangi değişkenlerin analize alınacağı ve sonuçların nasıl değerlendirileceği klinik karar verme sürecinin yanı sıra istatistiksel yaklaşımda da doğru bir şekilde tanımlanmalıdır. Bu çalışmada en iyi sınıflandırma performansına sahip algoritmaya iki farklı yaklaşımla karar verilmesi amaçlanmıştır. Kullanılan veri seti, Haziran–Eylül 2013 arasında bir devlet hastanesinin endokrinoloji polikliniğine gelen yaşı 18 ve üstü olan toplam 232 hastadan elde edilmiştir. Diyabet tanısının sınıflandırılması için iki farklı yaklaşım kullanılmıştır. İlk yaklaşımda çokterimli lojistik regresyon yönteminde istatistiksel olarak anlamlı bulunan 18 değişken, ikinci yaklaşımda ise endokrinoloji uzmanı tarafından belirlenen ve klinik olarak önemli bulunan 21 değişkenle modeller kurulmuştur. Diyabet tanısı, denetimli makine öğrenme algoritmalarından Naïve Bayes, Bayes ağları, rastgele orman, karar ağaçları, destek vektör makinaları, k-en yakın komşuluk, yapay sinir ağları ve çokterimli lojistik regresyon yöntemleri ile sınıflandırılmıştır. Model performansları, doğrulukları, Kappa istatistikleri, ortalama mutlak hataları, hata kareler ortalamalarının karekökleri, göreceli mutlak hataları, duyarlılıkları, seçicilikleri, kesinlikleri, F-ölçütleri, Matthews korelasyon katsayıları, ROC eğrileri ve Youden indeksleri kriterlerine göre karşılaştırılmıştır. Model performanslarının test edilmesinde 10-katlı çapraz geçerlilik yöntemi uygulanmış, her algoritmanın çalışma süreleri hesaplanmıştır. Tüm analizler, WEKA 3.8.2 ve R Studio 1.1.383 ile yapılmıştır. Genel anlamda en iyi performansa sahip algoritma, rastgele orman algoritması olarak belirlenmiş, model doğrulukları sırasıyla %84,48 ve %81,90 olarak bulunmuştur. Diyabet hastalığının tanısının konulmasında, doğru sınıflandırma yapabilen modelin seçiminde klinik anlamlılığın yanı sıra istatistiksel anlamlılığa da önem verilmelidir.

Anahtar Kelimeler

Denetimli öğrenme , Diyabet tanısı , Makina öğrenme algoritmaları , Prediyabet , Sınıflandırma

Kaynakça

  1. Alabi, R.O., Elmusrati, M., Sawazaki-Calone, I., Kowalski, L.P., Haglund, C., Coletta, R.D., Mäkitie, A.A., Salo, T., Almangush, A. and Leivo, I. (2020). Comparison of supervised machine learning classification techniques in prediction of locoregional recurrences in early oral tongue cancer. International Journal of Medical Informatics, 136, 104068. https://doi.org/10.1016/j.ijmedinf.2019.104068
  2. Ali, M.M., Paul, B.K., Ahmed, K., Bui, F.M., Quinn, J.M.W. and Moni, M.A. (2021). Heart disease prediction using supervised machine learning algorithms: performance analysis and comparison. Computers in Biology and Medicine, 136, 104672. https://doi.org/10.1016/j.compbiomed.2021.104672
  3. Alpar, R. (2011). Uygulamalı çok değişkenli istatistiksel yöntemler (3. Baskı). Ankara: Detay. American Diabetes Association. (2014). Standards of medical care in diabetes-2014. Diabetes Care, 37, 14-80. https://doi.org/10.2337/dc14-S014
  4. Bansal N. (2015). Prediabetes diagnosis and treatment: a review. World Journal of Diabetes, 6(2), 296–303. https://doi.org/10.4239/wjd.v6.i2.296
  5. Baratloo, A., Mostafa, H., Ahmed, N. and Gehad, E. A. (2015). Part 1: Simple definition and calculation of accuracy, sensitivity and specificity. Emergency (Tehran, Iran), 3(2), 48–49. https://doi.org/10.22037/emergency.v3i2.8154
  6. Bilgin, G. (2021). Makine öğrenmesi algoritmaları kullanarak erken dönemde diyabet hastalığı riskinin araştırılması. Journal of Intelligent Systems: Theory and Applications, 4 (1), 55-64. https://doi.org/10.38016/jista.877292
  7. Boughorbel, S., Fethi, J. and Mohammed, E. (2017). Optimal classifier for ımbalanced data using matthews correlation coefficient metric. PloS One, 12(6), e0177678. https://doi.org/10.1371/journal.pone.0177678
  8. Böhning, D. (1992). Multinomial logistic regression algorithm. Annals of the Institude of Statistical Mathematics, 44(1), 197–200. https://doi.org/10.1007/BF00048682
  9. Breiman, L. (2001). Random forests. Machine Learning, 45(1), 5–32. https://doi.org/10.1023/A:1010933404324
  10. Chai, T. and Draxler, R. R. (2014). Root mean square error (RMSE) or mean absolute error (MAE)? – arguments against avoiding rmse in the literature. Geoscientific Model Development, 7, 1247–1250. https://doi.org/10.5194/gmd-7-1247-2014

Kaynak Göster

APA
Özkan, Y., Sarer Yürekli, B., & Suner, A. (2022). Diyabet tanısının tahminlenmesinde denetimli makine öğrenme algoritmalarının performans karşılaştırması. Gümüşhane Üniversitesi Fen Bilimleri Dergisi, 12(1), 211-226. https://doi.org/10.17714/gumusfenbil.820882