In recent years, the importance given to the learning problem performed on unbalanced medical datasets has been increasing. Because real life medical datasets are often unbalanced datasets. Many studies examining the behavior of classifiers in an unstable environment have emphasized that the significant loss in performance values is due to the distorted class distribution in datasets. In the literature, the Synthetic Minority Sampling Method (SMOTE) algorithm has been proposed to solve this distortion problem. In this study, an experimental study was conducted in a suspected Covid-19 case application to predict patients with a negative or positive class with a higher rate of SARS-Cov-2 test results based on commonly collected laboratory test results. As a result of the classification of the original dataset with Artificial neural network (ANN), the accuracy value was found to be 0.86, the F-measure value was 0.48, and the dataset balanced with SMOTE was again classified by ANN, and the accuracy value was found to be 0.90 and the F-measure value was 0.68. For this reason, Covid-19 dataset balanced with SMOTE was classified with ANN and more successful results were found. At the end of our study, a comparison was made between the original and SMOTE balanced dataset, and it was seen that the classifier also increased other performance values.
Covid-19 Unbalanced medical dataset SMOTE Artificial neural networks
Son yıllarda dengesiz tıbbi veri kümeleri üzerinde gerçekleştirilen öğrenme problemine verilen önem artmaktadır. Çünkü gerçek yaşamda karşılaşılan tıbbi veri kümeleri sıklıkla dengesiz veri kümeleridir. Sınıflandırıcıların dengesiz ortamdaki davranışlarını inceleyen pek çok çalışma, başarım değerlerindeki önemli kaybın veri kümelerinde oluşan çarpık sınıf dağılımından kaynaklandığını vurgulamıştır. Literatürde, bu çarpıklık sorununu çözmek için Sentetik Azınlık Örneklem Arttırma Yöntemi (SMOTE) algoritması önerilmiştir. Bu çalışmada, hastanelere yapılan şüpheli bir Covid-19 vaka başvurusunda, yaygın olarak toplanan laboratuvar test sonuçlarına dayanarak, SARS-Cov-2 test sonucu negatif veya pozitif sınıfa sahip hastaları SMOTE ve YSA modeli kullanarak daha yüksek oranla tahmin etmeye yönelik deneysel çalışma yapılmıştır. Orijinal veri kümesinin YSA ile sınıflandırılması sonucunda doğruluk değeri 0.86, F-ölçüm değeri 0.48 bulunmuş olup, SMOTE ile dengelenen veri kümesinin yine YSA ile sınıflandırılması sonucunda doğruluk değeri 0.90, F-ölçüm değeri 0.68 bulunmuştur. Bu nedenle SMOTE ile dengelenmiş Covid-19 veri kümesinin YSA ile sınıflandırılması sonucunda daha başarılı sonuçlar bulunmuştur. Çalışmamızın sonunda orijinal ve SMOTE ile dengelenen veri kümesi arasında karşılaştırma yapılmış olup, sınıflandırıcının diğer başarım değerlerini de arttırdığı görülmüştür.
Covid-19 Dengesiz tıbbi veri kümesi SMOTE Yapay sinir ağları
Birincil Dil | Türkçe |
---|---|
Konular | Mühendislik |
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 15 Ağustos 2020 |
Yayımlandığı Sayı | Yıl 2020 Ejosat Özel Sayı 2020 (HORA) |