2020 yılında Dünya Sağlık Örgütü (WHO) tarafından dünya çapında salgın ilan edilen koronavirüs hastalığı yani Covid-19 enfeksiyonu, ilk olarak 2019 yılının son aylarında Çin'in Wuhan kentinde görülmüş ve tüm dünyayı etkisi altına almıştır. Hızla yayılan bu salgının erken teşhisi, hastalıktan korunmak için önemlidir. Bu nedenle görüntü işleme, derin öğrenme, makine öğrenmesi gibi yöntemler salgını erken tespit etmek için önemli hale geldi. Bu çalışmada çeşitli Karar Ağacı yöntemleri ile bazı laboratuvar test sonuçlarına göre Covid-19 testi pozitif ve negatif çıkan bireyler sınıflandırılmaya çalışılmıştır. Veri setinin orijinal formu eşit olmayan bir dağılıma sahip olduğundan, bu tür veri setleri için kullanılan aşırı örnekleme ve eksik örnekleme yöntemleri bir ön işleme çalışması olarak uygulanarak veri seti dengelenmiştir. Dengeli hale getirilen veri seti ve orjinal veri seti 5-Fold Cross Validation (CV) , 10-Fold Cross Validation ve Leave-One-Out (LOO)-CV kullanılarak Random Forest (RF), Random Tree (RT), J48, Alternating decision tree (ADTree) ve Function Trees (FT) sınıflandırıcıları ile incelenmiştir. İnceleme sonucunda en başarılı sonuç orijinal veri setinde CV-5 kullanılarak %87,5, aşırı örnekleme yönteminde CV-10 ve LOO-CV kullanılarak %93,3 ve eksik örnekleme yönteminde CV-5 kullanılarak %79 ile RF sınıflandırıcısı göstermiştir. Başarı oranlarının yanı sıra hasta ve sağlıklı teşhisi için önemli olan duyarlılık-özgüllük metrik değerleri her bir sınıflandırma algoritması ve CV değeri bakımından incelenmiştir.
The coronavirus disease, namely Covid-19 infection, which was declared a worldwide epidemic by the World Health Organization (WHO) in 2020, was first seen in Wuhan, China in the last months of 2019 and has affected the whole world. Early diagnosis of this rapidly spreading epidemic is important to prevent the disease. For this reason, methods such as image processing, deep learning, and machine learning have become important to detect the epidemic early. In this study, it has been tried to classify individuals who test positive and negative for Covid-19 based on some laboratory test results with several Decision Tree methods. Since the original form of the data set has an uneven distribution, the data set has been balanced by applying the oversampling and undersampling methods used for such data sets as a pre-processing study. Balanced dataset and original dataset using 5-Fold Cross Validation (CV), 10-Fold Cross Validation and Leave-One-Out (LOO)-CV, Random Forest (RF), Random Tree (RT), J48, ıt was analyzed with alternating decision tree (ADTree) and Function Trees (FT) classifiers. As a result of the examination, the most successful result was shown by the RF classifier with 87.5% success rates using CV-5 in the original data set, 93.3% using CV-10 and LOO-CV in the oversampling method, and 79% using CV-5 in the undersampling method. In addition to success rates, sensitivity-specificity metrics, which are important for patient and healthy diagnosis, were examined in terms of each classification algorithm and CV value.
Primary Language | English |
---|---|
Subjects | Engineering |
Journal Section | Articles |
Authors | |
Publication Date | September 30, 2022 |
Published in Issue | Year 2022 |