Covid-19 Veri Kümesinin SMOTE Tabanlı Örnekleme Yöntemi Uygulanarak Sınıflandırılması

Mustafa Yavaş; Aysun Güran; Mitat Uysal

doi:10.31590/ejosat.779952

EN TR

Classification of Covid-19 Dataset by Applying Smote-based Sampling Technique

Öz

In recent years, the importance given to the learning problem performed on unbalanced medical datasets has been increasing. Because real life medical datasets are often unbalanced datasets. Many studies examining the behavior of classifiers in an unstable environment have emphasized that the significant loss in performance values is due to the distorted class distribution in datasets. In the literature, the Synthetic Minority Sampling Method (SMOTE) algorithm has been proposed to solve this distortion problem. In this study, an experimental study was conducted in a suspected Covid-19 case application to predict patients with a negative or positive class with a higher rate of SARS-Cov-2 test results based on commonly collected laboratory test results. As a result of the classification of the original dataset with Artificial neural network (ANN), the accuracy value was found to be 0.86, the F-measure value was 0.48, and the dataset balanced with SMOTE was again classified by ANN, and the accuracy value was found to be 0.90 and the F-measure value was 0.68. For this reason, Covid-19 dataset balanced with SMOTE was classified with ANN and more successful results were found. At the end of our study, a comparison was made between the original and SMOTE balanced dataset, and it was seen that the classifier also increased other performance values.

Anahtar Kelimeler

Covid-19 Veri Kümesinin SMOTE Tabanlı Örnekleme Yöntemi Uygulanarak Sınıflandırılması

Öz

Son yıllarda dengesiz tıbbi veri kümeleri üzerinde gerçekleştirilen öğrenme problemine verilen önem artmaktadır. Çünkü gerçek yaşamda karşılaşılan tıbbi veri kümeleri sıklıkla dengesiz veri kümeleridir. Sınıflandırıcıların dengesiz ortamdaki davranışlarını inceleyen pek çok çalışma, başarım değerlerindeki önemli kaybın veri kümelerinde oluşan çarpık sınıf dağılımından kaynaklandığını vurgulamıştır. Literatürde, bu çarpıklık sorununu çözmek için Sentetik Azınlık Örneklem Arttırma Yöntemi (SMOTE) algoritması önerilmiştir. Bu çalışmada, hastanelere yapılan şüpheli bir Covid-19 vaka başvurusunda, yaygın olarak toplanan laboratuvar test sonuçlarına dayanarak, SARS-Cov-2 test sonucu negatif veya pozitif sınıfa sahip hastaları SMOTE ve YSA modeli kullanarak daha yüksek oranla tahmin etmeye yönelik deneysel çalışma yapılmıştır. Orijinal veri kümesinin YSA ile sınıflandırılması sonucunda doğruluk değeri 0.86, F-ölçüm değeri 0.48 bulunmuş olup, SMOTE ile dengelenen veri kümesinin yine YSA ile sınıflandırılması sonucunda doğruluk değeri 0.90, F-ölçüm değeri 0.68 bulunmuştur. Bu nedenle SMOTE ile dengelenmiş Covid-19 veri kümesinin YSA ile sınıflandırılması sonucunda daha başarılı sonuçlar bulunmuştur. Çalışmamızın sonunda orijinal ve SMOTE ile dengelenen veri kümesi arasında karşılaştırma yapılmış olup, sınıflandırıcının diğer başarım değerlerini de arttırdığı görülmüştür.

Anahtar Kelimeler

Kaynakça

Chawla, Nitesh V., Nathalie Japkowicz, and Aleksander Kotcz. "Special issue on learning from imbalanced data sets." ACM Sigkdd Explorations Newsletter 6.1 (2004): 1-6.
Oğul, H. A., & Güran, A. (2019, September). “Imbalanced Dataset Problem in Sentiment Analysis.” In 2019 4th International Conference on Computer Science and Engineering (UBMK) (pp. 313-317). IEEE.
Chawla, Nitesh V., et al. "SMOTE: synthetic minority over-sampling technique." Journal of artificial intelligence research 16 (2002): 321-357.
Berner E, “Clinical Desicion Support Systems”,Department of Health Services Administration University of Alabama at Birmingham, USA, Springer, ISBN -10: 0-387-33914-0, 2006.
Kumar, R., Arora, R., Bansal, V., Sahayasheela, V. J., Buckchash, H., Imran, J., ... & Raman, B. (2020). Accurate Prediction of COVID-19 using Chest X-Ray Images through Deep Feature Learning model with SMOTE and Machine Learning Classifiers. medRxiv.
De Moraes Batista, A. F., Miraglia, J. L., Donato, T. H. R., & Chiavegatto Filho, A. D. P. (2020). COVID-19 diagnosis prediction in emergency care patients: a machine learning approach. medRxiv.
Schwab, P., Schütte, A. D., Dietz, B., & Bauer, S. (2020). predCOVID-19: A Systematic Study of Clinical Predictive Models for Coronavirus Disease 2019. arXiv preprint arXiv:2005.08302.
AbuSharekh, E. K., & Abu-Naser, S. S. (2018). Diagnosis of hepatitis virus using artificial neural network.

Shuja, M., Mittal, S., & Zaman, M. (2020). Effective Prediction of Type II Diabetes Mellitus Using Data Mining Classifiers and SMOTE. In Advances in Computing and Intelligent Systems (pp. 195-211). Springer, Singapore.
Zeng, M., Zou, B., Wei, F., Liu, X., & Wang, L. (2016, May). Effective prediction of three common diseases by combining SMOTE with Tomek links technique for imbalanced medical data. In 2016 IEEE International Conference of Online Analysis and Computing Science (ICOACS) (pp. 225-228). IEEE.
I. Tomek, "Two modifications of CNN", IEEE Transactions on Systems Man and Cybernetics, vol. 6, pp. 769-772, 1976
Kaggle veri bilimci ve makine öğrenme çevrimiçi topluluğu, https://www.kaggle.com/dataset/e626783d4672f182e7870b1bbe75fae66bdfb232289da0a61f08c2ceb01cab01?select=dataset.xlsx,04.05.2020.
T. M. Mitchell, Machine Learning.(2009) http://profsite.um.ac.ir/~monsefi/machine-learning/pdf/Machine-Learning-Tom-Mitchell.pdf,15.05.2020.
Erkaymaz, H., 2014. Elektrookulogram (EOG) Sinyallerinin İncelenmesi ve Yapay Zaka Teknikleri ile Modellenmesi. Doktora Tezi. Bülent Ecevit Üniversitesi Fen Bilimleri Enstitüsü. Zonguldak. 126s.
Du, K. L., Lai, A.K.Y., Cheng, K.K.M., Swamy, M.N.S., 2002. Neural Methods for Antenna Array Signal Processing: A Review, Elsevier Signal Processing 82 : 547-561
Gürsoy, Mİ., 2018. Alçak Gerilim Şebekeleri İçin Durağan ve Durağan Olmayan Güç Kalitesi Olaylarının Tespiti ve Sınıflandırılması için Yeni Bir Yaklaşım. Doktora Tezi. Kahramanmaraş Sütçü İmam Üniversitesi Fen Bilimleri Enstitüsü. Kahramanmaraş. 114s.
McCulloch, W.S. ve PITTS, W., A Logical Cafeulus of the ldeas Immane nt in Nervous Activity, Bulletin of Mathematical Biophysics, volume 5 (1943).
Öztemel, E., 2006. Yapay Sinir Ağları. Papatya Yayıncılık Eğitim. İstanbul, Türkiye. 231s.

Ayrıntılar

Birincil Dil

Türkçe

Konular

Mühendislik

Bölüm

Araştırma Makalesi

Yazarlar

Mustafa Yavaş Bu kişi benim
0000-0002-9111-9095
Türkiye

Aysun Güran Bu kişi benim
0000-0001-7066-0635
Türkiye

Mitat Uysal Bu kişi benim
0000-0001-9713-2525
Türkiye

Yayımlanma Tarihi

15 Ağustos 2020

Gönderilme Tarihi

28 Haziran 2020

Kabul Tarihi

10 Ağustos 2020

Yayımlandığı Sayı

Yıl 2020

DOI

https://doi.org/10.31590/ejosat.779952

IZ

https://izlik.org/JA32PE68LZ

Kaynak Göster

RIS / Bibtex

APA

Yavaş, M., Güran, A., & Uysal, M. (2020). Covid-19 Veri Kümesinin SMOTE Tabanlı Örnekleme Yöntemi Uygulanarak Sınıflandırılması. Avrupa Bilim ve Teknoloji Dergisi, 258-264. https://doi.org/10.31590/ejosat.779952

AMA

1.Yavaş M, Güran A, Uysal M. Covid-19 Veri Kümesinin SMOTE Tabanlı Örnekleme Yöntemi Uygulanarak Sınıflandırılması. EJOSAT. Published online 01 Ağustos 2020:258-264. doi:10.31590/ejosat.779952

Chicago

Yavaş, Mustafa, Aysun Güran, ve Mitat Uysal. 2020. “Covid-19 Veri Kümesinin SMOTE Tabanlı Örnekleme Yöntemi Uygulanarak Sınıflandırılması”. Avrupa Bilim ve Teknoloji Dergisi, Ağustos 1, 258-64. https://doi.org/10.31590/ejosat.779952.

EndNote

Yavaş M, Güran A, Uysal M (01 Ağustos 2020) Covid-19 Veri Kümesinin SMOTE Tabanlı Örnekleme Yöntemi Uygulanarak Sınıflandırılması. Avrupa Bilim ve Teknoloji Dergisi 258–264.

IEEE

[1]M. Yavaş, A. Güran, ve M. Uysal, “Covid-19 Veri Kümesinin SMOTE Tabanlı Örnekleme Yöntemi Uygulanarak Sınıflandırılması”, EJOSAT, ss. 258–264, Ağu. 2020, doi: 10.31590/ejosat.779952.

ISNAD

Yavaş, Mustafa - Güran, Aysun - Uysal, Mitat. “Covid-19 Veri Kümesinin SMOTE Tabanlı Örnekleme Yöntemi Uygulanarak Sınıflandırılması”. Avrupa Bilim ve Teknoloji Dergisi. 01 Ağustos 2020. 258-264. https://doi.org/10.31590/ejosat.779952.

JAMA

1.Yavaş M, Güran A, Uysal M. Covid-19 Veri Kümesinin SMOTE Tabanlı Örnekleme Yöntemi Uygulanarak Sınıflandırılması. EJOSAT. 2020;:258–264.

MLA

Yavaş, Mustafa, vd. “Covid-19 Veri Kümesinin SMOTE Tabanlı Örnekleme Yöntemi Uygulanarak Sınıflandırılması”. Avrupa Bilim ve Teknoloji Dergisi, Ağustos 2020, ss. 258-64, doi:10.31590/ejosat.779952.

Vancouver

1.Mustafa Yavaş, Aysun Güran, Mitat Uysal. Covid-19 Veri Kümesinin SMOTE Tabanlı Örnekleme Yöntemi Uygulanarak Sınıflandırılması. EJOSAT. 01 Ağustos 2020;258-64. doi:10.31590/ejosat.779952

Makine Öğrenimi Yöntemlerini Kullanarak Salgın Hastalık Şiddetinin ve Salgın Hastalık Faktörlerinin Göreceli Önemlerinin Tahmin Edilmesi

Türk Doğa ve Fen Dergisi

https://doi.org/10.46810/tdfd.1110094

DİYABET RİSK DURUMUNUN BELİRLENMESİNDE SINIFLANDIRMA ALGORİTMALARININ PERFORMANSLARININ KAPSAMLI BİR ŞEKİLDE KARŞILAŞTIRILMASI

Kahramanmaraş Sütçü İmam Üniversitesi Mühendislik Bilimleri Dergisi

https://doi.org/10.17780/ksujes.1465177

PERFORMANCE COMPARISON OF SMOTE-BASED MACHINE LEARNING MODELS ON UNBALANCED DATASETS: A STUDY ON DATE AND PISTACHIO FRUITS

İstanbul Ticaret Üniversitesi Fen Bilimleri Dergisi

https://doi.org/10.55071/ticaretfbd.1597150

Covid-19 Veri Kümesinin SMOTE Tabanlı Örnekleme Yöntemi Uygulanarak Sınıflandırılması

Classification of Covid-19 Dataset by Applying Smote-based Sampling Technique

Öz

Anahtar Kelimeler

Covid-19 Veri Kümesinin SMOTE Tabanlı Örnekleme Yöntemi Uygulanarak Sınıflandırılması

Öz

Anahtar Kelimeler

Kaynakça

Ayrıntılar

Birincil Dil

Konular

Bölüm

Yazarlar

Yayımlanma Tarihi

Gönderilme Tarihi

Kabul Tarihi

Yayımlandığı Sayı

DOI

IZ

Kaynak Göster

Cited By

DERİN SİNİR AĞLARI VE YENİDEN ÖRNEKLEME METOTLARI İLE RUTİN KAN TESTLERİNE DAYALI COVID-19 TESPİTİ

Network Intrusion Detection Approach Based on Convolutional Neural Network

Performance Analysis of Combination of CNN-based Models with Adaboost Algorithm to Diagnose Covid-19 Disease

İNTERNETTEN ALIŞVERİŞ YAPAN HANELERİN RASTGELE ORMAN YÖNTEMİYLE TAHMİN EDİLMESİ

Rutin kan testleriyle COVID-19 tanı tahmininde makine öğrenmesi yöntemleriyle bir mobil uygulama geliştirilmesi

Analyzing the effect of data preprocessing techniques using machine learning algorithms on the diagnosis of COVID‐19

Makine Öğrenimi Yöntemlerini Kullanarak Salgın Hastalık Şiddetinin ve Salgın Hastalık Faktörlerinin Göreceli Önemlerinin Tahmin Edilmesi

Classification of Students' Course Qualifications Using Machine Learning Techniques

Karar Ağaçları Kullanılarak Klinik Verilerle Covid-19 Enfeksiyonunun İncelenmesi

Machine Learning Methods for Intrusion Detection in Computer Networks: A Comparative Analysis

Yazılım Hata Tahmininde Farklı Alt Örnekleme ve Üst Örnekleme Yöntemlerinin Kıyaslanması

DİYABET RİSK DURUMUNUN BELİRLENMESİNDE SINIFLANDIRMA ALGORİTMALARININ PERFORMANSLARININ KAPSAMLI BİR ŞEKİLDE KARŞILAŞTIRILMASI

PERFORMANCE COMPARISON OF SMOTE-BASED MACHINE LEARNING MODELS ON UNBALANCED DATASETS: A STUDY ON DATE AND PISTACHIO FRUITS

Borsa İstanbul'da Muhasebe Hilesi Tespiti: Beneish Modeli ve SMOTE Tabanlı Lojistik Regresyon Yaklaşımı

Prediction of mortality in cancer patients with COVID-19 using machine learning methods

Automated Monkeypox Disease Classification Using Texture and Focus-Based Image Features