Research Article
BibTex RIS Cite

Classification of Covid-19 Dataset by Applying Smote-based Sampling Technique

Year 2020, Ejosat Special Issue 2020 (HORA), 258 - 264, 15.08.2020
https://doi.org/10.31590/ejosat.779952

Abstract

In recent years, the importance given to the learning problem performed on unbalanced medical datasets has been increasing. Because real life medical datasets are often unbalanced datasets. Many studies examining the behavior of classifiers in an unstable environment have emphasized that the significant loss in performance values is due to the distorted class distribution in datasets. In the literature, the Synthetic Minority Sampling Method (SMOTE) algorithm has been proposed to solve this distortion problem. In this study, an experimental study was conducted in a suspected Covid-19 case application to predict patients with a negative or positive class with a higher rate of SARS-Cov-2 test results based on commonly collected laboratory test results. As a result of the classification of the original dataset with Artificial neural network (ANN), the accuracy value was found to be 0.86, the F-measure value was 0.48, and the dataset balanced with SMOTE was again classified by ANN, and the accuracy value was found to be 0.90 and the F-measure value was 0.68. For this reason, Covid-19 dataset balanced with SMOTE was classified with ANN and more successful results were found. At the end of our study, a comparison was made between the original and SMOTE balanced dataset, and it was seen that the classifier also increased other performance values.

References

  • Chawla, Nitesh V., Nathalie Japkowicz, and Aleksander Kotcz. "Special issue on learning from imbalanced data sets." ACM Sigkdd Explorations Newsletter 6.1 (2004): 1-6.
  • Oğul, H. A., & Güran, A. (2019, September). “Imbalanced Dataset Problem in Sentiment Analysis.” In 2019 4th International Conference on Computer Science and Engineering (UBMK) (pp. 313-317). IEEE.
  • Chawla, Nitesh V., et al. "SMOTE: synthetic minority over-sampling technique." Journal of artificial intelligence research 16 (2002): 321-357.
  • Berner E, “Clinical Desicion Support Systems”,Department of Health Services Administration University of Alabama at Birmingham, USA, Springer, ISBN -10: 0-387-33914-0, 2006.
  • Kumar, R., Arora, R., Bansal, V., Sahayasheela, V. J., Buckchash, H., Imran, J., ... & Raman, B. (2020). Accurate Prediction of COVID-19 using Chest X-Ray Images through Deep Feature Learning model with SMOTE and Machine Learning Classifiers. medRxiv.
  • De Moraes Batista, A. F., Miraglia, J. L., Donato, T. H. R., & Chiavegatto Filho, A. D. P. (2020). COVID-19 diagnosis prediction in emergency care patients: a machine learning approach. medRxiv.
  • Schwab, P., Schütte, A. D., Dietz, B., & Bauer, S. (2020). predCOVID-19: A Systematic Study of Clinical Predictive Models for Coronavirus Disease 2019. arXiv preprint arXiv:2005.08302.
  • AbuSharekh, E. K., & Abu-Naser, S. S. (2018). Diagnosis of hepatitis virus using artificial neural network.
  • Shuja, M., Mittal, S., & Zaman, M. (2020). Effective Prediction of Type II Diabetes Mellitus Using Data Mining Classifiers and SMOTE. In Advances in Computing and Intelligent Systems (pp. 195-211). Springer, Singapore.
  • Zeng, M., Zou, B., Wei, F., Liu, X., & Wang, L. (2016, May). Effective prediction of three common diseases by combining SMOTE with Tomek links technique for imbalanced medical data. In 2016 IEEE International Conference of Online Analysis and Computing Science (ICOACS) (pp. 225-228). IEEE.
  • I. Tomek, "Two modifications of CNN", IEEE Transactions on Systems Man and Cybernetics, vol. 6, pp. 769-772, 1976
  • Kaggle veri bilimci ve makine öğrenme çevrimiçi topluluğu, https://www.kaggle.com/dataset/e626783d4672f182e7870b1bbe75fae66bdfb232289da0a61f08c2ceb01cab01?select=dataset.xlsx,04.05.2020.
  • T. M. Mitchell, Machine Learning.(2009) http://profsite.um.ac.ir/~monsefi/machine-learning/pdf/Machine-Learning-Tom-Mitchell.pdf,15.05.2020.
  • Erkaymaz, H., 2014. Elektrookulogram (EOG) Sinyallerinin İncelenmesi ve Yapay Zaka Teknikleri ile Modellenmesi. Doktora Tezi. Bülent Ecevit Üniversitesi Fen Bilimleri Enstitüsü. Zonguldak. 126s.
  • Du, K. L., Lai, A.K.Y., Cheng, K.K.M., Swamy, M.N.S., 2002. Neural Methods for Antenna Array Signal Processing: A Review, Elsevier Signal Processing 82 : 547-561
  • Gürsoy, Mİ., 2018. Alçak Gerilim Şebekeleri İçin Durağan ve Durağan Olmayan Güç Kalitesi Olaylarının Tespiti ve Sınıflandırılması için Yeni Bir Yaklaşım. Doktora Tezi. Kahramanmaraş Sütçü İmam Üniversitesi Fen Bilimleri Enstitüsü. Kahramanmaraş. 114s.
  • McCulloch, W.S. ve PITTS, W., A Logical Cafeulus of the ldeas Immane nt in Nervous Activity, Bulletin of Mathematical Biophysics, volume 5 (1943).
  • Öztemel, E., 2006. Yapay Sinir Ağları. Papatya Yayıncılık Eğitim. İstanbul, Türkiye. 231s.

Covid-19 Veri Kümesinin SMOTE Tabanlı Örnekleme Yöntemi Uygulanarak Sınıflandırılması

Year 2020, Ejosat Special Issue 2020 (HORA), 258 - 264, 15.08.2020
https://doi.org/10.31590/ejosat.779952

Abstract

Son yıllarda dengesiz tıbbi veri kümeleri üzerinde gerçekleştirilen öğrenme problemine verilen önem artmaktadır. Çünkü gerçek yaşamda karşılaşılan tıbbi veri kümeleri sıklıkla dengesiz veri kümeleridir. Sınıflandırıcıların dengesiz ortamdaki davranışlarını inceleyen pek çok çalışma, başarım değerlerindeki önemli kaybın veri kümelerinde oluşan çarpık sınıf dağılımından kaynaklandığını vurgulamıştır. Literatürde, bu çarpıklık sorununu çözmek için Sentetik Azınlık Örneklem Arttırma Yöntemi (SMOTE) algoritması önerilmiştir. Bu çalışmada, hastanelere yapılan şüpheli bir Covid-19 vaka başvurusunda, yaygın olarak toplanan laboratuvar test sonuçlarına dayanarak, SARS-Cov-2 test sonucu negatif veya pozitif sınıfa sahip hastaları SMOTE ve YSA modeli kullanarak daha yüksek oranla tahmin etmeye yönelik deneysel çalışma yapılmıştır. Orijinal veri kümesinin YSA ile sınıflandırılması sonucunda doğruluk değeri 0.86, F-ölçüm değeri 0.48 bulunmuş olup, SMOTE ile dengelenen veri kümesinin yine YSA ile sınıflandırılması sonucunda doğruluk değeri 0.90, F-ölçüm değeri 0.68 bulunmuştur. Bu nedenle SMOTE ile dengelenmiş Covid-19 veri kümesinin YSA ile sınıflandırılması sonucunda daha başarılı sonuçlar bulunmuştur. Çalışmamızın sonunda orijinal ve SMOTE ile dengelenen veri kümesi arasında karşılaştırma yapılmış olup, sınıflandırıcının diğer başarım değerlerini de arttırdığı görülmüştür.

References

  • Chawla, Nitesh V., Nathalie Japkowicz, and Aleksander Kotcz. "Special issue on learning from imbalanced data sets." ACM Sigkdd Explorations Newsletter 6.1 (2004): 1-6.
  • Oğul, H. A., & Güran, A. (2019, September). “Imbalanced Dataset Problem in Sentiment Analysis.” In 2019 4th International Conference on Computer Science and Engineering (UBMK) (pp. 313-317). IEEE.
  • Chawla, Nitesh V., et al. "SMOTE: synthetic minority over-sampling technique." Journal of artificial intelligence research 16 (2002): 321-357.
  • Berner E, “Clinical Desicion Support Systems”,Department of Health Services Administration University of Alabama at Birmingham, USA, Springer, ISBN -10: 0-387-33914-0, 2006.
  • Kumar, R., Arora, R., Bansal, V., Sahayasheela, V. J., Buckchash, H., Imran, J., ... & Raman, B. (2020). Accurate Prediction of COVID-19 using Chest X-Ray Images through Deep Feature Learning model with SMOTE and Machine Learning Classifiers. medRxiv.
  • De Moraes Batista, A. F., Miraglia, J. L., Donato, T. H. R., & Chiavegatto Filho, A. D. P. (2020). COVID-19 diagnosis prediction in emergency care patients: a machine learning approach. medRxiv.
  • Schwab, P., Schütte, A. D., Dietz, B., & Bauer, S. (2020). predCOVID-19: A Systematic Study of Clinical Predictive Models for Coronavirus Disease 2019. arXiv preprint arXiv:2005.08302.
  • AbuSharekh, E. K., & Abu-Naser, S. S. (2018). Diagnosis of hepatitis virus using artificial neural network.
  • Shuja, M., Mittal, S., & Zaman, M. (2020). Effective Prediction of Type II Diabetes Mellitus Using Data Mining Classifiers and SMOTE. In Advances in Computing and Intelligent Systems (pp. 195-211). Springer, Singapore.
  • Zeng, M., Zou, B., Wei, F., Liu, X., & Wang, L. (2016, May). Effective prediction of three common diseases by combining SMOTE with Tomek links technique for imbalanced medical data. In 2016 IEEE International Conference of Online Analysis and Computing Science (ICOACS) (pp. 225-228). IEEE.
  • I. Tomek, "Two modifications of CNN", IEEE Transactions on Systems Man and Cybernetics, vol. 6, pp. 769-772, 1976
  • Kaggle veri bilimci ve makine öğrenme çevrimiçi topluluğu, https://www.kaggle.com/dataset/e626783d4672f182e7870b1bbe75fae66bdfb232289da0a61f08c2ceb01cab01?select=dataset.xlsx,04.05.2020.
  • T. M. Mitchell, Machine Learning.(2009) http://profsite.um.ac.ir/~monsefi/machine-learning/pdf/Machine-Learning-Tom-Mitchell.pdf,15.05.2020.
  • Erkaymaz, H., 2014. Elektrookulogram (EOG) Sinyallerinin İncelenmesi ve Yapay Zaka Teknikleri ile Modellenmesi. Doktora Tezi. Bülent Ecevit Üniversitesi Fen Bilimleri Enstitüsü. Zonguldak. 126s.
  • Du, K. L., Lai, A.K.Y., Cheng, K.K.M., Swamy, M.N.S., 2002. Neural Methods for Antenna Array Signal Processing: A Review, Elsevier Signal Processing 82 : 547-561
  • Gürsoy, Mİ., 2018. Alçak Gerilim Şebekeleri İçin Durağan ve Durağan Olmayan Güç Kalitesi Olaylarının Tespiti ve Sınıflandırılması için Yeni Bir Yaklaşım. Doktora Tezi. Kahramanmaraş Sütçü İmam Üniversitesi Fen Bilimleri Enstitüsü. Kahramanmaraş. 114s.
  • McCulloch, W.S. ve PITTS, W., A Logical Cafeulus of the ldeas Immane nt in Nervous Activity, Bulletin of Mathematical Biophysics, volume 5 (1943).
  • Öztemel, E., 2006. Yapay Sinir Ağları. Papatya Yayıncılık Eğitim. İstanbul, Türkiye. 231s.
There are 18 citations in total.

Details

Primary Language Turkish
Subjects Engineering
Journal Section Articles
Authors

Mustafa Yavaş This is me 0000-0002-9111-9095

Aysun Güran This is me 0000-0001-7066-0635

Mitat Uysal This is me 0000-0001-9713-2525

Publication Date August 15, 2020
Published in Issue Year 2020 Ejosat Special Issue 2020 (HORA)

Cite

APA Yavaş, M., Güran, A., & Uysal, M. (2020). Covid-19 Veri Kümesinin SMOTE Tabanlı Örnekleme Yöntemi Uygulanarak Sınıflandırılması. Avrupa Bilim Ve Teknoloji Dergisi258-264. https://doi.org/10.31590/ejosat.779952

Cited By