Today, with the rapid increase in data, data analysis with machine learning methods has become popular in many areas. Missing values and imbalanced class data are common problems in real-world datasets. These problems negatively affect the performance of machine learning methods and cause the model to obtain erroneous or incorrect results. The missing values imputation and eliminating the class imbalance are important in the data preprocessing stage. In particular, the balance of classes in health data is very important as the accuracy and completeness of the data affect the performance of machine learning methods. In this article, a comparative study of successful methods in the literature for investigating problems with imbalanced data classification with missing values in machine learning was conducted using the PIMA diabetes dataset. According to the results, the SMOTEENN algorithm, which combines undersampling and oversampling methods in class imbalance, and the use of multiple imputation with chained equations for missing values, were showed an F-score value of 91%, approximately 9% better than the other best methods in classifying patients and healthy individuals.
Günümüzde verilerin hızla artmasıyla makine öğrenmesi yöntemleri ile veri analizi birçok alanda popüler hale gelmiştir. Gerçek dünya veri kümelerinde eksik değerler ve dengesiz sınıf verileri sıklıkla karşılaşılan sorunlardır. Bu sorunlar, makine öğrenmesi yöntemlerinin başarımlarını olumsuz yönde etkilemekte ve modelin hatalı veya yanlış sonuçlar elde etmesine neden olmaktadır. Verilerdeki eksik değerlerin doldurulması ve sınıf dengesizliğinin ortadan kaldırılması veri ön işleme aşamasında önem arz etmektedir. Özellikle, sağlık verilerinde sınıfların dengesi verilerin doğruluğu ve eksiksizliği makine öğrenmesi yöntemlerinin performansını etkilediğinden çok önemlidir. Bu makalede, makine öğrenmesinde eksik değerlere sahip dengesiz veri sınıflandırması ile ilgili sorunları araştırmak için literatürde başarılı olan yöntemlerin karşılaştırmalı bir çalışması PIMA diyabet veri kümesi kullanılarak yapılmıştır. Elde edilen sonuçlara göre, sınıf dengesizliğinde eksik ve aşırı örnekleme yöntemlerinin birleştirildiği SMOTEENN algoritması ile eksik değerlerde zincirleme denklemlerle çoklu atama yönteminin kullanılması hasta ve sağlıklı bireylerin sınıflandırılmasında %91 F-skor değeri ile diğer en iyi yöntemlerden yaklaşık %9 oranında daha iyi performans göstermiştir
Primary Language | Turkish |
---|---|
Subjects | Engineering |
Journal Section | Makaleler(Araştırma) |
Authors | |
Early Pub Date | June 29, 2023 |
Publication Date | June 29, 2023 |
Published in Issue | Year 2023 Volume: 16 Issue: 1 |
Article Acceptance
Use user registration/login to upload articles online.
The acceptance process of the articles sent to the journal consists of the following stages:
1. Each submitted article is sent to at least two referees at the first stage.
2. Referee appointments are made by the journal editors. There are approximately 200 referees in the referee pool of the journal and these referees are classified according to their areas of interest. Each referee is sent an article on the subject he is interested in. The selection of the arbitrator is done in a way that does not cause any conflict of interest.
3. In the articles sent to the referees, the names of the authors are closed.
4. Referees are explained how to evaluate an article and are asked to fill in the evaluation form shown below.
5. The articles in which two referees give positive opinion are subjected to similarity review by the editors. The similarity in the articles is expected to be less than 25%.
6. A paper that has passed all stages is reviewed by the editor in terms of language and presentation, and necessary corrections and improvements are made. If necessary, the authors are notified of the situation.
. This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.