The missing values in the datasets are a problem that will decrease the machine learning performance. New methods are recommended every day to overcome this problem. The methods of statistical, machine learning, evolutionary and deep learning methods are among these methods. Although deep learning is one of the popular subjects of today, there are limited studies in the missing data imputation. Several deep learning techniques have been used to handling missing data, one of them is the auto-encoder and its denoising and stacked variants. In this study, the missing value in three different real-world datasets was estimated by using denoising auto-encoder (DAE), k-nearest neighbor (kNN) and multivariate imputation by chained equations (MICE) methods. The estimation success of the methods was compared according to the root mean square error (RMSE) criterion. It was observed that the DAE method was more successful than other methods in estimating the missing values.
Veri kümelerindeki eksik değerler, makine öğrenme performansını düşüren bir sorundur. Bu sorunun üstesinden gelmek için her gün yeni yöntemler önerilmektedir. İstatistiksel, makine öğrenimi, evrimsel ve derin öğrenme yöntemleri de bu yöntemler arasındadır. Derin öğrenme günümüzün popüler konularından biri olmasına rağmen, eksik veri tamamlama konusunda sınırlı çalışmalar bulunmaktadır. Eksik verileri tamamlamak için birkaç derin öğrenme tekniği kullanılmıştır, bunlardan biri oto-kodlayıcı ve onun denoising ve yığınlanmış varyantlarıdır. Bu çalışmada, üç farklı gerçek dünya veri setindeki eksik değer, gürültü giderici oto-kodlayıcı (DAE), k-en yakın komşu (kNN) ve çok değişkenli zincirleme denklemler (MICE) yöntemleriyle tahmin edilmiştir. Yöntemlerin tahmin başarısı, kök ortalama kare hatası (RMSE) kriterlerine göre karşılaştırıldı. DAE yönteminin eksik değerleri tahmin etmede diğer yöntemlerden daha başarılı olduğu gözlenmiştir.
Primary Language | English |
---|---|
Subjects | Engineering |
Journal Section | Articles |
Authors | |
Publication Date | August 31, 2020 |
Published in Issue | Year 2020 Volume: 8 Issue: 2 |