The missing values in the datasets are a problem that will decrease the machine learning performance. New methods are recommended every day to overcome this problem. The methods of statistical, machine learning, evolutionary and deep learning methods are among these methods. Although deep learning is one of the popular subjects of today, there are limited studies in the missing data imputation. Several deep learning techniques have been used to handling missing data, one of them is the auto-encoder and its denoising and stacked variants. In this study, the missing value in three different real-world datasets was estimated by using denoising auto-encoder (DAE), k-nearest neighbor (kNN) and multivariate imputation by chained equations (MICE) methods. The estimation success of the methods was compared according to the root mean square error (RMSE) criterion. It was observed that the DAE method was more successful than other methods in estimating the missing values.
Deep learning auto-encoder denoising auto-encoder missing data
Veri kümelerindeki eksik değerler, makine öğrenme performansını düşüren bir sorundur. Bu sorunun üstesinden gelmek için her gün yeni yöntemler önerilmektedir. İstatistiksel, makine öğrenimi, evrimsel ve derin öğrenme yöntemleri de bu yöntemler arasındadır. Derin öğrenme günümüzün popüler konularından biri olmasına rağmen, eksik veri tamamlama konusunda sınırlı çalışmalar bulunmaktadır. Eksik verileri tamamlamak için birkaç derin öğrenme tekniği kullanılmıştır, bunlardan biri oto-kodlayıcı ve onun denoising ve yığınlanmış varyantlarıdır. Bu çalışmada, üç farklı gerçek dünya veri setindeki eksik değer, gürültü giderici oto-kodlayıcı (DAE), k-en yakın komşu (kNN) ve çok değişkenli zincirleme denklemler (MICE) yöntemleriyle tahmin edilmiştir. Yöntemlerin tahmin başarısı, kök ortalama kare hatası (RMSE) kriterlerine göre karşılaştırıldı. DAE yönteminin eksik değerleri tahmin etmede diğer yöntemlerden daha başarılı olduğu gözlenmiştir.
derin öğrenme oto-kodlayıcı gürültü giderici oto-kodlayıcı eksik veri
Birincil Dil | İngilizce |
---|---|
Konular | Mühendislik |
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 31 Ağustos 2020 |
Yayımlandığı Sayı | Yıl 2020 |