Random Forest is an ensemble method
that combines many trees constructed from bootstrap samples of the original
data. Random Forest is used for both classification and regression and provides
many advantages such as having a high accuracy, calculating a generalization
error, determining the important variables and outliers, performing supervised
and unsupervised learning and imputing missing values with an algorithm based
on proximity matrix. In this study, we aimed to compare the proximity based
imputation method of Random Forest with k nearest neighbor imputation prior to
fitting. Therefore, simulation studies were performed for a classification
problem under various scenarios including different percentage of missing
values, number of neighbors and correlation structures between predictor
variables. The results showed that for highly correlated structures proximity
matrix based imputation method should be used meanwhile k nearest neighbor
imputation method should be preferred for low and medium correlated structures.
knn imputation method Missing value proximity matrix Random Forests
Rasgele Orman, orijinal
verilerin bootstrap örneklerinden oluşturulmuş pek çok karar ağacını bir araya
getiren bir topluluk yöntemidir. Rasgele Orman, hem sınıflandırma hem de
regresyon için kullanılır ve yüksek doğruluk oranı elde etme, genelleme hatası
hesaplama, önemli değişkenleri ve aykırı değerleri belirleme, danışmanlı ve
danışmansız öğrenmeyi gerçekleştirme ve yakınlık matrisine dayalı bir algoritma
ile eksik gözlemlere değer atama gibi birçok avantaj sağlar. Bu çalışmada,
Rasgele Orman’ın yakınlık matrisi temelli atama yöntemini, model kurulumundan
önce kullanılan en yakın komşu ile değer atama yöntemiyle karşılaştırmayı
amaçladık. Bu nedenle, farklı eksik değer yüzdeleri, komşuluk sayısı ve
tahminci değişkenler arasındaki korelasyon yapıları dahil olmak üzere çeşitli
senaryolar altında bir sınıflandırma problemi için simülasyon çalışması
yapılmıştır. Sonuçlar, yüksek korelasyonlu yapılar için yakınlık matrisi
tabanlı atama yönteminin kullanılması gerektiğini, orta ve düşük korelasyonlu
yapılar için ise en yakın komşu ile değer atama yönteminin tercih edilmesi
gerektiğini göstermektedir.
knn Atama Yöntemi Eksik Değer Yakınlık Matrisi Random Forests
Birincil Dil | İngilizce |
---|---|
Konular | Sağlık Kurumları Yönetimi |
Bölüm | ORİJİNAL MAKALELER / ORIGINAL ARTICLES |
Yazarlar | |
Yayımlanma Tarihi | 1 Ocak 2020 |
Yayımlandığı Sayı | Yıl 2020 |