Partial least squares regression (PLSR) is a statistical method of modeling relationships between YNxM response variable and XNxK explanatory variables which is particularly well suited to analyzing when explanatory variables are highly correlated. In partial least square part, some model selection criteria are used to obtain the latent variables which are the most relevant variables describing the response variables. In typical approach to select the numbers of latent variables are Akaike information criterion (AIC) and Wold’s R criterion.
In this study, we are interested in the performance of Bayesian Information Criterion (BIC) and Information Complexity Criterion (ICOMP) criteria besides the traditional methods AIC and Wold’s R criteria as the model selection criteria for partial least squares regression when the number of observations are higher than predictor variables. Performances of AIC, BIC, ICOMP and Wold’s R criteria were compared by real life data and simulation study. Simulation results were obtained from different sample sizes, different number of predictor variables and different number of response variables. The simulation results demonstrate that the BIC and ICOMP model selection methods are more effective than AIC and Wold’s R criteria selecting of latent variables for known PLSR models.
AIC BIC and ICOMP information criteria K-fold cross-validation Model selection Partial least squares regression Wold’s R criterion
Kısmi en küçük kareler regresyonu (KEKKR), çoklu bağlantının olduğu durumlarda, yanıt değişkeni YNxM ile açıklayıcı değişkenler XNxK arasında modelleme yapabilen istatistiksel bir yöntemdir. Kısmi en küçük kareler bölümünde, yanıt değişkenini en iyi açıklayabilecek gizli (latent) değişkenlerin elde edilmesi için bazı model seçme kriterleri uygulanır. Gizli değişkenlerin seçiminde kullanılan genel yaklaşımlar Akaike bilgi kriteri (AIC) ve Wold’s R kriteridir.
Bu çalışmada, gözlem sayısının açıklayıcı değişken sayısından fazla olduğu durumlarda, geleneksel yöntemler AIC ve Wold’s R’a ek olarak Bayes bilgi kriteri (BIC) ve Bilgi karmaşıklık kriteri de (ICOMP) KEKKR için model seçme kriterleri olarak incelenmiştir. AIC, BIC, ICOMP ve Wold’s R model seçme kriterlerinin performansları gerçek veri örneği ve benzetim çalışması yoluyla karşılaştırılmıştır. Benzetim çalışması sonuçları, farklı örneklem büyüklükleri, farklı sayıda açıklayıcı değişken ve yanıt değişkeninin olduğu durumlarda elde edilmiştir. Yapılan benzetim çalışması sonuçları BIC ve ICOMP model seçme kriterlerinin KEKKR modelleri için, gizli değişkenin
seçiminde diğer model seçme kriterlerinden (AICveWold’s R) çok daha etkili olduklarını ve daha doğru sayıda gizli değişken seçimi yaptıklarını göstermiştir.
AIC BIC ve ICOMP bilgi kriterleri K çapraz doğrulama Kısmi en küçük kareler regresyonu Model seçimi Wold’s R kriteri
Birincil Dil | İngilizce |
---|---|
Konular | İstatistik |
Bölüm | Araştırma Makaleleri |
Yazarlar | |
Yayımlanma Tarihi | 13 Aralık 2013 |
Yayımlandığı Sayı | Yıl 2013 Cilt: 10 Sayı: 3 |