Penalized linear regression methods are used for the accurate prediction of new observations and to obtain interpretable models. The performance of these methods depends on the properties of the true coefficient vector. The LASSO method is a penalized regression method that can simultaneously perform coefficient shrinkage and variable selection in a continuous process. Depending on the structure of the dataset, different estimators have been proposed to overcome the problems faced by LASSO. The estimation method used in the second stage of the post-LASSO two-stage regression method proposed as an alternative to LASSO has a considerable effect on model performance.
In this study, the performance of the post-LASSO is compared with classical penalized regression methods ridge, LASSO, elastic net, adaptive LASSO and Post-LASSO by using different estimation methods in the second stage of the post-LASSO. In addition, the effect of the magnitude and position of the signal values in the real coefficient vector on the performance of the models obtained by these methods is analyzed. The mean squared error and standard deviation of the predictions calculated on the test set are used to compare the prediction performance of the models, while the active set sizes are used to compare their performance in variable selection. According to the findings obtained from the simulation studies, the choice of the second-stage estimator and the structure of the true coefficient vector significantly affect the success of the post-LASSO method compared to other methods.
Cezalı doğrusal regresyon yöntemleri yeni gözlemlerin doğru ön tahmini ve yorumlanabilir modeller elde edilmesi için kullanılır. Bu yöntemlerin performansı gerçek katsayı vektörünün özelliklerine bağlı olarak değişmektedir. LASSO yöntemi sürekli bir süreçte eşanlı olarak katsayı büzme ve değişken seçimi yapabilen bir cezalı regresyon yöntemidir. Veri kümesinin yapısına bağlı olarak LASSO’nun karşılaştığı problemlerin aşılabilmesi için farklı tahmin ediciler önerilmiştir. LASSO’ya alternatif olarak önerilen Post-LASSO iki aşamalı regresyon yönteminin ikinci aşamasında kullanılan tahmin yöntemi model performansı üzerinde kayda değer bir etkiye sahiptir.
Bu çalışmada Post-LASSO’nun ikinci aşamasında farklı tahminleme yöntemleri kullanılarak klasik cezalı regresyon yöntemleri olan ridge, LASSO, elastik net, uyarlanabilir LASSO ile Post-LASSO’nun performansı karşılaştırılmıştır. Ayrıca gerçek katsayı vektöründeki sinyal değerlerinin büyüklük ve konumunun söz konusu yöntemlerle elde edilen modellerin performansı üzerindeki etkisi incelenmiştir. Modellerin ön tahmin performansının karşılaştırılması için test kümesi üzerinde hesaplanan hata kareler ortalaması ve tahminlerin standart sapması; değişken seçimindeki performanslarının karşılaştırılması için aktif küme büyüklükleri kullanılmıştır. Simülasyon çalışmalarından elde edilen bulgulara göre ikinci aşama tahmin edicinin seçimi ile gerçek katsayı vektörünün yapısı Post-LASSO yönteminin diğer yöntemlere göre başarısını önemli ölçüde etkilemektedir.
Primary Language | English |
---|---|
Subjects | Statistical Theory |
Journal Section | TJST |
Authors | |
Publication Date | September 1, 2023 |
Submission Date | January 30, 2023 |
Published in Issue | Year 2023 |