Bu araştırmanın amacı, çoklu doğrusal regresyon bağlamında çeşitli regresyon yöntemlerinin tahmin doğruluğunu değerlendirmekti. Bu bağlamda, en küçük kareler yönteminin (LS) temel varsayımlarını geçersiz kılabilecek çoklu bağlantı sorunları altında çeşitli yöntemler incelendi. İncelenen yöntemler arasında en küçük kareler (LS), ridge regresyon (RR), lasso regresyon (LR) ve temel bileşen regresyonu (PCR) yer aldı. Bu amaçla, 50 ila 1000 arasında değişen örneklem boyutlarına sahip, normal dağılımdan simüle edilmiş 6 değişken içeren bir veri seti kullanıldı. Performans, hata kareler ortalaması (hko) ve R kare değeri kullanılarak değerlendirildi. Çoklu bağlantı sorunu olmasına rağmen, araştırma bulguları, LS yönteminin eğitim veri setinde en küçük hata kareler ortalamasına sahip olduğunu, ancak RR'nin test veri setinde en küçük hata kareler ortalamasına sahip olduğunu gösterdi. Örneklem boyutu arttıkça, her yöntem için eğitim setindeki hata kareler ortalaması değerleri arttı ancak test setinde azaldı ve yöntemler birbirine daha yakın hale geldi. R kare değerleri açısından, tüm yöntemler hem eğitim hem de test veri setlerinde benzer performans gösterdi.
The purpose of this research was to evaluate the predictive accuracy of various regression methods in the context of multiple linear regression when multicollinearity invalidates the underlying assumptions of the least squares method. These methods included least squares (LS), ridge regression (RR), lasso regression (LR), and principal component regression (PCR). For this aim, the dataset including 6 variables simulated from normal with different sample of size from range of 50 to 1000. The performance was assessed using mean square error (MSE) and R square value. Despite the existence of multicollienarity among independent variables, research findings showed that LS method had the smallest MSE in the training dataset but RR had the smallest mse in the test dataset. When the sample size increases, the mse values increase for each methods in the training set but decrease in the test set. They are closer to each other. In terms of R square values, all methods showed similar performance both training and test data set.
Primary Language | English |
---|---|
Subjects | Econometric and Statistical Methods |
Journal Section | Research Articles |
Authors | |
Publication Date | December 31, 2024 |
Submission Date | September 13, 2024 |
Acceptance Date | December 29, 2024 |
Published in Issue | Year 2024 Volume: 14 Issue: 2 |