Research Article
BibTex RIS Cite

Regresyon Analizinde Çoklu Doğrusallığın Ele Alınması için En Küçük Kareler, Ridge, Lasso ve Temel Bileşen Regresyonunun Performans Karşılaştırması

Year 2024, Volume: 14 Issue: 2, 59 - 72, 31.12.2024

Abstract

Bu araştırmanın amacı, çoklu doğrusal regresyon bağlamında çeşitli regresyon yöntemlerinin tahmin doğruluğunu değerlendirmekti. Bu bağlamda, en küçük kareler yönteminin (LS) temel varsayımlarını geçersiz kılabilecek çoklu bağlantı sorunları altında çeşitli yöntemler incelendi. İncelenen yöntemler arasında en küçük kareler (LS), ridge regresyon (RR), lasso regresyon (LR) ve temel bileşen regresyonu (PCR) yer aldı. Bu amaçla, 50 ila 1000 arasında değişen örneklem boyutlarına sahip, normal dağılımdan simüle edilmiş 6 değişken içeren bir veri seti kullanıldı. Performans, hata kareler ortalaması (hko) ve R kare değeri kullanılarak değerlendirildi. Çoklu bağlantı sorunu olmasına rağmen, araştırma bulguları, LS yönteminin eğitim veri setinde en küçük hata kareler ortalamasına sahip olduğunu, ancak RR'nin test veri setinde en küçük hata kareler ortalamasına sahip olduğunu gösterdi. Örneklem boyutu arttıkça, her yöntem için eğitim setindeki hata kareler ortalaması değerleri arttı ancak test setinde azaldı ve yöntemler birbirine daha yakın hale geldi. R kare değerleri açısından, tüm yöntemler hem eğitim hem de test veri setlerinde benzer performans gösterdi.

References

  • Alpar, R., (2017). Uygulamalı Çok Değişkenli İstatistiksel Yöntemler. Detay Yayıncılık.
  • Altland H. W. (1999). Regression analysis: statistical modeling of a response variable.
  • Çankaya, S., Eker, S., & Abacı, S. H. (2019). Comparison of least squares, ridge regression and principal component approaches in the presence of multicollinearity in regression analysis. Turkish Journal of Agriculture - Food Science and Technology, 7(3), 180-190. https://doi.org/10.24925/turjaf.v7i3.180-190.2019
  • Chatterjee, S., & Hadi, A. S. (2006). Regression analysis by example. John Wiley & Sons.
  • Draper, N. R. and Smith H. (1998). Applied Regression Analysis. New York, John Wiley and Sons, Inc.
  • Fu, W. J. (1998). Penalized regression: the Bridge versus the Lasso, Journal of Computation and Graphical Statistics, 7, 397-416
  • Göktaş, A., & Öznur, İ. (2010). Türkiye'de işsizlik oranının temel bileşenli regresyon analizi ile belirlenmesi. Sosyal Ekonomik Araştırmalar Dergisi, 10, 279-294.
  • Gujarati, D. N., & Porter, D. C. (2009). Basic econometrics (5th ed.). McGraw-Hill.
  • Hintze, J. L. (2007). NCSS User’s Guide III - Regression and Curve Fitting, Chapter 340 - Principal Components Regression. Kaysville/Utah: NCSS Statistical System.
  • Hoerl, A. E., & Kennard, R. W. (1970). Ridge regression: Biased estimation for nonorthogonal problems. Technometrics, 12(1), 55-67.
  • Johnson, R., A. (1998). Applied multivariate statistical analysis,Prentice Hall, 458-498.
  • Kutner, M. H., Nachtsheim, C. J., Neter, J., & Li, W. (2004). Applied linear statistical models (5th ed.). McGraw-Hill.
  • Miles J. & Shevlin M. (2000). Applying Regression and Correlation-A Guide for Students and Researchers. Sage Publication, Lodon.
  • Müller, A. C., & Guido, S. (2016). Introduction to machine learning with Python: A guide for data scientists. O'Reilly Media.
  • Montgomery, D. C., Peck, E. A., & Vining, G. G. (2021). Introduction to linear regression analysis. sut.ac.th Ortabaş, N. (2001). Principal components in the problem of multicollinearity (Master's thesis). DEÜ Fen Bilimleri Enstitüsü.
  • Topal, M., Eyduran, E., Yağanoğlu, A. M., Sönmez, A., & Keskin, S. (2010). Çoklu doğrusal bağlantı durumunda ridge ve temel bileşenler regresyon analiz yöntemlerinin kullanımı. Atatürk Üniversitesi Ziraat Fakültesi Dergisi, 41, 53-57.
  • Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society: Series B (Methodological), 58, 267-288.
  • Weisberg, S. (1985). Applied Linear Regression, Wiley.
  • Wooldridge, J. M. (2016). Introductory econometrics: A modern approach (6th ed.). Cengage Learning.
  • Zou, H., & Hastie, T. (2005). The use of ridge regression in the analysis of high-dimensional data. Journal of Computational and Graphical Statistics, 14(3), 814-828.

Performance Comparison of Least Squares, Ridge, Lasso and Principal Component Regression for Addressing Multicollinearity in Regression Analysis

Year 2024, Volume: 14 Issue: 2, 59 - 72, 31.12.2024

Abstract

The purpose of this research was to evaluate the predictive accuracy of various regression methods in the context of multiple linear regression when multicollinearity invalidates the underlying assumptions of the least squares method. These methods included least squares (LS), ridge regression (RR), lasso regression (LR), and principal component regression (PCR). For this aim, the dataset including 6 variables simulated from normal with different sample of size from range of 50 to 1000. The performance was assessed using mean square error (MSE) and R square value. Despite the existence of multicollienarity among independent variables, research findings showed that LS method had the smallest MSE in the training dataset but RR had the smallest mse in the test dataset. When the sample size increases, the mse values increase for each methods in the training set but decrease in the test set. They are closer to each other. In terms of R square values, all methods showed similar performance both training and test data set.

References

  • Alpar, R., (2017). Uygulamalı Çok Değişkenli İstatistiksel Yöntemler. Detay Yayıncılık.
  • Altland H. W. (1999). Regression analysis: statistical modeling of a response variable.
  • Çankaya, S., Eker, S., & Abacı, S. H. (2019). Comparison of least squares, ridge regression and principal component approaches in the presence of multicollinearity in regression analysis. Turkish Journal of Agriculture - Food Science and Technology, 7(3), 180-190. https://doi.org/10.24925/turjaf.v7i3.180-190.2019
  • Chatterjee, S., & Hadi, A. S. (2006). Regression analysis by example. John Wiley & Sons.
  • Draper, N. R. and Smith H. (1998). Applied Regression Analysis. New York, John Wiley and Sons, Inc.
  • Fu, W. J. (1998). Penalized regression: the Bridge versus the Lasso, Journal of Computation and Graphical Statistics, 7, 397-416
  • Göktaş, A., & Öznur, İ. (2010). Türkiye'de işsizlik oranının temel bileşenli regresyon analizi ile belirlenmesi. Sosyal Ekonomik Araştırmalar Dergisi, 10, 279-294.
  • Gujarati, D. N., & Porter, D. C. (2009). Basic econometrics (5th ed.). McGraw-Hill.
  • Hintze, J. L. (2007). NCSS User’s Guide III - Regression and Curve Fitting, Chapter 340 - Principal Components Regression. Kaysville/Utah: NCSS Statistical System.
  • Hoerl, A. E., & Kennard, R. W. (1970). Ridge regression: Biased estimation for nonorthogonal problems. Technometrics, 12(1), 55-67.
  • Johnson, R., A. (1998). Applied multivariate statistical analysis,Prentice Hall, 458-498.
  • Kutner, M. H., Nachtsheim, C. J., Neter, J., & Li, W. (2004). Applied linear statistical models (5th ed.). McGraw-Hill.
  • Miles J. & Shevlin M. (2000). Applying Regression and Correlation-A Guide for Students and Researchers. Sage Publication, Lodon.
  • Müller, A. C., & Guido, S. (2016). Introduction to machine learning with Python: A guide for data scientists. O'Reilly Media.
  • Montgomery, D. C., Peck, E. A., & Vining, G. G. (2021). Introduction to linear regression analysis. sut.ac.th Ortabaş, N. (2001). Principal components in the problem of multicollinearity (Master's thesis). DEÜ Fen Bilimleri Enstitüsü.
  • Topal, M., Eyduran, E., Yağanoğlu, A. M., Sönmez, A., & Keskin, S. (2010). Çoklu doğrusal bağlantı durumunda ridge ve temel bileşenler regresyon analiz yöntemlerinin kullanımı. Atatürk Üniversitesi Ziraat Fakültesi Dergisi, 41, 53-57.
  • Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society: Series B (Methodological), 58, 267-288.
  • Weisberg, S. (1985). Applied Linear Regression, Wiley.
  • Wooldridge, J. M. (2016). Introductory econometrics: A modern approach (6th ed.). Cengage Learning.
  • Zou, H., & Hastie, T. (2005). The use of ridge regression in the analysis of high-dimensional data. Journal of Computational and Graphical Statistics, 14(3), 814-828.
There are 20 citations in total.

Details

Primary Language English
Subjects Econometric and Statistical Methods
Journal Section Research Articles
Authors

Semih Ergişi 0009-0007-1364-1252

Beyza Doğanay 0000-0001-8845-2287

Yasemin Yavuz 0000-0003-1661-9468

Publication Date December 31, 2024
Submission Date September 13, 2024
Acceptance Date December 29, 2024
Published in Issue Year 2024 Volume: 14 Issue: 2

Cite

APA Ergişi, S., Doğanay, B., & Yavuz, Y. (2024). Performance Comparison of Least Squares, Ridge, Lasso and Principal Component Regression for Addressing Multicollinearity in Regression Analysis. İstatistik Araştırma Dergisi, 14(2), 59-72.