Research Article
BibTex RIS Cite

A Comparison of the Multiple Outlier Detection Method for Multivariate Data by Simulation Study

Year 2004, Volume: 3 Issue: 3, 55 - 66, 15.12.2004

Abstract

Principle component analysis is a statistical technique used for reducing data dimension and/or constructing a set of uncorrelated variables. In some cases it is solely used as a technique of analysis itself while in other situations used as a data preparation technique for further analysis. In particular, it is preferred in testing high dimensional data since it provides dimensional reduction in data. But it is based on classical variance and covariance matrix therefore it is sensitive to outliers in data. So using robust principle component analysis is preferred to obtain reliable results in the existence of outliers.
In this study classical principal component analysis technique and two robust principle component techniques [Robust Principle Component Analysis (Hubert et al., 2002) and BACON Robust Principle Component Analysis (Kıral and Billor, 2001)] are compared using simulation.

References

  • BILLOR, N. , HADI, A. S. and VELLEMAN, P. F. (2000). "BACON: Blocked Adaptive Computationally Efficient Outlier Nominators", Computational Statistics and Data Analysis, 34, 279-298.
  • CAMPBELL, N. A. (1980). "Robust Procedures in Multivariate Analysis I: Robust Covariance Estimation", Applied Statistics, 29, 231-237.
  • CARONI, C. (2000). "Outlier Detection by Robust Principal Components Analysis. "Commun.Statist.- Simula., 29(1),139-151.
  • CROUX, C. RUIZ-GAZEN A. (2000). "High Breakdown Estimators for Principle Components: The Projection-Pursuit Approach" Revisited, Under Revision, http://homepages.ulb.ac.be/-ccroux.
  • CROUX, C., and HAESBROECK, G. (2000), "Principal Component Analysis Based on Robust Estimators of the Covariance or Correlation Matrix: Influence Functions and Efficiencies," Biometrika, 87,603-618
  • HAWKINS, D. M., BRADU, D., KASS, G. V. (1984). "Location of Several Outliers in Multiple Regression Data Using Elemental Sets". Technometrics, 26,197-208.
  • HUBERT, M., ROUSSEEUW, P.J., and VERBOVEN, S. (2002). "A Fast Robust Method for Principal Components with Applications to Chemometrics". Chemometrics and Intelligent Laboratory Systems, 60, 101-111.
  • HUBERT, M., ROUSSEEUW, P.J. (2002), "ROBPCA: A New Approach to Robust Principal Component Analysis".
  • KIRAL, G. ve BILLOR, N. (2001)."BACON Temel Bileşenler Analizi" 5. Ulusal Ekonometri ve İstatistik Sempozyumu". 19-22 Eylül, ADANA
  • KIRAL, G. (2003). "A Comparision of the Recent AIgorithms for the Identification of Outliers in Data". PhD Thesis. Department of Mathematics, Institute of Natural and Applied Sciences, Çukurova University.
  • LIE, G. and CHEN, Z. (1985). "Projection-Pursuit Approach to Robust Dispersion Matrices and Principal Components: Primary Theory and Monte Carlo", J. Amer. Statistics. Assosc., 80, 759-766.

Çok Değişkenli Veri Kümeleri Üzerinde Tanımlı Aykırı Değer Belirleme Tekniklerinin Simülasyon Çalışması ile Karşılaştırılması

Year 2004, Volume: 3 Issue: 3, 55 - 66, 15.12.2004

Abstract

Temel bileşenler analizi ilişkisiz değişkenler kümesinin kurulması ve/veya boyut indirgenmesi amacı ile kullanılan istatistiksel bir tekniktir. Bazen tek başına bir analiz olarak kullanıldığı gibi bazen de başka analizler için veri hazırlama tekniği olarak kullanılmaktadır. Veri boyutunda indirgeme yaptığından özellikle yüksek boyutlu verilerin analiz edilmesinde tercih edilen bir tekniktir. Fakat klasik varyans ve kovaryans matrisine dayalı olarak hesaplandığından aykırı değerlerin varlığı durumunda sağlıklı sonuç vermemektedir. Bu nedenle aykırı değer olması olasılığına karşın dayanaklı temel bileşenler analiz teknikleri kullanımı önerilmektedir.
Bu çalışmada temel bileşenler analizi çerçevesinde tanımlanan dayanaklı tekniklerden, Dayanaklı Temel Bileşenler Analizi (DTBA) (Hubert ve ark., 2002) ve BACON Dayanıklı Temel Bileşenler Analizi; (BDTBA) (Kıral ve Billor, 2001) ve Klasik Temel Bileşenler Analizinin (TBA) performansları simülasyon çalışması yapılarak karşılaştırılmıştır.

References

  • BILLOR, N. , HADI, A. S. and VELLEMAN, P. F. (2000). "BACON: Blocked Adaptive Computationally Efficient Outlier Nominators", Computational Statistics and Data Analysis, 34, 279-298.
  • CAMPBELL, N. A. (1980). "Robust Procedures in Multivariate Analysis I: Robust Covariance Estimation", Applied Statistics, 29, 231-237.
  • CARONI, C. (2000). "Outlier Detection by Robust Principal Components Analysis. "Commun.Statist.- Simula., 29(1),139-151.
  • CROUX, C. RUIZ-GAZEN A. (2000). "High Breakdown Estimators for Principle Components: The Projection-Pursuit Approach" Revisited, Under Revision, http://homepages.ulb.ac.be/-ccroux.
  • CROUX, C., and HAESBROECK, G. (2000), "Principal Component Analysis Based on Robust Estimators of the Covariance or Correlation Matrix: Influence Functions and Efficiencies," Biometrika, 87,603-618
  • HAWKINS, D. M., BRADU, D., KASS, G. V. (1984). "Location of Several Outliers in Multiple Regression Data Using Elemental Sets". Technometrics, 26,197-208.
  • HUBERT, M., ROUSSEEUW, P.J., and VERBOVEN, S. (2002). "A Fast Robust Method for Principal Components with Applications to Chemometrics". Chemometrics and Intelligent Laboratory Systems, 60, 101-111.
  • HUBERT, M., ROUSSEEUW, P.J. (2002), "ROBPCA: A New Approach to Robust Principal Component Analysis".
  • KIRAL, G. ve BILLOR, N. (2001)."BACON Temel Bileşenler Analizi" 5. Ulusal Ekonometri ve İstatistik Sempozyumu". 19-22 Eylül, ADANA
  • KIRAL, G. (2003). "A Comparision of the Recent AIgorithms for the Identification of Outliers in Data". PhD Thesis. Department of Mathematics, Institute of Natural and Applied Sciences, Çukurova University.
  • LIE, G. and CHEN, Z. (1985). "Projection-Pursuit Approach to Robust Dispersion Matrices and Principal Components: Primary Theory and Monte Carlo", J. Amer. Statistics. Assosc., 80, 759-766.
There are 11 citations in total.

Details

Primary Language Turkish
Subjects Statistical Analysis
Journal Section Research Articles
Authors

Gülsen Kıral This is me

Nedret Billor This is me

Publication Date December 15, 2004
Published in Issue Year 2004 Volume: 3 Issue: 3

Cite

APA Kıral, G., & Billor, N. (2004). Çok Değişkenli Veri Kümeleri Üzerinde Tanımlı Aykırı Değer Belirleme Tekniklerinin Simülasyon Çalışması ile Karşılaştırılması. İstatistik Araştırma Dergisi, 3(3), 55-66.