Çok değişkenli veri setlerinde
aykırı değerlerin varlığı anakütle parametre tahminini zorlaştırmakta ve hata
varyansını arttırarak kullanılan istatistiki testin gücünü azaltmaktadır. Bu
durum, değişkenlerin eşit varyansa ve çok değişkenli normal dağılıma sahip
olduğu varsayımlarından sapmalara sebep olmaktadır. Çok değişkenli aykırı değer
tespitinde kullanılan tekniklerden biri olan Mahalanobis uzaklığı, aykırı
değişkenlere karşı hassas ölçütler olan çok değişkenli ortalamalar ve kovaryans
matrisine dayalı olarak hesaplanmakta; çok değişkenli veri setlerinde aykırı
gözlemlerin tespitinin engellenmesi veya normal gözlemlerin aykırı gözlem
olarak tespit edilmesi problemlerine karşı dayanıklı ölçütlerle de
kullanılmaktadır. Bu çalışmada, çok değişkenli aykırı değer tespitinde
kullanılan klasik ve dayanıklı Mahalanobis ölçütlerinin aykırı gözlem
tespitlerinin karşılaştırılması amaçlanmıştır. Uygulama verisi olarak, Ocak
2013 – Aralık 2017 döneminde New York ve NASDAQ borsasında yatırımcılar
tarafından gerçekleştirilen 1.239.507 adet hisse senedi alım ve satım işlemi
kullanılmıştır. Aykırı işlemlerin tespitinde miktar ve hacim değişkenleri ele
alınarak, her bir işlem için klasik ve dayanıklı ölçütlere dayalı uzaklık
skorları hesaplanarak, söz konusu teknikler karşılaştırılmıştır. Çalışma
sonucunda, klasik Mahalanobis ölçütü ve En Küçük Hacimli Elipsoid ile tespit
edilemeyen maskelenmiş aykırı gözlemlerin, Hızlı Minimum Kovaryans Determinant
yöntemiyle tespit edilmiş olduğu; söz konusu yöntemin finans uygulama alanında
çok değişkenli veri setlerinde aykırı gözlemlerin tespiti için kullanılabilecek
etkin bir yöntem olduğu sonucuna ulaşılmıştır.
Aykırı Değer Tespiti Mahalanobis Uzaklığı Dayanıklı Ölçütler
The existence of outliers in multivariate data sets contaminates the
parameter estimations and reduces the power of the statistical test by
increasing the variance of the errors. This situation leads to deviations from
the assumptions that the variables have equal variance and multivariate normal
distribution. Mahalanobis distance is one of the techniques frequently used in
multivariate outliers and it is calculated on the basis of multivariate
location and covariance matrix, which are sensitive measures against outliers.
In addition, due to the problems such as misidentification of a normal
observation as an outlier and the presence of masking of an outlier, robust
measures have been used. In this study, it is aimed to compare the performance
of classical and robust Mahalanobis measures. 1.239.507 stock transactions
executed by investors between the periods of January 2013 - December 2017 in
New York Stock Exchange and NASDAQ are used for analysis. In order to determine
outlying transactions, volume and value of trade have been analysed.
Mahalanobis distances based on classical and robust measures have been
calculated for each transaction and the measures are compared. As a result, the
masked observations which cannot be detected by classical and robust Minimum
Volume Ellipsoid measures, have been detected as outlying by Fast - Minimum
Covariance Determinant (Fast MCD) measure. It has been concluded that Fast MCD
can be used as an efficient estimator of multivariate location and scatter in
presence of masked data for multivariate datasets in financial applications.
Birincil Dil | Türkçe |
---|---|
Bölüm | MAKALELER |
Yazarlar | |
Yayımlanma Tarihi | 25 Ekim 2019 |
Yayımlandığı Sayı | Yıl 2019 Sayı: 25 |
______________________________________________________
Adres: KTÜ-İİBF. Oda No:213 61080 TRABZON
e-mail : uiiidergisi@gmail.com