Çoklu etkili gözlem noktaları ikili lojistik regresyon modellerinde parametre tahminlerini olumsuz yönde etkilemekte ve sonuçların yanlış yorumlanmasına sebep olmaktadır. Bir etkili gözlem noktası verilerin geri kalanının genel eğimini takip etmeyen ve x bakımından aşırı değere sahip olan bir veri noktasıdır. Veri seti içinde yaklaşık % 10 ve üzerinde etkili gözlem noktasının bulunması parametre tahminlerini etkilediği için bu noktaların tespit ve teşhisi oldukça önemlidir. Çoklu etkili gözlem noktalarının tespit ve teşhisinde grafiksel (saçılım grafiği ve kutu grafiği gibi) ve analitik yöntemler kullanılmaktadır. En yaygın kullanılan teşhis yöntemleri Pearson Artıklar, Student Türü Artıklar, Şapka Matrisi, Cook Uzaklığı, DFFITS, DFBETA vb. yöntemlerdir. Ancak bu yöntemler çoklu etkili gözlem noktalarının olması durumunda maskeleme problemleri ile karşılaşmakta ve teşhiste başarısız olmaktadır. Bir çok istatistikçi bu problemle başedebilmek için Genelleştirilmiş Standartlandırılmış Pearson Artığı (GSPA), Genelleştirilmiş Ağırlıklar (GA) gibi yeni yöntemler geliştirmiş ve önermiştir. Bu çalışmada, Romney ırkı koyunlardan elde edilen sütten kesim ağırlığı (SKA), Bir yaş canlı ağırlığı (BYCA), yapağı ağırlığı (YA) ve doğurganlık oranı (DO) değişkenlerine ait içinde çoklu etkili gözlem noktası (%15) bulunan veri seti ile çalışılmış ve DO üzerine SKA, BYCA ve YA değişkenlerinin etkisi ikili lojistik regresyon modeli ile modellenmiştir. Çalışmanın amacı çoklu etkili gözlem noktalarını grafiksel yöntemlerle tespit edip yaygın olarak kullanılan ve yeni geliştirilmiş yöntemlerin bu veri noktalarının teşhisindeki performanlarını incelemektir. Çalışmanın sonucunda yaygın olarak kullanılan yöntemlerin çoklu etkili gözlem noktalarını maskelediği ancak yeni önerilen yöntemlerin bu noktaları başarılı şekilde teşhis ettiği gözlenmiştir.
Çoklu Etkili Gözlem Noktası Genelleştirilmiş Standartlandırılmış Pearson Artığı (GSPA) Genelleştirilmiş Uyum Farkı (GDFFITS)
Multiple influential points adversely affect parameter estimation in binary logistic regression models and lead to misinterpretation of results. An influential point is a data point that does not follow the overall slope of remaining data and has extreme value in terms of x. Since the presence of approximately 10% of influential points in a dataset affects parameter estimates, detection and diagnosis of these points greatly matter. Graphical (such as scatter graph and box graph) and analytical methods are adopted in the detection and diagnosis of multiple influential points. Among the commonly used diagnostic methods are Pearson residuals, Standardized Pearson Residuals (SPR), Cook Distance (CD), Hat matrix, DFFITS, and DFBETA. However, these methods mask problems and fail to diagnose if there are multiple influential points. Many statisticians have developed and proposed new diagnostic methods, such as Generalized Standardized Pearson Residual (GSPR) and Generalized Weights (GW), to overcome this problem. This study exploited a dataset containing multiple influential points (15%) for weaning weight (WW), yearling weight (YW), fleece weight (FW), and fertility rate (FR) of Romney ewes and modelled the effects of WW, TW and FW variables on FR by binary logistic regression model. This study is intended to determine the multiple influential points by graphical methods and to examine the performance of commonly used and newly developed methods in the diagnosis of these data points. As a result, it was observed that the commonly used methods mask multiple influential points and the new proposed methods competently identify these points.
Primary Language | English |
---|---|
Subjects | Zootechny (Other) |
Journal Section | Articles |
Authors | |
Publication Date | December 31, 2019 |
Acceptance Date | November 28, 2019 |
Published in Issue | Year 2019 Volume: 29 Issue: 4 |