Distanza di Cook

La distanza di Cook, introdotta nel 1977 dallo statistico statunitense Ralph Dennis Cook,[1][2] è una funzione comunemente usata per stimare l'influenza di un singolo punto in un'analisi di regressione ai minimi quadrati.[3]

Punti con elevato residuo (outlier) o elevato leverage possono distorcere il risultato e l'accuratezza di un'analisi di regressione. La distanza di Cook misura l'effetto causato sull'analisi dalla rimozione di un certo dato, e nell'analisi con il metodo dei minimi quadrati ordinario può essere usata per indicare punti ad alta influenza, di cui sarebbe importante controllare la validità, o per individuare regioni dello spazio nelle quali sarebbe necessario acquisire più dati.

Definizione

Un modello di regressione può essere definito come

y n × 1 = X n × p β p × 1 + ϵ n × 1 {\displaystyle {\underset {n\times 1}{\mathbf {y} }}={\underset {n\times p}{\mathbf {X} }}\quad {\underset {p\times 1}{\boldsymbol {\beta }}}\quad +\quad {\underset {n\times 1}{\boldsymbol {\epsilon }}}}

dove ϵ N ( 0 , σ 2 I ) {\displaystyle {\boldsymbol {\epsilon }}\sim {\mathcal {N}}\left(0,\sigma ^{2}\mathbf {I} \right)} è il termine di errore, β = [ β 0 β 1 β p 1 ] T {\displaystyle {\boldsymbol {\beta }}=\left[\beta _{0}\,\beta _{1}\dots \beta _{p-1}\right]^{\mathsf {T}}} è la matrice dei coefficienti, p {\displaystyle p} il numero di variabili indipendenti, e X {\displaystyle \mathbf {X} } è la matrice del modello. Lo stimatore dei minimi quadrati è b = ( X T X ) 1 X T y {\displaystyle \mathbf {b} =\left(\mathbf {X} ^{\mathsf {T}}\mathbf {X} \right)^{-1}\mathbf {X} ^{\mathsf {T}}\mathbf {y} } , e di conseguenza la risposta predetta per la media di y {\displaystyle \mathbf {y} } è

y ^ = X b = X ( X T X ) 1 X T y = H y {\displaystyle \mathbf {\hat {y}} =\mathbf {X} \mathbf {b} =\mathbf {X} \left(\mathbf {X} ^{\mathsf {T}}\mathbf {X} \right)^{-1}\mathbf {X} ^{\mathsf {T}}\mathbf {y} =\mathbf {H} \mathbf {y} }

dove H X ( X T X ) 1 X T {\displaystyle \mathbf {H} \equiv \mathbf {X} (\mathbf {X} ^{\mathsf {T}}\mathbf {X} )^{-1}\mathbf {X} ^{\mathsf {T}}} è la matrice di proiezione. L' i {\displaystyle i} -esimo elemento della diagonale di H {\displaystyle \mathbf {H} \,} , dato da h i x i T ( X T X ) 1 x i {\displaystyle h_{i}\equiv \mathbf {x} _{i}^{\mathsf {T}}(\mathbf {X} ^{\mathsf {T}}\mathbf {X} )^{-1}\mathbf {x} _{i}} ,[4] è noto come leverage dell' i {\displaystyle i} -esima osservazione. Analogamente, l' i {\displaystyle i} -esimo elemento del vettore dei residui e = y y ^ = ( I H ) y {\displaystyle \mathbf {e} =\mathbf {y} -\mathbf {\hat {y}} =\left(\mathbf {I} -\mathbf {H} \right)\mathbf {y} } è indicato con e i {\displaystyle e_{i}} .

La distanza di Cook D i {\displaystyle D_{i}} dell'osservazione i ( i = 1 , , n ) {\displaystyle i\;(\forall i=1,\dots ,n)} è definita come la somma dei cambiamenti nel modello di regressione quando l'osservazione i {\displaystyle i} è rimossa dall'analisi[5]

D i = j = 1 n ( y ^ j y ^ j ( i ) ) 2 p s 2 {\displaystyle D_{i}={\frac {\sum _{j=1}^{n}\left({\hat {y}}_{j}-{\hat {y}}_{j(i)}\right)^{2}}{ps^{2}}}}

dove y ^ j ( i ) {\displaystyle {\hat {y}}_{j(i)}} è la risposta ottenuta escludendo l' i {\displaystyle i} -esima osservazione, e s 2 ( n p ) 1 e e {\displaystyle s^{2}\equiv \left(n-p\right)^{-1}\mathbf {e} ^{\top }\mathbf {e} } è l'errore quadratico medio del modello di regressione.[6] Equivalentemente, la distanza di Cook può essere espressa come funzione del leverage[5]

D i = e i 2 s 2 p [ h i ( 1 h i ) 2 ] {\displaystyle D_{i}={\frac {e_{i}^{2}}{s^{2}p}}\left[{\frac {h_{i}}{(1-h_{i})^{2}}}\right]}

Determinazione di osservazioni ad alta influenza

Vi sono diverse opinioni riguardo al valore di soglia da usare per stabilire quali osservazioni hanno influenza elevata sull'analisi. Una regola del pollice che richiede D i > 1 {\displaystyle D_{i}>1} è usata da alcuni autori,[7] mentre altri autori suggeriscono D i > 4 / n {\displaystyle D_{i}>4/n} , dove n {\displaystyle n} è il numero di osservazioni.[8]

Note

  1. ^ R. Dennis Cook, Detection of Influential Observations in Linear Regression, in Technometrics, vol. 19, n. 1, American Statistical Association, February 1977, pp. 15–18, DOI:10.2307/1268249, JSTOR 1268249, MR 0436478.
  2. ^ R. Dennis Cook, Influential Observations in Linear Regression, in Journal of the American Statistical Association, vol. 74, n. 365, American Statistical Association, March 1979, pp. 169–174, DOI:10.2307/2286747, JSTOR 2286747, MR 0529533.
  3. ^ William Mendenhall e Terry Sincich, A Second Course in Statistics: Regression Analysis, 5th, Upper Saddle River, NJ, Prentice-Hall, 1996, p. 422, ISBN 0-13-396821-9.
    «A measure of overall influence an outlying observation has on the estimated β {\displaystyle \beta } coefficients was proposed by R. D. Cook (1979). Cook's distance, Di, is calculated...»
  4. ^ Fumio Hayashi, Econometrics, Princeton University Press, 2000, pp. 21–23.
  5. ^ a b Cook's Distance, su se.mathworks.com.
  6. ^ Statistics 512: Applied Linear Models (PDF), in Purdue University. URL consultato il 4 giugno 2018 (archiviato dall'url originale il 30 novembre 2016).
  7. ^ R. Dennis Cook e Sanford Weisberg, Residuals and Influence in Regression, New York, NY, Chapman & Hall, 1982, ISBN 0-412-24280-X.
  8. ^ Kenneth A. Bollen e Robert W. Jackman, Regression Diagnostics: An Expository Treatment of Outliers and Influential Cases, in John Fox e J. Scott Long (a cura di), Modern Methods of Data Analysis, Newbury Park, CA, Sage, 1990, pp. 257–91, ISBN 0-8039-3366-5.

Bibliografia

  • Anthony Atkinson e Marco Riani, Deletion Diagnostics, in Robust Diagnostics and Regression Analysis, New York, Springer, 2000, pp. 22–25, ISBN 0-387-95017-6.
  • Richard M. Heiberger e Burt Holland, Case Statistics, in Statistical Analysis and Data Display, Springer Science & Business Media, 2013, pp. 312–27, ISBN 978-1-4757-4284-8.
  • William S. Krasker, Edwin Kuh e Roy E. Welsch, Estimation for dirty data and flawed models, in Handbook of Econometrics, vol. 1, Elsevier, 1983, pp. 651–698, DOI:10.1016/S1573-4412(83)01015-6.
  • Herman Aguinis, Ryan K. Gottfredson e Harry Joo, Best-Practice Recommendations for Defining Identifying and Handling Outliers (PDF), in Organizational Research Methods, vol. 16, n. 2, Sage, 2013, pp. 270–301, DOI:10.1177/1094428112470848. URL consultato il 4 dicembre 2015.

Voci correlate

  • Outlier
  • Leverage (statistica)
  • Leverage parziale
  • DFFITS
  • Residuo studentizzato
  Portale Statistica: accedi alle voci di Wikipedia che trattano di statistica