Multipler Korrelationskoeffizient

Der multiple Korrelationskoeffizient ist in der multivariaten Statistik ein Korrelationskoeffizient, welcher die lineare Abhängigkeit zwischen einer Zufallsvariable und einer Menge anderer Zufallsvariablen misst. Konkret bedeutet das für einen Zufallsvektor ( X 1 , , X n ) T {\displaystyle (X_{1},\dots ,X_{n})^{\mathrm {T} }} , dass der multiple Korrelationskoeffizient die maximale Korrelation zwischen einer Zufallsvariable X i {\displaystyle X_{i}} für i k {\displaystyle i\leq k} und jeder beliebigen linearen Funktion von X k + 1 , , X n {\displaystyle X_{k+1},\dots ,X_{n}} ist. Als Spezialfall erhält man den multiplen Korrelationskoeffizient zwischen X 1 {\displaystyle X_{1}} und X 2 , , X n {\displaystyle X_{2},\dots ,X_{n}} . Im Gegensatz zu den gewöhnlichen Korrelationskoeffizienten liegt der multiple Korrelationskoeffizient zwischen 0 {\displaystyle 0} und 1 {\displaystyle 1} . Der multiple Korrelationskoeffizient wird mit R ¯ i ( k + 1 n ) {\displaystyle {\overline {R}}_{i\cdot (k+1\cdots n)}} notiert.

Der multiple Korrelationskoeffizient wurde 1896 von Karl Pearson für drei Variablen eingeführt und 1897 von George Udny Yule erweitert.[1]

Definition

Sei X = ( X 1 , X 2 , , X n ) T {\displaystyle \mathbf {X} =(X_{1},X_{2},\dots ,X_{n})^{\mathrm {T} }} ein Zufallsvektor mit positiv definiter Kovarianzmatrix Σ {\displaystyle {\boldsymbol {\Sigma }}} und 1 i k < n {\displaystyle 1\leq i\leq k<n} .

Wir machen folgende Zerlegung

X = ( X 1 X 2 ) , Σ = ( Σ 11 Σ 12 Σ 21 Σ 22 ) , X 1 = ( X 1 , , X k ) T , X 2 = ( X k + 1 , , X n ) T . {\displaystyle \mathbf {X} ={\begin{pmatrix}\mathbf {X} _{1}\\\mathbf {X} _{2}\end{pmatrix}},\qquad {\boldsymbol {\Sigma }}={\begin{pmatrix}{\boldsymbol {\Sigma }}_{11}&{\boldsymbol {\Sigma }}_{12}\\{\boldsymbol {\Sigma }}_{21}&{\boldsymbol {\Sigma }}_{22}\end{pmatrix}},\qquad \mathbf {X_{1}} =(X_{1},\dots ,X_{k})^{\mathrm {T} },\quad \mathbf {X_{2}} =(X_{k+1},\dots ,X_{n})^{\mathrm {T} }.}

Der multiple Korrelationskoeffizient R ¯ i ( k + 1 n ) {\displaystyle {\overline {R}}_{i\cdot (k+1\cdots n)}} zwischen X i {\displaystyle X_{i}} und X k + 1 , , X n {\displaystyle X_{k+1},\dots ,X_{n}} ist die maximale Korrelation zwischen X i {\displaystyle X_{i}} und jeder linearen Funktion α T X 2 {\displaystyle {\boldsymbol {\alpha }}^{\mathrm {T} }\mathbf {X_{2}} } .

In mathematischen Formeln ausgedrückt[2]

R ¯ i ( k + 1 n ) := max α Cov ( X i , α T X 2 ) ( Var ( X i ) Var ( α T X 2 ) ) 1 / 2 = max α α T σ i ( σ i i α T Σ 22 α ) 1 / 2 , {\displaystyle {\overline {R}}_{i\cdot (k+1\cdots n)}:=\max \limits _{\boldsymbol {\alpha }}{\frac {\operatorname {Cov} (X_{i},{\boldsymbol {\alpha }}^{\mathrm {T} }\mathbf {X_{2}} )}{\left(\operatorname {Var} (X_{i})\operatorname {Var} ({\boldsymbol {\alpha }}^{\mathrm {T} }\mathbf {X_{2}} )\right)^{1/2}}}=\max \limits _{\boldsymbol {\alpha }}{\frac {{\boldsymbol {\alpha }}^{\mathrm {T} }{\boldsymbol {\sigma }}_{i}}{(\sigma _{ii}{\boldsymbol {\alpha }}^{\mathrm {T} }{\boldsymbol {\Sigma }}_{22}{\boldsymbol {\alpha }})^{1/2}}},}

wobei σ i T {\displaystyle {\boldsymbol {\sigma }}_{i}^{\mathrm {T} }} die i {\displaystyle i} -te Reihe von Σ 12 {\displaystyle {\boldsymbol {\Sigma }}_{12}} ist und Var ( X i ) = σ i i {\displaystyle \operatorname {Var} (X_{i})=\sigma _{ii}} .

Wendet man die Cauchy-Schwarz-Ungleichung an

α T σ i ( σ i i α T Σ 22 α ) 1 / 2 = α T Σ 22 1 / 2 Σ 22 1 / 2 σ i ( σ i i α T Σ 22 α ) 1 / 2 ( α T Σ 22 α ) 1 / 2 ( σ i T Σ 22 1 σ i ) 1 / 2 ( σ i i α T Σ 22 α ) 1 / 2 = ( σ i T Σ 22 1 σ i σ i i ) 1 / 2 , {\displaystyle {\frac {{\boldsymbol {\alpha }}^{\mathrm {T} }{\boldsymbol {\sigma }}_{i}}{(\sigma _{ii}{\boldsymbol {\alpha }}^{\mathrm {T} }{\boldsymbol {\Sigma }}_{22}{\boldsymbol {\alpha }})^{1/2}}}={\frac {{\boldsymbol {\alpha }}^{\mathrm {T} }{\boldsymbol {\Sigma }}_{22}^{1/2}{\boldsymbol {\Sigma }}_{22}^{-1/2}{\boldsymbol {\sigma }}_{i}}{(\sigma _{ii}{\boldsymbol {\alpha }}^{\mathrm {T} }{\boldsymbol {\Sigma }}_{22}{\boldsymbol {\alpha }})^{1/2}}}\leq {\frac {\left({\boldsymbol {\alpha }}^{\mathrm {T} }{\boldsymbol {\Sigma }}_{22}{\boldsymbol {\alpha }}\right)^{1/2}\left({\boldsymbol {\sigma }}_{i}^{\mathrm {T} }{\boldsymbol {\Sigma }}_{22}^{-1}{\boldsymbol {\sigma }}_{i}\right)^{1/2}}{(\sigma _{ii}{\boldsymbol {\alpha }}^{\mathrm {T} }{\boldsymbol {\Sigma }}_{22}{\boldsymbol {\alpha }})^{1/2}}}=\left({\frac {{\boldsymbol {\sigma }}_{i}^{\mathrm {T} }{\boldsymbol {\Sigma }}_{22}^{-1}{\boldsymbol {\sigma }}_{i}}{\sigma _{ii}}}\right)^{1/2},}

so erhält man eine Obergrenze, die erreicht wird, wenn α = Σ 22 1 σ i {\displaystyle {\boldsymbol {\alpha }}={\boldsymbol {\Sigma }}_{22}^{-1}{\boldsymbol {\sigma }}_{i}} .

Daraus folgt

R ¯ i ( k + 1 n ) = ( σ i T Σ 22 1 σ i σ i i ) 1 / 2 . {\displaystyle {\overline {R}}_{i\cdot (k+1\cdots n)}=\left({\frac {{\boldsymbol {\sigma }}_{i}^{\mathrm {T} }{\boldsymbol {\Sigma }}_{22}^{-1}{\boldsymbol {\sigma }}_{i}}{\sigma _{ii}}}\right)^{1/2}.} [2][3]

Eigenschaften

  • Es gilt
0 R ¯ i ( k + 1 n ) 1 {\displaystyle 0\leq {\overline {R}}_{i\cdot (k+1\cdots n)}\leq 1}
und R ¯ i ( k + 1 n ) = 0 Σ 12 = 0 {\displaystyle {\overline {R}}_{i\cdot (k+1\cdots n)}=0\iff {\boldsymbol {\Sigma }}_{12}=\mathbf {0} } .
  • Man kann zeigen, dass wenn die Regressionsfunktion E [ X i X 2 ] {\displaystyle \mathbb {E} [X_{i}\mid \mathbf {X_{2}} ]} eine lineare Funktion ist, dann ist der multiple Korrelationskoeffizient gerade der Korrelationskoeffizient zwischen X i {\displaystyle X_{i}} und E [ X i X 2 ] {\displaystyle \mathbb {E} [X_{i}\mid \mathbf {X_{2}} ]} .[3][2]
  • Es gilt
1 R ¯ i ( k + 1 n ) 2 = det ( Σ i ) σ i i det ( Σ 22 ) , {\displaystyle 1-{\overline {R}}_{i\cdot (k+1\cdots n)}^{2}={\frac {\operatorname {det} ({\boldsymbol {\Sigma }}_{i})}{\sigma _{ii}\operatorname {det} ({\boldsymbol {\Sigma }}_{22})}},\quad } wobei Σ i := ( σ i i σ i T σ i Σ i i ) . {\displaystyle \quad {\boldsymbol {\Sigma }}_{i}:={\begin{pmatrix}\sigma _{ii}&{\boldsymbol {\sigma }}_{i}^{\mathrm {T} }\\{\boldsymbol {\sigma }}_{i}&{\boldsymbol {\Sigma }}_{ii}\end{pmatrix}}.} [2]

Spezialfall X1 und X2,...,Xn

Möchten wir R ¯ 1 ( 2 n ) {\displaystyle {\overline {R}}_{1\cdot (2\cdots n)}} herleiten, das heißt den multiplen Korrelationskoeffizient zwischen X 1 {\displaystyle X_{1}} und X 2 , , X n {\displaystyle X_{2},\dots ,X_{n}} , dann machen wir folgende Zerlegung

X = ( X 1 X 2 ) , Σ = ( σ 11 σ 12 T σ 12 Σ 22 ) , {\displaystyle \mathbf {X} ={\begin{pmatrix}X_{1}\\\mathbf {X} _{2}\end{pmatrix}},\qquad {\boldsymbol {\Sigma }}={\begin{pmatrix}\sigma _{11}&{\boldsymbol {\sigma }}_{12}^{\mathrm {T} }\\{\boldsymbol {\sigma }}_{12}&{\boldsymbol {\Sigma }}_{22}\end{pmatrix}},}

da σ 12 {\displaystyle {\boldsymbol {\sigma }}_{12}} ein ( n 1 ) × 1 {\displaystyle (n-1)\times 1} -dimensionaler Vektor ist, verzichten wir auf die Notation Σ 12 {\displaystyle {\boldsymbol {\Sigma }}_{12}} .

Es gilt dann

R ¯ 1 ( 2 n ) = ( σ 12 T Σ 22 1 σ 12 σ 11 ) 1 / 2 . {\displaystyle {\overline {R}}_{1\cdot (2\cdots n)}=\left({\frac {{\boldsymbol {\sigma }}_{12}^{\mathrm {T} }{\boldsymbol {\Sigma }}_{22}^{-1}{\boldsymbol {\sigma }}_{12}}{\sigma _{11}}}\right)^{1/2}.}

Multipler Korrelationskoeffizient für eine Stichprobe

Seien X 1 , , X N {\displaystyle \mathbf {X} _{1},\dots ,\mathbf {X} _{N}} unabhängige Stichproben von X {\displaystyle \mathbf {X} } und

S = 1 ( N 1 ) i = 1 N ( X i X ¯ ) ( X i X ¯ ) T {\displaystyle \mathbf {S} ={\frac {1}{(N-1)}}\sum \limits _{i=1}^{N}(\mathbf {X} _{i}-{\overline {\mathbf {X} }})(\mathbf {X} _{i}-{\overline {\mathbf {X} }})^{\mathrm {T} }}

die korrigierte Stichprobenkovarianzmatrix. Dann machen wir folgende Zerlegung

S = ( S 11 S 12 S 21 S 22 ) {\displaystyle \mathbf {S} ={\begin{pmatrix}\mathbf {S} _{11}&\mathbf {S} _{12}\\\mathbf {S} _{21}&\mathbf {S} _{22}\end{pmatrix}}}

und der multiple Korrelationskoeffizient einer Stichprobe ist dann

R i ( k + 1 n ) = ( s i T S 22 1 s i s i i ) 1 / 2 , {\displaystyle R_{i\cdot (k+1\cdots n)}=\left({\frac {\mathbf {s} _{i}^{\mathrm {T} }{\boldsymbol {S}}_{22}^{-1}\mathbf {s} _{i}}{s_{ii}}}\right)^{1/2},}

wobei s i T {\displaystyle \mathbf {s} _{i}^{\mathrm {T} }} die i {\displaystyle i} -te Reihe von S 12 {\displaystyle \mathbf {S} _{12}} ist.

Wenn eine Normalverteilung zugrunde liegt, dann ist R i ( k + 1 n ) {\displaystyle R_{i\cdot (k+1\cdots n)}} der Maximum-Likelihood-Schätzer von R ¯ i ( k + 1 n ) {\displaystyle {\overline {R}}_{i\cdot (k+1\cdots n)}} .[3]

Literatur

  • Theodore Wilbur Anderson: Multivariate Analysis and Its Applications. Hrsg.: Wiley. 2003, ISBN 978-0-940600-35-5. 
  • Robb J. Muirhead: Aspects of Multivariate Statistical Theory. Hrsg.: Wiley, Deutschland. 2009. 

Einzelnachweise

  1. Theodore Wilbur Anderson: Multivariate Analysis and Its Applications. Hrsg.: Wiley. 2003, ISBN 978-0-940600-35-5, S. 33. 
  2. a b c d Theodore Wilbur Anderson: Multivariate Analysis and Its Applications. Hrsg.: Wiley. 2003, ISBN 978-0-940600-35-5, S. 38. 
  3. a b c Robb J. Muirhead: Aspects of Multivariate Statistical Theory. Hrsg.: Wiley, Deutschland. 2009, S. 164–167.