Kruskal-Wallistoets

De Kruskal-Wallistoets, genoemd naar William Kruskal en Allen Wallis, is een verdelingsvrije toets in de statistiek, waarmee getoetst wordt of er verschil is tussen de verdelingen waaruit twee of meer steekproeven afkomstig zijn. De nulhypothese die getoetst wordt, is eigenlijk dat de steekproeven uit verdelingen (populaties) zijn getrokken met dezelfde "ligging". De toets is gebaseerd op de rangnummers van de data. De Kruskal-Wallistoets is te beschouwen als een eenweg-ANOVA gebaseerd op de rangnummers. De Kruskal-Wallistoets is een uitbreiding van de Mann-Whitney-Wilcoxon rangsomtoets, die enkel geschikt is om twee groepen onderling te vergelijken.

Procedure

Gegeven zijn m onderling onafhankelijke aselecte steekproeven uit continue verdelingen. De j {\displaystyle j} -de waarneming in de i {\displaystyle i} -de steekproef, die omvang n i {\displaystyle n_{i}} heeft, is X i j {\displaystyle X_{ij}} . Het rangnummer hiervan in het totaal van de data is R i j {\displaystyle R_{ij}} . De toets verloopt verder in principe als een variantie-analyse uitgevoerd op deze rangnummers.

De toetsingsgrootheid K {\displaystyle K} is:

K = 12 n ( n + 1 ) i = 1 m n i ( R i n + 1 2 ) 2 = ( 12 n ( n + 1 ) i = 1 m R i 2 n i ) 3 ( n + 1 ) {\displaystyle K={\frac {12}{n(n+1)}}\sum _{i=1}^{m}n_{i}\left(R_{i}-{\frac {n+1}{2}}\right)^{2}=\left({\frac {12}{n(n+1)}}\sum _{i=1}^{m}{\frac {R_{i}^{2}}{n_{i}}}\right)-3(n+1)} ,

waarin

n = i = 1 m n i {\displaystyle n=\sum _{i=1}^{m}n_{i}}

het totaal aantal waarnemingen is en

R i = 1 n i j = 1 n i R i j {\displaystyle R_{i\cdot }={\frac {1}{n_{i}}}\sum _{j=1}^{n_{i}}R_{ij}}

het gemiddelde rangnummer in de i {\displaystyle i} -de steekproef.

Merk op dat de toetsingsgrootheid ook met kwadratensommen geschreven kan worden als:

K = ( n 1 ) i = 1 m n i ( R i R ) 2 i = 1 m j = 1 n i ( R i j R ) 2 {\displaystyle K=(n-1){\frac {\sum _{i=1}^{m}n_{i}(R_{i\cdot }-R_{\cdot \cdot })^{2}}{\sum _{i=1}^{m}\sum _{j=1}^{n_{i}}(R_{ij}-R_{\cdot \cdot })^{2}}}} ,

waaruit de bovenstaande formule volgt door de substituties:

R = ( n + 1 ) / 2 {\displaystyle R_{\cdot \cdot }=(n+1)/2}

en

i = 1 m j = 1 n i ( R i j R ) 2 = ( n 1 ) n ( n + 1 ) / 12 {\displaystyle \sum _{i=1}^{m}\sum _{j=1}^{n_{i}}(R_{ij}-R_{\cdot \cdot })^{2}=(n-1)n(n+1)/12} .

Als de steekproeven niet te klein van omvang zijn, is K {\displaystyle K} onder de nulhypothese bij benadering chi-kwadraatverdeeld met m {\displaystyle m} vrijheidsgraden.

Knopen

In principe mogen er geen knopen (gelijke waarnemingen) zijn. Zijn er te veel knopen, dan wordt de toetsingsgrootheid wel gecorrigeerd:

K a d j = K 1 k = 1 n ( t k 3 t k ) ) / ( n 3 n ) , {\displaystyle K_{adj}={\frac {K}{1-\sum _{k=1}^{n}(t_{k}^{3}-t_{k}))/(n^{3}-n)}},}

waarin t k {\displaystyle t_{k}} het aantal data is met rangnummer k {\displaystyle k} .

Zie ook

  • Wilcoxon
· · Sjabloon bewerken
Statistische toetsen

schatten · t-toets · F-toets · chi-kwadraattoets · Wilcoxontoets · rangtekentoets · verdelingsvrije toets · Kolmogorov-Smirnov · Kruskall-Wallis · kleinste-kwadratenmethode · lineaire regressie