T-toets

Een t-toets is een parametrische statistische toets die onder andere gebruikt kan worden om na te gaan of het (populatie)gemiddelde van een normaal verdeelde grootheid afwijkt van een bepaalde waarde, dan wel of er een verschil is tussen de gemiddelden van twee groepen in de populatie. Met behulp van een t-toets kan men dan een overschrijdingskans of een betrouwbaarheidsinterval bepalen.

Ontstaansgeschiedenis

De t-toets (en de bijbehorende t-verdeling) is ontwikkeld door William Sealy Gosset die werkte onder het pseudoniem 'Student'. De toets wordt daarom ook regelmatig als Students t-toets aangeduid. Gosset was werkzaam voor de Guinness brouwerij, waar hij de kwaliteit van het gebrouwen bier in de gaten hield. Hij publiceerde zijn resultaten in 1908 in het statistische tijdschrift Biometrika. Zijn werkgever eiste dat hij dat onder een pseudoniem deed, omdat het gebruik van statistische methoden als 'bedrijfsgeheim' gezien werd.

Basisidee

Het basisidee van de t-toets is het volgende: om na te gaan of van een normale verdeling met standaardafwijking σ {\displaystyle \sigma } de verwachtingswaarde μ {\displaystyle \mu } een bepaalde waarde μ 0 {\displaystyle \mu _{0}} heeft, neemt men een steekproef van omvang n {\displaystyle n} uit die verdeling en berekent men het steekproefgemiddelde X ¯ {\displaystyle {\bar {X}}} . Onder de nulhypothese is dit gemiddelde ook normaal verdeeld met verwachting μ 0 {\displaystyle \mu _{0}} en standaardafwijking σ / n {\displaystyle \sigma /{\sqrt {n}}} . Het gestandaardiseerde steekproefgemiddelde

Z = X ¯ μ 0 σ / n {\displaystyle Z={\frac {{\bar {X}}-\mu _{0}}{\sigma /{\sqrt {n}}}}}

is onder de nulhypothese standaardnormaal verdeeld, zodat eenvoudig nagegaan kan worden of een steekproefuitkomst significant is.

In veel praktische gevallen is echter niet alleen de verwachtingswaarde onbekend, maar ook de standaardafwijking. Het ligt nu voor de hand om de standaardafwijking te schatten door de steekproefstandaardafwijking S {\displaystyle S} en te berekenen:

T = X ¯ μ 0 S / n {\displaystyle T={\frac {{\bar {X}}-\mu _{0}}{S/{\sqrt {n}}}}}

Het gevolg is dat de toetsingsgrootheid T {\displaystyle T} onder de nulhypothese niet meer standaardnormaal verdeeld, maar een t-verdeling heeft, die wat breder is dan de standaardnormale.

Gebruik

De t-toets wordt onder andere in de volgende situaties gebruikt:

  • Als toets voor de nulhypothese dat het gemiddelde van een normaal verdeelde populatie gelijk is aan een bepaalde, vooraf gespecificeerde, waarde.
  • Als toets voor de nulhypothese dat de gemiddelden van twee normaal verdeelde populaties aan elkaar gelijk zijn. Er zijn verschillende varianten voor deze toets, afhankelijk van welke veronderstellingen er gemaakt worden.
  • Als speciaal geval van de eerstgenoemde mogelijkheid bij regressieanalyse om te toetsen of de helling of het intercept gelijk is aan vooraf gespecificeerde waarde.

Voorwaarden

Een t-toets kan gebruikt worden als aan bepaalde voorwaarden is voldaan. Bij de t-toets voor één steekproef moet gelden dat de betrokken steekproef een aselecte steekproef is uit een normale verdeling, met eventueel onbekende variantie.

In het geval van twee steekproeven dienen beide steekproeven uit een normale verdeling te komen. De twee steekproeven moeten óf onafhankelijk van elkaar zijn, óf zogenaamd gepaard zijn. In het geval van twee onafhankelijke steekproeven dienen bij toepassing van de standaard t-toets de beide populaties dezelfde variantie te hebben. Wanneer beide populaties een verschillende variantie hebben, kan een aangepaste t-toets gebruikt worden. Het geval van gepaarde waarnemingen komt neer op een t-toets voor de enkele steekproef van de verschillen.

Schendingen van deze assumpties hebben gevolgen voor de robuustheid en het onderscheidend vermogen van de t-toets. Met behulp van een F-toets kan getoetst worden of de varianties in beide groepen significant van elkaar verschillen. De normaliteit van de populaties kan getoetst worden met behulp van de Kolmogorov-Smirnovtoets.

Als aan de voorwaarden van de centrale limietstelling voldaan is, kan de t-toets benaderend toegepast worden voor grote steekproeven. De voor de berekening van de toetsingsgrootheid benodigde steekproefgemiddelden zijn dan immers bij benadering normaal verdeeld.

t-toets voor één steekproef

Definitie

Zij X 1 , , X n {\displaystyle X_{1},\ldots ,X_{n}} een aselecte steekproef uit een normale verdeling met onbekende verwachting μ {\displaystyle \mu } en eventueel onbekende standaardafwijking. De t-toets voor het toetsen van de nulhypothese:

H 0 : μ = μ 0 {\displaystyle H_{0}:\mu =\mu _{0}} ,

is gebaseerd op de toetsingsgrootheid:

T = X ¯ μ 0 S n {\displaystyle T={\frac {{\bar {X}}-\mu _{0}}{S}}{\sqrt {n}}} ,

waarin X ¯ = 1 n i = 1 n X i {\displaystyle {\bar {X}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}} het steekproefgemiddelde is en S = 1 n 1 i = 1 n ( X i X ¯ ) 2 {\displaystyle S={\sqrt {{\frac {1}{n-1}}\sum _{i=1}^{n}(X_{i}-{\bar {X}})^{2}}}} de steekproefstandaardafwijking.

Onder de nulhypothese heeft T {\displaystyle T} een t-verdeling met n 1 {\displaystyle n-1} vrijheidsgraden.

De t-toets voor één groep kan men toepassen op een enkele steekproef, waarbij men toetst of het populatiegemiddelde afwijkt van een bepaalde waarde. Men past de t-toets in deze vorm ook toe op de verschilscores van twee afhankelijke groepen, als deze verschillen een aselecte steekproef vormen die voldoet aan de genoemde voorwaarden.

Voorbeeld 1

Zit er wel gemiddeld 250 g margarine in een kuipje zoals de fabrikant beweert? Om dat na te gaan wordt een steekproef van n = 25 {\displaystyle n=25} kuipjes genomen en wordt hun inhoud gewogen. Als steekproefgemiddelde wordt x ¯ = 248 , 2 {\displaystyle {\bar {x}}=248{,}2} g gevonden, en als standaardafwijking s = 2 , 5 {\displaystyle s=2{,}5} g. Er moet getoetst worden op een significantieniveau α {\displaystyle \alpha } van 5%. Veronderstellende dat de inhoud van de kuipjes normaal verdeeld is met verwachting μ {\displaystyle \mu } en standaardafwijking σ {\displaystyle \sigma } , kan getoetst worden:

H 0 : μ = 250 {\displaystyle H_{0}:\mu =250}

tegen

H 1 : μ < 250 {\displaystyle H_{1}:\mu <250}

De toetsingsgrootheid T is dus:

T = X ¯ 250 S n {\displaystyle T={\frac {{\bar {X}}-250}{S}}{\sqrt {n}}}

Uit de steekproef volgt voor T {\displaystyle T} een waarde:

t = x ¯ 250 s n = 248 , 2 250 2 , 5   5 = 3 , 6 {\displaystyle t={\frac {{\bar {x}}-250}{s}}{\sqrt {n}}={\frac {248{,}2-250}{2{,}5}}\ 5=-3{,}6}

De nulhypothese wordt verworpen voor te kleine waarden van T {\displaystyle T} . Om na te gaan of de gevonden waarde t {\displaystyle t} te klein is, zijn er twee benaderingen mogelijk.

De eerste methode vergelijkt t {\displaystyle t} met de kritieke waarde t α , ν {\displaystyle t_{\alpha ,\nu }} die bij het gegeven significantieniveau van 5% hoort. De nulhypothese wordt verworpen als t t α , ν {\displaystyle t\leq t_{\alpha ,\nu }} . Nu kan t α , ν {\displaystyle t_{\alpha ,\nu }} zo bepaald worden opdat:

P ( T t α , ν ; H 0 ) = P ( T ( 24 ) t α , ν ) = α = 0 , 05 {\displaystyle P(T\leq t_{\alpha ,\nu };H_{0})=P(T(24)\leq t_{\alpha ,\nu })=\alpha =0{,}05}

Uit de tabel van de t-verdeling kan worden afgelezen, gebruikmakend van de symmetrie:

P ( T ( 24 ) 1,711 ) = P ( T ( 24 ) 1,711 ) = 0 , 05 {\displaystyle P(T(24)\geq 1{,}711)=P(T(24)\leq -1{,}711)=0{,}05} ,

zodat gevonden wordt:

t α , ν = 1,711 {\displaystyle t_{\alpha ,\nu }=-1{,}711}

Aangezien t < t α , ν {\displaystyle t<t_{\alpha ,\nu }} , dient de nulhypothese verworpen te worden. Er kan geconcludeerd worden dat de kuipjes systematisch te weinig margarine bevatten.

Bij de tweede methode wordt de (linker) overschrijdingskans p {\displaystyle p} van t {\displaystyle t} berekend en de nulhypothese wordt verworpen als p < α {\displaystyle p<\alpha } .

p = P ( T t ; H 0 ) = P ( T ( 24 ) 3 , 6 ) {\displaystyle p=P(T\leq t;H_{0})=P(T(24)\leq -3{,}6)}

Uit een tabel van de t-verdeling met n 1 = 24 {\displaystyle n-1=24} vrijheidsgraden kan afgelezen worden dat p {\displaystyle p} kleiner is dan 5%. De nulhypothese dient dus verworpen te worden en er kan geconcludeerd worden dat de kuipjes systematisch te weinig margarine bevatten. De waarde van p {\displaystyle p} kan met statistische software of programma's als Office Excel berekend worden en is ongeveer 0,00072.

t-toets voor twee steekproeven

Zoals eerder gemeld, zijn er twee situaties voor de t-toets voor twee steekproeven:

  • Twee gepaarde steekproeven
  • Twee onafhankelijke steekproeven

Definitie bij gepaarde steekproeven

Laat ( X 1 , Y 1 ) , ( X 2 , Y 2 ) , , ( X n , Y n ) {\displaystyle (X_{1},Y_{1}),(X_{2},Y_{2}),\ldots ,(X_{n},Y_{n})} een aselecte steekproef zijn van gepaarde waarnemingen uit een simultane verdeling met verwachtingswaarden μ X {\displaystyle \mu _{X}} en μ Y {\displaystyle \mu _{Y}} , zo dat de verschillen Z i = X i Y i {\displaystyle Z_{i}=X_{i}-Y_{i}} normaal verdeeld zijn. Voor het toetsen van de nulhypothese:

H 0 : μ X = μ Y {\displaystyle H_{0}:\mu _{X}=\mu _{Y}}

gebruikt men de t-toets voor de enkelvoudige steekproef van de verschillen Z {\displaystyle Z} en toetst:

H 0 : E Z = 0 {\displaystyle H_{0}:\mathrm {E} Z=0}

Voorbeeld 2

Is een afslankproduct wel effectief zoals de fabrikant beweert? Om dat na te gaan worden n = 10 {\displaystyle n=10} proefpersonen gevolgd. Elk worden ze gewogen voor ze aan de kuur beginnen en erna. In de onderstaande tabel staan de resultaten.

proefpersoon 1 2 3 4 5 6 7 8 9 10
gewicht X {\displaystyle X} voor 110 85 73 91 163 88 92 75 103 115
gewicht Y {\displaystyle Y} na 99 83 75 86 141 79 96 70 91 102
verschil Z = X Y {\displaystyle Z=X-Y} 11 2 –2 5 22 9 –4 5 12 13

Er is sprake van gepaarde waarnemingen. De beide gewichten van een en dezelfde proefpersoon kunnen niet als onafhankelijk worden beschouwd. Ook is het niet aannemelijk dat de gewichten voor de kuur en evenzo na de kuur uit een normale verdeling komen. Voor de verschilscores Z {\displaystyle Z} kan wel veilig aangenomen worden dat ze een aselecte steekproef uit een normale verdeling vormen. Als het middel geen effect heeft is de verwachting μ Z {\displaystyle \mu _{Z}} van de verschilscore 0. Er wordt dus getoetst:

H 0 : μ Z = 0 {\displaystyle H_{0}:\mu _{Z}=0}

tegen

H 1 : μ Z > 0 {\displaystyle H_{1}:\mu _{Z}>0}

De toetsingsgrootheid T {\displaystyle T} is dus:

T = Z ¯ 0 S n {\displaystyle T={\frac {{\bar {Z}}-0}{S}}{\sqrt {n}}} .

Uit de steekproef volgt voor T {\displaystyle T} een waarde:

t = z ¯ s n = 7 , 3 7 , 75 10 = 2 , 98 {\displaystyle t={\frac {\bar {z}}{s}}{\sqrt {n}}={\frac {7{,}3}{7{,}75}}{\sqrt {10}}=2{,}98}

De nulhypothese wordt verworpen voor te grote waarden van T {\displaystyle T} . Om na te gaan of de gevonden waarde t {\displaystyle t} te groot is bepalen wordt de (rechter) overschrijdingskans van t {\displaystyle t} bepaald. Uit een tabel van de t-verdeling met n 1 = 9 {\displaystyle n-1=9} vrijheidsgraden kan afgelezen worden dat de p-waarde van deze uitkomst t {\displaystyle t} kleiner is dan 1%.

P ( T t ; H 0 ) = P ( T ( 9 ) 2 , 98 ) = 0,008 < 0 , 01 {\displaystyle P(T\geq t;H_{0})=P(T(9)\geq 2{,}98)=0{,}008<0{,}01}

Ook in dit voorbeeld wordt de nulhypothese verworpen (op 5% niveau) en wordt aangenomen aan dat het middel effectief is of dat er een placebo-effect is.

Definitie bij onafhankelijke steekproeven

Laat X 1 , X 2 , , X n {\displaystyle X_{1},X_{2},\ldots ,X_{n}} en Y 1 , Y 2 , , Y m {\displaystyle Y_{1},Y_{2},\ldots ,Y_{m}} twee onafhankelijke aselecte steekproeven zijn uit respectievelijk een N ( μ X , σ 2 ) {\displaystyle {\mathrm {N} }(\mu _{X},\sigma ^{2})\,} - en een N ( μ Y , σ 2 ) {\displaystyle {\mathrm {N} }(\mu _{Y},\sigma ^{2})\,} -verdeling met onbekende verwachtingswaarden en onbekende maar gelijke varianties. De t-toets voor het toetsen van de nulhypothese:

H 0 : μ X = μ Y {\displaystyle H_{0}:\mu _{X}=\mu _{Y}}

is een toets gebaseerd op de toetsingsgrootheid:

T = X ¯ Y ¯ S 1 n + 1 m {\displaystyle T={\frac {{\bar {X}}-{\bar {Y}}}{S{\sqrt {{\frac {1}{n}}+{\frac {1}{m}}}}}}} ,

waarin X ¯ {\displaystyle {\bar {X}}} en Y ¯ {\displaystyle {\bar {Y}}} de steekproefgemiddelden zijn en S 2 {\displaystyle S^{2}} de zgn. gepoolde variantie is, gegeven door:

S 2 = ( n 1 ) S X 2 + ( m 1 ) S Y 2 n + m 2 {\displaystyle S^{2}={\frac {(n-1)S_{X}^{2}+(m-1)S_{Y}^{2}}{n+m-2}}} ,

die het gewogen gemiddelde is van de beide afzonderlijke steekproefvarianties S X 2 {\displaystyle S_{X}^{2}} en S Y 2 {\displaystyle S_{Y}^{2}} .

Onder de nulhypothese heeft T {\displaystyle T} een t-verdeling met n + m 2 {\displaystyle n+m-2} vrijheidsgraden. Afhankelijk van het gekozen alternatief verwerpt men de nulhypothese eenzijdig dan wel tweezijdig.

Er is bij deze definitie aangenomen dat beide populatievarianties aan elkaar gelijk zijn. Wanneer dit niet het geval is, moet er een aangepaste t-toets uitgevoerd worden.

Voorbeeld 3

Zijn vrouwen van 40 jaar gemiddeld zwaarder dan vrouwen van 30 jaar? Om dat na te gaan wordt een aselecte steekproef genomen van n = 10 {\displaystyle n=10} vrouwen van 30 en een aselecte steekproef van m = 15 {\displaystyle m=15} vrouwen van 40, onafhankelijk van de eerste steekproef. Elke vrouw wordt gewogen. In de onderstaande tabel staan de resultaten.

gewicht in kg
x {\displaystyle x} van 30-jarigen 77 65 73 58 63 49 51 82 103 69
y {\displaystyle y} van 40-jarigen 102 73 56 55 83 72 88 70 81 85 44 71 62 78 75

Er is sprake van twee onafhankelijk steekproeven. De beide gewichten die in de tabel boven elkaar staan, hebben niets met elkaar te maken. Er wordt aangenomen dat beide steekproeven afkomstig zijn uit normale verdelingen met gelijke varianties, en verwachtingswaarden respectievelijk μ X {\displaystyle \mu _{X}} en μ Y {\displaystyle \mu _{Y}} . Er wordt getoetst:

H 0 : μ X = μ Y {\displaystyle H_{0}:\mu _{X}=\mu _{Y}}

tegen

H 1 : μ X < μ Y {\displaystyle H_{1}:\mu _{X}<\mu _{Y}}

De toetsingsgrootheid T {\displaystyle T} is dus:

T = X ¯ Y ¯ S 1 n + 1 m = X ¯ Y ¯ S 1 10 + 1 15 {\displaystyle T={\frac {{\bar {X}}-{\bar {Y}}}{S{\sqrt {{\frac {1}{n}}+{\frac {1}{m}}}}}}={\frac {{\bar {X}}-{\bar {Y}}}{S{\sqrt {{\frac {1}{10}}+{\frac {1}{15}}}}}}}

Uit de steekproef volgt:

x ¯ = 69 , 0 {\displaystyle {\bar {x}}=69{,}0}
y ¯ = 73 , 0 {\displaystyle {\bar {y}}=73{,}0}
s X 2 = 255 , 8 {\displaystyle s_{X}^{2}=255{,}8}
s Y 2 = 213 , 7 {\displaystyle s_{Y}^{2}=213{,}7}

dus

s = 9 s X 2 + 14 s Y 2 23 = 230 , 2 = 15 , 2 {\displaystyle s={\sqrt {\frac {9s_{X}^{2}+14s_{Y}^{2}}{23}}}={\sqrt {230{,}2}}=15{,}2}

Voor T {\displaystyle T} wordt dus de volgende waarde gevonden:

t = x ¯ y ¯ s 1 10 + 1 15 = 69 , 0 73 , 0 15 , 2 1 10 + 1 15 = 0 , 65 {\displaystyle t={\frac {{\bar {x}}-{\bar {y}}}{s{\sqrt {{\frac {1}{10}}+{\frac {1}{15}}}}}}={\frac {69{,}0-73{,}0}{15{,}2{\sqrt {{\frac {1}{10}}+{\frac {1}{15}}}}}}=-0{,}65}

De nulhypothese wordt verworpen voor te kleine waarden van T {\displaystyle T} . Om na te gaan of de gevonden waarde t {\displaystyle t} te klein is, wordt de (linker) overschrijdingskans van t {\displaystyle t} bepaald. Uit een tabel van de t-verdeling met n + m 2 = 23 {\displaystyle n+m-2=23} vrijheidsgraden kan de p-waarde van deze uitkomst afgelezen worden.

P ( T t ; H 0 ) = P ( T ( 23 ) 0 , 65 ) = 0 , 26 {\displaystyle P(T\leq t;H_{0})=P(T(23)\leq -0{,}65)=0{,}26}

Deze overschrijdingskans is te groot om reden te geven tot verwerping van de nulhypothese. Weliswaar waren de vrouwen van 40 in de steekproef gemiddeld 4 kg zwaarder dan de vrouwen van 30, maar dit verschil is niet significant gezien de spreiding binnen de groepen.

Software

De t-toets is een van de meest gebruikte toetsen in de statistiek, en zit daarom in de meeste statistische en data-verwerkingsprogramma's. Zo kan men in de statistische programmeertaal R de t-toets uitvoeren met behulp van de functie t.test. In Python is de t-toets beschikbaar in de SciPy bibliotheek. In de rekenbladen van Microsoft Excel en LibreOffice Calc is er de functie ttoets resp. T.TOETS of "T.TEST". In MATLAB wordt gebruikgemaakt van het commando ttest voor de t-toets en ttest2 voor twee onafhankelijke steekproeven. Een veelgebruikt programma voor dergelijke statistische toetsen is SPSS.