Percentiel

In de statistiek is een percentiel van een geordende dataset een van de in principe 99 punten die de dataset in 100 delen van gelijke grootte verdelen. Het k {\displaystyle k} -de percentiel is dan een getal dat de k {\displaystyle k} % kleinste data van de ( 100 k ) {\displaystyle (100-k)} % grootste scheidt. Het 95e percentiel is bijvoorbeeld een getal zodanig dat 95% van de data kleiner is of eraan gelijk en 5% groter of eraan gelijk. Veelal zal een percentiel een van de data zelf zijn, maar in sommige gevallen is het percentiel het gemiddelde van twee opeenvolgende data. Percentielen zijn op soortgelijke wijze ook gedefinieerd voor kansverdelingen.

Definitie

Laat p {\displaystyle p} een reëel getal tussen 0 en 1 zijn.

Het 100 p {\displaystyle 100p} -de percentiel van de dataset bestaande uit de n {\displaystyle n} getallen x 1 , , x n {\displaystyle x_{1},\ldots ,x_{n}} , is het getal x p {\displaystyle x_{p}} dat voldoet aan:

  • ten minste p n {\displaystyle pn} van de n {\displaystyle n} getallen zijn niet groter dan x p {\displaystyle x_{p}}
  • ten minste ( 1 p ) n {\displaystyle (1-p)n} van de n {\displaystyle n} getallen zijn niet kleiner dan x p {\displaystyle x_{p}} .

Het 100 p {\displaystyle 100p} -de percentiel van de kansverdeling van de stochastische variabele X {\displaystyle X} is het getal x p {\displaystyle x_{p}} dat voldoet aan:

P ( X x p ) p {\displaystyle P(X\leq x_{p})\geq p}

en

P ( X x p ) 1 p {\displaystyle P(X\geq x_{p})\geq 1-p}

Gerelateerde termen

Percentielen zijn kwantielen die bij een percentage behoren. Percentielen verdelen een dataset in 100 ongeveer gelijke delen. Het 50e percentiel wordt ook de mediaan genoemd. Het 25e, 50e en 75e percentiel worden ook respectievelijk het 1e, 2e en 3e kwartiel genoemd. Decielen zijn de percentielen die bij de percentages 10, 20, ... , 90 behoren.

Berekening

De bovenstaande definitie leidt niet in alle gevallen tot een eenduidige bepaling van de percentielen. Er worden verschillende berekeningswijzen gehanteerd. Hieronder worden tien verschillende methoden besproken. Een voorbeeld laat zien hoe divers de uitkomsten van de berekeningen kunnen zijn.

Dichtstbijzijnde rangnummer

De geordende steekproef x ( 1 ) x ( 2 ) x ( n ) {\displaystyle x_{(1)}\leq x_{(2)}\leq \ldots \leq x_{(n)}} bestaat uit de van klein naar groot geordende n {\displaystyle n} data. Voor het 100 p {\displaystyle 100p} -de percentiel neemt men het element in de dataset met het rangnummer dat "het dichtst" bij p n {\displaystyle pn} ligt, en wel, met k = p n {\displaystyle k=\lceil pn\rceil } :

x p = x ( k ) {\displaystyle x_{p}=x_{(k)}}

Verschillende softwarepakketten: verschillende percentielen

Hoewel de bovenstaande geijkte crf-definitie van het p {\displaystyle p} -de percentiel een eenduidig bepaalde waarde oplevert, blijken softwarepakketten en rekenmachines, afhankelijk van de specifieke dataset, verschillende waarden voor hetzelfde percentiel te geven. Een percentielcalculator kan op maar liefst acht verschillende methoden de percentielen berekenen.[1]

TI-83 en TI-84

Iets van de problematiek van praktische percentielberekeningen ziet men bij de berekening van kwartielen door de rekenmachines TI-83 en TI-84, die veel in het middelbaar onderwijs worden gebruikt. Voor de dataset 1, 2, ... , 9 geven deze rekenmachines Q 1 = 2 , 5 {\displaystyle Q_{1}=2{,}5} en Q 3 = 7 , 5 {\displaystyle Q_{3}=7{,}5} , terwijl volgens de crf-definitie x 0 , 25 = 3 {\displaystyle x_{0{,}25}=3} en x 0 , 75 = 7 {\displaystyle x_{0{,}75}=7} . Datzelfde verschijnsel treedt op bij alle datasets met n = 4 i + 1 {\displaystyle n=4i+1} .

Dat probleem is op te lossen door in voorkomende gevallen de kwartielen te berekenen, waarbij de mediaan inclusief zowel tot de linkerhelft als de rechterhelft van de dataset wordt gerekend.

Het instructieboekje van de TI-83 vermeldt dat Q 1 {\displaystyle Q_{1}} de mediaan is van de punten tussen X min {\displaystyle X_{\text{min}}} en M e d {\displaystyle \mathrm {Med} } , en dat Q 3 {\displaystyle Q_{3}} de mediaan is van de punten tussen M e d {\displaystyle \mathrm {Med} } en X max {\displaystyle X_{\text{max}}} . Bij oneven n {\displaystyle n} wordt echter de mediaan niet meegerekend, noch in de linker-, noch in de rechterhelft. Wel worden de kleinste en de grootste waarde in de rij meegerekend. De relatie tussen de geijkte percentielen en Q 1 {\displaystyle Q_{1}} en Q 3 {\displaystyle Q_{3}} is zwak. Bij bijvoorbeeld de dataset 1, 2, ... , 11 vallen drie punten uit de dataset: 3, 6 en 9, die immers medianen van een oneven aantal getallen zijn. Daardoor ligt links van Q 1 {\displaystyle Q_{1}} slechts 18,2% van de getallen en niet 25%. We zien dat door bepaalde keuzes percentielpunten, in dit geval kwartielen, anders berekend worden dan volgens de hierboven besproken geijkte crf-methode.

Referentiepunten

In softwarepakketten worden diverse methoden gebruikt om percentielen van niet-geklasseerde data te berekenen. Dat er voor verschillende berekeningen wordt gekozen, heeft te maken met een eigenaardigheid van de crf-definitie. Alle p {\displaystyle p} -de percentielen, met k / n < p < ( k + 1 ) / n {\displaystyle k/n<p<(k+1)/n} zijn volgens deze definitie x p = x k + 1 {\displaystyle x_{p}=x_{k+1}} . Voor veel percentages p {\displaystyle p} vallen de percentielen dus samen met hetzelfde datapunt. Dat is een gevolg van het discrete karakter van een eindige dataset. Als de dataset een steekproef is uit een continue stochast en een percentiel van de dataset een schatting is van de percentiel van de populatie, dan is dat samenvallen van percentielen ongewenst. Dat is de reden dat percentielen vaak via lineaire interpolatie worden berekend. Feitelijk vervangt men dan de discontinue crf-grafiek door een continue polygoon. Men kan daarbij echter op verschillende manieren te werk gaan, waarbij verschillende methoden ook verschillende waarden voor hetzelfde percentiel kunnen opleveren.

Om verschillende methoden om percentielen te berekenen te kunnen onderscheiden, gebruiken we een referentiepunt, een getal, zoals n p {\displaystyle np} , dat is afgeleid van p {\displaystyle p} en n {\displaystyle n} . We onderscheiden van het betreffende referentiepunt het gehele deel k {\displaystyle k} en de fractie f {\displaystyle f} , zodat r e f e r e n t i e p u n t = k + f {\displaystyle \mathrm {referentiepunt} =k+f} .[1]

Methode A

Bij deze methode is n p = k + f {\displaystyle np=k+f} .

Submethode A1: { f = 0 x p = 1 2 ( x k + x k + 1 ) f > 0 x p = x k + 1 {\displaystyle {\begin{cases}f=0\to x_{p}={\tfrac {1}{2}}(x_{k}+x_{k+1})\\f>0\to x_{p}=x_{k+1}\\\end{cases}}} , bovenstaande geijkte crf-methode

Submethode A2: { f = 0 x p = x k f > 0 x p = x k + 1 {\displaystyle {\begin{cases}f=0\to x_{p}=x_{k}\\f>0\to x_{p}=x_{k+1}\\\end{cases}}} , variant op geijkte crf-methode, zonder gemiddelde

Submethode A3: x p = ( 1 f ) x k + f x k + 1 {\displaystyle x_{p}=(1-f)\cdot x_{k}+f\cdot x_{k+1}} , gewogen gemiddelde

Methode B

Bij deze methode is ( n + 1 ) p = k + f {\displaystyle (n+1)p=k+f} .

Submethode B1: x p = ( 1 f ) x k + f x k + 1 {\displaystyle x_{p}=(1-f)\cdot x_{k}+f\cdot x_{k+1}} [2]

Submethode B2: { f = 0 x p = x k f > 0 x p = f x k + ( 1 f ) x k + 1 {\displaystyle {\begin{cases}f=0\to x_{p}=x_{k}\\f>0\to x_{p}=f\cdot x_{k}+(1-f)\cdot x_{k+1}\\\end{cases}}} , gewogen gemiddelde

Submethode B3: { f = 0 x p = x k 0 < f < 0 , 5 x p = x k f = 0 , 5 x p = 1 2 ( x k + x k + 1 ) 0 , 5 < f < 1 x p = x k + 1 {\displaystyle {\begin{cases}f=0\to x_{p}=x_{k}\\0<f<0{,}5\to x_{p}=x_{k}\\f=0{,}5\to x_{p}={\frac {1}{2}}(x_{k}+x_{k+1})\\0{,}5<f<1\to x_{p}=x_{k+1}\\\end{cases}}}

Methode C

Bij deze methode is n p + 1 2 = k + f {\displaystyle np+{\tfrac {1}{2}}=k+f} .

n p + 1 2 = k + f x p = x k {\displaystyle np+{\tfrac {1}{2}}=k+f\to x_{p}=x_{k}} , dichtstbijzijnde datapunt, geen lineaire interpolatie

Het afronden van deze methode vindt op de gebruikelijke wijze plaats, maar om statistische vertekening te voorkomen, is 'afronden op even' hier aan te raden.

Methode D

Bij deze methode is ( n 1 ) p = k + f {\displaystyle (n-1)p=k+f} .

{ f = 0 x p = x k + 1 f > 0 x p = x k + 1 + f ( x k + 2 x k + 1 ) {\displaystyle {\begin{cases}f=0\to x_{p}=x_{k+1}\\f>0\to x_{p}=x_{k+1}+f\cdot (x_{k+2}-x_{k+1})\\\end{cases}}}

Methode E

Bij deze methode is ( n 1 ) p + 1 = k + f {\displaystyle (n-1)p+1=k+f} .

x p = ( 1 f ) x k + f x k + 1 {\displaystyle x_{p}=(1-f)\cdot x_{k}+f\cdot x_{k+1}} [2]

Voorbeeld

Gegeven de volgende dataset van 13 geordende getallen:

Rangnummer 1 2 3 4 5 6 7 8 9 10 11 12 13
Data 1 2 3 5 8 13 21 34 35 45 58 66 77

Met behulp van de negen besproken methoden en de TI-83 berekenen we de drie kwartielen en het 40e percentiel:

Methode: A1 A2 A3 B1 B2 B3 C D E TI-83
x 0 , 25 {\displaystyle x_{0{,}25}} 5 5 3,5 4 4 4 3 5 5 4
x 0 , 40 {\displaystyle x_{0{,}40}} 13 13 9 11 10 13 8 12 12 -
x 0 , 50 {\displaystyle x_{0{,}50}} 21 21 17 21 21 21 21 21 21 21
x 0 , 75 {\displaystyle x_{0{,}75}} 45 45 42,5 51,5 51,5 51,5 45 45 45 51,5

We zien dat afhankelijk van de berekeningsmethode, voor bovenstaande dataset, het 40e percentiel kan variëren van 8 tot 13. Opmerkelijk is dat methode A3 een mediaan oplevert die niet het middelste datapunt is.

Microsoft Excel: Inclusieve en exclusieve percentielen

De versie 2013 van Excel kent zowel methode B1 als methode E voor het berekenen van percentielpunten. Het verschil tussen de rangnummers van een exclusief berekende percentiel en een inclusief berekende percentiel is: R EXC R INC = 2 p 1 {\displaystyle R_{\text{EXC}}-R_{\text{INC}}=2p-1} . Het inclusief berekende percentiel ligt daardoor dichter bij de mediaan dan het exclusief berekende percentiel, maar het verschil neemt toe met de afstand tot de mediaan. Hoe groter deze afstand, des te meer ‘trekt’ de mediaan aan het percentiel.

Nemen we als voorbeeld het percentiel x 0 , 25 {\displaystyle x_{0{,}25}} van de dataset in het voorbeeld. Het rangnummer van het eerste kwartiel volgens de exclusieve methode (B1) is 3,5 en het bijbehorende eerste kwartiel is dus 4. Het rangnummer van het eerste kwartiel volgens de inclusieve methode (E) is 4 en het bijbehorende eerste kwartiel is 5. De inclusieve kwartielen liggen een half rangnummer dichter bij de mediaan dan de exclusieve kwartielen.

Waarschuwing

Zoals uit het bovenstaande blijkt berekenen softwarepakketten percentielen van niet over klassen verdeelde data met verschillende methoden. Men mag dus niet zeggen dat de percentielwaarde die een pakket produceert ‘het’ percentiel is. De gebruiker van het pakket dient zich bewust te zijn van de methode waarmee de berekening wordt uitgevoerd. Statistische software kan niet blindelings worden gebruikt.

Percentielen van continue toevalsvariabelen

Als f {\displaystyle f} de kansdichtheid is van een continue toevalsvariabele X {\displaystyle X} en F {\displaystyle F} de bijbehorende verdelingsfunctie, dan kunnen we voor 0 < p < 1 {\displaystyle 0<p<1} het p {\displaystyle p} e percentiel x p {\displaystyle x_{p}} berekenen via de inverse van de verdelingsfunctie: F ( x p ) = x p f ( u ) d u = p x p = F inv ( p ) {\displaystyle F(x_{p})=\int \limits _{-\infty }^{x_{p}}{f(u)\mathrm {d} u}=p\to x_{p}=F^{\text{inv}}(p)} . De oppervlakte onder de kansdichtheidsfunctie wordt verdeeld in een linkerdeel met oppervlakte p {\displaystyle p} en een rechterdeel met oppervlakte 1 p {\displaystyle 1-p} .

Statistische software en de grafische rekenmachines bevatten rekenroutines voor het berekenen van waarden van de inverse van de verdelingsfunctie van diverse continue stochasten en dus van het p {\displaystyle p} e percentiel.

Voorbeeld

Het 40e percentiel van de standaardnormale verdeling is x 0 , 40 = 0,253 3 {\displaystyle x_{0{,}40}=-0{,}2533} .

Percentielen van discrete toevalsvariabelen

Bij het berekenen van percentielen van discrete toevalsvariabelen gaan we op dezelfde wijze te werk als bij het berekenen van percentielen van niet-gegroepeerde data. Als F {\displaystyle F} de verdelingsfunctie is van de discrete toevalsvariabele X {\displaystyle X} , volgt uit de definitie van percentiel voor niet-gegroepeerde data:

{ P ( X x p ) p F ( x p + 0 ) p P ( X x p ) 1 p P ( X < x p ) p F ( x p 0 ) p {\displaystyle {\begin{cases}P(X\leq x_{p})\geq p\to F(x_{p}+0)\geq p\\P(X\geq x_{p})\geq 1-p\to P(X<x_{p})\leq p\to F(x_{p}-0)\leq p\\\end{cases}}}

Als x k {\displaystyle x_{k}} en x k + 1 {\displaystyle x_{k+1}} twee opeenvolgende waarden zijn van X {\displaystyle X} , en F ( x k ) < p < F ( x k + 1 ) {\displaystyle F(x_{k})<p<F(x_{k+1})} , dan is x p x k + 1 {\displaystyle x_{p}-x_{k+1}} . Als daarentegen p = F ( x p ) {\displaystyle p=F(x_{p})} , kan elk getal in het interval [ x k , x k + 1 ] {\displaystyle [x_{k},x_{k+1}]} het percentiel x p {\displaystyle x_{p}} zijn. Men zou in dat geval het percentiel gelijk kunnen kiezen aan het midden van het interval: x p = 1 2 ( x k + x k + 1 ) {\displaystyle x_{p}={\tfrac {1}{2}}(x_{k}+x_{k+1})} .

Percentielen van gegroepeerde data

Zijn de n {\displaystyle n} data verdeeld over m {\displaystyle m} klassen [ x k , x k + 1 ) , {\displaystyle [x_{k},x_{k+1}),} , is f k {\displaystyle f_{k}} de frequentie van de k {\displaystyle k} -de klasse, zijn F k = F ( x k 0 ) {\displaystyle F_{k}=F(x_{k}-0)} en F k + 1 = F ( x k + 1 0 ) {\displaystyle F_{k+1}=F(x_{k+1}-0)} de cumulatieve frequenties op de linker-, respectievelijk rechtergrens van de k {\displaystyle k} -de klasse, en is F k n p < F k + 1 {\displaystyle F_{k}\leq np<F_{k+1}} , dan kunnen we het p {\displaystyle p} -de percentiel berekenen door toepassing van lineaire interpolatie: x p = x k + 1 f k ( x k + 1 x k ) ( p n F k ) {\displaystyle x_{p}=x_{k}+{\frac {1}{f_{k}}}(x_{k+1}-x_{k})(pn-F_{k})}

Voorbeeld

Zeven studenten beoordelen hun leraar op een schaal van 1 tot en met 5. Als de scores 3, 3, 3, 3, 4, 4, 4 zijn, dan is de mediaan van de niet-gegroepeerde data 3. Als de scores 3, 3, 3, 4, 4, 4, 4 zijn, dan is de mediaan van de niet-gegroepeerde data 4. Men kan zich afvragen of het verschil tussen deze twee medianen wel realistisch is. Als men daarentegen de scores over twee klassen verdeelt, vindt men de medianen 3,375 en 3,675. Gezien de twee rijen scores lijken dit ‘eerlijker’ medianen.

Men ziet ook hier dat de keuze voor een specifieke methode bepalend is voor het verkregen antwoord.

Voetnoten
  1. a b Free Statistics and Forecasting Software.
  2. a b Microsoft. PERCENTIEL, functie.