Identités de Bartlett

Les identités de Bartlett sont en statistique des relations concernant les moments des dérivées de la log-vraisemblance d'un modèle. Elles sont nommées en l'honneur du statisticien anglais Maurice Bartlett.

Idée générale

Considérons un modèle statistique générant des données réelles suivant une distribution de probabilité dépendant d'un paramètre θ {\displaystyle \theta } sur lequel on souhaite faire de l'inférence. Notons Θ {\displaystyle \Theta } l'espace des paramètres et { f θ θ Θ } {\displaystyle \{f_{\theta }\mid \theta \in \Theta \}} la famille des densités de probabilités associée au modèle. Puisque f θ {\displaystyle f_{\theta }} est une densité de probabilité, son intégrale sur R {\displaystyle \mathbb {R} } doit être égale à 1: R f θ ( x ) d x = 1 {\displaystyle \int _{\mathbb {R} }f_{\theta }(x)dx=1} .

Différencier cette égalité par rapport à θ {\displaystyle \theta } permet d'obtenir de nouvelles relations. Le terme de droite étant égal à 1, ses différentielles sont toutes nulles. Le terme de gauche est une intégrale paramétrique et il est souvent possible (sous certaines hypothèses qui doivent être soigneusement vérifiées) d'intervertir intégral et dérivée, de sorte que k θ k R f θ ( x ) d x = R k θ k f θ ( x ) d x {\displaystyle {\frac {\partial ^{k}}{\partial \theta ^{k}}}\int _{\mathbb {R} }f_{\theta }(x)dx=\int _{\mathbb {R} }{\frac {\partial ^{k}}{\partial \theta ^{k}}}f_{\theta }(x)dx} . On obtient alors que pour tout k N {\displaystyle k\in \mathbb {N} ^{*}} , R k θ k f θ ( x ) d x = 0 {\displaystyle \int _{\mathbb {R} }{\frac {\partial ^{k}}{\partial \theta ^{k}}}f_{\theta }(x)dx=0} .

Ces relations donnent les identités de Bartlett lorsqu'on développe la dérivée k {\displaystyle k} -ième. Elles sont généralement exprimées en utilisant la log-vraisemblance log ( f θ ) {\displaystyle \log(f_{\theta })} et ses dérivées[1].

Première identité de Bartlett

Reprenons les notations précédentes et supposons qu'il est possible d'intervertir dérivée et intégrale pour différencier l'égalité f θ ( x ) d x = 1 {\displaystyle \int f_{\theta }(x)dx=1} . Pour raccourcir les notations, notons l θ ( x ) = log ( f θ ( x ) ) {\displaystyle l_{\theta }(x)=\log(f_{\theta }(x))} la log-vraisemblance du modèle.

On obtient alors que θ f θ ( x ) d x = 0 {\displaystyle \int {\frac {\partial }{\partial \theta }}f_{\theta }(x)dx=0} . En remarquant que 1 f θ ( x ) f θ θ = l θ θ ( x ) {\displaystyle {\frac {1}{f_{\theta }(x)}}{\frac {\partial f_{\theta }}{\partial \theta }}={\frac {\partial l_{\theta }}{\partial \theta }}(x)} , cette égalité peut se réécrire l θ θ ( x ) f θ ( x ) d x = 0 {\displaystyle \int {\frac {\partial l_{\theta }}{\partial \theta }}(x)f_{\theta }(x)dx=0} .

Comme cette dernière intégrale correspond à l'espérance de l θ θ ( X ) {\displaystyle {\frac {\partial l_{\theta }}{\partial \theta }}(X)} lorsque X {\displaystyle X} est distribuées selon f θ {\displaystyle f_{\theta }} , la première identité de Bartlett s'écrit

E [ l θ θ ( X ) ] = 0 {\displaystyle \mathbb {E} \left[{\frac {\partial l_{\theta }}{\partial \theta }}(X)\right]=0}

où l'espérance est prise sur une variable aléatoire dont la loi a pour densité f θ {\displaystyle f_{\theta }} .

La fonction l θ θ ( x ) {\displaystyle {\frac {\partial l_{\theta }}{\partial \theta }}(x)} , souvent appelée fonction score, joue un rôle crucial dans l'estimation et les tests statistiques. La première identité de Bartlett indique que le score est d'espérance nulle. Cela garantie entre autres que l'estimateur du maximum de vraisemblance associé est convergent au sens de Fisher.

Seconde identité de Bartlett

Reprenons la première identité de Bartlett sous sa forme intégrale : l θ θ ( x ) f θ ( x ) d x = 0 {\displaystyle \int {\frac {\partial l_{\theta }}{\partial \theta }}(x)f_{\theta }(x)dx=0} et différencions la par rapport à θ {\displaystyle \theta } en supposant, encore une fois, qu'il est possible d'intervertir dérivée et intégrale. Supposons que θ {\displaystyle \theta } est réel, on obtient alors

( 2 l θ θ 2 ( x ) f θ ( x ) + l θ θ ( x ) θ f θ ( x ) ) d x = 0 {\displaystyle \int \left({\frac {\partial ^{2}l_{\theta }}{\partial \theta ^{2}}}(x)f_{\theta }(x)+{\frac {\partial l_{\theta }}{\partial \theta }}(x){\frac {\partial }{\partial \theta }}f_{\theta }(x)\right)dx=0} .

Séparons l'intégrale en deux et en réutilisons le fait que 1 f θ ( x ) f θ θ = l θ θ ( x ) {\displaystyle {\frac {1}{f_{\theta }(x)}}{\frac {\partial f_{\theta }}{\partial \theta }}={\frac {\partial l_{\theta }}{\partial \theta }}(x)} pour arriver à l'égalité suivante:

2 l θ θ 2 ( x ) f θ ( x ) d x = ( l θ θ ( x ) ) 2 f θ ( x ) d x {\displaystyle \int {\frac {\partial ^{2}l_{\theta }}{\partial \theta ^{2}}}(x)f_{\theta }(x)dx=-\int \left({\frac {\partial l_{\theta }}{\partial \theta }}(x)\right)^{2}f_{\theta }(x)dx} .

Les deux termes de cette égalités correspondent à des espérances. Le terme de gauche est l'espérance de 2 l θ θ 2 ( X ) {\displaystyle {\frac {\partial ^{2}l_{\theta }}{\partial \theta ^{2}}}(X)} lorsque X {\displaystyle X} a pour densité f θ {\displaystyle f_{\theta }} , et le terme de droite est l'espérance de ( l θ θ ( X ) ) 2 {\displaystyle \left({\frac {\partial l_{\theta }}{\partial \theta }}(X)\right)^{2}} . Cette espérance correspond à la variance du score l θ θ ( X ) {\displaystyle {\frac {\partial l_{\theta }}{\partial \theta }}(X)} puisque, d'après la première identité de Bartlett, ce dernier est d'espérance nulle. La deuxième identité de Bartlett peut donc s'écrire :

v a r [ l θ θ ( X ) ] = E [ l θ 2 θ 2 ( X ) ] {\displaystyle \mathrm {var} \left[{\frac {\partial l_{\theta }}{\partial \theta }}(X)\right]=-\mathbb {E} \left[{\frac {\partial l_{\theta }^{2}}{\partial \theta ^{2}}}(X)\right]}

Où l'espérance et la variance sont prises sur une variable aléatoire X {\displaystyle X} ayant pour densité f θ {\displaystyle f_{\theta }} .

Cette identité reste vraie lorsque θ {\displaystyle \theta } est un vecteur. La variance est simplement remplacée par la matrice de variance-covariance, et la dérivée partielle seconde par rapport à θ {\displaystyle \theta } de l o g ( f θ ( x ) ) {\displaystyle \mathrm {log} \left(f_{\theta }(x)\right)} par sa matrice hessienne.

La quantité v a r [ θ l θ ( X ) ] {\displaystyle \mathrm {var} \left[{\frac {\partial }{\partial \theta }}l_{\theta }(X)\right]} (ou la matrice dans le cas multivarié), généralement notée I ( θ ) {\displaystyle I(\theta )} , est l'information de Fisher du modèle et joue un rôle important en statistique. Elle permet, entre autres, de calculer la borne de Cramér-Rao ou la loi a loi a priori de Jeffreys (en) en statistiques Bayésiennes. La seconde identité de Bartlett donne un moyen alternatif de calculer cette information de Fisher en utilisant la dérivée seconde de la log-vraisemblance, ce qui est parfois plus simple que de calculer la variance du score θ l θ ( X ) {\displaystyle {\frac {\partial }{\partial \theta }}l_{\theta }(X)} .

Identités d'ordre supérieur

Troisième identité

En dérivant la seconde identité de Bartlett par rapport à θ {\displaystyle \theta } , on obtient, après quelques simplifications, la troisième identité de Bartlett:

E [ ( θ log ( f θ ( X ) ) ) 3 ] = 3 I θ ( θ ) + 2 E [ 3 θ 3 log ( f θ ( X ) ) ] {\displaystyle \mathbb {E} \left[\left({\frac {\partial }{\partial \theta }}\log(f_{\theta }(X))\right)^{3}\right]=3{\frac {\partial I}{\partial \theta }}(\theta )+2\mathbb {E} \left[{\frac {\partial ^{3}}{\partial \theta ^{3}}}\log(f_{\theta }(X))\right]}

I ( θ ) = v a r [ θ log ( f θ ( X ) ) ] = E [ 2 θ 2 log ( f θ ( X ) ) ] {\displaystyle I(\theta )=\mathrm {var} \left[{\frac {\partial }{\partial \theta }}\log(f_{\theta }(X))\right]=-\mathbb {E} \left[{\frac {\partial ^{2}}{\partial \theta ^{2}}}\log(f_{\theta }(X))\right]} est l'information de Fisher.

Quatrième identité

Une différentiation supplémentaire donne la quatrième identité de Bartlett:

E [ ( l θ θ ( X ) ) 4 ] 3 I ( θ ) 2 = 6 2 I θ 2 ( θ ) + 8 θ E [ 3 l θ θ 3 ( X ) ] 3 E [ 4 l θ θ 4 ( X ) ] + 3 v a r [ 2 l θ θ 2 ( X ) ] {\displaystyle \mathbb {E} \left[\left({\frac {\partial l_{\theta }}{\partial \theta }}(X)\right)^{4}\right]-3I(\theta )^{2}=6{\frac {\partial ^{2}I}{\partial \theta ^{2}}}(\theta )+8{\frac {\partial }{\partial \theta }}\mathbb {E} \left[{\frac {\partial ^{3}l_{\theta }}{\partial \theta ^{3}}}(X)\right]-3\mathbb {E} \left[{\frac {\partial ^{4}l_{\theta }}{\partial \theta ^{4}}}(X)\right]+3\mathrm {var} \left[{\frac {\partial ^{2}l_{\theta }}{\partial \theta ^{2}}}(X)\right]} .

Exemple

Considérons des données issues d'une loi normale d'espérance μ {\displaystyle \mu } et d'écart-type σ {\displaystyle \sigma } . Notons θ = ( μ , σ ) {\displaystyle \theta =(\mu ,\sigma )} le vecteur formé par ces deux paramètres. La log-vraisemblance associée à une observation x {\displaystyle x} générée par ce modèle est donnée par :

l ( x ; θ ) = log ( 2 π ) log ( σ ) 1 2 ( x μ σ ) 2 {\displaystyle l(x;\theta )=-\log(2\pi )-\log(\sigma )-{\frac {1}{2}}\left({\frac {x-\mu }{\sigma }}\right)^{2}} .

Commençons par calculer le score, c'est-à-dire la dérivée de la log-vraisemblance :

l θ ( x ; θ ) = ( x μ σ 2 ; 1 σ + ( x μ ) 2 σ 3 ) T {\displaystyle {\frac {\partial l}{\partial \theta }}(x;\theta )=\left({\frac {x-\mu }{\sigma ^{2}}};-{\frac {1}{\sigma }}+{\frac {(x-\mu )^{2}}{\sigma ^{3}}}\right)^{T}} .

Calculons l’espérance du score :

E [ l θ ( X ; θ ) ] = ( E [ X ] μ σ 2 ; 1 σ + E [ ( X μ ) 2 ] σ 3 ) T {\displaystyle \mathbb {E} \left[{\frac {\partial l}{\partial \theta }}(X;\theta )\right]=\left({\frac {\mathbb {E} [X]-\mu }{\sigma ^{2}}};-{\frac {1}{\sigma }}+{\frac {\mathbb {E} [(X-\mu )^{2}]}{\sigma ^{3}}}\right)^{T}}

En utilisant que E [ X ] = μ {\displaystyle \mathbb {E} [X]=\mu } et E [ ( X μ ) 2 ] = σ 2 {\displaystyle \mathbb {E} [(X-\mu )^{2}]=\sigma ^{2}} , on obtient que E [ l θ ( X , θ ) ] = 0 {\displaystyle E\left[{\frac {\partial l}{\partial \theta }}(X,\theta )\right]=0} . La première identité de Bartlett est bien vérifiée.

Si l'on dérive une seconde fois la log-vraisemblance, on obtient la matrice Hessienne suivante :

2 l θ 2 ( x ; θ ) = ( 1 σ 2 2 x μ σ 3 2 x μ σ 3 1 σ 2 3 ( x μ ) 2 σ 4 ) {\displaystyle {\frac {\partial ^{2}l}{\partial \theta ^{2}}}(x;\theta )=\left({\begin{array}{ccc}-{\frac {1}{\sigma ^{2}}}&&-2{\frac {x-\mu }{\sigma ^{3}}}\\-2{\frac {x-\mu }{\sigma ^{3}}}&&{\frac {1}{\sigma ^{2}}}-3{\frac {(x-\mu )^{2}}{\sigma ^{4}}}\end{array}}\right)} .

On obtient donc que

E [ 2 l θ 2 ( x ; θ ) ] = ( 1 σ 2 0 0 2 σ 2 ) {\displaystyle -\mathbb {E} \left[{\frac {\partial ^{2}l}{\partial \theta ^{2}}}(x;\theta )\right]=\left({\begin{array}{ccc}{\frac {1}{\sigma ^{2}}}&&0\\0&&{\frac {2}{\sigma ^{2}}}\end{array}}\right)}

La seconde identité de Bartlett, v a r [ l θ ( X , θ ) ] = E [ 2 l θ 2 ( X , θ ) ] {\displaystyle \mathrm {var} \left[{\frac {\partial l}{\partial \theta }}(X,\theta )\right]=-\mathbb {E} \left[{\frac {\partial ^{2}l}{\partial \theta ^{2}}}(X,\theta )\right]} , indique donc que

v a r [ l θ ( X , θ ) ] = ( 1 σ 2 0 0 2 σ 2 ) {\displaystyle \mathrm {var} \left[{\frac {\partial l}{\partial \theta }}(X,\theta )\right]=\left({\begin{array}{cc}{\frac {1}{\sigma ^{2}}}&0\\0&{\frac {2}{\sigma ^{2}}}\end{array}}\right)} .

Il est possible de calculer directement la variance du score, mais ce calcul peut se révéler plus fastidieux et utilise des résultats non triviaux tels que c o v ( X μ ; ( X μ ) 2 ) = 0 {\displaystyle \mathrm {cov} \left(X-\mu ;(X-\mu )^{2}\right)=0} ou v a r ( ( X μ ) 2 ) = 2 σ 4 {\displaystyle \mathrm {var} ((X-\mu )^{2})=2\sigma ^{4}} .

Utilisation

La seconde identité de Bartlett est communément utilisée pour trouver la borne de Cramér-Rao associée à un estimateur ou pour calculer sa variance asymptotique.

Les identités de Bartlett jouent aussi un rôle dans la réduction de biais[2] d'estimateurs paramétriques. Cette réduction de biais se fonde sur un développement limité des équations d'estimation et fait intervenir les espérances des dérivées de la log-vraisemblance.

Notes et références

  1. M. S. Bartlett, « Approximate Confidence Intervals », Biometrika, vol. 40, nos 1/2,‎ , p. 12 (ISSN 0006-3444, DOI 10.2307/2333091, lire en ligne, consulté le )
  2. DAVID FIRTH, « Bias reduction of maximum likelihood estimates », Biometrika, vol. 80, no 1,‎ , p. 27–38 (ISSN 0006-3444 et 1464-3510, DOI 10.1093/biomet/80.1.27, lire en ligne, consulté le )
  • icône décorative Portail des probabilités et de la statistique