Divergència Kullback-Leibler

Il·lustració de l'entropia relativa per a dues distribucions normals. La típica asimetria és clarament visible.

En estadístiques matemàtiques, la divergència de Kullback-Leibler (KL) (també anomenada entropia relativa i divergència I [1]), denotada D KL ( P Q ) {\displaystyle D_{\text{KL}}(P\parallel Q)} , és un tipus de distància estadística: una mesura de com una distribució de probabilitat P és diferent d'una segona distribució de probabilitat de referència Q.[2] Una interpretació senzilla de la divergència KL de P de Q és l'excés de sorpresa esperat per utilitzar Q com a model quan la distribució real és P. Tot i que és una mesura de com de diferents són dues distribucions, i en cert sentit és, per tant, una "distància", en realitat no és una mètrica, que és el tipus de distància més familiar i formal. En particular, no és simètric en les dues distribucions (a diferència de la variació de la informació), i no satisfà la desigualtat del triangle. En canvi, pel que fa a la geometria de la informació, és un tipus de divergència, una generalització de la distància al quadrat, i per a determinades classes de distribucions (sobretot una família exponencial), satisfà un teorema de Pitàgores generalitzat (que s'aplica a distàncies quadrades).

En el cas simple, una entropia relativa de 0 indica que les dues distribucions en qüestió tenen quantitats d'informació idèntiques. L'entropia relativa és una funció no negativa de dues distribucions o mesures. Té diverses aplicacions, tant teòriques, com ara caracteritzar l'entropia relativa (Shannon) en sistemes d'informació, aleatorietat en sèries temporals contínues i guany d'informació en comparar models estadístics d'inferència; i pràctics, com l'estadística aplicada, la mecànica de fluids, la neurociència i la bioinformàtica.

Introducció i context

Considereu dues distribucions de probabilitat P i Q. Normalment, P representa les dades, les observacions o una distribució de probabilitat mesurada. La distribució Q representa en canvi una teoria, un model, una descripció o una aproximació de P. La divergència Kullback-Leibler D KL ( P Q ) {\displaystyle D_{\text{KL}}(P\parallel Q)} Aleshores s'interpreta com la diferència mitjana del nombre de bits necessaris per codificar mostres de P utilitzant un codi optimitzat per Q en lloc d'un optimitzat per P Tingueu en compte que els rols de P i Q es poden invertir en algunes situacions en què això és més fàcil de calcular, com ara amb l'algorisme d'expectativa-maximització (EM) i els càlculs de límit inferior de l'evidència (ELBO).

Etimologia

L'entropia relativa va ser introduïda per Solomon Kullback i Richard Leibler a Kullback & Leibler (1951) com "la informació mitjana per a la discriminació entre H 1 {\displaystyle H_{1}} i H 2 {\displaystyle H_{2}} per observació de μ 1 {\displaystyle \mu _{1}} ", on s'està comparant dues mesures de probabilitat μ 1 , μ 2 {\displaystyle \mu _{1},\mu _{2}} , i H 1 , H 2 {\displaystyle H_{1},H_{2}} són les hipòtesis que s'està seleccionant a partir de la mesura μ 1 , μ 2 {\displaystyle \mu _{1},\mu _{2}} (respectivament). Ho van indicar per I ( 1 : 2 ) {\displaystyle I(1:2)} , i va definir la "'divergència' entre μ 1 {\displaystyle \mu _{1}} i μ 2 {\displaystyle \mu _{2}} " com la quantitat simetritzada J ( 1 , 2 ) = I ( 1 : 2 ) + I ( 2 : 1 ) {\displaystyle J(1,2)=I(1:2)+I(2:1)} , que ja havia estat definit i utilitzat per Harold Jeffreys el 1948.[3] A Kullback (1959), la forma simètrica torna a ser referida com a "divergència", i les entropies relatives en cada direcció es refereixen com a "divergències dirigides" entre dues distribucions; Kullback va preferir el terme informació de discriminació.[4] El terme "divergència" contrasta amb una distància (mètrica), ja que la divergència simètrica no satisfà la desigualtat del triangle.[5] Kullback (1959). La "divergència dirigida" asimètrica s'ha conegut com la divergència Kullback-Leibler, mentre que la "divergència" simètrica es coneix ara com la divergència de Jeffreys.

Definició

Per a distribucions de probabilitat discretes P i Q definides en el mateix espai mostral,   X   , {\displaystyle \ {\mathcal {X}}\ ,} l'entropia relativa de Q a P es defineix [6] com a

D KL ( P Q ) = x X P ( x )   log (   P ( x )   Q ( x ) )   , {\displaystyle D_{\text{KL}}(P\parallel Q)=\sum _{x\in {\mathcal {X}}}P(x)\ \log \left({\frac {\ P(x)\ }{Q(x)}}\right)\ ,}

que equival a

D KL ( P Q ) = x X P ( x )   log (   Q ( x )   P ( x ) )   . {\displaystyle D_{\text{KL}}(P\parallel Q)=-\sum _{x\in {\mathcal {X}}}P(x)\ \log \left({\frac {\ Q(x)\ }{P(x)}}\right)~.}

En altres paraules, és l'expectativa de la diferència logarítmica entre les probabilitats P i Q, on l'expectativa es pren utilitzant les probabilitats P.

Referències

  1. Csiszar, I Ann. Probab., 3, 1, febrer 1975, pàg. 146–158. DOI: 10.1214/aop/1176996454 [Consulta: lliure].
  2. Kullback, S.; Leibler, R.A. Annals of Mathematical Statistics, 22, 1, 1951, pàg. 79–86. DOI: 10.1214/aoms/1177729694. JSTOR: 2236703 [Consulta: lliure].
  3. Jeffreys, 1948, p. 158.
  4. Kullback, S. The American Statistician, 41, 4, 1987, pàg. 340–341. DOI: 10.1080/00031305.1987.10475510. JSTOR: 2684769.
  5. Kullback, 1959, p. 6.
  6. MacKay, David J.C.. [Divergència Kullback-Leibler a Google Books Information Theory, Inference, and Learning Algorithms] (en anglès). 1st. Cambridge University Press, 2003, p. 34. ISBN 9780521642989.