Principio de máxima entropía

En mecánica estadística, el principio de máxima entropía establece que la distribución de probabilidad menos sesgada que se le puede atribuir a un sistema estadístico es aquella en la que dadas unas ciertas condiciones fijas maximiza la entropía, S {\displaystyle S} , esto es, aquella en la que la desinformación es máxima. Esto viene a decir que en una situación de desconocimiento de información la distribución estadística menos sesgada será aquella en que menos información extrínseca al problema contenga. El anterior principio implica que dada la entropía como una función de la distribución de probabilidad y las j condiciones intrínsecas al problema, la distribución menos sesgada para los N microestados cumplirá que:

δ S = 0 {\displaystyle \delta S=0\qquad }

con las condiciones

g i ( P 1 , . . . , P N ) = 0 i = 1 , . . . , j {\displaystyle \qquad g_{i}(P_{1},...,P_{N})=0\qquad i=1,...,j}

Empleando los multiplicadores de Lagrange la función a maximizar es:

  S + i λ i g i ( P 1 , . . . , P N ) = 0 {\displaystyle \ S+\sum _{i}\lambda _{i}g_{i}(P_{1},...,P_{N})=0}

Aplicaciones

Este principio variacional permite obtener las distribuciones microcanónica, canónica y macrocanónica para un sistema. La función entropía utilizada es:

  S = k l P l ln P l {\displaystyle \ S=-k\sum _{l}P_{l}\ln P_{l}}

Colectividad microcanónica

La distribución de probabilidad correspondiente a la colectividad microcanónica es la perteneciente a un sistema aislado (no intercambia ni calor ni materia con el exterior). La única condición del problema será la normalización de la distribución de probabilidad para los N {\displaystyle N} microestados:

l = 1 N P l = 1 g ( P 1 , . . . , P N ) = l = 1 N P l 1 {\displaystyle \sum _{l=1}^{N}P_{l}=1\qquad \Rightarrow \qquad g(P_{1},...,P_{N})=\sum _{l=1}^{N}P_{l}-1}

De modo que por el principio de máximo:

δ δ P j { l = 1 N ( k P l ln P l + λ P l ) λ } = 0   , j = 1 , . . . , N k k ln P j + λ = 0   , j = 1 , . . . , N {\displaystyle {\tfrac {\delta }{\delta P_{j}}}\{\sum _{l=1}^{N}(-kP_{l}\ln P_{l}+\lambda P_{l})-\lambda \}=0\ ,j=1,...,N\qquad \Rightarrow \qquad -k-k\cdot \ln P_{j}+\lambda =0\ ,j=1,...,N}

Dado que ha de cumplirse para toda variación de la distribución:

k k ln P l + λ = 0 λ = k k ln P l l = 1 , . . . , N {\displaystyle -k-k\cdot \ln P_{l}+\lambda =0\qquad \Rightarrow \qquad \lambda =-k-k\cdot \ln P_{l}\qquad \forall l=1,...,N}

Teniendo en cuenta que λ {\displaystyle \lambda } es arbitrario y constante para todo l {\displaystyle l} , se tiene que

P l = c t e l = 1 , . . . , N {\displaystyle \qquad P_{l}=\mathrm {cte} \qquad \forall l=1,...,N}

Por normalización, se tiene:

P l = 1 N {\displaystyle P_{l}={\frac {1}{N}}}

Esto significa que en un sistema aislado, cada uno de los microestados son equiprobables.

Colectividad canónica

La colectividad canónica es la de un sistema en contacto con un foco a temperatura constante, o lo que es lo mismo, dado que la energía media es función de la temperatura, a energía media constante. Las condiciones serán por tanto, normalización de la función de distribución y energía media constante:

l = 1 N P l = 1 g 1 ( P 1 , . . . , P N ) = l = 1 N P l 1 {\displaystyle \sum _{l=1}^{N}P_{l}=1\qquad \Rightarrow \qquad g_{1}(P_{1},...,P_{N})=\sum _{l=1}^{N}P_{l}-1}
l = 1 N P l E l = E g 2 ( P 1 , . . . , P N ) = l = 1 N P l E l E {\displaystyle \sum _{l=1}^{N}P_{l}E_{l}=\langle E\rangle \qquad \Rightarrow \qquad g_{2}(P_{1},...,P_{N})=\sum _{l=1}^{N}P_{l}E_{l}-\langle E\rangle }

Por el principio de máximo:

δ δ P j { l = 1 N ( k P l ln P l + λ 1 P l + λ 2 P l E l ) λ 1 λ 2 E } = 0 ,   j = 1 , . . . , N k k ln P j + λ 1 + λ 2 E j = 0 ,   j = 1 , . . . , N {\displaystyle {\tfrac {\delta }{\delta P_{j}}}\{\sum _{l=1}^{N}(-kP_{l}\ln P_{l}+\lambda _{1}P_{l}+\lambda _{2}P_{l}E_{l})-\lambda _{1}-\lambda _{2}\langle E\rangle \}=0,\ j=1,...,N\qquad \Rightarrow \qquad -k-k\cdot \ln P_{j}+\lambda _{1}+\lambda _{2}E_{j}=0,\ j=1,...,N}

De nuevo ha de cumplirse para toda variación de la distribución:

k k ln P l + λ 1 + λ 2 E l = 0 P l = c t e e λ 2 E l k {\displaystyle -k-k\cdot \ln P_{l}+\lambda _{1}+\lambda _{2}E_{l}=0\qquad \Rightarrow \qquad P_{l}=\mathrm {cte} \cdot e^{\frac {\lambda _{2}E_{l}}{k}}}

A continuación se determinan la constante y el segundo multiplicador de Lagrange. Siendo Z la función de partición canónica, por normalización se tiene que:

P l = e λ 2 E l k Z Z = l e λ 2 E l k {\displaystyle P_{l}={\frac {e^{\frac {\lambda _{2}E_{l}}{k}}}{Z}}\qquad Z=\sum _{l}e^{\frac {\lambda _{2}E_{l}}{k}}}

La entropía será:

S = k l P l ln P l = k l P l ( λ 2 E l k ln Z ) = k ln Z λ 2 E {\displaystyle S=-k\sum _{l}P_{l}\ln P_{l}=-k\sum _{l}P_{l}({\frac {\lambda _{2}E_{l}}{k}}-\ln Z)=k\cdot \ln Z-\lambda _{2}\langle E\rangle }

Por definición de temperatura:

1 T = S E λ 2 = 1 T {\displaystyle {\frac {1}{T}}={\frac {\partial S}{\partial \langle E\rangle }}\qquad \rightarrow \qquad \lambda _{2}=-{\frac {1}{T}}}

De modo que la probabilidad de cada microestado será:

P l = e E l k T Z {\displaystyle P_{l}={\frac {e^{-{\frac {E_{l}}{kT}}}}{Z}}}

El resultado muestra que los estados más probables son los de más baja energía de modo que la probabilidad de que el sistema se encuentre en un estado de alta energía es más bajo cuanto más alta sea la energía. Se puede observa también que en el cálculo de la entropía se obtuvo la siguiente expresión y recordando la definición de energía libre de Helmholtz:

  T S = k T ln Z + E = F + E F = k T ln Z {\displaystyle \ TS=kT\ln Z+\langle E\rangle =-F+E\qquad \Rightarrow \qquad F=-kT\ln Z}

De modo que un problema queda completamente determinado si se llega a conocer su función de partición.

Colectividad macrocanónica

La colectividad macrocanónica es aquella correspondiente a un sistema abierto en el que la energía media y el número medio de partículas es constante. Se puede realizar un cálculo análogo para un sistema que intercambie volumen, polarización, momento magnético, etc. Las condiciones serán por tanto normalización de la distribución y valores esperados de la energía y partículas constantes.

l = 1 N P l = 1 {\displaystyle \sum _{l=1}^{N}P_{l}=1}
l = 1 N P l E l = E {\displaystyle \sum _{l=1}^{N}P_{l}E_{l}=\langle E\rangle }
l = 1 N P l n l = n {\displaystyle \sum _{l=1}^{N}P_{l}n_{l}=\langle n\rangle }

El método será el mismo que en los anteriores dos casos: por el método de los multiplicadores de Lagrange se maximiza el funcional entropía, dado que las variaciones en cada probabilidad son arbitrarias cada uno de los términos del sumatorio ha de anularse independientemente, se define la gran función de partición y por último se determinan las constantes por normalización y recurriendo a las definiciones termodinámicas.

δ l ( k P l ln P l + λ 1 P l + λ 2 P l E l + λ 3 P l n l ) = 0 l ( k k ln P l + λ 1 + λ 2 E l + λ 3 n l ) δ P l = 0 {\displaystyle \delta \sum _{l}(-kP_{l}\ln P_{l}+\lambda _{1}P_{l}+\lambda _{2}P_{l}E_{l}+\lambda _{3}P_{l}n_{l})=0\qquad \rightarrow \qquad \sum _{l}(-k-k\cdot \ln P_{l}+\lambda _{1}+\lambda _{2}E_{l}+\lambda _{3}n_{l})\delta P_{l}=0\qquad \Rightarrow }
k k ln P l + λ 1 + λ 2 E l + λ 3 n l = 0 P l = c t e e λ 2 E l k + λ 3 n l k {\displaystyle -k-k\cdot \ln P_{l}+\lambda _{1}+\lambda _{2}E_{l}+\lambda _{3}n_{l}=0\qquad \Rightarrow \qquad P_{l}=\mathrm {cte} \cdot e^{{\frac {\lambda _{2}E_{l}}{k}}+{\frac {\lambda _{3}n_{l}}{k}}}}

Por normalización.

Z = l e λ 2 E l k + λ 3 n l k P l = e λ 2 E l k + λ 3 n l k Z {\displaystyle {\mathcal {Z}}=\sum _{l}e^{{\frac {\lambda _{2}E_{l}}{k}}+{\frac {\lambda _{3}n_{l}}{k}}}\qquad \Rightarrow \qquad P_{l}={\frac {e^{{\frac {\lambda _{2}E_{l}}{k}}+{\frac {\lambda _{3}n_{l}}{k}}}}{\mathcal {Z}}}}

De modo que:

S = k l P l ln P l = k l P l ( λ 2 E l k + λ 3 n l k ln Z ) = k ln Z λ 2 E λ 3 n {\displaystyle S=-k\sum _{l}P_{l}\ln P_{l}=-k\sum _{l}P_{l}({\frac {\lambda _{2}E_{l}}{k}}+{\frac {\lambda _{3}n_{l}}{k}}-\ln {\mathcal {Z}})=k\cdot \ln {\mathcal {Z}}-\lambda _{2}\langle E\rangle -\lambda _{3}\langle n\rangle }

Por definición de temperatura y potencial químico:

1 T = ( S E ) n λ 2 = 1 T {\displaystyle {\frac {1}{T}}=({\frac {\partial S}{\partial \langle E\rangle }})_{n}\qquad \Rightarrow \qquad \lambda _{2}=-{\frac {1}{T}}}
μ = ( E n ) S λ 3 = μ T {\displaystyle \mu =({\frac {\partial \langle E\rangle }{\partial \langle n\rangle }})_{S}\qquad \Rightarrow \qquad \lambda _{3}={\frac {\mu }{T}}}

La probabilidad de cada microestado será:

P l = e E l k T + μ n l k T Z {\displaystyle P_{l}={\frac {e^{-{\frac {E_{l}}{kT}}+{\frac {\mu n_{l}}{kT}}}}{\mathcal {Z}}}}

Véase también

Enlaces externos

  • Ratnaparkhi A. "A simple introduction to maximum entropy models for natural language processing" Technical Report 97-08, Institute for Research in Cognitive Science, University of Pennsylvania, 1997. Una sencilla introducción a los modelos de máxima entropía en el procesamiento de los lenguajes naturales. (en inglés)
  • Maximum Entropy Modeling (en inglés)
  • A maximum entropy model applied to spatial and temporal correlations from cortical networks in vitro. Esta página contiene direcciones a varios artículos e implementaciones de software de modelos de máxima entropía en la red. (en inglés)
Control de autoridades
  • Proyectos Wikimedia
  • Wd Datos: Q1417473
  • Identificadores
  • LCCN: sh91000157
  • NLI: 987007544252505171
  • Wd Datos: Q1417473