¿Por qué la autoinformación es −log(p(m))−log⁡(p(m))-\log(p(m))?

Question

¿Por qué la autoinformación es −log(p(m))−log⁡(p(m))-\log(p(m))?

demonio

¿Por qué la autoinformación está dada por $-\log(p(m))$ ?

Shannon derivó una medida del contenido de la información llamada autoinformación o "sorpresa" de un mensaje. $m$ :

$I (metro) = registro (\frac{1}{pag (metro)}) = - registro (pag (metro))$ $I(m) = \log \left( \frac{1}{p(m)} \right) = - \log( p(m) ) \,$ dónde $p(m)$ es la probabilidad de que el mensaje $m$ se elige entre todas las opciones posibles en el espacio del mensaje

Si $p=1$ no hay informacion en el mensaje?

kyle kanos

Sí, los eventos que siempre ocurren no comunican información.

demonio

¿Es porque ya hay un "recuerdo" sobre este evento?

jerry schirmer

Suponga que tiene un detector que mide si la energía se conserva, y solo eso. Estoy tratando de enviarte una señal. Yo manipulo tu entorno de forma arbitraria y tú usas tu detector para hacer experimentos con las cosas que te rodean. Nunca dirás que estoy tratando de enviarte una señal, pase lo que pase, porque todo lo que tu detector hará es decir "sí, la energía se conserva".

kyle kanos

@messias: diría que no es tanto el recuerdo como el conocimiento de que siempre será un evento

m

$m$ . Por ejemplo, suponga que siempre le envío la letra b, la entropía para el siguiente bit es 0 porque sabe que será b.

Respuestas (4)

¿Por qué la autoinformación es −log(p(m))−log⁡(p(m))-\log(p(m))?

Sí, los eventos que siempre ocurren no comunican información.
Suponga que tiene un detector que mide si la energía se conserva, y solo eso. Estoy tratando de enviarte una señal. Yo manipulo tu entorno de forma arbitraria y tú usas tu detector para hacer experimentos con las cosas que te rodean. Nunca dirás que estoy tratando de enviarte una señal, pase lo que pase, porque todo lo que tu detector hará es decir "sí, la energía se conserva".
@messias: diría que no es tanto el recuerdo como el conocimiento de que siempre será un evento $m$ . Por ejemplo, suponga que siempre le envío la letra b, la entropía para el siguiente bit es 0 porque sabe que será b.

N. Virgo · Answer 1

Hay varias respuestas posibles a esto. Una es mirar la definición de Shannon de la entropía,

H = - \sum_{i} {pag}_{i} registro {pag}_{i},

$H = -\sum_i p_i \log p_i,$ y tenga en cuenta que tiene la forma de una expectativa:

H

$H$ es el valor esperado de

- \log p_{i}

$-\log p_i$ , por lo que tiene sentido dar un nombre a esta última cantidad. Esto es bueno si entiendes el valor de la entropía. En el artículo de Shannon ('A Mathematical Theory of Communication', fácilmente disponible en línea) ofrece una muy buena derivación de la definición de

H

$H$ desde los primeros principios, y vale la pena analizarlo si realmente quieres entender de dónde provienen estas cantidades.

Pero también hay una forma más intuitiva y heurística de entender la autoinformación. Llevemos el logaritmo a base 2, para que la sorpresa se mida en bits.

Ahora, imaginemos que tenemos un $n$ canal de comunicación de bits, y que todos los mensajes posibles son igualmente probables. Entonces para $n=8$ , un mensaje podría ser algo como $00101110$ . ¿Cuánta información ganamos si recibimos ese mensaje en particular? Intuitivamente, debería ser bastante obvio que son 8 bits.

Ahora preguntemos ¿cuál era la probabilidad de recibir ese mensaje? Bueno, eso está dado por $\left(\frac{1}{2}\right)^8$ , o 1 en 256. Dado esto, podemos calcular la autoinformación como $-\log_2 \frac{1}{256} = 8$ pedacitos

Es fácil ver que esto funcionará con cualquier $n$ . Entonces, la autoinformación es la forma (única) de convertir probabilidades en bits para que esté de acuerdo con nuestra intuición en casos de ejemplo tan simples, mientras que tampoco hace nada extraño en casos menos intuitivos.

Como otros señalaron en los comentarios, cuando $p=1$ no hay información en el mensaje. Esto también encaja muy bien con nuestra intuición. Por ejemplo: ¿cuánta información ganas si te digo que estamos ubicados en el planeta Tierra? Bueno, ninguno en absoluto, ya que eso ya lo sabías. En tu mente no había ninguna probabilidad de que pudiéramos estar ubicados en ningún otro planeta, y por lo tanto mi mensaje no te decía nada. En general, si sabe que algo va a suceder, no se sorprenderá cuando suceda, por lo que tiene sentido que la sorpresa sea cero en tales casos.

Selene Routley · Answer 2

Para mí, lo que realmente le da piernas a la definición de Shannon es el Teorema de codificación sin ruido de Shannon . Demuestra el siguiente hecho notable e importante:

Deje que una fuente de información envíe un mensaje que comprenda símbolos estadísticamente independientes y suponga que estos símbolos pertenecen a un $N$ alfabeto de letras, y que la probabilidad de transmisión del $j^{th}$ símbolo ser $p_j$ .

Suponga ahora que la fuente envía a través de un canal de comunicación que puede enviar 0 y 1 de manera que pueda enviar sin ruido $h$ bits por segundo, pero no más rápido (puede imaginarse un enlace de telecomunicaciones que pueda cambiar de manera confiable entre el estado "apagado" y "encendido" $h$ veces por segundo).

Supongamos que ahora enviamos $M$ símbolos a través de este enlace (tenga en cuenta que deberá haber un esquema de codificación, como ASCII o Unicode, para transformar nuestros símbolos en secuencias de 0 y 1) a una velocidad de $s$ símbolos por segundo.

Entonces, el teorema de codificación sin ruido muestra que existe un esquema de codificación tal que la probabilidad de error $\to 0$ como $M\to\infty$ si $\frac{h}{s} > H = -\sum\limits_{j=1}^Np_j\,\log\,p_j$ .

Por el contrario, si $\frac{h}{s} < H = -\sum\limits_{j=1}^N p_j\,\log\,p_j$ , entonces la probabilidad de error de transmisión $\to 1$ como $M\to\infty$ independientemente del esquema de codificación que se utilice.

En otras palabras, si asigna $H$ bits por símbolo en la capacidad de su enlace, y si está dispuesto a almacenar en búfer los mensajes para que se envíen en grandes porciones $M$ símbolos de largo, entonces puede encontrar un esquema de codificación que hará que la probabilidad de error de transmisión sea arbitrariamente pequeña. "Usted está obligado a tener éxito" al hacer $M$ suficientemente grande.

si asignas $H-\epsilon$ bits por símbolo, donde $\epsilon>0$ , entonces seguramente habrá errores de transmisión sin importar cuán pequeños sean $\epsilon$ es. "Si escatimas en la tasa de transmisión máxima del canal, aunque sea un poquito, estás destinado a fallar" .

$H$ realmente es una medida de qué tan rápido debe enviar la señal, y ni un ápice más, en bits por símbolo, si desea transmitir mensajes de manera confiable para esta fuente de información.

Véase también el apéndice de ET Jaynes, "Teoría de la información y mecánica estadística" , que muestra que $H$ también puede interpretarse como la única función que cumple tres propiedades razonables de continuidad, monotonicidad y la llamada "ley de composición".

rexciro · Answer 3

Las otras respuestas ya hacen un muy buen trabajo, pero permítanme enfatizar este punto: asumimos que el "experimentador" tiene un conocimiento a priori de la distribución de probabilidad. Esto debería ayudar a aclarar por qué el "Si $p=1$ no hay información" puede sonar mal.

Supongamos (como siempre) que el "experimentador" sabe que $p(m_X)=1$ , ese es todo el espacio del mensaje $\{m_X\}$ . Entonces es intuitivo que la información obtenida al descubrir que $m_{measured }= m_X$ es cero Por el bien de la discusión posterior, observe que este ejemplo es equivalente a un espacio de mensaje $\{m_X, m_Y\}$ , dónde $p(m_X)=1$ y $p(m_Y)=0$ .

Las cosas son diferentes si el "experimentador" no conoce la distribución de probabilidad de antemano. En este caso, un hallazgo experimental como $m_{measured}=\{ m_X, m_X, m_X, m_X, m_X , \dots_{1000 \, times}\}$ hará que el "experimentador" esté bastante seguro de que si el espacio del mensaje es $\{m_X, m_Y\}$ , ¡entonces esta no es una distribución justa de monedas! (por supuesto que no puede afirmar esto con total certeza). En este sentido más amplio, el "experimentador" está aprendiendo que la distribución es muy similar a una $p(m_X)=1$ distribución.

ryan thorngren · Answer 4

Permítanme señalar que la entropía de Shannon tiene una definición axiomática que nos lleva a la forma

S_{norte} ({pag}_{1}, \dots, {pag}_{norte}) = - C \sum_{j} {pag}_{j} registro {pag}_{j},

$S_n(p_1,\ldots,p_n) = - C \sum_{j} p_j \log p_j,$ dónde

C

$C$ es una constante indeterminada. Los axiomas son

$S_2(p,1-p)$ es una función continua de $p$
$S_n(p_1,\ldots,p_n)$ puede ser determinado por $S_2$ por un procedimiento iterativo usando

S_{norte} ({pag}_{1}, \dots, {pag}_{norte}) = S_{norte - 1} ({pag}_{1} + {pag}_{2}, {pag}_{3}, \dots, {pag}_{norte}) + ({pag}_{1} + {pag}_{2}) S (\frac{{pag}_{1}}{{pag}_{1} + {pag}_{2}}, \frac{{pag}_{2}}{{pag}_{1} + {pag}_{2}}) .

$S_n(p_1,\ldots,p_n) = S_{n-1}(p_1+p_2,p_3,\ldots,p_n) + (p_1 + p_2)S(\frac{p_1}{p_1+p_2},\frac{p_2}{p_1+p_2}).$

Este segundo axioma realmente explica todo, en mi opinión . Dice que la entropía de Shannon funciona bien con la factorización de sus datos. De hecho, uno puede pensar en el lado izquierdo como la información total obtenida al observar el valor de una variable aleatoria distribuida de acuerdo con $p_1,\ldots,p_n$ . Ahora imagine que tenemos dos dispositivos: el dispositivo 1 que puede diferenciar cualquiera de los valores excepto que no puede decidir entre el valor 1 y el valor 2; y el dispositivo 2, que solo puede diferenciar 1 y 2. Si combinamos los dispositivos 1 y 2, deberíamos poder obtener toda la información sobre nuestra variable aleatoria. La ganancia de información esperada es exactamente la RHS de la relación anterior.

¿Por qué la autoinformación es −log(p(m))−log⁡(p(m))-\log(p(m))?

demonio

kyle kanos

demonio

jerry schirmer

kyle kanos

Respuestas (4)

N. Virgo

Selene Routley

rexciro

ryan thorngren

¿Puede la Segunda Ley de la Termodinámica / Entropía anular las Leyes de Newton?

¿La entropía mide el trabajo extraíble?

Segunda ley de la estadística

Constante del demonio de Maxwell (equivalencia de información-energía)

¿Por qué ignoramos la entropía inicial cuando calculamos la entropía de mezcla de una mezcla ideal?

Exorcismo del demonio de Maxwell

¿Cómo aumenta la falta de información a medida que aumenta la temperatura?

¿Cuánta entropía de Shannon hay en las personas que votan por Trump? [cerrado]

Entropía: carencia subjetiva de conocimiento que lleva a conclusiones objetivas

Distribución de Maxwell-Boltzmann (velocidad) como distribución de máxima entropía y su interpretación