¿Por qué la autoinformación es −log(p(m))−log⁡(p(m))-\log(p(m))?

¿Por qué la autoinformación está dada por registro ( pag ( metro ) ) ?

Shannon derivó una medida del contenido de la información llamada autoinformación o "sorpresa" de un mensaje. metro :

I ( metro ) = registro ( 1 pag ( metro ) ) = registro ( pag ( metro ) )
dónde pag ( metro ) es la probabilidad de que el mensaje metro se elige entre todas las opciones posibles en el espacio del mensaje

Si pag = 1 no hay informacion en el mensaje?

Sí, los eventos que siempre ocurren no comunican información.
¿Es porque ya hay un "recuerdo" sobre este evento?
Suponga que tiene un detector que mide si la energía se conserva, y solo eso. Estoy tratando de enviarte una señal. Yo manipulo tu entorno de forma arbitraria y tú usas tu detector para hacer experimentos con las cosas que te rodean. Nunca dirás que estoy tratando de enviarte una señal, pase lo que pase, porque todo lo que tu detector hará es decir "sí, la energía se conserva".
@messias: diría que no es tanto el recuerdo como el conocimiento de que siempre será un evento metro . Por ejemplo, suponga que siempre le envío la letra b, la entropía para el siguiente bit es 0 porque sabe que será b.

Respuestas (4)

Hay varias respuestas posibles a esto. Una es mirar la definición de Shannon de la entropía,

H = i pag i registro pag i ,
y tenga en cuenta que tiene la forma de una expectativa: H es el valor esperado de registro pag i , por lo que tiene sentido dar un nombre a esta última cantidad. Esto es bueno si entiendes el valor de la entropía. En el artículo de Shannon ('A Mathematical Theory of Communication', fácilmente disponible en línea) ofrece una muy buena derivación de la definición de H desde los primeros principios, y vale la pena analizarlo si realmente quieres entender de dónde provienen estas cantidades.

Pero también hay una forma más intuitiva y heurística de entender la autoinformación. Llevemos el logaritmo a base 2, para que la sorpresa se mida en bits.

Ahora, imaginemos que tenemos un norte canal de comunicación de bits, y que todos los mensajes posibles son igualmente probables. Entonces para norte = 8 , un mensaje podría ser algo como 00101110 . ¿Cuánta información ganamos si recibimos ese mensaje en particular? Intuitivamente, debería ser bastante obvio que son 8 bits.

Ahora preguntemos ¿cuál era la probabilidad de recibir ese mensaje? Bueno, eso está dado por ( 1 2 ) 8 , o 1 en 256. Dado esto, podemos calcular la autoinformación como registro 2 1 256 = 8 pedacitos

Es fácil ver que esto funcionará con cualquier norte . Entonces, la autoinformación es la forma (única) de convertir probabilidades en bits para que esté de acuerdo con nuestra intuición en casos de ejemplo tan simples, mientras que tampoco hace nada extraño en casos menos intuitivos.

Como otros señalaron en los comentarios, cuando pag = 1 no hay información en el mensaje. Esto también encaja muy bien con nuestra intuición. Por ejemplo: ¿cuánta información ganas si te digo que estamos ubicados en el planeta Tierra? Bueno, ninguno en absoluto, ya que eso ya lo sabías. En tu mente no había ninguna probabilidad de que pudiéramos estar ubicados en ningún otro planeta, y por lo tanto mi mensaje no te decía nada. En general, si sabe que algo va a suceder, no se sorprenderá cuando suceda, por lo que tiene sentido que la sorpresa sea cero en tales casos.

Para mí, lo que realmente le da piernas a la definición de Shannon es el Teorema de codificación sin ruido de Shannon . Demuestra el siguiente hecho notable e importante:

Deje que una fuente de información envíe un mensaje que comprenda símbolos estadísticamente independientes y suponga que estos símbolos pertenecen a un norte alfabeto de letras, y que la probabilidad de transmisión del j t h símbolo ser pag j .

Suponga ahora que la fuente envía a través de un canal de comunicación que puede enviar 0 y 1 de manera que pueda enviar sin ruido h bits por segundo, pero no más rápido (puede imaginarse un enlace de telecomunicaciones que pueda cambiar de manera confiable entre el estado "apagado" y "encendido" h veces por segundo).

Supongamos que ahora enviamos METRO símbolos a través de este enlace (tenga en cuenta que deberá haber un esquema de codificación, como ASCII o Unicode, para transformar nuestros símbolos en secuencias de 0 y 1) a una velocidad de s símbolos por segundo.

Entonces, el teorema de codificación sin ruido muestra que existe un esquema de codificación tal que la probabilidad de error 0 como METRO si h s > H = j = 1 norte pag j registro pag j .

Por el contrario, si h s < H = j = 1 norte pag j registro pag j , entonces la probabilidad de error de transmisión 1 como METRO independientemente del esquema de codificación que se utilice.

En otras palabras, si asigna H bits por símbolo en la capacidad de su enlace, y si está dispuesto a almacenar en búfer los mensajes para que se envíen en grandes porciones METRO símbolos de largo, entonces puede encontrar un esquema de codificación que hará que la probabilidad de error de transmisión sea arbitrariamente pequeña. "Usted está obligado a tener éxito" al hacer METRO suficientemente grande.

si asignas H ϵ bits por símbolo, donde ϵ > 0 , entonces seguramente habrá errores de transmisión sin importar cuán pequeños sean ϵ es. "Si escatimas en la tasa de transmisión máxima del canal, aunque sea un poquito, estás destinado a fallar" .

H realmente es una medida de qué tan rápido debe enviar la señal, y ni un ápice más, en bits por símbolo, si desea transmitir mensajes de manera confiable para esta fuente de información.

Véase también el apéndice de ET Jaynes, "Teoría de la información y mecánica estadística" , que muestra que H también puede interpretarse como la única función que cumple tres propiedades razonables de continuidad, monotonicidad y la llamada "ley de composición".

Las otras respuestas ya hacen un muy buen trabajo, pero permítanme enfatizar este punto: asumimos que el "experimentador" tiene un conocimiento a priori de la distribución de probabilidad. Esto debería ayudar a aclarar por qué el "Si pag = 1 no hay información" puede sonar mal.

Supongamos (como siempre) que el "experimentador" sabe que pag ( metro X ) = 1 , ese es todo el espacio del mensaje { metro X } . Entonces es intuitivo que la información obtenida al descubrir que metro metro mi a s tu r mi d = metro X es cero Por el bien de la discusión posterior, observe que este ejemplo es equivalente a un espacio de mensaje { metro X , metro Y } , dónde pag ( metro X ) = 1 y pag ( metro Y ) = 0 .

Las cosas son diferentes si el "experimentador" no conoce la distribución de probabilidad de antemano. En este caso, un hallazgo experimental como metro metro mi a s tu r mi d = { metro X , metro X , metro X , metro X , metro X , 1000 t i metro mi s } hará que el "experimentador" esté bastante seguro de que si el espacio del mensaje es { metro X , metro Y } , ¡entonces esta no es una distribución justa de monedas! (por supuesto que no puede afirmar esto con total certeza). En este sentido más amplio, el "experimentador" está aprendiendo que la distribución es muy similar a una pag ( metro X ) = 1 distribución.

Permítanme señalar que la entropía de Shannon tiene una definición axiomática que nos lleva a la forma

S norte ( pag 1 , , pag norte ) = C j pag j registro pag j ,
dónde C es una constante indeterminada. Los axiomas son

  1. S 2 ( pag , 1 pag ) es una función continua de pag

  2. S norte ( pag 1 , , pag norte ) puede ser determinado por S 2 por un procedimiento iterativo usando

S norte ( pag 1 , , pag norte ) = S norte 1 ( pag 1 + pag 2 , pag 3 , , pag norte ) + ( pag 1 + pag 2 ) S ( pag 1 pag 1 + pag 2 , pag 2 pag 1 + pag 2 ) .

Este segundo axioma realmente explica todo, en mi opinión . Dice que la entropía de Shannon funciona bien con la factorización de sus datos. De hecho, uno puede pensar en el lado izquierdo como la información total obtenida al observar el valor de una variable aleatoria distribuida de acuerdo con pag 1 , , pag norte . Ahora imagine que tenemos dos dispositivos: el dispositivo 1 que puede diferenciar cualquiera de los valores excepto que no puede decidir entre el valor 1 y el valor 2; y el dispositivo 2, que solo puede diferenciar 1 y 2. Si combinamos los dispositivos 1 y 2, deberíamos poder obtener toda la información sobre nuestra variable aleatoria. La ganancia de información esperada es exactamente la RHS de la relación anterior.