¿Por qué la autoinformación está dada por ?
Shannon derivó una medida del contenido de la información llamada autoinformación o "sorpresa" de un mensaje. :
dónde es la probabilidad de que el mensaje se elige entre todas las opciones posibles en el espacio del mensaje
Si no hay informacion en el mensaje?
Hay varias respuestas posibles a esto. Una es mirar la definición de Shannon de la entropía,
Pero también hay una forma más intuitiva y heurística de entender la autoinformación. Llevemos el logaritmo a base 2, para que la sorpresa se mida en bits.
Ahora, imaginemos que tenemos un canal de comunicación de bits, y que todos los mensajes posibles son igualmente probables. Entonces para , un mensaje podría ser algo como . ¿Cuánta información ganamos si recibimos ese mensaje en particular? Intuitivamente, debería ser bastante obvio que son 8 bits.
Ahora preguntemos ¿cuál era la probabilidad de recibir ese mensaje? Bueno, eso está dado por , o 1 en 256. Dado esto, podemos calcular la autoinformación como pedacitos
Es fácil ver que esto funcionará con cualquier . Entonces, la autoinformación es la forma (única) de convertir probabilidades en bits para que esté de acuerdo con nuestra intuición en casos de ejemplo tan simples, mientras que tampoco hace nada extraño en casos menos intuitivos.
Como otros señalaron en los comentarios, cuando no hay información en el mensaje. Esto también encaja muy bien con nuestra intuición. Por ejemplo: ¿cuánta información ganas si te digo que estamos ubicados en el planeta Tierra? Bueno, ninguno en absoluto, ya que eso ya lo sabías. En tu mente no había ninguna probabilidad de que pudiéramos estar ubicados en ningún otro planeta, y por lo tanto mi mensaje no te decía nada. En general, si sabe que algo va a suceder, no se sorprenderá cuando suceda, por lo que tiene sentido que la sorpresa sea cero en tales casos.
Para mí, lo que realmente le da piernas a la definición de Shannon es el Teorema de codificación sin ruido de Shannon . Demuestra el siguiente hecho notable e importante:
Deje que una fuente de información envíe un mensaje que comprenda símbolos estadísticamente independientes y suponga que estos símbolos pertenecen a un alfabeto de letras, y que la probabilidad de transmisión del símbolo ser .
Suponga ahora que la fuente envía a través de un canal de comunicación que puede enviar 0 y 1 de manera que pueda enviar sin ruido bits por segundo, pero no más rápido (puede imaginarse un enlace de telecomunicaciones que pueda cambiar de manera confiable entre el estado "apagado" y "encendido" veces por segundo).
Supongamos que ahora enviamos símbolos a través de este enlace (tenga en cuenta que deberá haber un esquema de codificación, como ASCII o Unicode, para transformar nuestros símbolos en secuencias de 0 y 1) a una velocidad de símbolos por segundo.
Entonces, el teorema de codificación sin ruido muestra que existe un esquema de codificación tal que la probabilidad de error como si .
Por el contrario, si , entonces la probabilidad de error de transmisión como independientemente del esquema de codificación que se utilice.
En otras palabras, si asigna bits por símbolo en la capacidad de su enlace, y si está dispuesto a almacenar en búfer los mensajes para que se envíen en grandes porciones símbolos de largo, entonces puede encontrar un esquema de codificación que hará que la probabilidad de error de transmisión sea arbitrariamente pequeña. "Usted está obligado a tener éxito" al hacer suficientemente grande.
si asignas bits por símbolo, donde , entonces seguramente habrá errores de transmisión sin importar cuán pequeños sean es. "Si escatimas en la tasa de transmisión máxima del canal, aunque sea un poquito, estás destinado a fallar" .
realmente es una medida de qué tan rápido debe enviar la señal, y ni un ápice más, en bits por símbolo, si desea transmitir mensajes de manera confiable para esta fuente de información.
Véase también el apéndice de ET Jaynes, "Teoría de la información y mecánica estadística" , que muestra que también puede interpretarse como la única función que cumple tres propiedades razonables de continuidad, monotonicidad y la llamada "ley de composición".
Las otras respuestas ya hacen un muy buen trabajo, pero permítanme enfatizar este punto: asumimos que el "experimentador" tiene un conocimiento a priori de la distribución de probabilidad. Esto debería ayudar a aclarar por qué el "Si no hay información" puede sonar mal.
Supongamos (como siempre) que el "experimentador" sabe que , ese es todo el espacio del mensaje . Entonces es intuitivo que la información obtenida al descubrir que es cero Por el bien de la discusión posterior, observe que este ejemplo es equivalente a un espacio de mensaje , dónde y .
Las cosas son diferentes si el "experimentador" no conoce la distribución de probabilidad de antemano. En este caso, un hallazgo experimental como hará que el "experimentador" esté bastante seguro de que si el espacio del mensaje es , ¡entonces esta no es una distribución justa de monedas! (por supuesto que no puede afirmar esto con total certeza). En este sentido más amplio, el "experimentador" está aprendiendo que la distribución es muy similar a una distribución.
Permítanme señalar que la entropía de Shannon tiene una definición axiomática que nos lleva a la forma
es una función continua de
puede ser determinado por por un procedimiento iterativo usando
Este segundo axioma realmente explica todo, en mi opinión . Dice que la entropía de Shannon funciona bien con la factorización de sus datos. De hecho, uno puede pensar en el lado izquierdo como la información total obtenida al observar el valor de una variable aleatoria distribuida de acuerdo con . Ahora imagine que tenemos dos dispositivos: el dispositivo 1 que puede diferenciar cualquiera de los valores excepto que no puede decidir entre el valor 1 y el valor 2; y el dispositivo 2, que solo puede diferenciar 1 y 2. Si combinamos los dispositivos 1 y 2, deberíamos poder obtener toda la información sobre nuestra variable aleatoria. La ganancia de información esperada es exactamente la RHS de la relación anterior.
kyle kanos
demonio
jerry schirmer
kyle kanos
b
, la entropía para el siguiente bit es 0 porque sabe que seráb
.