¿Cuál es la interpretación de las contribuciones individuales a la entropía de Shannon?

Si X = { X 1 , X 2 , , X norte } se asignan probabilidades pag ( X i ) , entonces la entropía se define como

i = 1 norte   pag ( X i ) ( registro pag ( X i ) ) .

Uno puede llamar I ( X i ) = registro pag ( X i ) la información asociada a X i y considere lo anterior como un valor esperado. En algunos sistemas tiene sentido ver pag como la tasa de ocurrencia de X i y luego alto bajo pag ( X i ) el "valor de tu sorpresa" siempre que X i sucede corresponde con I ( X i ) siendo mas grande También vale la pena señalar que pag es una función constante, obtenemos una situación similar a la de Boltzmann.

Pregunta : Ahora me pregunto, dado | X | > 1 , cómo puedo interpretar, para indexado fijo j un solo término pag ( X i ) ( registro pag ( X i ) ) . Que hace " X j el contribución a la entropía" o "precio" representan? ¿Qué es pag registro ( pag ) si también hay otras probabilidades.

ingrese la descripción de la imagen aquí

Pensamientos : Es cero si pag es uno o cero. En el primer caso, la sorpresa de algo que ocurrirá con certeza es nula y en el segundo caso nunca ocurrirá y por lo tanto no cuesta nada. Ahora

( pag registro ( pag ) ) = registro ( 1 pag ) 1.

Con respecto a pag , La función tiene un máximo que, curiosamente, es al mismo tiempo un punto fijo, a saber 1 mi = 0.368 . Es decir, la contribución máxima de un solo término a pag ( X i ) ( registro pag ( X i ) ) surgirá si para algunos X j , tienes pag ( X j ) 37 % .

Mi pregunta surgió cuando alguien me preguntó cuál era el significado de X X tener un minimo X 0 en X 0 = 1 mi es. esto es naturalmente mi X registro ( X ) y di un ejemplo sobre la transferencia de señales. El extremo es la contribución individual con la entropía máxima y quería argumentar que, después de la optimización de la codificación/minimización de la entropía, los eventos que suceden con una probabilidad pag ( X j ) 37 % del tiempo será en total "más aburrido para que usted envíe". Ocurren con relativa frecuencia y la longitud óptima de codificación podría no ser demasiado corta. Pero carezco de interpretación de la contribución de entropía individual para ver si esta idea tiene sentido, o cuál es una mejor lectura de ella.

También se relaciona con esas unidades de información, por ejemplo, nat . Uno sobre mi es lo mínimo, tiempo que trabajas base mi (con el logaritmo natural) o con registro 2 , y registro 2 ( 1 mi ) = en ( 2 ) .


editar: Relacionado: Me topé con 1 mi como probabilidad: regla de parada del 37% .

¿No está satisfecho con la idea de que la entropía de Shannon es la "información promedio"? Es decir, el valor esperado de la variable aleatoria I ( X ) . En este caso pag i registro pag i es solo la contribución ponderada del evento X i a este promedio.
@MarkMitchison: para responder a su pregunta: no, no estoy descontento con esa interpretación para la suma total (he señalado que toma la forma de un valor esperado).

Respuestas (1)

Esta es una respuesta un poco negativa, pero considere en cambio una expectativa de alguna otra cantidad, como la energía:

mi = i pag i mi i .
Ahora, es obvio lo que mi i significa - es la energía del estado i pero que hace pag i mi i ¿significar? La respuesta no es mucho en realidad - es la contribución del estado i a la energía esperada, pero rara vez es útil considerar esto, excepto en el contexto de resumir todas las contribuciones de los estados.

En el contexto de la teoría de la información, pag i registro pag i es el mismo. registro pag i es lo significativo: es la "sorpresa" o la información obtenida al aprender ese estado i es de hecho el verdadero estado. pag i registro pag i es el aporte del estado i a la entropía de Shannon, pero no es realmente significativo excepto en el contexto de sumar todas las contribuciones de todos los estados.

En particular, hasta donde he podido ver, el valor que lo maximiza, 1 / mi , no es una probabilidad particularmente especial en términos de teoría de la información. La razón es que siempre hay que sumar las contribuciones de los otros estados también, y esto cambia el máximo.

En particular, para un sistema de dos estados, hay otro estado cuya probabilidad tiene que ser 1 pag . En consecuencia, su entropía de Shannon está dada por H 2 = pag registro pag ( 1 pag ) registro ( 1 pag ) , y esta función tiene su máximo no en 1 / mi Pero en 1 / 2 .

No estoy seguro de si su respuesta es más que "No sé una interpretación", pero gracias por la respuesta. Con respecto a lo último, también estoy buscando una interpretación de ζ ( s ) = i = 1 norte pag i s , que tiene H = ζ ( 1 ) . Pero esa es otra historia :)
@NikolajK no es tanto "No sé una interpretación" (aunque no lo sé) como "aquí hay una razón por la que no esperaría que haya una interpretación".
@NikolajK tu otra cosa parece relacionada con la entropía de Rényi . Conozco una buena interpretación de la entropía de Rényi , aunque su relación exacta con su fórmula necesitaría un poco de reflexión.
Sí, estuve pensando en ese argumento por un segundo. Supongo que "No conozco a nadie que conozca una interpretación para esta cantidad relacionada tampoco" es más información. ¿Intentaste publicar dos enlaces diferentes? De hecho, hay varios análogos de q, por ejemplo, la entropía de Tsallis .
no es solo una cantidad relacionada, es una más general que incluye la tuya, pero en fin. Sí, quise publicar dos enlaces. La segunda es una interpretación de la entropía de Renti. No conozco una buena interpretación de la entropía de Tsallis, siempre me pareció un poco arbitraria.
Lo que quise decir es que los enlaces apuntan a la misma página. ¿Quiere decir que la entropía de Rényi es menos arbitraria debido a las interpretaciones señaladas en el artículo?
Oh, lo siento. El primero era solo un enlace de Wikipedia. Sí, el punto es que el papel hace que la entropía de Rényi se sienta como algo significativo desde el punto de vista físico e informativo, mientras que para mí el Tsallis parece una ecuación misteriosa que surge de la nada. (Pero si conoce una interpretación, me gustaría escucharla).
Acabo de tropezar 1 mi como probabilidad: regla de parada del 37% .
Interesante - gracias. He pensado en otro caso en el que también surge, que tenía la intención de publicar como respuesta. Déjame ver si tengo tiempo para hacerlo ahora.
Aah, no estoy seguro de si funciona. Mi idea era establecer una situación en la que puedas enviar cualquier señal A o B , pero donde hay un costo para enviar una de las señales pero no la otra. Luego, al tratar de maximizar (información total transmitida)/(costo esperado), podría terminar maximizando pag ( A ) registro pag ( A ) Llegar pag ( A ) = 1 / mi como el óptimo. Pero exactamente lo que pensé no funciona, así que necesito pensar más al respecto.