Comprender la definición de variable aleatoria de las cadenas de Markov

Question

Comprender la definición de variable aleatoria de las cadenas de Markov

Matemáticas
probabilidad
cadenas de markov
procesos estocásticos

joshfísica

Actualización Esta pregunta se responde en la sección 3.2 de estas notas .

Como novato en probabilidad, me cuesta entender completamente la definición de una cadena de Markov como una secuencia de variables aleatorias.

Para simplificar, considere cadenas de Markov homogéneas en tiempo discreto con espacios de estados finitos $S$ que tomamos por ser $\{1, \dots, n\}$ . Entiendo la siguiente definición de una cadena de Markov en este contexto:

Una cadena de Markov es un par $(S,P)$ dónde $P = (P_{ij})$ es una matriz de transición .

Dada esta definición, se puede generar una trayectoria de la cadena de Markov que consta de una secuencia infinita $s_0, s_1, \dots$ de elementos de $S$ inicializando en un estado $s_0$ y evolucionando hacia adelante de acuerdo con las probabilidades de transición $(P_{ij})$ .

Hasta ahora todo bien, todo esto es bastante intuitivo.

Sin embargo, supongamos en cambio que uno considera una cadena de Markov como una secuencia $X_0, X_1, \dots$ de variables aleatorias con valores en $S$ teniendo la propiedad de Markov , ¿existe un mapeo estándar entre estas definiciones? En particular, dado que cada $X_k$ es una variable aleatoria cuyo dominio es un espacio muestral $\Omega$ ;

X_{k} : Ω \to S,

$X_k:\Omega\to S,$

y dado que las probabilidades de transición generalmente se describen como probabilidades condicionales;

{PAG}_{i j} = PAG (X_{k} = i ∣ X_{k - 1} = j),

$P_{ij} = \mathbf P(X_k = i\mid X_{k-1}=j),$

o la transposición de esto dependiendo de sus convenciones, presumiblemente hay un espacio de muestra $\Omega$ y una medida de probabilidad $\mathbf P$ sentado en algún lugar ?

Una suposición sería que $\Omega$ puede tomarse como el conjunto de todas las sucesiones $s_0, s_1, \dots$ de elementos de $S$ , la variable aleatoria $X_k$ asigna cualquier secuencia de este tipo a su $k^\mathrm{th}$ elemento,

X_{k} (s_{0}, s_{1}, \dots) = s_{k},

$X_k(s_0, s_1, \dots) = s_k,$

y $\mathbf P$ es cualquier medida de probabilidad sobre el conjunto de subconjuntos de $\Omega$ que satisface la propiedad de Markov.

¿Es esta descripción de (una dirección de) la correspondencia entre estas definiciones de cadena de Markov correcta y/o estándar ?

COMO

TL; DR, pero la primera definición es una definición de un MC homogéneo , no un MC general. En general, la matriz de transición depende de

t

$t$ y describe

X_{t + 1} | X_{t} = X_{t + 1} | X_{t}, \dots, X_{0}

$X_{t+1}|X_t=X_{t+1}|X_t,\dots,X_0$ establecer un vínculo uno a uno entre dos definiciones.

joshfísica

@AS Gracias. Actualizaré la pregunta para reflejar mi mal uso de la terminología.

Respuestas (1)

Comprender la definición de variable aleatoria de las cadenas de Markov

TL; DR, pero la primera definición es una definición de un MC homogéneo , no un MC general. En general, la matriz de transición depende de $t$ y describe $X_{t+1}|X_t=X_{t+1}|X_t,\dots,X_0$ establecer un vínculo uno a uno entre dos definiciones.
@AS Gracias. Actualizaré la pregunta para reflejar mi mal uso de la terminología.

Colocar · Answer 1

No estoy seguro de que esto responda completamente a sus preguntas y definitivamente no soy un experto, pero es lo mejor que pude hacer. Lo siento, es un poco largo y confuso, pero finalmente llego a sus preguntas.

Sí, siempre hay un espacio de estado detrás de una variable aleatoria. $X$ , pero como habrás notado, generalmente se suprime, ya que en cierto sentido describe el "mundo" y todos los estados posibles en los que podría estar el mundo y, por lo tanto, es demasiado complicado para tratarlo directamente.

Nuestro objetivo al definir una variable aleatoria $X:\Omega\rightarrow\mathbb{R}$ es, en un sentido muy real, simplificar nuestro modelo del "mundo" asignando muchos estados al mismo resultado. por ejemplo si $X$ es $0$ o $1$ dependiendo de si mi moneda al aire es cara o cruz, este resultado será, presumiblemente, independiente de si llueve mañana, o la dinámica política en China, etc.

Para ser más explícito, dado que el lanzamiento de la moneda es una probabilidad de 50/50 e independientemente de si llueve o no mañana, eso significa que el conjunto de estados donde llueve se superpondrá uniformemente (en términos de la medida de las dos superposiciones) con el dos juegos de lanzamiento de monedas inconexos que dividen nuestro espacio estatal, además, solo por independencia, las superposiciones serán tales que el acondicionamiento de las caras no cambiará la probabilidad de lluvia. Es decir

PAG (lluvia) = \frac{PAG (lluvia \cap cabezas)}{PAG (cabezas)}

$P(\text{rain}) = \frac{P(\text{rain} \cap \text{heads})}{P(\text{heads})}$

Por lo tanto, el espacio de estado se superpone con esta colección inimaginablemente compleja de conjuntos (eventos medibles) con todo tipo de patrones intrincados de simetrías superpuestas.

Afortunadamente, al simplificar nuestra visión del "mundo" a través de una variable aleatoria $X:\Omega\rightarrow\mathbb{R}$ , $\mathbb{R}$ hereda la propiedad de ser un espacio de probabilidad, donde medimos la probabilidad de un evento $E\subseteq\mathbb{R}$ retractándose de nuevo a $\Omega$ como sigue:

PAG (mi) := PAG (ω \in Ω : X (ω) \in mi)

$P(E) := {\bf P}(\omega\in\Omega : X(\omega)\in E)$

Por lo tanto, no solo podemos suprimir el espacio de estado original $\Omega$ , pero incluso podemos suprimir la variable aleatoria original si queremos, o en otras palabras, podríamos definir una nueva variable aleatoria $Y:\mathbb{R}\rightarrow\mathbb{R}$ que es simplemente la función identidad. Además, bajo algunas suposiciones leves, podemos escribir esta medida heredada como la integral de Lebesgue de una función no negativa $f$ con medida total $1$ , que es solo nuestro pdf familiar. Esta es la razón por $\mathbb{E}Y$ es solo $\int_{\mathbb{R}}yfd\mu$ .

Lo importante para la gente es que aquí es donde comienza la mayoría de los modelos, no con $X$ , pero con $Y$ . Esta es la razón por la que en las aplicaciones a menudo comenzamos nuestro modelo dando una función de distribución/densidad que nos dice $P(E)$ directamente, y luego simplemente agitamos nuestras manos sobre cómo esto "en teoría" se retrae a un espacio de estado a priori consistente pero en última instancia incognoscible $\Omega$ .

Por lo tanto, para su cadena de Markov de espacio de estado finito, es importante aclarar que $s_0,s_1,...$ no son estados de su cadena de Markov, son las funciones de masa de probabilidad heredadas en evolución en $\mathbb{R}$ . Donde su matriz de transición le dice cómo pasar de un pmf al siguiente. Por supuesto, detrás de cada $s_i$ es una variable aleatoria $X_i$ que toma valor $n$ con probabilidad $s_{in}$ y tiene un espacio de estado subyacente $\Omega$ tal que

PAG (X_{i} = norte) := PAG (ω \in Ω : X (ω) \in {s_{i norte}})

$P(X_i=n) := {\bf P}(\omega\in\Omega : X(\omega)\in\{s_{in}\})$

Por lo tanto, quiero dejar en claro que en la formulación de la cadena de Markov de la matriz de transición, tanto el espacio de estado $\Omega$ y la secuencia de variables aleatorias $\{X_i\}$ se suprimen y, en cambio, solo está observando la evolución de la secuencia de funciones de masa de probabilidad asociadas $\{s_i\}$ que le indica la probabilidad de que su cadena de Markov esté en un estado/nodo particular en el momento $i$ .

Su segunda formulación $P_{ij}=P(X_k=i \mid X_{k-1}=j)$ es por lo tanto equivalente a establecer $s_{k-1}$ igual al vector base estándar $e_j$ y luego verificando el valor en el $i^{th}$ coordenada del vector $P^{T}e_j$ ; esto por supuesto será igual a $P_{ij}$ .

cuando escribiste $X(s_0,s_1,...)$ Creo que en lo que podrías estar pensando es en la probabilidad de varias secuencias de estados de tu cadena de Markov, que es algo diferente.

Finalmente, en cuanto a qué $\Omega$ es que no me preocuparía por eso, si realmente quieres, puedes jugar con un conjunto finito $\Omega$ e intente superponer algunos conjuntos de varias maneras para ver cómo el concepto de independencia se trata realmente de la forma en que los conjuntos se superponen en una especie de cascada simétrica.

Gracias, pero no creo que esto responda la pregunta. Sé que en un sentido práctico, sabiendo $\Omega$ no es importante, pero aún quiero saber si la forma en que intenté construir $\Omega$ obras. Entiendo por qué uno podría querer ver la trayectoria de la cadena como una secuencia de pmf, pero ¿es esa necesariamente la forma en que se ve comúnmente? Si es así, ¿por qué el rango de las variables aleatorias a menudo (hasta donde puedo decir) se llamaría el "espacio de estado" de la cadena? Por último, no estaba pensando en $X(s_0, s_1\dots)$ como la probabilidad de varias secuencias de estados, estaba tratando de hacer
(cont.) sentido de una manera simple de construir un apropiado $\Omega$ al pensar en la cadena como un experimento probabilístico en el que se genera una secuencia de estados (elementos de los rangos de las variables aleatorias), y en ese sentido un resultado del experimento sería tal secuencia, lo que llevaría a que el espacio muestral sea el conjunto de todas estas secuencias. Imagínese lanzar una de dos monedas sesgadas según el resultado del último lanzamiento, entonces quiero intentar tomar $\Omega$ ser el conjunto de sucesiones infinitas de $H$ o $T$ , y luego $X_k$ es $1$ Si el $k$ th flip es cara, y $0$ de lo contrario.
@joshphysics, probablemente se llame espacio de estado porque puede pensar en él como el espacio de estado de la variable aleatoria de identidad $Y$ con la medida de probabilidad heredada a través de la variable aleatoria original $X$ . O simplemente podrías llamar $Y$ $X$ y olvidate del original $X$ definido en $\Omega$
Bueno, cuando lo miro en su forma de matriz de transición, diría que verlo como una secuencia de pmf es cómo se ve, ya que eso es lo que hace la matriz de transición, lleva un pmf a otro pmf.
puedes mirar $(P^n)_{ij}$ para la probabilidad de que un camino que comienza en el estado $i$ terminará en el estado $j$ después $n$ pasos. Si desea un espacio de estado en el conjunto de todas las rutas, probablemente sea algo así como $\prod_{i=1}^{\infty}\Omega_{i}$ . Pero un camino particular en ese espacio de estado no será de la forma $s_0,s_1,...$ será una secuencia de estados $s_{0j_0},s_{1j_1},...$
¿No es también válido pensar en la cadena como un sistema dinámico que explora un espacio de estados (no necesariamente de pmf) con una regla dinámica que es probabilística de modo que, en un momento dado, el estado está determinado por una pmf asociada a ese tiempo? , pero no es el propio pmf? Esto (además de mis impresiones de alguna literatura) es mi motivación para querer asociar el estado de una posible trayectoria de la cadena en cada momento $k$ con un posible valor en el rango de una variable aleatoria.
Si lo entiendo correctamente, está hablando de solo mirar un camino particular de la cadena, por lo que la probabilidad del camino sería solo el producto de cada probabilidad de transición para ese camino. Si hay $n$ estados y quiere ver caminos de longitud $N$ entonces supongo que el espacio de estado (heredado) sería $\{1,...,n\}^N$ y las variables aleatorias serían $N$ -varía, pero no diré más porque esto ya está más allá de mi profundidad.
FWIW Encontré algunas notas de conferencias que responden a esta pregunta de la manera que había imaginado ( hamilton.ie/ollie/Downloads/ProbMain.pdf ) -- consulte la sección 3.1.

Comprender la definición de variable aleatoria de las cadenas de Markov

joshfísica

COMO

joshfísica

Respuestas (1)

Colocar

joshfísica

joshfísica

Colocar

Colocar

Colocar

joshfísica

Colocar

joshfísica

joshfísica

Diagonal del (auto) producto de la matriz de transición doblemente estocástica

Un juego infinito de Penney.

Homogeneidad temporal y propiedad de Markov

¿Probabilidades de transición de un paso para una cadena de Markov?

Pregunta de probabilidad justa de dados

Sobre la definición de cadenas de Markov

Demostrando el límite de la matriz doblemente estocástica

¿Cómo encuentras la expectativa de una variable aleatoria que involucra una función de movimientos brownianos?

Comprender la distribución de estado estacionario

Entendiendo el ruido blanco en R2R2\Bbb{R}^2