¿Por qué suma mod k de distribuciones uniformes converge a uniforme?

Estoy repitiendo una acción cada diez minutos; ocurre el 10 norte minuto de cada hora. Si en cambio lo repito cada { 10 , 11 } minutos, elegido 50/50, cada minuto de la hora se vuelve igualmente probable en el límite. ¿Por qué?

Formalmente: dejar k ser dado, y dejar X i distribuirse uniformemente en un subconjunto de { 0 , , k 1 } tal que su soporte contiene dos valores d a y d b con gramo C d ( d b d a , k ) = 1 . Dejar Y j = ( i = 1 j X i )   modificación   k . Entonces conjeturo que las distribuciones de Y norte convergen a una distribución uniforme en { 0 , , k 1 } como norte va al infinito. ¿Es esto cierto? ¿Por qué?

Además, ¿puede el requisito de uniformidad en X i ¿estar relajado? ¿Qué significa la convergencia de una función (por ejemplo, la función de densidad de probabilidad de Y j ) incluso decir? Supongo que dado que no es cero en solo un número finito de puntos, ¿lo que quiero es una convergencia puntual? Mis propias ideas de prueba se centran en el CLT, y tal vez dado que su función de densidad es (¿uniforme?) continua, si aumento norte lo suficiente como para aumentar la dispersión, por lo que la diferencia de masa de probabilidad a través de k cubos de modificación consecutivos se pueden limitar arbitrariamente cerca de 0. ¿Es este un camino fructífero?

La pregunta relacionada muestra las condiciones en las que la parte fraccionaria de una suma de variables iid converge a una distribución uniforme: math.stackexchange.com/questions/4157329/…

Respuestas (4)

Denotemos la transformada de Fourier de X 1 por

φ ( j ) = mi [ Exp { 2 π i j X 1 / k } ] ,

y consideración φ como una función en Z / k Z . Dado que los puntos en D son puntos extremos del conjunto convexo D ¯ , lo sabemos | φ ( j ) | = 1 si y solo si Exp { 2 π i j X 1 / k } es constante como Esto equivale a decir que

X X ( modificación k / mcd ( k , j ) )

cuando sea X y X mentir en el apoyo de X 1 . Ahora, bajo la suposición del OP, esto puede ocurrir solo para j = 0 . Como consecuencia, | φ ( j ) | < 1 para j 0 y por lo tanto

mi [ Exp { 2 π i j Y norte / k } ] = φ ( j ) norte 1 { j = 0 } .

Desde 1 { j = 0 } es la transformada de Fourier de la distribución uniforme sobre Z / k Z , resulta que Y norte converge en distribución a la distribución uniforme sobre Z / k Z .

Si ( X norte : norte norte ) es una secuencia iid de variables aleatorias admitidas en { 0 , , k 1 } . Si S k , norte = j = 1 norte X j modificación k , entonces 1 k S k , norte modificación 1 se apoya en { j / k : 0 j < k 1 } . Por lo tanto, es suficiente considerar medidas discretas con apoyo fino sobre el círculo S 1 = R / 2 π Z .

La transformada de Fourier de la distribución uniforme m ( j / k ) = 1 k para 0 j < k es

m ^ ( metro ) = j = 0 k 1 1 k mi 2 π i metro j / k = 1 mi 2 π metro 1 mi 2 π i metro / k = 1 k Z ( metro )

Dejar { X norte } ser una secuencia iid soportada en { 0 , 1 / k , , ( k 1 ) / k } con distribución v tal que hay j 1 < j 2 con gramo . C . d ( j 2 j 1 , k ) = 1 tal que v ( j 1 / k ) v ( j 2 / k ) > 0 . Dejar S norte = j = 1 norte X j

v ^ S norte ( metro ) = ( v ^ ( metro ) ) norte = ( mi 2 π i metro X v ( d X ) ) norte = ( j = 1 k 1 v ( j / k ) mi 2 π i j metro / k ) norte
Note que si metro k Z , v ^ ( metro ) = 1 . Por el contrario, supongamos metro es tal que | v ^ ( metro ) | = | 0 1 mi 2 π i X metro v ( d X ) | = 1 , y deja θ metro ( 0 , 1 ) tal que tal que mi 2 π i θ v ^ ( metro ) = 1 . Entonces
1 = mi 2 π i θ 0 1 mi 2 π metro X v ( d X ) = 0 1 porque ( 2 π ( metro X θ ) ) v ( d X )
esto significa que 2 π ( metro X θ ) 2 π Z , es decir apoyar ( v ) θ metro + 1 metro Z . Desde apoyar ( v ) { j / k : 0 j < k } se sigue que para dos puntos cualesquiera j 1 k , j 2 k en apoyar ( v ) , j 1 < j 2 , hay un entero pag tal que
j 2 j 1 = k pag metro < k
Por supuesto, hay un par j 1 / k y j 2 / k en apoyar ( v ) con 0 j 1 < j 2 < k tal que
1 = 1 ( j 2 j 1 ) + 2 k
para algunos 1 , 2 Z . Por eso
metro = 1 metro ( j 2 j 2 ) + 2 metro k = k ( 1 pag + metro 2 ) ,
eso es, metro = pag k para algunos pag norte . Esto muestra que v ^ ( metro ) < 1 a menos que metro k Z . Como consecuencia
límite norte v ^ S norte ( metro ) = límite norte ( v ^ ( metro ) ) norte = 1 k Z ( metro )
Esto significa que v S norte converge débilmente a la distribución uniforme sobre { 0 , , k 1 } .

Comencemos con el caso más fácil, donde PAG ( X i = 0 ) = PAG ( X i = 1 ) = 1 / 2. Definir Z j = i = 1 k X i . En este caso Z j se distribuye binomialmente con j Pruebas y probabilidad de éxito. 1 / 2 . Supongamos por simplicidad que k divide j + 1 . Por lo tanto, para todos 0 a < k

PAG ( Y j = a ) = i = 0 j / k PAG ( Z j = k i + a ) = 2 j i = 0 j / k ( j k i + a ) .
Ahora, usando
i = 0 j / k ( j k i + a ) = 1 k i = 0 k 1 ω i a ( 1 + ω i ) j ,
dónde ω es el k -ésima raíz (compleja) de la unidad (esto se demuestra por ejemplo en suma lacunaria de coeficientes binomiales ), obtenemos
PAG ( Y j = a ) = i = 0 j / k PAG ( Z j = k i + a ) = 1 k i = 0 k 1 ω i a ( 1 + ω i ) j 2 j .
En esta última suma, todos los términos con i 0 convergen a cero (ya que la base en el numerador tiene un valor absoluto estrictamente menor que 2) y por lo tanto
PAG ( Y j = a ) 1 k ,
para j como se desee.

Sin embargo, no estoy seguro de que un argumento combinatorio de este tipo pueda extenderse fácilmente a subconjuntos arbitrarios. Creo que el CLT podría ser útil, pero no sé cómo aplicarlo exactamente.

Con respecto a su pregunta sobre el significado de la convergencia de variables aleatorias, hay varias definiciones que se presentan, por ejemplo, en https://en.wikipedia.org/wiki/Convergence_of_random_variables . En su caso, hablamos de convergencia en la distribución, es decir, las masas de probabilidad convergen a PAG ( Y j = a ) 1 / k para todos 0 a < k , cuando j . Hay formas más fuertes de convergencia, que deberían probarse por separado.

Dejar X norte ser independientes e idénticamente distribuidos con apoyo en un subconjunto de { 0 , , k 1 } para algunos k , con d 1 , d 2 dado tal que gramo C d ( d 2 d 1 , k ) = 1 y PAG ( X i = d 1 ) PAG ( X i = d 2 ) > 0 .

Entonces existen números enteros s , t tal que

s ( d 2 d 1 ) + t k = 1 = 1 + k ( d 2 d 1 ) k ( d 2 d 1 ) = ( s + k ) ( d 2 d 1 ) + ( t d 2 + d 1 ) k
Elija un positivo tal s , por ejemplo, mínimo. Después s transiciones, si todas las transiciones son d 1 entonces un módulo particular metro es alcanzado; si todas las transiciones son d 2 entonces metro + 1 es alcanzado. Así, después s k transiciones cada módulo es alcanzable: puede alcanzar k metro + i = 1 k ( 0  o  1 ) .

Dejar Y norte = ( i = 1 norte X i )   modificación   k . Entonces el Y norte formar una cadena de Markov (gracias a iid). Dejar PAG sea ​​su matriz de transición. Dado que se puede acceder a cada estado desde cualquier otro estado después de algunos metro = s k transiciones, la cadena es regular (en la terminología de Snell y Grinstead, ver http://pi.math.cornell.edu/~web3040/amsbook.mac-probability.pdf ).

Como la cadena es regular, PAG norte converge a una matriz W como norte donde todas las filas equivalen a algún vector de probabilidad w (un vector v es un vector de probabilidad si cada entrada está en [ 0 , 1 ] y la suma de las entradas es 1). Además, si v = v PAG entonces v es múltiplo de w (ver Snell y Grinstead).

Dejar 1 norte sea ​​el vector fila con norte todas las entradas son 1. Entonces

( 1 k PAG ) 1 , C = d = 1 k pag C d , C = d = 0 k 1 PAG ( X = d ) = 1
y por lo tanto w = [ 1 k 1 k ] , es decir PAG ( Y norte = i ) 1 / k como norte para i { 0 , , k 1 } . QED.

Algunas generalizaciones: una cadena de Markov con matriz q es reversible si cada fila de q T es un vector de probabilidad. Cada cadena de Markov reversible tiene una distribución uniforme sobre estados como su estado estacionario, es decir ( q norte ) i , j 1 k como norte dónde k es el número de estados.

Dejar F 1 , , F norte ser permutaciones de un conjunto finito de estados S tal que

( i , j , s ) : i j F i ( s ) F j ( s )

Si cada transición elige aleatoriamente un F i según cualquier distribución y mapas de cada estado s a F i ( s ) , entonces la cadena de Markov será reversible. Si el conjunto de estados es un grupo y cada uno F gramo i ( gramo j ) = gramo i gramo j entonces el F gramo i formar una familia así. módulo de adición k es un grupo

Para cualquier familia así F gramo 1 , , F gramo norte sobre un grupo cíclico abeliano, si gramo i ( gramo j 1 ) es un generador del grupo para algunos i y j , la cadena de Markov será regular (y por lo tanto convergente). si tenemos gramo C d ( d 2 d 1 , k ) = 1 entonces d 2 d 1 es un generador de este tipo.

Además, si existe gramo i 1 gramo i a = mi = gramo j 1 gramo j b con 0 < a < b y gramo C d ( a , b ) = 1 , y { gramo 1 , , gramo norte } es un generador del grupo, entonces la cadena de Markov es regular: tomar el | GRAMO | productos que generan cada elemento y los rellenan con mi -productos valorados de longitud a o b hasta que todas las secuencias generadoras tengan la misma longitud. Ahora se puede llegar a todos los elementos desde mi en un número fijo de pasos; pero luego se puede llegar a cada elemento desde cualquier otro elemento en un número fijo de pasos. Esto supone que todos los elementos involucrados se eligen con probabilidad positiva.