Elija m veces de n objetos (con reemplazo). ¿Cuántos objetos únicos en promedio se eligen?

Tienes 20 objetos diferentes en una bolsa y eliges 10 veces, cada vez que vuelves a colocar el objeto en una bolsa. La simulación Monte-Carlo (ver más abajo) muestra que, en promedio, se seleccionan alrededor de 8 objetos únicos. Pero, ¿cuál es la respuesta exacta? De manera más general, elija m veces entre n objetos (con reemplazo). ¿Cuál es el promedio? ¿Cuál es la distribución resultante?

Aquí está el código de matlab:

% Choose m times out of n objects (with replacement).
% Output average and distribution

n=20;
m=10;
S=[];
for t=1:10000, 
    S(end+1)  = numel(unique(randi(n,m,1)));
end;
hist(S, 1:n)
mean(S)

Respuestas (3)

Numera los objetos con 1 , 2 , , 20 .

Para i = 1 , 2 , , 20 dejar X i tomar valor 1 si objeto i se elige al menos una vez y se deja que tome valor 0 de lo contrario.

Por linealidad de expectativa y simetría encontramos para X = i = 1 20 X i (es decir, el número total de objetos que se seleccionan al menos una vez) que:

mi X = 20 mi X 1 = 20 PAG ( X 1 = 1 ) = 20 ( 1 PAG ( X 1 = 0 ) ) = 20 ( 1 ( 19 20 ) 10 )


Editar en distribución:

Para encontrar la distribución de la cantidad de objetos que se seleccionan, puede aplicar la inclusión/exclusión. Si I = { 1 , , 20 } y S = { i I X i = 1 } y por ejemplo queremos encontrar PAG ( | S | = 3 ) entonces al principio observe que:

PAG ( | S | = 3 ) = ( 20 3 ) PAG ( S = { 1 , 2 , 3 } )

Ahora queda por encontrar PAG ( S = { 1 , 2 , 3 } ) .

Observa eso:

S = { 1 , 2 , 3 } S { 1 , 2 , 3 }  y  S  no es un subconjunto propio de  { 1 , 2 , 3 }
Eso implica que:
PAG ( S = { 1 , 2 , 3 } ) = PAG ( S { 1 , 2 , 3 } ) PAG ( S { 1 , 2 } S { 1 , 3 } S { 2 , 3 } )

Resolver esto con inclusión/exclusión y simetría da:

PAG ( S = { 1 , 2 , 3 } ) = PAG ( S { 1 , 2 , 3 } ) 3 PAG ( S { 1 , 2 } ) + 3 PAG ( S { 1 } ) =
( 3 20 ) 10 3 × ( 2 20 ) 10 + 3 × ( 1 20 ) 10

Entonces terminamos con:

PAG ( | S | = 3 ) = ( 20 3 ) ( ( 3 20 ) 10 3 × ( 2 20 ) 10 + 3 × ( 1 20 ) 10 )

Clasificando por el número de objetos que aparecen obtenemos la siguiente probabilidad para q objetos:

1 norte metro ( norte q ) q ! { metro q } .

Para comprobar que se trata de una distribución de probabilidad debemos obtener una cuando sumamos todas las probabilidades:

1 norte metro metro ! [ z metro ] q = 1 norte ( norte q ) ( Exp ( z ) 1 ) q .

Podemos agregar q = 0 porque no contribuye al extractor de coeficientes:

1 norte metro metro ! [ z metro ] Exp ( norte z ) = 1.

El cheque pasa. Ahora para el promedio obtenemos

1 norte metro metro ! [ z metro ] q = 1 norte q ( norte q ) ( Exp ( z ) 1 ) q = norte norte metro metro ! [ z metro ] q = 1 norte ( norte 1 q 1 ) ( Exp ( z ) 1 ) q = norte norte metro metro ! [ z metro ] ( Exp ( z ) 1 ) q = 1 norte ( norte 1 q 1 ) ( Exp ( z ) 1 ) q 1 = norte norte metro metro ! [ z metro ] ( Exp ( z ) 1 ) Exp ( ( norte 1 ) z ) = norte norte metro metro ! [ z metro ] ( Exp ( norte z ) Exp ( ( norte 1 ) z ) ) = norte ( 1 1 norte metro ( norte 1 ) metro ) = norte ( 1 ( 1 1 norte ) metro ) .

Esto es equivalente a: Lugar metro bolas en norte urnas, con probabilidad uniforme; ¿Cuántas urnas están ocupadas?

Otras respuestas dan la distribución exacta (que involucra números de Stirling del segundo tipo).

Para grande norte , metro , la distribución se puede aproximar por norte iid variables con distribución de Poisson, y λ = metro / norte

Alquiler Z sea ​​el número de urnas ocupadas, tenemos

PAG ( Z = z ) ( norte z ) ( 1 mi λ ) z mi λ ( norte z )

es decir, un binomio ( norte , pag ) con pag = 1 Exp ( metro / norte )

Entonces su expectativa es (bajo esta aproximación) norte ( 1 Exp ( metro / norte ) ) . Que es asintóticamente equivalente con el valor exacto norte ( 1 ( 1 1 / norte ) metro )