Estimación del parámetro de máxima verosimilitud: asumiendo la media de las observaciones

Actualmente estoy en una clase de probabilidad aprendiendo sobre la estimación de parámetros usando el estimador de máxima verosimilitud. El problema es el siguiente: tenemos una lista de observaciones independientes Y y[1]...y[n], que provienen de alguna distribución de probabilidad F Y ( y , λ ) con un parámetro desconocido λ . (Por ejemplo, exponencial, Gaussiana, Poisson, etc.)

Queremos estimar el parámetro λ maximizando la probabilidad de que veamos las observaciones que hacemos. Como todas las observaciones son independientes, tenemos probabilidad PAG ( Y , λ ) = i = 1 norte F Y ( y i , λ ) . Para maximizar esto, tomamos la derivada con respecto a λ y poner a 0.

λ ^ = argumento máximo λ [ PAG ( Y , λ ) ]

Algo que noté: para cada ejemplo de esto que he visto hasta ahora (solo alrededor de 2 o 3 ahora), el resultado final es siempre el mismo: el valor del parámetro es lo que hace que la media de su vector de observación sea igual mi [ F Y ( y , λ ) ] . Por ejemplo, para una distribución exponencial, obtenemos

λ ^ = 1 1 norte i y i = 1 m Y
Esto tiene sentido intuitivo, porque para una distribución exponencial, el valor esperado es 1 / λ . Mi pregunta es esta: ¿ siempre puede asumir que la media de sus observaciones es la media de su distribución de probabilidad y simplemente resolver los parámetros desconocidos usando esa suposición? Solo porque funciona para los pocos casos que he visto, no sé si esto se puede generalizar a cualquier distribución de probabilidad. Soy completamente nuevo en estos temas, por lo que agradecería cualquier información adicional.

¡Gracias de antemano!

tienes razón en eso λ ^ = 1 1 norte i = 1 norte y i = 1 y ¯ . Este es el extimador de máxima verosimilitud. Pero el siguiente signo de igualdad no es correcto. Confundiste la media de la muestra y el valor esperado. Ahora puedes calcular el valor esperado de λ ^ . sale que mi ( λ ^ ) = norte norte 1 λ . Entonces hay un sesgo como mi ( λ ^ ) λ = norte norte 1 λ λ = ( 1 norte norte 1 ) λ = ( norte 1 norte 1 norte norte 1 ) λ = 1 norte 1 λ

Respuestas (2)

Estás notando que en algunos casos el MLE es igual al resultado de establecer el valor esperado de las observaciones (p. ej. mi Y = 1 λ ) igual a la media muestral observada ( y ¯ = 1 norte i = 1 norte y i ) y resolviendo el parámetro (p. ej. λ ^ = 1 y ¯ ). Este último método se denomina método de los momentos (MOM) y generalmente no da el mismo resultado que MLE. (Sin embargo, existe una especie de conexión entre MLE y un MOM generalizado ).

Como un ejemplo de cómo los dos pueden diferir, considere X 1 , X 2 , X 3 uniforme ( 0 , θ ) . Entonces θ ^ MLE = máximo { X 1 , X 2 , X 3 } , mientras θ ^ MAMÁ = 2 X ¯ .

NB : El estimador MOM a veces puede no tener sentido; por ejemplo, en el ejemplo anterior, si las observaciones son ( X 1 , X 2 , X 3 ) = ( 1 , 1 , 10 ) , entonces θ ^ MAMÁ = 2 X ¯ = 2 1 + 1 + 10 3 = 8 , aunque un valor de 10 ¡fue observado!

ok, entonces consideremos el caso donde X 1 , , X norte son independientes y se distribuyen uniformemente en el intervalo [ 0 , θ ] y quieres el MLE de θ . La media de la distribución es θ / 2. La densidad para una sola observación es

F ( X ) = { 1 / θ si  0 < X < θ , 0 de lo contrario.
La densidad conjunta es
X { 1 / θ norte si  0 < X 1 , , X norte < θ , 0 si al menos uno de  X 1 , , X norte  es  > θ .
eso implica
L ( θ ) = { 1 / θ norte si  θ > máximo { X 1 , , X norte } , 0 si  θ < máximo { X 1 , , X norte } .
Como θ se vuelve más pequeño, L ( θ ) se hace más grande, hasta θ se vuelve más pequeño que máximo { X 1 , , X norte } . Entonces el valor de θ que maximiza L ( θ ) es máximo { X 1 , , X norte } .

Ahora fíjate en dos cosas:

  • No encontramos esto igualando la derivada a 0 y resolviendo para θ . No siempre se hace así.
  • ese valor de θ hace que la media de la distribución sea igual a máximo { X 1 , , X norte } / 2 , y eso no es igual a ( X 1 + + X norte ) / norte . Vea si puede encontrar ejemplos concretos, digamos con norte = 3 , dónde ( X 1 + X 2 + X 3 ) / 3 no está cerca máximo { X 1 , X 2 , X 3 } / 2.