Estoy tratando de trabajar algunas cosas en R y tengo problemas para entender algunas de las instrucciones.
yo generé muestras de tamaño de la distribución normal estándar, y calculé la media de la varianza muestral de estas. Ahora quiero saber cuál es la varianza muestral de mi muestra de varianzas muestrales. Pero no estoy seguro de entender realmente lo que esto significa, ni cómo implementar esto en R.
Además, se me pide que superponga el histograma que generé a partir de mi muestra con un histograma de la densidad teórica de la distribución de muestreo. ¿Qué quiere decir esto? Es decir, qué se entiende por densidad teórica de la distribución muestral de la varianza muestral.
Sé que todas mis muestras provienen del estándar normal, donde
y se que si sería , ¿es esto a lo que se refiere?
Agradeceré cualquier ayuda y consejo. Gracias
La distribución de la varianza de la muestra es dado por . Supongo que se le pide que brinde una ilustración de esta relación usando R. Considere la siguiente simulación.
m = 1000; n = 5; x = rnorm(m*n)
DTA = matrix(x, nrow=m) # each row a sample of size n
v = apply(DTA, 1, var) # sample variances of m rows
hist((n-1)*v, prob=T, col="wheat", ylim=c(0,.2))
curve(dchisq(x, n-1), lwd=2, col="blue", add=T)
lines(density((n-1)*v), lwd=2, col="darkgreen")
mean(v)
## 1.003081
var(v)
## 0.4881987
Puede que esto no sea exactamente lo que se le pide, pero puede indicarle la dirección correcta. He superpuesto una curva de densidad en el histograma. No estoy seguro de qué tipo de histograma podría superponerse.
Probablemente, un mensaje importante aquí es que la distribución chi-cuadrada relevante tiene df = n-1, no df = n. Puedes intentar superponer la densidad de y verás que no se ajusta del todo bien al histograma.
No sé si conoces los estimadores de densidad, pero en buena medida, también superpuse un estimador de densidad (histograma suavizado) en verde. Para esta simulación en particular, ejecute la curva teórica y el estimador de densidad concuerdan bastante bien, pero si ejecuta el programa varias veces obtendrá algunos casos en los que la concordancia no es tan buena. (Si usa m = 10,000, los resultados serán más estables).
Por favor, avíseme si puede encontrarle sentido a esto para terminar su proyecto. ¿Cuál es la varianza de ? Si no lo sabe, consulte el artículo de Wikipedia sobre 'Distribución de chi-cuadrado'.
Anexo por comentario de @Quality: Porque
tenemos
o
. Asimismo, v
en el programa representa
por lo que no es de extrañar que var(v)
regrese
dentro del error de simulación. (Debido a que las varianzas están en una escala de unidades al cuadrado, el margen de error de la simulación es numéricamente mayor para las varianzas que para las medias: varias ejecuciones adicionales del programa dieron valores entre 0,47 y 0,59. Use para una ejecución más lenta con mayor precisión) m=10^6
.
Calidad
Calidad
bruceet