Estimación de la desviación estándar de la población con la desviación estándar de la muestra

Question

Estimación de la desviación estándar de la población con la desviación estándar de la muestra

usuario216094

A las 4:30 de este video, el autor decidió estimar la desviación estándar de la población con la desviación estándar de la muestra (el tamaño de la muestra fue $100$ ).

En el siguiente video, el autor mencionó que era razonable porque el tamaño de la muestra era mayor que $30$ . Bueno, ¿qué nos dice que podríamos estimar la desviación estándar de esta manera? Por que es $30$ ese límite mágico? ¿Tiene algo que ver con el teorema del límite central? (Supongo que no, porque no calculamos la desviación estándar de la media, por lo que no está relacionado de ninguna manera).

Masclins

La clave está en el sesgo del estimador, así que dependiendo del porcentaje que aceptes, cambia. Si estuviera trabajando en algún campo médico donde trabaja con niveles de confianza de

99.9 %

$99.9\%$ ,

30

$30$ sería claramente muy pocos casos. Si está de acuerdo con los niveles de confianza alrededor

95 %

$95\%$ , eso es mucho más aceptable. No puedo recordar cómo calcular el sesgo, pero apuesto a que si lo soluciona, encontrará que responde a su pregunta (lo más probable es que le dé un sesgo de alrededor de

5 %

$5\%$ )

Respuestas (2)

Estimación de la desviación estándar de la población con la desviación estándar de la muestra

La clave está en el sesgo del estimador, así que dependiendo del porcentaje que aceptes, cambia. Si estuviera trabajando en algún campo médico donde trabaja con niveles de confianza de $99.9\%$ , $30$ sería claramente muy pocos casos. Si está de acuerdo con los niveles de confianza alrededor $95\%$ , eso es mucho más aceptable. No puedo recordar cómo calcular el sesgo, pero apuesto a que si lo soluciona, encontrará que responde a su pregunta (lo más probable es que le dé un sesgo de alrededor de $5\%$ )

bruceet · Answer 1

En el fondo, el problema aquí parece ser si usar el estadístico z o el estadístico t para encontrar un intervalo de confianza para la media de la población. $\mu$ o en la prueba de una hipótesis sobre $\mu.$

Suponer $X_1, X_2, \dots, X_n$ es una muestra aleatoria de una población normal en la que tanto la media $\mu$ y la desviación estándar $\sigma$ son desconocidos Deseamos encontrar un intervalo de confianza (IC) del 95% para $\mu.$

si supiéramos $\sigma$ entonces

Z = \frac{\bar{X} - m}{σ / \sqrt{norte}} \sim norte o r metro (0, 1) .

$Z = \frac{\bar X - \mu}{\sigma/\sqrt{n}} \sim Norm(0, 1).$ De este modo

PAG {- 1 / 96 \leq \frac{\bar{X} - m}{σ / \sqrt{norte}} \leq 1.96} = 0,95,

$P\left\{-1/96 \le \frac{\bar X - \mu}{\sigma/\sqrt{n}} \le 1.96\right\} = 0.95,$ en el cual

μ

$\mu$ se puede aislar en unos pocos pasos de álgebra para

PAG {\bar{X} - 1.96 σ / \sqrt{norte} \leq m \leq \bar{X} + 1.96 σ / \sqrt{norte}} = 0,95.

$P\{\bar X - 1.96\sigma/\sqrt{n} \le \mu \le \bar X + 1.96\sigma/\sqrt{n}\} = 0.95.$ Entonces decimos que un IC del 95% para

μ

$\mu$ es

\bar{X} \pm 1.96 σ / \sqrt{n},

$\bar X \pm 1.96\sigma/\sqrt{n},$ en el que todas las cantidades

\bar{X}, σ,

$\bar X, \sigma,$ y

n

$n$ son conocidos. Los números

\pm 1.96

$\pm 1.96$ se eligen porque recortan una probabilidad del 2,5 % de las colas superior e inferior de la distribución normal estándar, dejando el 95 % en el centro.

En caso $\sigma$ es desconocido, es conveniente utilizar la desviación estándar de la muestra $S$ en cambio, afirmando que $\bar X \pm 1.96 S/\sqrt{n}$ o quizás $\bar X \pm 2 S/\sqrt{n},$ es un IC aproximado del 95% para $\mu.$ Si $n \ge 30,$ esta aproximación es bastante buena, por las razones que vemos a continuación.

Si $\sigma$ no se conoce, la distribución exacta es

T = \frac{\bar{X} - m}{S / \sqrt{norte}} \sim T (norte - 1),

$T = \frac{\bar X - \mu}{S/\sqrt{n}} \sim T(n-1),$ Distribución t de Student con

n - 1

$n-1$ grados de libertad. Luego, un IC del 95% exacto para

μ

$\mu$ es

\bar{X} \pm t^{*} S / \sqrt{n},

$\bar X \pm t^* S/\sqrt{n},$ dónde

t^{*}

$t^*$ corta 2.5% de probabilidad de la cola superior de

T (n - 1)

$T(n-1)$ y, por simetría,

- t^{*}

$-t^*$ corta un 2,5% de la parte inferior de la cola. Mirando las tablas de la distribución t vemos que para

n \geq 30

$n \ge 30$ (o

n - 1 \leq 29

$n-1\le 29$ ),

t^{*}

$t^*$ es aproximadamente 2.0. Entonces, el procedimiento aproximado con la distribución normal estándar y el procedimiento exacto con la distribución t de Student equivalen aproximadamente a lo mismo.

Para valores menores de $n$ , los valores de $t^*$ hacerse notablemente más grande. por ejemplo si $n = 10$ , tenemos $t^* = 2.262.$ Por lo tanto, el IC del 95 % se hace más largo (menos preciso). Puede pensar en esta pérdida de precisión como una "penalización" por tener que estimar $\sigma$ por $S$ en lugar de saber el valor exacto de $\sigma.$

Hay algunas buenas razones para olvidar por completo la 'regla de los 30':

Primero, 'funciona' solo para IC del 95%. Para un IC del 99 %, necesitamos reducir el 0,5 % de probabilidad de cada cola: el valor de corte normal es $z^* = 2.576$ y necesitamos aumentar el tamaño de la muestra a aproximadamente $n = 60$ antes $t^* \approx 2.6.$

En segundo lugar, al usar software estadístico, sabemos el valor exacto de $\sigma$ o el programa lo aproximará a partir de los datos como $S.$ Desde el principio, tenemos que saber si estamos haciendo un intervalo z o un intervalo t. El uso de una regla innecesaria sobre el tamaño de la muestra solo confunde el problema. La regla correcta es: usar z-procedures es $\sigma$ es conocido (y por lo general no es en la práctica); utilizar procedimientos t de no.

Tercero, algunos autores de libros elementales intentan usar la 'regla de 30' (sin ninguna justificación teórica) para varios tipos de procedimientos de limitación, aplicabilidad del Teorema del Límite Central, uso seguro de procedimientos t para datos no normales, etc. en. En estas aplicaciones, 30 rara vez es una línea divisoria apropiada.

Excelente respuesta! En las clases me perdí el razonamiento del tamaño de la muestra del IC del 95 % frente al IC del 99 %. Tiene perfecto sentido ahora.
Fantástica explicación! Solo me pregunto cómo manejar $X$ siendo una variable aleatoria discreta en combinación con un tamaño de muestra bajo. Uso de la desviación estándar de la muestra $S$ como estimador de $\sigma$ no parece correcto; digamos que mi variable aleatoria tiene dos resultados posibles: 0 o 1, con $P[X=0]=P[X=1]=0.5$ . Si tomo sólo dos muestras, es muy posible que resulte ser $X_0=X_1=1$ y eso resultará en $S=0$ . Eso significa que, usando la ecuación anterior, el IC del 99 % (o incluso el IC del 99,999 %) será $[1,1]$ porque $S=0$ . como debo estimar $\sigma$ ¿en cambio?
@rem: Ciertamente, estos métodos t y z no se aplican a su ejemplo específico. // Mi explicación es para una muestra de una población normal . Si la dist'n de la $X_i$ es discreto y $n$ es lo suficientemente grande como para que $\bar X$ es aproximadamente normal, entonces algunos autores podrían sugerir el uso de métodos z o t como aproximaciones. // Si se conoce el tipo de distribución discreta (p. ej., binomial, Poisson, etc.), buscaría un método exacto basado en ese tipo de distribución.

Enrique · Answer 2

Ninguno de los dos métodos para estimar la desviación estándar de la población de la muestra produce una estimación insesgada, aunque el $\frac{1}{n-1}$ método produce una estimación imparcial de la varianza.

Si comparas las dos estimaciones de la varianza

s_{s}^{2} = \frac{\sum_{i}^{norte} (X_{i} - \bar{X})^{2}}{norte - 1}

$s_s^2 = \frac{\sum_i^n (x_i - \bar{x})^2}{n-1}$ con

s_{pag}^{2} = \frac{\sum_{i}^{norte} (X_{i} - \bar{X})^{2}}{norte}

$s_p^2 = \frac{\sum_i^n (x_i - \bar{x})^2}{n}$ entonces claramente

\frac{s_{p}^{2}}{s_{s}^{2}} = \frac{n - 1}{n}

$\frac{s_p^2}{s_s^2} = \frac{n-1}{n}$ y entonces

\frac{s_{pag}}{s_{s}} = \sqrt{1 - \frac{1}{norte}} \approx 1 - \frac{1}{2 norte}

$\dfrac{s_p}{s_s} = \sqrt{1-\frac{1}{n}} \approx 1 - \frac{1}{2n}$ que se acerca a

1

$1$ como

n

$n$ aumenta (por

n = 30

$n=30$ se trata

0.983

$0.983$ y para

n = 100

$n=100$ acerca de

0.995

$0.995$ ) y este factor es menos importante que la incertidumbre al estimar la desviación estándar de la población a partir de una muestra aleatoria.

Además: aunque la varianza muestral $S^2$ calculado usando $n-1$ es imparcial para $\sigma^2,$ la imparcialidad no 'sobrevive' a las transformaciones no lineales. Para datos normales $E(S) = [\sqrt{2/(n-1)}\Gamma(n/2)/\Gamma((n-1)/2)]\sigma.$ Así, para una muestra normal de tamaño $n=5,$ tenemos $E(S) \approx .94\sigma.$ El coeficiente en [ ]s converge a 1 al aumentar $n$ . Consulte Wikipedia sobre 'Estimación imparcial de la desviación estándar'.

Estimación de la desviación estándar de la población con la desviación estándar de la muestra

usuario216094

Masclins

Respuestas (2)

bruceet

Kocur4d

movimiento rápido del ojo

bruceet

Enrique

bruceet

¿Por qué los límites de esta integral no consideran ambas igualdades?

desviación estándar de la muestra desviación estándar de la población dada

¿Qué es la varianza muestral de la varianza muestral y qué es la distribución muestral teórica?

Desviación estándar de la muestra frente a desviación estándar de la población

¿Usando pdf X para encontrar pdf Y, y deduciendo los límites en los que la función de densidad de probabilidad de Y es válida?

Estimación del parámetro de máxima verosimilitud: asumiendo la media de las observaciones

x cantidad de personas poseía una cabra, y cantidad de personas poseía un camello, z cantidad de personas poseía un animal u otro pero no ambos

Ben y Jordan tienen tres monedas entre ellos. Dos de ellos son justos, pero uno de ellos tiene una probabilidad de 4/7 de sacar cara.

¿Cuál es la probabilidad de que la moneda se lance tres veces?

Una pregunta trivial sobre la predicción de la tasa de llegada de un proceso de Poisson a partir de datos de muestra