A las 4:30 de este video, el autor decidió estimar la desviación estándar de la población con la desviación estándar de la muestra (el tamaño de la muestra fue ).
En el siguiente video, el autor mencionó que era razonable porque el tamaño de la muestra era mayor que . Bueno, ¿qué nos dice que podríamos estimar la desviación estándar de esta manera? Por que es ese límite mágico? ¿Tiene algo que ver con el teorema del límite central? (Supongo que no, porque no calculamos la desviación estándar de la media, por lo que no está relacionado de ninguna manera).
En el fondo, el problema aquí parece ser si usar el estadístico z o el estadístico t para encontrar un intervalo de confianza para la media de la población. o en la prueba de una hipótesis sobre
Suponer es una muestra aleatoria de una población normal en la que tanto la media y la desviación estándar son desconocidos Deseamos encontrar un intervalo de confianza (IC) del 95% para
si supiéramos entonces
En caso es desconocido, es conveniente utilizar la desviación estándar de la muestra en cambio, afirmando que o quizás es un IC aproximado del 95% para Si esta aproximación es bastante buena, por las razones que vemos a continuación.
Si
no se conoce, la distribución exacta es
Para valores menores de , los valores de hacerse notablemente más grande. por ejemplo si , tenemos Por lo tanto, el IC del 95 % se hace más largo (menos preciso). Puede pensar en esta pérdida de precisión como una "penalización" por tener que estimar por en lugar de saber el valor exacto de
Hay algunas buenas razones para olvidar por completo la 'regla de los 30':
Primero, 'funciona' solo para IC del 95%. Para un IC del 99 %, necesitamos reducir el 0,5 % de probabilidad de cada cola: el valor de corte normal es y necesitamos aumentar el tamaño de la muestra a aproximadamente antes
En segundo lugar, al usar software estadístico, sabemos el valor exacto de o el programa lo aproximará a partir de los datos como Desde el principio, tenemos que saber si estamos haciendo un intervalo z o un intervalo t. El uso de una regla innecesaria sobre el tamaño de la muestra solo confunde el problema. La regla correcta es: usar z-procedures es es conocido (y por lo general no es en la práctica); utilizar procedimientos t de no.
Tercero, algunos autores de libros elementales intentan usar la 'regla de 30' (sin ninguna justificación teórica) para varios tipos de procedimientos de limitación, aplicabilidad del Teorema del Límite Central, uso seguro de procedimientos t para datos no normales, etc. en. En estas aplicaciones, 30 rara vez es una línea divisoria apropiada.
Ninguno de los dos métodos para estimar la desviación estándar de la población de la muestra produce una estimación insesgada, aunque el método produce una estimación imparcial de la varianza.
Si comparas las dos estimaciones de la varianza
[ ]
s converge a 1 al aumentar
. Consulte Wikipedia sobre 'Estimación imparcial de la desviación estándar'.
Masclins