Quiero medir la distancia promedio entre la construcción metálica fija y el agua, como se muestra en la imagen a continuación para predecir la inundación de agua. Llamemos a esta distancia nivel del agua h. Si el nivel del agua comienza a subir, entonces debo informar a la gente local que se acerca la inundación y que tienen que hacer algo, etc.
En color negro, muestro una construcción metálica fija, que no se mueve. El color azul es agua debajo de esta construcción metálica. Digamos que el agua es un lago que siempre tiene algunas olas y nunca permanece en calma. y las ondas no tienen la forma correcta del pecado, sino que son aleatorias.
Tengo un ultrasonido/láser o cualquier otro dispositivo de medición que puede medir la distancia entre el dispositivo y el agua con un error de 0,1 cm muy rápido (mucho más rápido que los cambios de las ondas de agua, por ejemplo, en 1 ms). Hago muchas mediciones (100-200 veces) y calculo un nivel de agua promedio en relación con mi construcción de metal.
Por ejemplo, obtuve h promedio = 123,2 cm después de 100 mediciones, pero debido a que el agua siempre se mueve, la desviación estándar es alta, como 20 cm.
En este ejemplo, ¿puedo decir que el nivel del agua h=123,2±0,1 cm o solo puedo decir h=120±20 cm porque la desviación estándar es de 20 cm?
En otras palabras, si hoy obtengo un promedio de h=123,2 cm, mañana obtendré h=130,5 cm y la desviación estándar es la misma de 20 cm, entonces debo informar a las personas que se avecina una inundación o no puedo porque la diferencia del nivel del agua es menor que la desviación estándar, eso significa que está por debajo de mi error y realmente no puedo decir si el nivel del agua está subiendo o bajando.
Este es solo un ejemplo para demostrar la pregunta. No hay una tarea real como esta. Puede ser reemplazado por otro ejemplo (medir el diámetro del cilindro cuando no es el cilindro ideal) o cualquier otra cosa donde el error del dispositivo sea mucho menor que la desviación estándar.
Generalmente tales problemas no funcionan fácilmente con una simple aplicación de estadísticas simples. Una desviación estándar puede no ser particularmente útil como indicador. Por ejemplo, durante las inundaciones, la acción de las olas puede ser muy diferente a la de las condiciones más estables.
También necesita conocer la naturaleza genérica del proceso de inundación. La entrada al lago aumenta el nivel en todo el lago. El viento que empuja el agua hacia un lado es muy diferente, pero aún puede inundar una parte de la orilla del lago. Un esquiador acuático que se acerque demasiado al muelle puede enviar una ola de 1 metro a través del muelle, lo que probablemente no debería activar su sistema de advertencia de inundaciones.
Necesita al menos un modelo mínimo del agua total en el lago según lo estimado por las mediciones de nivel. Probablemente necesite varias mediciones de nivel en diferentes ubicaciones. Necesita tener estos a lo largo del tiempo para obtener la tasa de cambio de agua en el lago.
Entonces necesitas encontrar alguna manera de lidiar con el ruido. La desviación estándar puede ser útil, pero puede no serlo. Hay muchas medidas de tendencia. Por ejemplo, hay medias móviles.
https://en.wikipedia.org/wiki/Moving_average
Esa página también ofrece enlaces a un montón de otras posibilidades.
Una vez que tenga un modelo del agua total en el lago, necesita datos de prueba para validarlo. Necesitaría obtener observaciones reales y compararlas con cuando hubo inundaciones. Si tu modelo es puntual para alguna celebración. Si su modelo no es exacto, vuelva al trabajo.
Suponiendo una distribución normal, la probabilidad de que se obtenga una nueva muestra fuera de la media está arreglado.
Puede ver cómo se usa en la tabla aquí https://en.wikipedia.org/wiki/68%E2%80%9395%E2%80%9399.7_rule
En consecuencia, antes de declarar una inundación, seleccione un valor de eso te da suficiente confianza.
Una muestra con un la desviación tiene un 32% de probabilidad de que se deba a un error (una gran ola).
Es popular trabajar alrededor de
(.027% o probable que ocurra naturalmente cada 370 muestras)
pero los resultados importantes generalmente se confirman a
(.000000002% o probabilidad de ocurrir naturalmente cada 500,000,000 muestras).
o mas alto.
La eliminación de errores de medición ayudará a lograr una distribución más estrecha, mejorando la confianza.
Por ejemplo, obtuve h promedio = 123,2 cm después de 100 mediciones, pero debido a que el agua siempre se mueve, la desviación estándar es alta, como 20 cm. En este ejemplo, ¿puedo decir que el nivel del agua h=123,2±0,1 cm o solo puedo decir h=120±20 cm porque la desviación estándar es de 20 cm?
Este es un caso en el que mirar los datos hace más claro lo que está sucediendo. Aquí hay algunos datos que tienen las características que das: una media de 123,2 cm y una desviación estándar de . He asumido una distribución normal, pero puede elegir una distribución diferente si lo desea. Estos miles se trazan frente al número de medición:
Las líneas discontinuas están en cero, , , y de la media. Puede ver que la mayoría de los datos se encuentran dentro del banda alrededor de la media, y casi todos los datos se encuentran dentro . Sólo los puntos muy raros se encuentran fuera de la banda. Sucede que hay exactamente tres medidas fuera de la banda (cerca del medio, y todo en el lado que se aproxima a los 200 cm), que alguien que es nuevo en este negocio podría tomar como confirmación de la declaración en otra respuesta de que el 99.7% de los puntos de datos distribuidos normalmente se encuentran dentro de la media Pero el hecho de que obtuve exactamente tres "valores atípicos", y que todos los valores atípicos están en el lado alto, es una casualidad: tres valores atípicos de tres sigma por cada mil puntos es el promedio de muchos miles de puntos de datos, y cualquier un millar particular de puntos de datos puede tener más o menos de tres valores atípicos.
Si colapso estos datos en un histograma, se ve así:
Puedes ver aquí que una medida de 130 cm no es nada raro; este conjunto de datos tiene cincuenta o sesenta medidas en el contenedor donde iría una medida de 130 cm. Cuando me digas , escucho "generalmente entre 100 cm y 140 cm".
Lo que quizás no sea intuitivo es que sabes más sobre la media que sobre cualquier medida en particular. El "error estándar en la media" es como , dónde es la desviación estándar de la distribución y es el número de muestras que se incluyen en el cálculo de la media. Por ejemplo, este conjunto de datos tiene y , por lo que la incertidumbre sobre la media es . La media real que calculo a partir de estos mil puntos de datos es , que es totalmente consistente con la media de 123,2 cm que puse a mano.
Para ver un poco más claramente la diferencia entre el ancho de una distribución y la incertidumbre de la media, aquí hay histogramas de diez conjuntos diferentes de 1000 mediciones cada uno, generados de la misma manera que el anterior:
La media de cada conjunto de datos se representa con un punto azul grueso. A la izquierda, donde puede ver la distribución completa, apenas puede notar que no todos los medios son iguales. A la derecha, donde solo se muestran las medias, puede ver que la incertidumbre estimada parece un buen estimador de la incertidumbre de la media, ya que alrededor de dos tercios de las medias están dentro de una barra de error del valor correcto. Esto es como la metaestadística: hacer estadísticas sobre las medias y las desviaciones estándar de varios conjuntos de datos.
Este es un patrón general con las estadísticas: tiene más sentido si realmente puedes jugar con algunos datos en los que ya sabes algunas de las cosas que te interesan.
granjero
Zlelik
granjero