Estimación de error durante mediciones con alta desviación estándar

Quiero medir la distancia promedio entre la construcción metálica fija y el agua, como se muestra en la imagen a continuación para predecir la inundación de agua. Llamemos a esta distancia nivel del agua h. Si el nivel del agua comienza a subir, entonces debo informar a la gente local que se acerca la inundación y que tienen que hacer algo, etc.

ingrese la descripción de la imagen aquí

En color negro, muestro una construcción metálica fija, que no se mueve. El color azul es agua debajo de esta construcción metálica. Digamos que el agua es un lago que siempre tiene algunas olas y nunca permanece en calma. y las ondas no tienen la forma correcta del pecado, sino que son aleatorias.

Tengo un ultrasonido/láser o cualquier otro dispositivo de medición que puede medir la distancia entre el dispositivo y el agua con un error de 0,1 cm muy rápido (mucho más rápido que los cambios de las ondas de agua, por ejemplo, en 1 ms). Hago muchas mediciones (100-200 veces) y calculo un nivel de agua promedio en relación con mi construcción de metal.

Por ejemplo, obtuve h promedio = 123,2 cm después de 100 mediciones, pero debido a que el agua siempre se mueve, la desviación estándar es alta, como 20 cm.

En este ejemplo, ¿puedo decir que el nivel del agua h=123,2±0,1 cm o solo puedo decir h=120±20 cm porque la desviación estándar es de 20 cm?

En otras palabras, si hoy obtengo un promedio de h=123,2 cm, mañana obtendré h=130,5 cm y la desviación estándar es la misma de 20 cm, entonces debo informar a las personas que se avecina una inundación o no puedo porque la diferencia del nivel del agua es menor que la desviación estándar, eso significa que está por debajo de mi error y realmente no puedo decir si el nivel del agua está subiendo o bajando.

Este es solo un ejemplo para demostrar la pregunta. No hay una tarea real como esta. Puede ser reemplazado por otro ejemplo (medir el diámetro del cilindro cuando no es el cilindro ideal) o cualquier otra cosa donde el error del dispositivo sea mucho menor que la desviación estándar.

Un punto a recordar es que no es el promedio lo que va a iniciar la inundación, son los valores por encima del promedio y debe comenzar a preocuparse cuando el promedio más dos o tres desviaciones estándar está por encima de su altura de umbral. Más vale prevenir que lamentar.
@Farcher luego, en mi ejemplo, si el promedio fue 123.2 con una desviación estándar de 20 cm y después de algún tiempo el promedio aumentó de 7 cm a 130 cm (que es menos que la desviación estándar 3 veces), no debería preocuparme en absoluto. Pero si el promedio será de 160 cm o más, ¿debo preocuparme? ¿Quiso decir esto?
Es el promedio actual multiplicado por n desviaciones estándar, donde n es lo que debe decidir. Me preocuparía si un número significativo de valores está por encima del promedio más dos desviaciones estándar.

Respuestas (3)

Generalmente tales problemas no funcionan fácilmente con una simple aplicación de estadísticas simples. Una desviación estándar puede no ser particularmente útil como indicador. Por ejemplo, durante las inundaciones, la acción de las olas puede ser muy diferente a la de las condiciones más estables.

También necesita conocer la naturaleza genérica del proceso de inundación. La entrada al lago aumenta el nivel en todo el lago. El viento que empuja el agua hacia un lado es muy diferente, pero aún puede inundar una parte de la orilla del lago. Un esquiador acuático que se acerque demasiado al muelle puede enviar una ola de 1 metro a través del muelle, lo que probablemente no debería activar su sistema de advertencia de inundaciones.

Necesita al menos un modelo mínimo del agua total en el lago según lo estimado por las mediciones de nivel. Probablemente necesite varias mediciones de nivel en diferentes ubicaciones. Necesita tener estos a lo largo del tiempo para obtener la tasa de cambio de agua en el lago.

Entonces necesitas encontrar alguna manera de lidiar con el ruido. La desviación estándar puede ser útil, pero puede no serlo. Hay muchas medidas de tendencia. Por ejemplo, hay medias móviles.

https://en.wikipedia.org/wiki/Moving_average

Esa página también ofrece enlaces a un montón de otras posibilidades.

Una vez que tenga un modelo del agua total en el lago, necesita datos de prueba para validarlo. Necesitaría obtener observaciones reales y compararlas con cuando hubo inundaciones. Si tu modelo es puntual para alguna celebración. Si su modelo no es exacto, vuelva al trabajo.

En realidad, la inundación de agua es solo un ejemplo. Solo quiero entender más cómo usar la desviación estándar correctamente para mediciones reales. Pero el promedio móvil es un muy buen artículo. Yo no sabía sobre esto. Muchas gracias.

Suponiendo una distribución normal, la probabilidad de que se obtenga una nueva muestra norte σ fuera de la media pag o tu t s i d mi ( s ) está arreglado.

Puede ver cómo se usa en la tabla aquí https://en.wikipedia.org/wiki/68%E2%80%9395%E2%80%9399.7_rule

En consecuencia, antes de declarar una inundación, seleccione un valor de norte eso te da suficiente confianza.

Una muestra con un 1 σ la desviación tiene un 32% de probabilidad de que se deba a un error (una gran ola).

Es popular trabajar alrededor de

3 σ (.027% o probable que ocurra naturalmente cada 370 muestras)

pero los resultados importantes generalmente se confirman a

6 σ (.000000002% o probabilidad de ocurrir naturalmente cada 500,000,000 muestras).

o mas alto.

La eliminación de errores de medición ayudará a lograr una distribución más estrecha, mejorando la confianza.

Por ejemplo, obtuve h promedio = 123,2 cm después de 100 mediciones, pero debido a que el agua siempre se mueve, la desviación estándar es alta, como 20 cm. En este ejemplo, ¿puedo decir que el nivel del agua h=123,2±0,1 cm o solo puedo decir h=120±20 cm porque la desviación estándar es de 20 cm?

Este es un caso en el que mirar los datos hace más claro lo que está sucediendo. Aquí hay algunos datos que tienen las características que das: una media de 123,2 cm y una desviación estándar de σ = 20 C metro . He asumido una distribución normal, pero puede elegir una distribución diferente si lo desea. Estos miles se trazan frente al número de medición:

1k puntos de datos aleatorios

Las líneas discontinuas están en cero, ± 1 σ , ± 2 σ , y ± 3 σ de la media. Puede ver que la mayoría de los datos se encuentran dentro del ± 1 σ banda alrededor de la media, y casi todos los datos se encuentran dentro ± 2 σ . Sólo los puntos muy raros se encuentran fuera de la ± 3 σ banda. Sucede que hay exactamente tres medidas fuera de la ± 3 σ banda (cerca del medio, y todo en el lado que se aproxima a los 200 cm), que alguien que es nuevo en este negocio podría tomar como confirmación de la declaración en otra respuesta de que el 99.7% de los puntos de datos distribuidos normalmente se encuentran dentro ± 3 σ de la media Pero el hecho de que obtuve exactamente tres "valores atípicos", y que todos los valores atípicos están en el lado alto, es una casualidad: tres valores atípicos de tres sigma por cada mil puntos es el promedio de muchos miles de puntos de datos, y cualquier un millar particular de puntos de datos puede tener más o menos de tres valores atípicos.

Si colapso estos datos en un histograma, se ve así:

histograma de puntos de datos

Puedes ver aquí que una medida de 130 cm no es nada raro; este conjunto de datos tiene cincuenta o sesenta medidas en el contenedor donde iría una medida de 130 cm. Cuando me digas ( 123.2 ± 20 ) C metro , escucho "generalmente entre 100 cm y 140 cm".

Lo que quizás no sea intuitivo es que sabes más sobre la media que sobre cualquier medida en particular. El "error estándar en la media" es como σ / norte , dónde σ es la desviación estándar de la distribución y norte es el número de muestras que se incluyen en el cálculo de la media. Por ejemplo, este conjunto de datos tiene σ = 20 C metro y norte = 1000 , por lo que la incertidumbre sobre la media es σ / norte = 0.6 C metro . La media real que calculo a partir de estos mil puntos de datos es ( 123.3 ± 0.6 ) C metro , que es totalmente consistente con la media de 123,2 cm que puse a mano.

Para ver un poco más claramente la diferencia entre el ancho de una distribución y la incertidumbre de la media, aquí hay histogramas de diez conjuntos diferentes de 1000 mediciones cada uno, generados de la misma manera que el anterior:

diez histogramas

La media de cada conjunto de datos se representa con un punto azul grueso. A la izquierda, donde puede ver la distribución completa, apenas puede notar que no todos los medios son iguales. A la derecha, donde solo se muestran las medias, puede ver que la incertidumbre estimada σ / norte = 0.6 C metro parece un buen estimador de la incertidumbre de la media, ya que alrededor de dos tercios de las medias están dentro de una barra de error del valor correcto. Esto es como la metaestadística: hacer estadísticas sobre las medias y las desviaciones estándar de varios conjuntos de datos.

Este es un patrón general con las estadísticas: tiene más sentido si realmente puedes jugar con algunos datos en los que ya sabes algunas de las cosas que te interesan.

Gracias por una buena respuesta. Solo que no entendí lo que significa error 0.6cm en tu ejemplo. Si tengo una distribución normal σ=20cm, eso significa que con una probabilidad del 65% el valor está entre 100 y 140 cm. Pero cuando hago 1000 mediciones y la desviación estándar es la misma de 20 cm, ¿cuál es este 0,6 cm? Creo que no importa cuántas medidas hice, pero la probabilidad será la misma del 65 % para encontrar el valor entre 100 y 140 cm y si digo 123,3 ± 0,6 cm con una desviación estándar de 20 cm, entonces la probabilidad de que el valor esté entre 122,7 y 123,9 cm es muy pequeño, tal vez <1%.
Intentaba distinguir entre lo que se puede decir sobre cualquier medida individual y lo que se puede decir sobre un conjunto de medidas. Quizás la edición aclare las cosas.
Es un poco más claro, pero aún no es 100% claro. Si decimos que hoy el nivel promedio del agua h=(123.3±0.6)cm en el sentido que usted explica, entonces mañana se convierte en h=(125.3±0.6)cm y en ambos casos, la desviación estándar es de 20cm, entonces deberíamos declarar ¿una inundación o es solo una desviación aleatoria y no significa nada? En otras palabras, ¿qué significa 0,6 cm desde el punto de vista físico, no desde la estadística pura?
Cuando la gente del clima habla de observar varios centímetros de aumento del nivel del mar en los últimos veinte años, están haciendo exactamente el tipo de análisis que sugieres en tu comentario. El mar tiene olas rápidas que son mucho más altas que unos pocos centímetros, y mareas que son mucho más altas que las típicas olas rápidas, por lo que si vas a la playa y tomas una fotografía, probablemente observarás el nivel del agua más de un metro por encima o por debajo del nivel del mar. nivel "medio". Sin embargo, con muchas observaciones, es posible confirmar que el nivel medio del mar es significativamente diferente hoy que en la década de 1990.
Pero aún así, ¿qué significan estos 0,6 cm desde el punto de vista físico? la desviación estándar es clara, cuando escribo 120±20 cm (20 cm es desviación estándar), eso significa que si hago alguna medición, entonces con un 65% de probabilidad el valor será de 100 cm a 140 cm. pero cuanto es 0.6cm? O qué harías en este ejemplo: hoy el nivel medio del agua h=(123,3±0,6)cm en el sentido que explicas, mañana se convierte en h=(125,3±0,6)cm y en ambos casos la desviación estándar es de 20cm , entonces, ¿declararía una inundación y comenzaría a evacuar a la gente o no haría nada?
y cuando la gente del clima me dice que la temperatura aumenta 0.5C±0.1 con una desviación estándar de 2C, entonces es un poco extraño para mí :)