Estoy lidiando con el modelado de pequeños conjuntos de datos de física experimental (específicamente la pegajosidad de los compuestos de pegamento). Como la mayoría del trabajo experimental no genera miles de muestras, sino un puñado, necesito ser inventivo en cómo manejar esta pequeña cantidad de conjuntos de datos (digamos 10-20). En este punto, tengo un modelo-marco (ver regresión a continuación en PSS) que puede manejar esto bastante bien.
Sin embargo, para tener una mejor idea de la precisión de mis predicciones, quiero tener una barra de error en mis valores predichos, esto para verificar qué tan bien mis predicciones predicen nuevos experimentos. Como este trabajo es de naturaleza numérica, la barra de error se originará en el modelo teórico subyacente, ¿cómo se propagan estos errores (es decir, el análisis de errores como se acostumbra en la física experimental)
En aras de la simplicidad, supongamos que estoy tratando con un modelo de regresión lineal múltiple, digamos (en realidad habrá muchos más términos):
En contraste con estos, cada uno de los coeficientes de mi modelo [ver: PSS a continuación] ( y ) en este caso tienen una barra de error (extraído mediante bootstrapping de una distribución, siendo las distribuciones de naturaleza numérica no analítica, y las distribuciones son específicas para cada uno de los tres coeficientes). ¿Hay alguna manera de incorporar la incertidumbre de la 's (cq las "barras de error") en el cálculo del PI (y CI).
En pocas palabras, ¿cómo puede la ecuación
(PD: Uno podría crear un conjunto de varias instancias modelo con el extraídas de sus respectivas distribuciones, y en base a la distribución de las obtenidas calcular el IC de la , pero esto no es realmente eficiente desde el punto de vista computacional y trae muchos otros problemas que me gustaría evitar).
(PPS: El modelo de regresión presentado no es el resultado de una regresión directa hacia un solo conjunto de datos, sino que se construye de la siguiente manera:
No entiendo totalmente la publicación que vinculaste, parece que están asumiendo implícitamente que tienen un modelo de cómo se genera, lo cual no es cierto en el caso genérico... Sin embargo, si entiendo su pregunta, la solución más genérica y simple para lograr lo que desea es arrancar sus intervalos de predicción . La idea básica es utilizar cada uno de sus conjuntos de datos para producir un vector , luego apila tu en una matriz
Ahora su distribución de salidas es , y puede hacer estadísticas sobre los elementos de ese vector presentan intervalos de confianza.
Este es un problema que está esencialmente hecho a medida para el análisis bayesiano. El resultado de un análisis bayesiano es la distribución conjunta de todos los coeficientes de su modelo. Por lo tanto, puede simular muestras a partir de los datos pronosticados extrayendo primero una muestra de los coeficientes del modelo y luego usando esos coeficientes del modelo para extraer una muestra de los datos. Esto se denomina "distribución predictiva posterior". Se usa comúnmente en el análisis bayesiano para evaluar la validez del modelo. Si su modelo se aproxima razonablemente a su proceso de generación de datos, entonces sus datos reales deberían ser razonablemente similares a sus datos pronosticados posteriormente.
Recomiendo usar el paquete rstanarm en R. En mi opinión, incluso si no sabe R, vale la pena aprenderlo solo para usar este paquete.
No debes ensuciar tu cerebro con estadísticas. Hay Mentiras, Grandes Mentiras, y hay Estadísticas.
Debes trabajar en tu tarea directa, cuál es la causalidad de los efectos que obtienes en tu trabajo.
Todos conocemos los hechos de la "correlación espuria". Correlación no es causalidad. La Copa Stanley está correlacionada con las ventas de Staples[1]. ¿Así que lo que? Nada.
No entiendo por qué necesita la regresión lineal múltiple, que es increíblemente defectuosa debido a las inconsistencias teóricas internas . Principalmente, no hay forma de que pueda usar ningún resultado de ninguna "regresión" como prueba de una fuerte causalidad. Pero la regresión de múltiples variables mixtas ni siquiera le permite encontrar una causalidad débil. ¿Sabes qué es la heterocedasticidad? [2]
Es por lo que se otorgó el Premio Nobel de 2003. Trabaja en física, no en estadísticas. Tienes a Robert Engle para lo segundo.
Acerca de las barras de error que necesita. Dibuje barras de error en papel con el tamaño que considere correcto. Eres científico. Estos son tus bares , no los de otra persona. Inserte algo de ruido dentro de su línea de señal experimental y concluya los tamaños de error que obtiene.
Semoi
DannyVanpoucke
Semoi
DannyVanpoucke
david z
biofísico
david z
natural
DannyVanpoucke
david blanco