¿Debe dibujarse siempre una curva gaussiana simétricamente?

Esta pregunta es más sobre la aparición de una curva que surge mientras analizo mis datos en lugar de una pregunta física real, pero creo que es relevante.

He analizado algunos datos de un experimento EDM y se supone que debo investigar si los datos siguen o no una distribución gaussiana. He usado x 2 y el complemento del solucionador de Excel para minimizar este valor y ajustar la función resultante sobre mis datos.

Sin embargo, cuando trazo mi ajuste de la curva (que se muestra aquí en naranja) no es simétrica. Está bastante cerca, pero no del todo. ¿Es esto un problema? Y si no te importa, ¿por qué sí o por qué no?

Ajuste gaussiano no simétrico

Es posible que deba especificar mejor la pregunta. Una función gaussiana es simétrica respecto a su media por construcción. No puede evitarlo. Entonces, ¿cuál es la asimetría que te está molestando? ¿Que la media no es exactamente cero? Que el ajuste puede estar subestimando una cola y sobreestimando la otra. ¿Que los datos simplemente tienen algo de dispersión?
Eso sí, con la cantidad de datos que tiene, todas esas cosas son de esperar.
Honestamente, no estoy seguro de qué debo preocuparme... Parece que está diciendo que en una situación del mundo real, mis datos no seguirán una función gaussiana, por lo que el ajuste no será exactamente un gaussiano. ¿Es esto una consecuencia de graficar valores discretos contra algo que debería ser una función continua?
¿ Cross Validated sería un mejor hogar para esta pregunta?
Las funciones gaussianas son por definición simétricas. Cuando ingresé mis valores calculados en la función y tracé, el resultado no es simétrico. ¿Eso simplemente significa que mis datos no siguen una distribución gaussiana (pero obviamente son algo similares)? es decir, ¿ciertos valores cuando se ingresan en la función gaussiana no devuelven una función simétrica? Bueno, Excel es el programa que tengo que usar y el complemento Solver es lo que mi script de laboratorio me dice que use, así que no me voy a preocupar demasiado por eso.
¿Cuál es el valor de chi-cuadrado y cómo se calculó si no tiene incertidumbres sobre los datos? ¿Es realmente un ajuste de mínimos cuadrados?
Asumiendo que Floris resolvió su queja, quería preguntar algo como: "Tal como está trazada, la línea naranja no es simétrica, pero se supone que representa una función simétrica (una gaussiana). ¿Cómo puede ser esto correcto?" Es importante centrar nuestra atención en las características correctas de la figura. Debido a que preguntó sobre el "ajuste", varios de nosotros estábamos analizando la relación entre sus datos y la función de ajuste y tratando de averiguar qué le estaba molestando.
@Qmechanic En CrossValidated, el OP posiblemente obtendría una respuesta estadísticamente más rigurosa, pero posiblemente a costa de la intuición física. ¿Es este ese caso raro en el que la pregunta pertenece a ambos sitios?
Nuevamente, suponiendo que Floris responda a la pregunta real del OP , no se trata de estadísticas en absoluto . Se trata de una característica del trazado gráfico de funciones. No es realmente carne para ninguno de los sitios, sino un problema secundario que muchos estudiantes encuentran en algún momento.
Si lo envía a los estadísticos, no obtendrá nada más que balbuceos bayesianos y argumentos sobre la selección previa;)
@Jacobadtr Edité su publicación para reflejar lo que percibo como su pregunta real (basada principalmente en su aceptación de la respuesta de Floris). Si he cometido un error, vuelva a colocarlo (o mejor, vuelva a editar para aclarar). Editar publicaciones como esta es una característica importante de los sitios de intercambio de pilas porque se supone que esta pregunta ayudará a los futuros visitantes, así como también a aclararte. Y el hecho de que varias personas tuvieran que preguntar y adivinar lo que querías decir es indicativo de una falta de claridad en el texto original.

Respuestas (3)

Así es como interpreto lo que sucedió:

Usó Excel para calcular los coeficientes de la Gaussiana que mejor describen los datos: media m , Desviación Estándar σ y magnitud A por una curva

Y = A mi ( X m ) 2 / 2 σ 2

Luego evaluó esa función en una cantidad de valores X. Dado que los valores de X no son simétricos con respecto a la media calculada, no verá el mismo valor en los puntos correspondientes a ambos lados del origen.

Si está seguro de que desea que el ajuste gaussiano en Excel sea simétrico con respecto a X=0, sería suficiente permitir que Solver solo calcule σ y A , y establecer m = 0 .

Es bastante improbable que la media ajustada de los datos ruidosos sea exactamente cero: por lo general, es más importante probar si podría ser cero : hay varias pruebas estadísticas disponibles para determinar si un conjunto particular de observaciones es consistente con una hipótesis nula particular ( en este caso, la hipótesis nula podría ser "los datos provienen de una distribución con media = 0", y no parece que sus datos sean suficientes para disipar esa hipótesis).

Después de los comentarios sobre la respuesta de Wolphram jonny, está preguntando si puede concluir que los datos tienen una distribución gaussiana. La respuesta es: "No, no puedes". Es muy difícil (algunos dicen que imposible) demostrar que algo es cierto. Solo puede esperar demostrar que no puede probar que es falso.

En su ejemplo, la hipótesis nula sería "los datos siguen una distribución gaussiana". Su prueba sería hacer un x 2 probar el ajuste y ver si el valor de x 2 es tan pequeño que no se puede descartar que sea gaussiano. Para esto, observa el valor p: si es menor que un límite (generalmente 0.05), puede decir (con una punta del sombrero a @Henry, quien propuso una redacción más precisa):

"Si esta curva es de hecho gaussiana y aplico este método, afirmaré erróneamente que no es gaussiana (rechazo esa hipótesis) en menos del 5% (cualquiera que sea la p utilizada) del tiempo en que no debería rechazarla".

La razón de la redacción intrincada es que el muestreo aleatorio de una distribución gaussiana conducirá a una distribución que "parece no gaussiana" aproximadamente 1 de cada 20 veces cuando usa este límite; en otras palabras, el valor p en realidad dice "obtendrá este resultado sobre el p% del tiempo cuando la distribución es gaussiana".

Puede ser un poco confuso al principio. En pocas palabras: su ajuste se ve bien, no se preocupe por la asimetría, continúe con su prueba de chi cuadrado.

Para mi propio entretenimiento, hice el ajuste anterior (con algunos datos inventados), con los siguientes resultados:

ingrese la descripción de la imagen aquí

Esta es la vista "normal". Puede ver que ingresé valores X e Y, y creé una columna de "ajuste" que depende de tres celdas (a las que nombré mu, sigma y A); finalmente creé una métrica de error {=SUMSQ(B2:B12-C2:C12)}: tenga en cuenta los corchetes que obtiene al ingresar como una "fórmula de matriz" (ctrl-shift-enter en PC o cmd-shift-enter en Mac). Esto le permite calcular todo en una celda sin crear una columna separada con los valores de error. Luego seleccioné la celda de error y ejecuté el solucionador, minimizando la celda F6mientras cambiaba las celdas F2:F4:

ingrese la descripción de la imagen aquí

Una mirada más cercana a las fórmulas (use ctrl-backtick para expandir las fórmulas en Excel, pero tenga en cuenta que no muestra la {}fórmula de la matriz... uno de los muchos errores, estoy seguro):

ingrese la descripción de la imagen aquí

Puede ver aquí que hay una función incorporada =CHITESTpara probar la bondad del ajuste entre los datos y el ajuste gaussiano, y proporciona un valor p que está muy por encima de 0,05, por lo que no podría decir que estos datos no se distribuyen normalmente.

Un ajuste gaussiano es simétrico por definición, porque es gaussiano. Tu ajuste naranja no parece gaussiano, ni siquiera es uniforme. No creo que Excel tuviera una función de ajuste gaussiano (pero no uso Excell, así que no puedo asegurarlo. Puede usar otro software como Matlab, o probablemente gratuitos en la web. O simplemente use esos datos para calcular los parámetros de el gaussiano que mejor se ajusta y dibujarlo en Excel Actualización: no puedo decir lo que quiere su profesor, pero los campos en los que he trabajado, cuando ajusta un gaussiano, lo ajusta con uno continuo (el único gaussiano "real") . Los datos no pueden ser simétricos, pero el Gaussiano sí. La fuente real de los datos puede ser simétrica, pero solo por casualidad y error, es posible que sus datos no lo sean. Ahora, después de ajustarlos con un gaussiano, hay pruebas para decirle si el ajuste es bueno y puede atribuir la asimetría al azar, o si sus datos no están realmente bien descritos por un gaussiano. Pero supongo que será bastante avanzado para lo que quiere su profesor. Diría (solo a simple vista) que sus datos se ajustan aceptablemente bien a un gaussiano

Creo que está dibujado como un gaussiano evaluado en los valores X de los puntos originales (datos), con interpolación lineal. Solver en Excel puede determinar fácilmente los coeficientes de mejor ajuste: es una herramienta de optimización no lineal bastante poderosa cuando sabe cómo usarla.
@Floris Oh, ya veo, no me di cuenta de eso, ¡pensé que de alguna manera estaba hecho a mano!
Hola, produje el ajuste gaussiano manualmente, así que supongo que es un conjunto de puntos a lo largo de un ajuste gaussiano unidos con líneas rectas. Estoy siguiendo un guión de laboratorio, por lo que estoy seguro de que esto es lo que buscaba mi instructor. El objetivo aquí es determinar si los datos tienen una distribución gaussiana o no. Obviamente, se supone que es continuo y tengo relativamente pocas medidas, pero ¿es de esperar la propiedad no simétrica de mi ajuste?
@Floris Sí, esto es lo que he hecho.
Actualizo mi respuesta pero la de Floris es más detallada.

Dentro de la especificación que puedo deducir de la pregunta: esto es lo que haría.

(i) Encuentre el gaussiano que mejor se ajuste, lo que supongo que es lo que ha hecho.

(ii) Su mejor ajuste debería devolver un valor de chi-cuadrado

Debe comparar el valor de chi-cuadrado con valores críticos de la distribución de chi-cuadrado para el número apropiado de grados de libertad del ajuste. Aquí supondría que tiene 3 parámetros de modelo para su Gaussian (altura/normalización, ancho/sigma y media/centro), 14 puntos de datos y, por lo tanto, 14 3 = 11 grados de libertad.

Por ejemplo, para 11 grados de libertad, puede rechazar la hipótesis gaussiana con un 99 % de confianza si el valor de chi-cuadrado supera los 24,725.

Tablas de valores críticos en: http://www.medcalc.org/manual/chi-square-table.php

(iii) Examinar si los residuos del ajuste dependen de X . Si hay una tendencia en los residuos, aunque puede obtener un chi-cuadrado aceptable, la tendencia le indica que hay cierta asimetría que no se ajusta bien con un Gaussiano.

Mirando sus datos, este no parece ser el caso.