Significado de 5.1σ5.1σ5.1\sigma significado con respecto a GW150914

No pude encontrar ninguna publicación de LIGO que explique cómo debemos interpretar este valor. Lo más cercano que he encontrado es la siguiente cita:

Esto significa que un evento de ruido que imite a GW150914 sería extremadamente raro; de hecho, ¡esperamos que un evento tan fuerte como GW150914 aparezca por casualidad solo una vez en aproximadamente 200,000 años de tales datos! Esta tasa de falsas alarmas se puede traducir en un número de "sigma" (denotado por s), que se usa comúnmente en el análisis estadístico para medir la importancia de un reclamo de detección. Esta búsqueda identifica a GW150914 como un evento real, con un significado de más de 5 sigma.

http://www.ligo.org/science/Publication-GW150914/index.php

De mi lectura, parece que 5.1 σ la importancia se refiere a:

La probabilidad de observar tal señal dado que el modelo de ruido de fondo describe correctamente todas las entradas a los detectores en el momento de la señal .

Me gustaría verificar que la interpretación anterior es correcta y es diferente de la probabilidad GW150914:

  1. surgió por casualidad
  2. fue causado por una onda gravitatoria
  3. fue causado por una fusión BH-BH

Pregunto porque he visto publicaciones en este sitio y en otros lugares (tanto noticias como blogs) que parecen implicar algo diferente. Me preocupa que pueda estar malinterpretando alguna terminología específica de la astrofísica.

Además, ¿alguien sabe qué cálculos se usaron para convertir la tasa de falsas alarmas en # de sigmas? Este detalle parece haber quedado fuera de los documentos, así que asumo que es algo trivial que me estoy perdiendo debido a la falta de experiencia en esta área.

Editar:

Permítanme aclarar (lo que he aprendido es incorrecto) la interpretación #1 anterior. Esta es la regla de Bayes:

(1) pag ( H | O ) = pag ( H ) pag ( O | H ) pag ( O )
dónde,

H = Hipótesis (modelo de ruido de fondo describe todas las entradas a los detectores en el momento de la señal)
O = Observación (la señal GW150914)

Solo para ser 100% claro:

pag ( H | O ) = La probabilidad H es verdadera dado que se ha observado O pag ( O | H ) = La probabilidad de observar O dado H es verdadera pag ( H ) = La probabilidad H es verdadera  independiente  de observación O pag ( O ) = La probabilidad de observar O  independiente  de si H es verdadera

El último término se puede reescribir como:

(2) pag ( O ) = pag ( H ) pag ( O | H ) + pag ( ¬ H ) pag ( O | ¬ H )
donde la probabilidad H es falsa se denota por
(3) pag ( ¬ H ) = 1 pag ( H )

En las respuestas establecimos la σ -level es una transformación simple del valor p, que es igual a pag ( O | H ) . Está claro que pag ( H | O ) debe tener un valor numérico diferente al valor p, excepto en algunas circunstancias muy específicas, es decir, cuando pag ( H ) = pag ( O ) . El valor p se calcula bajo el supuesto de que H es cierto, y de las ecuaciones 1/2/3 vemos que pag ( H | O ) depende explícitamente de ambos pag ( H ) y la probabilidad de observar tal señal si H Es falso: pag ( O | ¬ H ) .

Si nuestra hipótesis es cierta, creo que todos estamos de acuerdo en que la única forma de obtener una señal como GW150914 es una coincidencia fortuita de patrones de ruido entre los dos detectores LIGO. Entonces, cuando escribimos, a menudo usamos taquigrafías como:

H = cualquier señal se debe a, es decir, es causada por una coincidencia fortuita
o
H = cualquier señal no es real

Hay muchas formas abreviadas de decir lo mismo que confunden las cosas. El punto es que el valor p no es la probabilidad de que GW150914 haya sido causado por (surgió de; se debe a) la casualidad (ruido de fondo; coincidencia aleatoria). Tampoco es la probabilidad de que GW150914 "no sea real", o "cuán improbable" es que GW150914 se deba al azar.

En este caso, el valor p es aparentemente pag ( O | H ) 2 × 10 7 . Además, aparentemente la única otra explicación plausible es una fusión BH-BH. En una pregunta anterior , estimamos la probabilidad previa de que esto sea 10 4  a  10 1 . Si suponemos que esa es la única otra explicación posible, esa debe ser la probabilidad de que H sea falsa independientemente de observar GW150914: pag ( ¬ H ) .

Primero, usemos el límite inferior: pag ( ¬ H ) 10 4 . De la ecuación 3, entonces pag ( H ) 0.9999 . Además, GW150914 aparentemente coincidió exactamente con la predicción. Por lo tanto, la probabilidad de ver tal señal dado que H es falsa es pag ( O | ¬ H ) 1 . Introduciendo estos valores obtenemos:

pag ( H | O ) = 0.9999 × 2 × 10 7 0.9999 × 2 × 10 7 + 10 4 × 1 0.002

Haciendo lo mismo para el límite superior obtengo pag ( H | O ) 1.8 × 10 6 . Ahora podemos decir que "la probabilidad de que GW150914 haya ocurrido debido al azar varía de 2 × 10 3  a  1.8 × 10 6 , que es bastante diferente del valor p. ¿Algún error en este razonamiento?

¿Por qué estás excluyendo 1. arose due to chance?
@Timaeus P(Observación|Hipótesis) != P(Hipótesis|Observación). Esta es una falacia lógica llamada "Transposición del condicional" o, alternativamente, "Confusión del inverso" . Creo que estamos tratando con P (Observación | Hipótesis) donde la hipótesis es "la señal surgió del azar/antecedentes", pero puede estar equivocada.
@Timaeus No veo dónde te acusé de nada. Simplemente respondí tu pregunta. Excluí la "probabilidad de que la señal surgiera debido al azar" porque eso sería P (Hipótesis | Observación). Me disculpo por cualquier insulto percibido.
@livid Ahora veo tu punto. Lo he abordado en mi respuesta.
@innisfree Su edición hace que la pregunta sea menos clara porque hace que parezca que estoy preguntando the probability GW150914: p(GW150914 arose due to chance|data), es decir, la probabilidad de una probabilidad. Además, gracias ambas respuestas abordan mi primera preocupación. ¿Alguien puede dar el cálculo exacto de la tasa de falsas alarmas? = 1 / 200 , 000 años a 5.1 σ ?
Deshace los cambios
Veo lo que estás haciendo, pero tu anterior es demasiado incierto para tomarlo en serio. Las predicciones publicadas para la tasa de fusión fueron de 0,1 a 1000 por Gpc/año cúbico. El volumen muestreado para fusiones BH de 10 masas solares es de 0,1 Gpc cúbicos. Esto da un número esperado de eventos detectables en 16 días de 4.4 × 10 4 a 4.4 . dcc.ligo.org/LIGO-P1500262/public
Las probabilidades de que debería usar tgen provienen de la distribución de Poisson. La probabilidad de observar al menos un evento es 1 pag ( 0 ) = 1 Exp ( m ) , que dados los valores esperados anteriores, oscila entre 4.4 × 10 4 a 0,988. Como dice claramente el documento al que se hace referencia anteriormente, la detección de LIGO solo es inconsistente con la tasa más baja de estas estimaciones.
@RobJeffries No tengo la experiencia para elegir el mejor antes aquí, pero sí, eso es lo que estaba calculando como se indica en mi comentario a su respuesta. p(H|O) estaría entonces entre 4.5 × 10 4 y 2.5 × 10 9 , ambos siguen siendo múltiples órdenes de magnitud diferentes del valor p. Si estuvieran muy cerca del valor p, sería accidental que los valores coincidieran. Además, tenga en cuenta que considero que poder leer rápidamente la literatura y obtener un rango previo que abarca 10 ^ 5 es muy impresionante. Por lo general, es imposible con las teorías con las que estoy acostumbrado a tratar.
@RobJeffries Estaba tratando de ser breve, pero quizás lo anterior parezca enigmático. calculé pag ( ¬ H ) = 1 mi X pag ( R t ) , cual R t , usando el rango R="tasa esperada" de la otra pregunta. Luego redondeé hacia abajo a la potencia de 10 más cercana ya que la respuesta exacta no era mi punto. Además, su fuente informa rangos anteriores de 0 1000   GRAMO pag C 1 y r 1 ... Otra cosa es que tal vez me equivoque pag ( H | O ) pag ( O | H ) debe ser una coincidencia. ¿Hay alguna forma (deliberada o intuitiva) de que las cosas estén dispuestas para que este sea el caso en astrofísica?

Respuestas (3)

Veo a dónde vas con tu pregunta. Déjame alimentar las llamas.

El valor sigma que se cita es equivalente a una probabilidad de falsa alarma. Le dice cuán improbable es que su experimento, dada su comprensión (teórica y empírica) de las características del ruido, haya producido una señal que pareciera GW de un BH fusionado.

Personalmente, prefiero la afirmación del texto que cita. Tal evento se habría visto (en ambos detectores) aproximadamente una vez cada 200.000 años. Dado que las observaciones fueron durante 16 días, eso significa que se esperaría que hubiera 2.2 × 10 7 tales eventos en los datos. es decir, una posibilidad entre 4,6 millones.

El equipo de LIGO acaba de convertir este número en números de importancia sigma utilizando una integral bajo una cola de la distribución normal. Usando una de las calculadoras fácilmente disponibles, por ejemplo , http://www.danielsoper.com/statcalc3/calc.aspx?id=20 , vemos que 5.0-5.1 σ (conocido como z-scores) corresponde a los valores p de 2.7 × 10 7 a 1.7 × 10 7 , poniendo entre paréntesis el valor encontrado arriba.

Sin embargo, este no es el nivel de confianza de que se trata de una onda gravitacional o de un agujero negro que se fusiona. Siempre existe la posibilidad de que se haya infiltrado alguna fuente de error imprevista que imite una señal GW (pero tenga en cuenta que debe afectar a ambos detectores) o que alguna otra fuente astrofísica podría ser capaz de producir la señal. Que yo sepa, aparte de las teorías de conspiración habituales (bostezo), nadie ha presentado una alternativa plausible a los GW de un BH fusionado.

Creo que lo tengo. En R sería Nsigma=qnorm(exp(-r*t)), donde r="tasa de falsas alarmas" y t="tiempo transcurrido". En este caso obtengo Nsigma=5.05.
En cuanto a "a nadie se le ocurrió una alternativa plausible a los GW de un BH fusionado" , supongo que no le gustó mi idea de ráfaga de tiempo invertido . Además de esto, me sorprendería si nadie pudiera encontrar otras razones para tal señal, incluso si una fusión BH-BH sigue siendo el mejor candidato. Por ejemplo, puede obtener la frecuencia creciente observando cualquier señal periódica desde un ángulo .
Esa última afirmación podría no tener sentido en este caso... Solo estoy tratando de encontrar mecanismos generales que produzcan un chirrido exponencial , pero sin experiencia en astrofísica, dudo que pueda pensar en una explicación específica.
Releí esto y me di cuenta de que puede que no entienda al 100%. Usted escribe: " El valor sigma le dice... cuán improbable es que su experimento, dada su comprensión... de las características del ruido, haya producido una señal que pareciera GW de un BH fusionado ". ¿Está de acuerdo con esto? es un número diferente a "qué tan improbable es (es decir, la probabilidad) que la señal haya sido causada por una coincidencia fortuita"?
@Livid No sé a qué te refieres con "coincidencia fortuita".
Edité la pregunta en un intento de dejarla clara.
@Livid No, lo que llamas coincidencia fortuita es parte de la estimación de 200,000 años.
Estoy de acuerdo con eso. No entiendo por qué dices "no", así que algo debe quedar sin aclarar. La tasa de falsas alarmas (1/200.000) es solo una forma de hablar de p(O|H)="probabilidad de que el ruido produzca una señal que parezca GW". Estoy argumentando que es diferente de p(H|O)="la probabilidad de que la señal haya sido causada por una coincidencia fortuita". Reformulado: p(H|O)="la probabilidad de que la señal que parecía GW fuera producida por ruido".

En todas las pruebas de hipótesis frecuentistas, uno encuentra una llamada pag -valor: la probabilidad de obtener tales observaciones "extremas" (es decir, una prueba estadística tan extrema) si la hipótesis nula fuera verdadera.

La hipótesis nula se rechaza si y si. pag -el valor es menor que un valor crítico preespecificado o un nivel de confianza. De lo contrario, el valor nulo no se acepta ni se confirma, simplemente no se rechaza.

En este caso, la hipótesis nula es que

el modelo de ruido de fondo describe correctamente todas las entradas a los detectores

y fue rechazado con confianza alta.

El pag -los valores se convierten convencionalmente en significados gaussianos de una cola, es decir, un número de desviaciones estándar tales que una probabilidad idéntica está en la cola de la distribución gaussiana,

Z = Φ 1 ( pag -valor )
dónde Φ 1 es la inversa de una CDF gaussiana. Esta convención es molesta ya que la relación entre pag -valor y significado no es algebraico o fácil de aproximar. Tendría más sentido simplemente reportar un pag -valor.

En tu comentario aludes al teorema de Bayes ya un cálculo de la probabilidad o plausibilidad de la hipótesis nula. La prueba de hipótesis LIGO es, sin embargo, estrictamente frecuentista. Solo se considera la probabilidad de datos y pseudodatos. Dado que los datos parecen ser tan sólidos en este caso, no debería haber diferencias cualitativas en las conclusiones de los métodos frecuentistas o bayesianos.

Tienes razón, por supuesto, en que

PAG ( Cualquier característica similar a una señal debido al azar | datos )
no es igual a
PAG ( datos | Cualquier característica similar a una señal debido al azar )
Están relacionados por el teorema de Bayes. Los métodos frecuentistas, incluida la metodología LIGO, consideran solo este último.

Puede encontrar interesante arXiv:1609.01668 , ya que analiza las diferencias entre los análisis bayesianos y frecuentistas de las señales LIGO. Sorprendentemente, incluso los pequeños significados podrían corresponder a colosales factores de Bayes. El 5.1 σ evento tuvo un factor de Bayes de 10 125 , que es el número más grande que he visto en este contexto.

"Tendría más sentido informar simplemente un valor p". Y en astrofísica pensamos que tendría más sentido que la medicina usara sigmas en lugar de valores p. Es solo una opinión. "La prueba de hipótesis LIGO es, sin embargo, estrictamente frecuentista". Nunca hay una diferencia entre una respuesta frecuentista y bayesiana a una pregunta. La única diferencia es que las personas que se llaman frecuentistas tienden a hacer un tipo de pregunta, mientras que las que se llaman bayesianas tienden a hacer otro.
@ChrisWhite, lo siento, ¿por qué recomendaría informar de sigma? ¿Cuánto más improbable es 5 sigma frente a 4 sigma? ¿Puedes adivinar sin buscarlo?
@innisfree Since the data is so strong in this case, there shouldn't be any qualitative differences in the conclusions of Bayesian or frequentist methods.Ver mi pregunta anterior . Parece que la explicación preferida también era algo improbable, por lo que el valor p exagera la evidencia frente a la explicación de fondo.
En cuanto a que Bayes y frecuentista nunca dan como resultado respuestas contradictorias a la misma pregunta, ese es un punto de vista notablemente poco sutil. Considere la pregunta inocua, ¿debo rechazar la nulidad a favor de la alternativa? Hay casos en los que Bayes y freq. métodos ofrecen respuestas contradictorias.
Por supuesto, no existe una paradoja real de la lógica, ya que los métodos calculan cosas diferentes.
Cierto, los valores p son más fáciles de usar para comparar probabilidades directamente (aunque yo diría que la mente humana es bastante mala para apreciar probabilidades menores que 1 / 1000 de todos modos, por lo que la intuición no es muy importante para algunas cosas). Por otro lado, los sigmas dan una respuesta en términos de la escala natural del ruido. Si duplico el tiempo de exposición de mi imagen dominada por estadísticas de conteo, mi ruido debería reducirse en un factor de 2 y puedo esperar un 3 -detección sigma, si es real, para convertirse en un 4.2 -detección sigma.
Ok, ¿y cuánto más improbable es 4.2 vs 3? ¿Qué significa realmente 4.2 sigma? Vas a tener que calcular los valores p...

Es un valor p, escrito en términos de una puntuación z.

Cualquier cálculo de una probabilidad se basa en un modelo, a veces incluso está consagrado en el nombre de hipótesis nula. Para el primer avistamiento directo de una onda gravitacional, la hipótesis nula podría ser que las ondas gravitatorias no existen, pero sus detectores pueden reaccionar al ruido.

Ahora, el cálculo no es tan simple como la posibilidad de obtener un conjunto de datos en particular. En realidad, ordena los datos en aquellos que se parecen a los datos de onda predichos y aquellos que no. Y luego, dentro de los que se parecen a los datos de olas pronosticados, los ordena según su intensidad.

Y luego averiguas la posibilidad de que reaccione así de fuerte como una señal... o más fuerte (y esa o la parte más fuerte es de lo que tratan estos dos últimos párrafos). Y ese es su valor p. Realmente se trata de cometer un error al decir que vio una señal cuando en realidad esos datos a veces ocurren por casualidad... dada la hipótesis nula.

Finalmente, toma la probabilidad calculada desde arriba y encuentra el límite de puntuación z que tiene esa probabilidad como su cola. Y luego informa ese puntaje z en "unidades" de σ .

El punto es que tal estándar puede disminuir la frecuencia con la que nos anunciamos descubrimientos que en realidad eran solo ruido. Y los físicos tienen un estándar bastante alto (en comparación con los valores p de 0,05 o 0,01).

¿Alguien puede dar el cálculo exacto de la tasa de falsas alarmas? = 1 / 200 , 000 años a 5.1 σ ?

Intuitivamente estás mirando la teoría para identificar cosas llamadas señales. Y luego mirar los detectores para averiguar con qué frecuencia los detectores producen resultados que se parecen a esas señales solo por el ruido. Por lo tanto, implica saber cómo se ven las señales y cómo reaccionan los detectores al ruido. Ambas son cosas que debe saber si está diseñando un detector. Ninguno de los dos va a ser un cálculo simple. La teoría requirió muchos cálculos muy largos y tediosos, horas de tiempo de computadora. El ruido también es difícil de calcular ya que pusieron muchas cosas para reducir el ruido. Literalmente ajustaron cómo funcionan los brazos para ajustar el ruido para tener menos ruido en algunas áreas que la energía de punto cero que produce naturalmente.

Pero tienes el conjunto de señales y el modelo de cómo reacciona el detector al ruido. La velocidad (en el tiempo) a la que el detector generó (a partir del ruido) resultados que se parecen a las señales dependerá de la longitud de las diferentes señales. Una señal que es corta tiene muchas veces que podría aparecer en un período de tiempo de 200.000 años. Una señal más larga tiene menos veces.

No es un cálculo simple cuando tienes muchas señales diferentes, de diferentes longitudes y diferentes formas. No puedes simplemente buscarlo en una tabla. Puede buscar el valor p en la puntuación z en una tabla. Pero la conversión a una tasa en el tiempo dependerá de la frecuencia con la que la máquina se ponga en modo de recopilación de datos y el tiempo que tarden en recopilarse las posibles señales cuando la máquina está encendida.



Para abordar el subtexto. Si te sientas en tus manos y no reportas un 5 σ resultado, entonces no debería haber construido su detector. Eso no significa que ninguna alternativa particular a la hipótesis nula sea correcta. Significa que ese es el estándar acordado sobre cuándo informar sus resultados.

Está diseñado para no tener demasiados informes sobre cosas que son solo ruido.

Gracias, quería asegurarme de que lo estaba interpretando correctamente porque, como mencioné, vi algunos comentarios flotando que parecían sugerir lo contrario. El principal problema con el valor p es que es muy poco probable que la señal surja del fondo, pero detectar una fusión BH-BH (que, según me han dicho, es la única alternativa, además de la conspiración, presentada hasta ahora) también puede ser bastante improbable dado lo que se sabía sobre esos eventos de antemano. Para que conste, dado mi estado actual de conocimiento, considero muy probable que se tratara de una onda gravitatoria debida a una fusión BH-BH.