¿Ayuda para interpretar el estándar "cinco sigma"?

Entonces, vengo de un fondo de matemáticas/estadísticas. Me preguntaba sobre esto en abstracto, intenté buscar en Google y encontré este artículo que dice lo siguiente sobre algunos experimentos realizados en el CERN:

es la probabilidad de que si la partícula no existe, los datos que los científicos del CERN recopilaron en Ginebra, Suiza, serían al menos tan extremos como lo que observaron.

Pero, "no existe" no me parece una hipótesis muy bien definida para probar:

En mi comprensión de la prueba de hipótesis frecuentista, las pruebas siempre están diseñadas con la intención de proporcionar evidencia contra una hipótesis particular, en un tipo de epistemología muy popperiana. Da la casualidad de que en muchos de los ejemplos de juguetes utilizados en las clases de estadísticas, y también en muchos casos de la vida real, la negación de la hipótesis que uno se propone demostrar que es incorrecta es en sí misma una hipótesis interesante. Por ejemplo, ACME corp plantea la hipótesis de que su alpiste de la marca ACME atraerá >90% de los correcaminos que pasan a menos de 5 m de una caja. WE Coyote plantea la hipótesis de la negación. Cualquiera puede comenzar a recopilar datos para proporcionar evidencia contra la hipótesis del otro, y debido a que las hipótesis son negaciones lógicas entre sí, la evidencia contra ACME es evidencia para WEC y viceversa.

En la cita anterior, intentan enmarcar una hipótesis como "sí, bosón de Higgs" y su negación como "no, bosón de Higgs". Parece que si la intención es proporcionar evidencia para "sí, bosón de Higgs", entonces en la metodología frecuentista normal, uno reúne evidencia contra "no hay bosón de Higgs" y puede cuantificar esa evidencia en un valor p o simplemente en un número estándar. errores de cualquier cantidad predicha por la teoría que estamos investigando. Pero esto me parece una tontería, ya que la negación del modelo físico que incluye el de Higgs es un espacio infinito de modelos. OTOH, este es el único contexto en el que el sustituto del valor p "cinco sigma" parece tener algún sentido.

De hecho, este fue mi pensamiento original cuando comencé a buscar en Google: el estándar cinco sigma implica que estamos recopilando evidencia contra algo, pero las teorías de la física moderna parecen abarcar tal amplitud y son tan específicas que recopilar evidencia contra su mera la negación es una tontería.

¿Que me estoy perdiendo aqui? ¿Qué significa la evidencia "cinco sigma" para la hipótesis de Higgs (u otras hipótesis de la física) en este contexto?

Sospecho que las palabras justo antes de que comenzaste a citar esto son críticas. Sin leer el artículo, no sabemos con precisión qué es "eso".
@Brick """ En resumen, cinco sigma corresponde a un valor p, o probabilidad, de 3x10-7, o aproximadamente 1 en 3,5 millones. Esta no es la probabilidad de que el bosón de Higgs exista o no exista; más bien , es la probabilidad de que si la partícula no existe, los datos que los científicos del CERN recopilaron en Ginebra, Suiza, serían al menos tan extremos como lo que observaron".""
"eso" es el estándar de cinco sigma, que supongo que en la jerga frecuentista normal es más parecido a "alfa" que a un valor p, pero /encogimiento de hombros.
Creo que vale la pena señalar que no todo el análisis de datos en la física de partículas es frecuentista. Además, si ya está familiarizado con las estadísticas y quiere familiarizarse rápidamente con lo que, específicamente, están haciendo los físicos de partículas, le recomiendo el grupo de datos de partículas que tiene muchas reseñas.
@Él: En realidad, no, el "eso" al comienzo de la cita se refiere a un valor p. Le sugerimos que edite la pregunta para incluir la cita completa.
@DanielRCollins Seguro, pero el periodista presumiblemente quiso referirse a α y no pag , y α es simplemente una escala unitaria diferente para cinco sigma. Incluí la cita como lo hice porque no quería tener una conversación sobre la conversión de unidades o sobre informes científicos deficientes.

Respuestas (4)

El experimento del descubrimiento de Higgs es un experimento de conteo de partículas. Muchas partículas se producen por colisiones en el acelerador y aparecen en sus diversos detectores. La información sobre esas partículas se almacena para más tarde: cuándo aparecieron, la dirección en la que viajaban, su energía cinética, su carga, qué otras partículas aparecieron en otras partes del detector al mismo tiempo. Luego puede reconstruir "eventos", agruparlos de diferentes maneras y verlos en un histograma, como este:

Histograma de descubrimiento de Higgs

[Mea culpa: recuerdo esta imagen, y otras similares, del anuncio del descubrimiento de Higgs, pero la encontré en una búsqueda de imágenes y no tengo un enlace de origen adecuado.]

Son detecciones simultáneas de dos fotones (“difotones”), agrupados por la “masa equivalente” metro γ γ de la pareja Hay toneladas y toneladas de fotones traqueteando alrededor de estas colisiones, y el seguimiento direccional de los fotones no es muy bueno, por lo que la mayoría de estos "pares" son solo coincidencias aleatorias, fotones no relacionados que llegaron a diferentes partes del detector al mismo tiempo. tiempo. Debido a que cada colisión es independiente de todas las demás, el llenado de cada pequeño contenedor está sujeto a las estadísticas de Poisson : un contenedor con norte eventos en él tiene una incertidumbre estadística intrínseca "one-sigma" de ± norte . Puede ver las barras de error en el gráfico de ajuste total menos en el panel inferior: en el lado izquierdo, donde norte 6000 eventos por intervalo en la figura superior, las barras de error son aproximadamente 6000 80 eventos; en el lado derecho, donde hay menos señal, las barras de error son apropiadamente más pequeñas.

El límite de confianza “one-sigma” es del 68%. Por lo tanto, si esos datos fueran realmente generados de forma independiente por un proceso Poissoniano cuyo comportamiento promedio fuera descrito por la línea de ajuste, esperaría que los puntos de datos estuvieran igualmente distribuidos por encima y por debajo del ajuste, con aproximadamente el 68 % de las barras de error cruzando el ajuste. línea. El otro tercio perderá la línea de ajuste, solo por el ruido ordinario. En este gráfico tenemos treinta puntos, y unos diez de ellos tienen barras de error que no cruzan la línea de ajuste: totalmente razonable. En promedio, un punto en veinte debería estar, aleatoriamente, a dos o más barras de error de la predicción (o, "dos sigma" corresponde a un límite de confianza del 95%).

Hay dos contenedores notables en este histograma, centrados en 125 GeV y 127 GeV, que son diferentes del ajuste de fondo (leyendo a simple vista) aproximadamente 180 ± 60 y 260 ± 60 eventos. La “hipótesis nula” es que estas dos diferencias, aproximadamente 3 σ y 4 σ , son ambas casualidades estadísticas, al igual que el contenedor bajo a 143 GeV es probablemente una casualidad estadística. Puede ver que esta hipótesis nula está fuertemente desfavorecida, en relación con la hipótesis de que "en algunas colisiones, un objeto con una masa cercana a 125 GeV se desintegra en dos fotones".

Este diagrama de dipotón por sí solo no lo lleva a un descubrimiento de cinco sigma: eso requirió datos en múltiples canales de desintegración de Higgs diferentes, combinados de los dos grandes experimentos del CERN, que requirieron una gran cantidad de sofisticación estadística. Una parte importante del descubrimiento fue combinar los datos de todos los canales para determinar la mejor estimación de la masa, la carga y el giro del Higgs. Otro resultado importante del descubrimiento fueron las intensidades relativas de los diferentes modos de descomposición. Como dice otra respuesta, ayudó mucho que ya tuviéramos una predicción de que podría haber una partícula con esta masa. Pero creo que este conjunto de datos muestra muy bien la hipótesis nula: la mayoría de los pares de fotones de ATLAS provienen de un fondo continuo bien definido de coincidencias accidentales,

Buena respuesta; Tengo una consulta sobre la línea roja en el gráfico. Primero, creo que sería apropiado presentar los datos sin esa curva, para no prejuzgar la cuestión de si hay o no un aumento significativo en 126 GeV. Pero si seguimos adelante y ajustamos un pico, ¿cómo es que el que se muestra está ligeramente a la izquierda de los datos? Creo que también es un poco demasiado amplio (en comparación con un mejor ajuste de mínimos cuadrados).
@AndrewSteane Creo que la respuesta corta a su pregunta es que la masa y el ancho de decaimiento que mejor se ajustan para el Higgs no se ajustan solo a estos datos de dipotón, sino al mismo tiempo a otros canales de decaimiento de Higgs. (La respuesta larga es probablemente "leer los documentos de descubrimiento".) Estoy de acuerdo con usted en que el mejor ajuste para estos datos solo probablemente tendría el pico un poco más estrecho y con una masa ligeramente mayor. Pero, en el espíritu de esta respuesta sobre la hipótesis nula, creo que también estaría de acuerdo en que la curva roja no está excluida de ninguna manera.

Creo que esta pregunta puede surgir de una diferencia entre las presentaciones de términos sencillos un tanto toscos y las estadísticas más cuidadosas que se llevan a cabo en los laboratorios reales. Pero incluso después de que un conjunto de datos dado haya sido analizado hasta el final, no hay una forma formal de capturar en su totalidad la evidencia que subyace a la forma en que crece el conocimiento de la física. La evidencia que rodea al mecanismo de Higgs, por ejemplo, no sería tan convincente si el propio mecanismo de Higgs no fuera una combinación elegante de ideas que ya encuentran su lugar en un todo coherente.

La hipótesis contra la que uno está reuniendo evidencia es siempre la hipótesis de que estamos equivocados en cuanto a cómo se produjo un conjunto de datos dado (como un pico en un espectro). El error podría ser bastante simple, como por ejemplo cuando, de hecho, la distribución subyacente es plana y el pico es un artefacto de ruido aleatorio. Pero por lo general uno tiene que considerar la posibilidad de que el pico esté ahí pero se deba a algo más que al mecanismo que se está estudiando. La hipótesis que uno está probando en sentido estricto --- el sentido de descartar en algún nivel de confianza --- es el conjunto de todas las otras formas en las que hemos pensado hasta ahora en cuanto a cómo podrían surgir los datos. En este conjunto de formas, solo necesitamos considerar formas que reflejen la física conocida y las cantidades conocidas de ruido, etc. en el aparato.

Creo que lo que hace la comunidad de físicos es un poco como Sherlock Holmes: tratamos de pensar en otras formas plausibles en las que podrían surgir los datos y luego damos razones de por qué se pueden descartar esas otras formas. El paso final, en el que procedemos a afirmar que la principal explicación candidata es lo que realmente sucedió, no es un paso que pueda cuantificarse mediante ninguna medida estadística. Esto se debe a que se basa no solo en un conjunto de datos dado, sino también en un juicio sobre la calidad de la teoría en consideración.

La hipótesis nula aquí es que los datos fueron generados por la física que obedece a la teoría del campo efectivo que describe todas las partículas del modelo estándar excepto el bosón de Higgs. Este modelo generalmente no tiene un nombre, pero podría llamarse razonablemente el 'Modelo estándar sin Higgs'. Es una teoría de campo efectivo perfectamente buena. Sus predicciones son apenas diferentes del modelo estándar habitual (con Higgs).

Solicitar un rechazo de 5 sigma de la hipótesis nula en este caso significa acumular una gran cantidad de datos que son incompatibles con el "Modelo estándar sin Higgs". Datos suficientes para que un par de errores experimentales de 1 sigma no arruinen el resultado.

Y, por supuesto, la hipótesis alternativa es que los datos fueron generados por la física obedeciendo a la teoría del campo efectivo que llamamos Modelo Estándar.
"apenas diferente" Creo que tal vez algo que rodea esta declaración es en realidad el quid de la cuestión. Esta teoría es "apenas diferente" en un 99,99999% de las formas, pero es " muy diferente" en esta predicción particular que hemos decidido medir. La discusión con @RogerVadim me hace pensar que la implicación es que el "Modelo estándar con Higgs" se considera " muy diferente" de esta manera particular de cualquier extensión sensible del "Modelo estándar sin Higgs" que podría considerarse razonablemente realmente diferente teorías del "Modelo Estándar con Higgs"
@ Él, me temo que no puedo analizar tu última oración.
mi punto aquí es que "la teoría del campo efectivo que describe todas las partículas del Modelo Estándar excepto el Higgs" no es una teoría. Es un conjunto de teorías. Hay muchas extensiones posibles del modelo estándar que pueden incluir un pico en la frecuencia de eventos de partículas a una energía determinada. No todas esas son extensiones sensibles. Por ejemplo, el "Modelo estándar con nano asistente mágico de 7TeV". No todos son realmente diferentes del "Modelo estándar con Higgs". Por ejemplo, el "Modelo estándar con partículas de Biggs que es como Higgs pero con una "B""
Entonces, en este sentido, aunque el "modelo estándar sin Higgs" es un conjunto infinito de modelos, decimos que tenemos evidencia "cinco sigma" contra todos ellos porque tenemos evidencia "cinco sigma" contra el subconjunto de aquellas hipótesis que hemos imaginado hasta ahora, y que son razonables de acuerdo con nuestra comprensión actual de la física, y no son esencialmente equivalentes al "Modelo estándar con Higgs"
Creo que la explicación de @AndrewSteane es una buena paráfrasis de esto.

Actualización sobre la prueba de hipótesis
En la prueba de hipótesis (frecuentista) uno siempre tiene (al menos) dos hipótesis: la hipótesis nula y la hipótesis alternativa . Entonces , el valor p es la probabilidad de observar cierto conjunto de datos, dado que la hipótesis nula es verdadera, mientras que el poder de la prueba es la probabilidad de que la hipótesis alternativa sea verdadera, dados los datos observados.

Si el valor p es menor que un umbral predefinido ( nivel de significación ), se rechaza la hipótesis nula como improbable. En el ejemplo dado en el OP, se supone que los datos siguen la distribución gaussiana/normal, y cinco sigma determina el nivel de significancia en términos de esta distribución (una bastante estricta).

¿Qué tiene que ver con Popper?
Desde el punto de vista estadístico, la epistemología popperiana simplemente significa que diseñar una prueba para rechazar una hipótesis y calcular su valor p suele ser más fácil que calcular la potencia de la prueba (que generalmente requiere algunas suposiciones ad-hoc sobre las distribuciones de probabilidad subyacentes). En otras palabras, refutar la hipótesis nula es más fácil que probar que la hipótesis alternativa es correcta. Luego, uno elige la hipótesis nula de tal manera que pueda ser refutada, en lugar de tratar de probarla. Elegir si la partícula existe como hipótesis nula y la partícula no existe como alternativa, o viceversa, no depende del significado filosófico de cualquiera de las afirmaciones, sino de nuestra capacidad para refutarlas.

Observación
En mi opinión, el capítulo sobre pruebas estadísticas publicado por Partciel Data Group es uno de los mejores cursos intensivos sobre estadística para físicos.

Mi punto es que "la partícula no existe" no es un modelo físico que haga una predicción que pueda ser refutada. ¿Cómo se puede proporcionar evidencia contra esta declaración?
@Him Estamos hablando aquí de las medidas experimentales: observamos ciertos resultados y los explicamos usando una teoría que asume que la partícula no existe. Por ejemplo, dos partículas chocan y se puede suponer que se aniquilan O que se combinan en una nueva partícula. En algunos casos, escribir una teoría para dos partículas que se aniquilan y probarla es más fácil que diseñar una descripción para una partícula completamente desconocida.
Entonces, la interpretación "cinco sigma" es la normal, y la evidencia proporcionada es, de hecho, contra algún otro modelo bien definido que hace una predicción medible. Supongo que esto se considera una fuerte evidencia para la teoría de Higgs porque es la única teoría competidora conocida, y actualmente no existe evidencia en contra de la teoría de Higgs.
No se puede probar la teoría de Higgs... pero se podría refutar la teoría que asume que no hay partículas de Higgs. Y la probabilidad de que nos equivoquemos (valor p) es tan pequeña que es despreciable a todos los efectos prácticos.
Mi punto es que "la teoría que supone que no hay una partícula de Higgs" no es simplemente el complemento de "la teoría que supone que hay una partícula de Higgs". La teoría que asume que hay una partícula de Higgs hace predicciones cuantitativas que podemos medir. El complemento de esta teoría es, de hecho, un conjunto infinito de teorías, cada una de las cuales puede hacer sus propias predicciones. Entonces uno puede refutar una teoría que no es la teoría de Higgs.
Creo que sus comentarios aquí están aclarando un poco las cosas. Usted está diciendo que nos referimos a "cinco sigma" como en: "La teoría de Higgs hace una predicción medible X. Estamos bastante seguros de que cualquier modelo cuerdo que simultáneamente concuerde con otras teorías bien establecidas y también esté lo suficientemente en desacuerdo con la teoría de Higgs para ser descrito ya que diferentes teorías hacen una predicción medible de algo muy cercano a Y que podemos comparar con X. Hacemos una muestra de medidas y obtenemos algo que está a cinco errores estándar de Y, pero que no está tan lejos de X".
@Él: La hipótesis nula era que no había una partícula de la masa aproximada. Esto fue rechazado a una confianza de 5 sigma. El descubrimiento inicial fue de tal partícula de tal masa; Se usaron más argumentos para argumentar que la partícula era el bosón de Higgs. Este artículo habla un poco de eso.