Tengo dos algoritmos separados (llámelos "A1" y "A2") que reconstruyen el -posición de un evento en un detector de partículas. Puedo probar ambos algoritmos en eventos simulados de un Monte Carlo muy preciso del experimento. Tenga en cuenta que A1 y A2 funcionan en diferentes observables en el detector y sus errores no están correlacionados (aunque los propios observables están correlacionados). No hay un sesgo sistemático con ninguno de los algoritmos y, por lo tanto, en conjunto, el error de reconstrucción y es aproximadamente cero sobre todos los eventos.
Digamos que A1 reconstruye un evento MC dado en alguna posición , y A2 reconstruye el mismo evento MC en alguna posición diferente . Ejecuto A1 y A2 en cada evento de MC, y termino con dos distribuciones: una que da la distancia (distancia escalar, no vector) desde la verdadera posición de MC del evento hasta para todos los eventos, y uno que da la distancia desde la verdadera posición MC del evento a para todos los eventos. Dado que esta distancia es necesariamente no negativa, estas distribuciones tienen algún valor medio positivo y algo de RMS.
Todo está bien: estas dos distribuciones tienen cada una una media (que caracteriza la precisión del algoritmo) y un RMS (que caracteriza la precisión del algoritmo), y las dos distribuciones son más o menos gaussianas. A continuación, quiero usar estos algoritmos A1 y A2 en datos reales del detector y usar las propiedades de estas distribuciones MC para poner un límite a la incertidumbre de mis posiciones reconstruidas.
Mi pregunta es la siguiente: conociendo los RMS y las medias de las distribuciones de distancia A1 y A2, cuando uso A1 y A2 en datos reales , debería poder encontrar un punto de "mejor ajuste" y ponerle cierta incertidumbre. Por un lado, siento que debería promediar las medidas y sumar los errores en cuadratura, pero esto se siente incorrecto por alguna razón (quizás porque la media de A2 tiende a ser mucho más alta que la media de A1).
¿Es esta la forma correcta de analizar estos datos? ¿Estoy pensando demasiado en esto?
Como se explica en los comentarios, para un evento MC dado, los errores y para los dos métodos de reconstrucción A1 y A2 no están correlacionados. Por lo tanto, no se obtiene información adicional mediante el uso de ambas reconstrucciones. Deberíamos usar el mejor.
Ahora, ¿qué significa "mejor"? Como se indica en el OP, para ambas reconstrucciones, las distribuciones de y son gaussianas con media cero. Sin embargo, las desviaciones estándar son diferentes. Suponiendo que para cualquier método de reconstrucción , la mejor estrategia es simplemente elegir el método con el menor . A diferencia de y , el error "distancia" tiene una distribución que es estrictamente positiva y tiene una media distinta de cero. Como se señaló en el OP, A1 y A2 conducen a dos distribuciones diferentes de , cada uno con su propia media (positiva) y varianza. Tenga en cuenta, sin embargo, que la media y la varianza de la distribución de Rayleigh no son independientes (consulte el artículo vinculado a continuación), por lo que realmente solo desea utilizar el método de reconstrucción con la media más pequeña , que es lo mismo que elegir el que tiene la gaussiana más pequeña como se describió anteriormente.
Nuestra declaración anterior de que deberíamos usar el método de reconstrucción que tiene el menor depende críticamente del hecho de que A1 y A2 usan los mismos datos de MC. Sin embargo, OP mencionó que en el experimento real, A1 y A2 usan diferentes observables en el detector. En este caso, nos beneficiamos al combinar los datos de ambos métodos, en esencia porque más datos significan más información. La pregunta entonces es cómo combinar los resultados. Esta es realmente una pregunta muy interesante.
Para un evento de detector dado, obtenemos cuatro números:
Tenga en cuenta que si cualquiera de A1 o A2 es mucho mejor que el otro, puede ignorar el peor sin perder mucha precisión.
: Por si sirve de algo, la distribución de se llama distribución de Rayleigh .
Para mí, usar la distancia para medir datos bidimensionales es dudoso, especialmente si los eventos están cerca de la posición reconstruida (supuesta distancia 0). Diga si los eventos forman un círculo (el círculo es gaussiano perfecto). La distribución ya no será gaussiana ya que el área azul (en el dibujo) será menor que la amarilla:
Manishearth