¿A qué se refieren los términos "fuera de línea" y "en línea" en el campo del análisis de datos de física de alta energía?

El título lo dice: me he encontrado con estos términos varias veces, pero nunca he encontrado una explicación en ninguna parte. Un ejemplo de uso es esta nota ATLAS .

Si puedo aventurarme a adivinar: la velocidad de datos es alta en el LHC, por lo que solo una fracción se puede analizar en tiempo real (en línea), mientras que una parte se almacena para su análisis posterior (fuera de línea).

Aunque el término se usa de manera algo diferente en la física de partículas (ver las respuestas a continuación), todavía está bastante bien correlacionado con el significado estándar de algoritmos 'en línea' y 'fuera de línea' en informática. Me imagino que de ahí viene el término.

Respuestas (3)

El análisis de datos en línea es un análisis superficial realizado a medida que se recopilan los datos. A menudo se utiliza con el fin de seleccionar qué eventos guardar en disco o cinta para analizarlos más tarde (un "filtro" de eventos). Dado que los experimentos actuales del CERN tomarán, en la próxima ejecución, datos a velocidades superiores a un terabyte por segundo, esta noción es esencial.

De hecho, el flujo de análisis en línea se realiza en varios pasos, cada uno de los cuales descarta un alto porcentaje de los datos del evento. El disparador en sí puede considerarse una implementación de hardware de la selección de eventos de nivel 0. CDF y D0 tenían tres niveles de en línea (más el disparador); el tercer nivel también asignó eventos a flujos de datos, de modo que, por ejemplo, los principales candidatos potenciales fueran un flujo.

El análisis fuera de línea se realiza después, en los datos almacenados. El análisis fuera de línea se realiza en "granjas" de computadoras, que en los días de CDF y D0 estaban principalmente en el Centro Feynmann en Fermilab, pero hoy en día hay decenas de miles de CPU distribuidas en universidades e instituciones de todo el mundo. El término "fuera de línea" generalmente se reserva para el proceso de reconstrucción de eventos, donde los datos sin procesar de los detectores se procesan para determinar qué sucedió en el evento, por ejemplo, "19 electrones salieron del vértice primario con estos momentos; hay vértices secundarios en este punto y ese punto, un 'chorro' de hadrones de esta energía e impulso provino de este vértice secundario..." y así sucesivamente. Esta reconstrucción fuera de línea se realiza en principio de una vez por todas para cada evento; en prácticas,

Los resultados de la reconstrucción de eventos se guardan como lo que en los días de Fermilab se conocían como DST (cintas de resumen de datos) y se compactan en gran medida en relación con los datos originales. Hoy en día estos datos resumidos se mantienen en disco, distribuidos por todo el mundo. Luego, hay muchos proyectos de análisis fuera de línea (usando los DST) codificados o diseñados por muchos experimentadores, para extraer la física real de esos eventos resumidos.

Nada de lo que está sucediendo en los disparadores es "análisis". Son algoritmos simples de coincidencia de patrones que excluyen eventos triviales que no contienen información interesante, ya sea porque son demasiado suaves o debido a problemas de acumulación. Me parece muy desafortunado que el término se utilice para un proceso que difícilmente podría ser más crudo (solía escribir y analizar algoritmos de activación en el pasado...).
Le sorprendería lo sofisticados que son los disparadores de hoy en día y cuánto esfuerzo intelectual y debate se dedican a desarrollar el disparador para un experimento moderno. Los días de "hay un pulso de haz (o un cruce de haz), así que disparemos" han pasado hace mucho tiempo.
Te sorprendería lo mal diseñado que estaba el gatillo ATLAS cuando estaba trabajando en él, cómo la gente no escuchó lo que les dije que tenían que hacer y cómo alguien que estaba allí en la mesa de diseño final me dijo que básicamente implementó todo lo que les dije en el pasado, después de todo. :-) Por cierto, si le interesa leer los documentos antiguos del SSC, el diseño del gatillo del SSC ya estaba veinte años por delante de los diseños del LHC en su época, es solo que la gente del CERN era bastante ingenua cuando empezaron y tuvieron que aprender desde cero Y, sin embargo, nada de esto es "análisis".

El término "en línea" generalmente se refiere a la reconstrucción de eventos y "fuera de línea" al análisis de los eventos reconstruidos. La razón por la que se denominan "en línea" y "fuera de línea" es que la reconstrucción en línea se realiza en tiempo real a medida que se recopilan los datos, y "fuera de línea" se realiza más tarde utilizando recursos (bancos informáticos, almacenamiento, etc.) que no están directamente vinculados a la recopilación de datos.

No estoy seguro de usar el término "análisis en línea", porque en realidad no es un análisis. El "procesamiento en línea" es más preciso.

Para comprender mejor el procesamiento en línea, es importante darse cuenta de que un detector de física de alta energía no es en realidad un solo detector; de hecho, es una federación suelta de muchos subdetectores que funcionan de manera algo independiente. Cada subdetector tiene su propia capacidad única de procesamiento y almacenamiento que recopila y almacena temporalmente datos de cada evento. Existen sistemas en línea (disparadores, filtros) que examinan los datos de cada uno de los subdetectores y deciden si el evento es real y lo suficientemente interesante como para conservarlo. Debido a que hay tantos datos y tan poco tiempo, esto se hace en varias etapas. La primera etapa generalmente se implementa en hardware (para velocidad); analiza la salida de algunos de los subdetectores, incluidos, en algunos casos, detectores construidos especialmente para este propósito, y decide si se debe leer la salida de todos los subdetectores o si se debe descartar. Si el procesamiento en línea supera la primera etapa, pasa a la segunda, donde se procesan los datos de más subdetectores y se toma una decisión similar de conservar o desechar. A medida que avanza por las etapas, se realiza más procesamiento, se combinan y comparan los datos de diferentes subdetectores y se toman decisiones similares. Una vez que pasa el filtro final, se realiza la etapa final de reconstrucción de eventos donde todos los datos (preprocesados) de todos los subdetectores se someten a un procesamiento en línea final y se fusionan en un solo "evento", que luego se almacena para su procesamiento fuera de línea. Si el procesamiento en línea supera la primera etapa, pasa a la segunda, donde se procesan los datos de más subdetectores y se toma una decisión similar de conservar o desechar. A medida que avanza por las etapas, se realiza más procesamiento, se combinan y comparan los datos de diferentes subdetectores y se toman decisiones similares. Una vez que pasa el filtro final, se realiza la etapa final de reconstrucción de eventos donde todos los datos (preprocesados) de todos los subdetectores se someten a un procesamiento en línea final y se fusionan en un solo "evento", que luego se almacena para su procesamiento fuera de línea. Si el procesamiento en línea supera la primera etapa, pasa a la segunda, donde se procesan los datos de más subdetectores y se toma una decisión similar de conservar o desechar. A medida que avanza por las etapas, se realiza más procesamiento, se combinan y comparan los datos de diferentes subdetectores y se toman decisiones similares. Una vez que pasa el filtro final, se realiza la etapa final de reconstrucción de eventos donde todos los datos (preprocesados) de todos los subdetectores se someten a un procesamiento en línea final y se fusionan en un solo "evento", que luego se almacena para su procesamiento fuera de línea. los datos de diferentes subdetectores se fusionan y comparan, y se toman decisiones similares. Una vez que pasa el filtro final, se realiza la etapa final de reconstrucción de eventos donde todos los datos (preprocesados) de todos los subdetectores se someten a un procesamiento en línea final y se fusionan en un solo "evento", que luego se almacena para su procesamiento fuera de línea. los datos de diferentes subdetectores se fusionan y comparan, y se toman decisiones similares. Una vez que pasa el filtro final, se realiza la etapa final de reconstrucción de eventos donde todos los datos (preprocesados) de todos los subdetectores se someten a un procesamiento en línea final y se fusionan en un solo "evento", que luego se almacena para su procesamiento fuera de línea.

Un procesamiento similar se puede realizar (y a menudo se realiza) fuera de línea utilizando datos "sin procesar" almacenados; esto generalmente se hace para incorporar mejoras en la calibración y reflejar una mejor comprensión del funcionamiento de los subdetectores. Nuevamente, llamaría a esto "procesamiento fuera de línea" en lugar de análisis.

El análisis fuera de línea es el proceso en el que los físicos examinan los datos del evento, o, más exactamente, filtran millones de eventos y seleccionan los que cumplen con ciertos criterios, y tratan de descubrir qué causó el evento. Aquí es de donde provienen los interesantes resultados de la física, como el descubrimiento del Higgs, o las mediciones precisas de ciertas relaciones de ramificación, o los límites de los parámetros supersimétricos, o cualquiera de los otros innumerables resultados publicados en las revistas de física.

Para darte otro ejemplo, de más física de energía media, colaboré en un experimento en el que la construcción del "resumen de datos" que describe dmckee tomó alrededor de ocho veces más que la recolección real de los datos. Seguimos analizando los datos en paralelo en diez computadoras, pero los datos de una hora de la mañana no estarían realmente listos para profundizar hasta el final de la tarde. Durante la recopilación de datos, nuestro "análisis en línea" ejecutó los mismos algoritmos que el algoritmo de análisis completo, pero en segmentos de datos de dos o cinco minutos, para que pudiéramos saber rápidamente si todo iba bien o si había algún problema que pudiera requerir tal vez detener el experimento y hacer una reparación.

Una vez que se completó la recopilación de datos, sabíamos cosas que no sabíamos cuando comenzó el experimento y, como resultado, nuestra cadena de herramientas de análisis fue diferente y más inteligente. Ese fue el comienzo del verdadero "análisis fuera de línea".