¿Cómo se ven los datos en varias etapas de análisis de una colisión de partículas?

He estado siguiendo las noticias sobre el trabajo que están haciendo en el acelerador de partículas LHC en el CERN. Me pregunto cómo se ven los datos sin procesar que se utilizan para visualizar las colisiones. ¿Tal vez alguien pueda proporcionar una muestra de csv o txt?

Tenga en cuenta que los datos del LHC vienen en terabytes y las necesidades de procesamiento han creado una forma completamente nueva de manejo de datos, llamada GRID. cdsweb.cern.ch/record/840543/files/lhcc-2005-024.pdf . Describe el manejo de los datos.
CERN lanzó recientemente 300 TB de datos: cms.web.cern.ch/news/cms-releases-new-batch-research-data-lhc

Respuestas (2)

Diferentes piezas de equipo producirán datos de aspecto algo diferente, pero generalmente consisten en voltajes definidos como una función del tiempo. En algunos casos (cámaras de chispas, por ejemplo) el "voltaje" es digital, y en otros es analógico.

Tradicionalmente, la serie temporal de los datos es más lenta que los tiempos necesarios para que las partículas (casi a la velocidad de la luz) atraviesen el detector. Así uno tenía una fotografía efectiva para un solo experimento. Los equipos más modernos son más rápidos pero aún muestran los datos de esa manera. Aquí hay un ejemplo de LHC:

ingrese la descripción de la imagen aquí

En lo anterior, los datos se han organizado para su visualización según la forma y la geometría del detector. Los datos sin procesar en sí mismos serían digitalizados y solo una colección de ceros y unos.

Normalmente hay dos tipos de medidas, "posición" y "energía". Las medidas de posición suelen ser binarias, es decir, indican que una partícula pasó a través de ese elemento (muy pequeño) o no. En lo anterior, las líneas amarillas son medidas de posición.

Tenga en cuenta que algunas de las líneas amarillas son curvas. En realidad todos ellos son curvos al menos algunos. Esto se debe a que hay un fuerte campo magnético. La curvatura de las pistas de partículas ayuda a determinar qué partículas son. Por ejemplo, dada la misma velocidad y carga, una partícula más pesada correrá más recta.

El radio de curvatura viene dado por:

r = metro γ mi pags B
dónde γ = 1 / 1 ( v / C ) 2 es el factor de Lorentz, mi es la energía y pags es el impulso. Esto ayuda a determinar el tipo de partícula y la energía.

Las mediciones de energía son generalmente analógicas. En ellos, uno obtiene una indicación de cuánta energía fue depositada por la partícula a medida que pasaba. En lo anterior, los datos azul claro y rojo son mediciones de energía. Para estas medidas, no se obtiene una posición tan precisa, pero la amplitud es muy precisa.

Tenga en cuenta que esta vista no es ni remotamente "en bruto". Ya se ha realizado una reconstrucción y un seguimiento considerables.
Esta es una ciencia increíble, gracias. Todavía me gustaría ver algunos de los datos generados por los elementos sensores y posiblemente también en varias etapas de reconstrucción/agregación. Puedes ayudar con eso?
Otro comentario: "Por lo general, la serie temporal de los datos es más lenta que los tiempos necesarios para que las partículas (casi a la velocidad de la luz) atraviesen el detector". es mayormente incorrecto. La mayoría de los elementos detectores tienen una resolución de tiempo en la escala de 1 a 10 ns, que corresponde al orden de 1 a 10 pies (0,3 a 3 metros) en C . En el caso de un gran paquete detector colisionador como el que se muestra aquí, el instrumento tiene 10 metros o más de lado. En muchos casos, el tiempo de vuelo se usa para ayudar con la identificación de partículas.
La razón por la que pregunto es para entretener un experimento mental sobre "¿Cómo podría ayudar la apertura de datos científicos a las masas en el avance de un campo determinado? Lo que puede ser una pregunta tonta ya que cualquier persona apasionada por los datos de colisión de partículas probablemente ya esté trabajando con ellos". ¿Hay algún nicho en el proceso de datos de sensores >> transformación >> análisis >> conclusión que pueda ser llenado por una corporación o comunidad de código abierto? ¿Podría haber un papel para una corporación con fines de lucro en datos de física, donde es mutuamente beneficioso ?
@dmckee; Sí, mi recuerdo es de la década de 1980, lo corregiré. @opensourcechris; Creo que tendrías que hablar con alguien en los laboratorios. Mi conjetura es que la mayor parte lo hace la academia y confían más en sí mismos que en los demás.
@Carl, debe agregar que a partir de la curvatura también se obtiene el impulso que, junto con las mediciones de energía, ayuda a determinar la masa de la partícula.
@opensourcechris esto sería un ejercicio inútil. Los datos sin procesar son inútiles sin los metadatos, incluido el contenido de los registros del turno que cuida a los detectores. Los nichos con fines de lucro ocurren cuando se construyen los detectores. Muchos se subcontratan a la industria. No hay beneficio de la recopilación de datos para compartir. Los institutos incluso pagan por las publicaciones.
@opensourcechris Creo que, en términos generales, lo principal que impide que las instituciones publiquen datos es la gran cantidad de ancho de banda que se necesitaría para brindárselos a todos. El LHC, por ejemplo, produce un petabyte de datos sin procesar cada segundo. Los filtros automáticos eliminan el ruido y los datos no útiles y solo se registra una pequeña fracción. Al final de estos cortes, solo se registran 25 petabytes anuales. Esta es una gran cantidad de datos, solo el 20% aproximadamente se almacena en el CERN y el resto se distribuye a organizaciones afiliadas.

Hace años, como estudiante de posgrado en física de partículas, solía trabajar en el experimento PHENIX en BNL . Antes de que apareciera (creo que cerca del final de la ejecución 2), la estructura de datos principal utilizada para el análisis se llamaba "tupla". Las tuplas eran muy parecidas a las listas que se usan hoy en Python con un poco más de estructura para acelerar el acceso y contenían los datos reales correspondientes a lo que llamamos un "evento" (algo interesante que sucedió en el detector que fue capturado por los diversos subsistemas y eventualmente escrito en una tupla). Desafortunadamente, las tuplas generalmente eran demasiado grandes y era necesario analizar un subconjunto más pequeño de las entradas en las tuplas, por lo que nacieron las microtuplas y, poco después, las nanotuplas.

Hubo diferentes tipos de nanotuplas definidas y utilizadas por los diversos grupos de trabajo en el experimento que tenían diferentes subconjuntos de las tuplas originales. El tipo de nano-tupla que usó dependía del análisis que estaba tratando de hacer y correspondía aproximadamente al grupo de trabajo en el que estaba. En mi caso, este era un sabor fuerte donde estaba estudiando el encanto.

Entonces, una nano-tupla podría verse así:

(x_1, x_2, ..., x_n)

donde x_i serían todas las diferentes cantidades de interés asociadas con el evento: momento transversal, energía depositada en el EM-cal, bla, bla, bla.

Al final, el análisis de datos giró en torno a la manipulación de estas nano-tuplas y ascendió a:

  1. Solicite a los encargados de los datos que obtengan los datos sin procesar recopilados por los diferentes subsistemas en forma de nanotuplas.
  2. Espere un par de días para que los datos aparezcan en el disco, ya que era un gran conjunto de datos.
  3. Recorra los eventos (nano-tuplas) filtrando las cosas que no le interesaban (generalmente eventos asociados con piones)
  4. Bin los datos en cada entrada de la tupla
  5. Superponga la predicción teórica de estas distribuciones sobre lo que extrajo de la tupla
  6. Haz tu declaración sobre lo que estaba pasando. (confirmación de teoría, conjetura sobre desacuerdo, etc.)

La verdad es que rara vez mirábamos el RAW, los datos sin procesar que salían del detector a menos que estuviera de turno y parte del sistema de adquisición de datos hubiera dejado de funcionar por algún motivo. Pero en ese caso, los datos no tenían mucho sentido cuando los mirabas. Le preocuparía más que los datos no estuvieran fluyendo. Sin embargo, si usted fuera una de las personas responsables del mantenimiento de un subsistema (por ejemplo, EM-cal), entonces probablemente estaría realizando calibraciones de manera regular y revisando periódicamente los datos sin procesar de su subsistema en particular para ajustar la calibración y realizar los cálculos sin procesar. datos analizables.

En su mayoría, los datos sin procesar solo eran significativos para el subsistema en el que tenía una responsabilidad y, en realidad, no se miraban todos los datos sin procesar de todos los subsistemas en su conjunto. No creo que nadie tuviera ese tipo de amplitud en todos los diferentes subsistemas...

Con respecto a los datos de las visualizaciones sobre las que preguntó: creo que se trataba de nanotuplas especialmente definidas que tenían entradas de suficientes subsistemas para permitir la reconstrucción y la visualización final (imágenes bonitas), pero estoy 99% seguro de que las visualizaciones eran ' t creado a partir de los datos "sin procesar". Más bien se hicieron usando estas nano-tuplas.

Si hurgas en el sitio web de PHENIX, puedes ver algunas animaciones bastante elegantes (al menos para entonces) de colisiones en el detector. En su mayoría, estas fotos y películas fueron parte de un esfuerzo de relaciones públicas más amplio y experimental. Fueron creados por un tipo llamado Jeffery Mitchel y debe enviarle un correo electrónico para obtener más detalles sobre el formato de los datos que usó (mitchell@bnl.gov). hace tiempo que se mudaron, por lo que probablemente pueda obtener más información sobre los datos "sin procesar" creados por el LHC hoy y utilizados para esas visualizaciones si le pregunta a alguien como él directamente.