He estado siguiendo las noticias sobre el trabajo que están haciendo en el acelerador de partículas LHC en el CERN. Me pregunto cómo se ven los datos sin procesar que se utilizan para visualizar las colisiones. ¿Tal vez alguien pueda proporcionar una muestra de csv o txt?
Diferentes piezas de equipo producirán datos de aspecto algo diferente, pero generalmente consisten en voltajes definidos como una función del tiempo. En algunos casos (cámaras de chispas, por ejemplo) el "voltaje" es digital, y en otros es analógico.
Tradicionalmente, la serie temporal de los datos es más lenta que los tiempos necesarios para que las partículas (casi a la velocidad de la luz) atraviesen el detector. Así uno tenía una fotografía efectiva para un solo experimento. Los equipos más modernos son más rápidos pero aún muestran los datos de esa manera. Aquí hay un ejemplo de LHC:
En lo anterior, los datos se han organizado para su visualización según la forma y la geometría del detector. Los datos sin procesar en sí mismos serían digitalizados y solo una colección de ceros y unos.
Normalmente hay dos tipos de medidas, "posición" y "energía". Las medidas de posición suelen ser binarias, es decir, indican que una partícula pasó a través de ese elemento (muy pequeño) o no. En lo anterior, las líneas amarillas son medidas de posición.
Tenga en cuenta que algunas de las líneas amarillas son curvas. En realidad todos ellos son curvos al menos algunos. Esto se debe a que hay un fuerte campo magnético. La curvatura de las pistas de partículas ayuda a determinar qué partículas son. Por ejemplo, dada la misma velocidad y carga, una partícula más pesada correrá más recta.
El radio de curvatura viene dado por:
Las mediciones de energía son generalmente analógicas. En ellos, uno obtiene una indicación de cuánta energía fue depositada por la partícula a medida que pasaba. En lo anterior, los datos azul claro y rojo son mediciones de energía. Para estas medidas, no se obtiene una posición tan precisa, pero la amplitud es muy precisa.
Hace años, como estudiante de posgrado en física de partículas, solía trabajar en el experimento PHENIX en BNL . Antes de que apareciera (creo que cerca del final de la ejecución 2), la estructura de datos principal utilizada para el análisis se llamaba "tupla". Las tuplas eran muy parecidas a las listas que se usan hoy en Python con un poco más de estructura para acelerar el acceso y contenían los datos reales correspondientes a lo que llamamos un "evento" (algo interesante que sucedió en el detector que fue capturado por los diversos subsistemas y eventualmente escrito en una tupla). Desafortunadamente, las tuplas generalmente eran demasiado grandes y era necesario analizar un subconjunto más pequeño de las entradas en las tuplas, por lo que nacieron las microtuplas y, poco después, las nanotuplas.
Hubo diferentes tipos de nanotuplas definidas y utilizadas por los diversos grupos de trabajo en el experimento que tenían diferentes subconjuntos de las tuplas originales. El tipo de nano-tupla que usó dependía del análisis que estaba tratando de hacer y correspondía aproximadamente al grupo de trabajo en el que estaba. En mi caso, este era un sabor fuerte donde estaba estudiando el encanto.
Entonces, una nano-tupla podría verse así:
(x_1, x_2, ..., x_n)
donde x_i serían todas las diferentes cantidades de interés asociadas con el evento: momento transversal, energía depositada en el EM-cal, bla, bla, bla.
Al final, el análisis de datos giró en torno a la manipulación de estas nano-tuplas y ascendió a:
La verdad es que rara vez mirábamos el RAW, los datos sin procesar que salían del detector a menos que estuviera de turno y parte del sistema de adquisición de datos hubiera dejado de funcionar por algún motivo. Pero en ese caso, los datos no tenían mucho sentido cuando los mirabas. Le preocuparía más que los datos no estuvieran fluyendo. Sin embargo, si usted fuera una de las personas responsables del mantenimiento de un subsistema (por ejemplo, EM-cal), entonces probablemente estaría realizando calibraciones de manera regular y revisando periódicamente los datos sin procesar de su subsistema en particular para ajustar la calibración y realizar los cálculos sin procesar. datos analizables.
En su mayoría, los datos sin procesar solo eran significativos para el subsistema en el que tenía una responsabilidad y, en realidad, no se miraban todos los datos sin procesar de todos los subsistemas en su conjunto. No creo que nadie tuviera ese tipo de amplitud en todos los diferentes subsistemas...
Con respecto a los datos de las visualizaciones sobre las que preguntó: creo que se trataba de nanotuplas especialmente definidas que tenían entradas de suficientes subsistemas para permitir la reconstrucción y la visualización final (imágenes bonitas), pero estoy 99% seguro de que las visualizaciones eran ' t creado a partir de los datos "sin procesar". Más bien se hicieron usando estas nano-tuplas.
Si hurgas en el sitio web de PHENIX, puedes ver algunas animaciones bastante elegantes (al menos para entonces) de colisiones en el detector. En su mayoría, estas fotos y películas fueron parte de un esfuerzo de relaciones públicas más amplio y experimental. Fueron creados por un tipo llamado Jeffery Mitchel y debe enviarle un correo electrónico para obtener más detalles sobre el formato de los datos que usó (mitchell@bnl.gov). hace tiempo que se mudaron, por lo que probablemente pueda obtener más información sobre los datos "sin procesar" creados por el LHC hoy y utilizados para esas visualizaciones si le pregunta a alguien como él directamente.
dmckee --- gatito ex-moderador
ana v
OpenCoderX