¿Qué es la completitud de una observación y cómo la calculo?

Muchas publicaciones escriben sobre "integridad". Tengo una vaga idea de que tiene que ver con la proporción de cuántas fuentes de una observación se detectan y cuántas fuentes hay realmente en ese campo. Sin embargo, alguien me puede explicar por favor:

a) ¿Cuál es la definición de completitud?
b) ¿Cómo se calcula la completitud de una observación?

Como ejemplo: Smolčić et al. 2008 están escribiendo sobre la integridad. Eche un vistazo a Un nuevo método para separar la formación estelar de las galaxias AGN en el corrimiento al rojo intermedio: la población de radio Submillijansky en la encuesta VLA-COSMOS

Iba a pedir una cita en bloque desde donde aparece "integridad" en el documento vinculado, ¡pero ocurre 27 veces! Por ejemplo; “Apartado 4.1.2. Completitud y contaminación por la selección fotométrica”

Respuestas (1)

a) ¿Cuál es la definición de completitud?


La integridad es el número de objetos en un conjunto de datos que se detectan sobre el número que existe. En astronomía, la completitud a menudo se estima para una determinada magnitud aparente o densidad de flujo. Como ejemplo, para fuentes que son tan brillantes como el Sol (magnitud -27), tenemos una integridad de 1. Es decir, hemos descubierto todas las fuentes en la esfera celeste con la magnitud del Sol. A medida que llegamos a objetos muy tenues, como pequeñas piezas de basura espacial en las órbitas de la Tierra, nuestra tasa de integridad se reduce drásticamente.

b) ¿Cómo se calcula la completitud de una observación?


En una curva ROC , la integridad es la Tasa de verdaderos positivos o el eje y si se han observado todos los objetos (¡gracias @ProfRob!). Si solo se ha observado una fracción de los objetos, la integridad es esa fracción multiplicada por la tasa positiva verdadera. Tenga en cuenta que un clasificador solo produce una mejor integridad a costa de tasas de falsos positivos más altas. Aquí hay un excelente ejemplo de curvas ROC para diferentes algoritmos que diferencian los cuásares de las estrellas:

El panel izquierdo muestra los datos utilizados en la clasificación fotométrica basada en colores de estrellas y cuásares. Las estrellas se indican con puntos grises, mientras que los cuásares se indican con puntos negros. El panel derecho muestra las curvas ROC para la identificación de cuásares basadas en los colores u - g , g - r , r - i e i - z.

ingrese la descripción de la imagen aquí

Si no conoce la verdadera tasa positiva, puede ejecutar una simulación en la que inyecta objetos en su conjunto de datos y determina qué parte de estos encuentra su algoritmo. Esto le dará una estimación de su integridad. Matlab tiene una función específica para la simulación de Monte Carlo de la curva ROC , por ejemplo.

La tasa positiva verdadera solo le indica la integridad de su muestra si ha observado todos los objetos. Por ejemplo, trabajo en la pertenencia a un clúster y puedo generar curvas ROC. No me dicen qué tan completa es mi muestra. Para eso necesito saber qué fracción de objetos se observaron.
¡Gracias por tu comentario! Tengo una pregunta de seguimiento. ¿Cómo se simulan los datos? Espero algo como: 1. eliminar fuentes reales de los datos dejando solo el ruido y los artefactos, 2. inyectar fuentes falsas. ¿Cómo se encuentra la distribución correcta para 2. y la morfología de la fuente juega un papel? (si es posible, sería mejor una respuesta en el contexto de la radioastronomía).
@kelpfish ¡De nada! En mi opinión, su pregunta de seguimiento excede el alcance de la sección de comentarios. Sugeriría plantearlo como una pregunta de intercambio de pila de astronomía separada.