Cómo rastrear eficientemente las entregas de datos sin procesar

Trabajo para una empresa que realiza trabajos de modelado y análisis en grandes conjuntos de datos CAD y GIS en 3D. Para cada proyecto en el que trabajamos, podemos tener cientos de .lasarchivos individuales (datos de nube de puntos LiDAR) que se combinan para cubrir toda el área espacial en la que deseamos trabajar a la vez. Encontramos que es muy difícil rastrear qué datos se han entregado y determinar cuándo se completa la cobertura espacial completa para un área de interés.

He investigado varios softwares de Gestión del ciclo de vida del producto y Gestión de datos del producto, pero descubrí que estos están destinados principalmente a productos fabricados físicamente y no necesariamente adecuados para productos de datos. También he investigado varios softwares de gestión de proyectos, pero estos parecen rastrear datos sobre costos y cronogramas y no rastrean los datos sin procesar que son necesarios para realizar el análisis.

Me doy cuenta de que esta pregunta es muy amplia y está destinada a serlo. No tengo conocimiento de ninguna posible solución al problema de la gestión de datos y espero que otros puedan proporcionar alguna información.

En resumen: nuestro flujo de trabajo requiere varios tipos diferentes de datos de varias fuentes que cubren varias extensiones espaciales (geográficas). ¿Existen paquetes/sistemas de software para administrar la recopilación de datos sin procesar y determinar cuándo está listo el siguiente paso de un flujo de trabajo en función de los tipos y la cantidad de datos disponibles actualmente?

Gracias de antemano por tu ayuda. Me resulta difícil describir lo que necesito de una manera simple, ya que no he encontrado ningún ejemplo de este problema en ningún otro lugar, así que haga preguntas para ayudar a aclarar el problema.

Respuestas (2)

A nivel de gestión de proyectos no se debe trabajar con datos, sino solo con métricas encima de ellos. En lugar de tratar de controlar los datos, configure un mecanismo de recopilación de métricas instantáneas.

Dicho instrumento de recopilación de métricas puede ser creado por sus programadores internos. No creo que debas / puedas encontrar nada fuera del estante.

Si entiendo su pregunta correctamente, recibe conjuntos de datos que no está seguro de que cubran el 100% de los datos. Necesita algún tipo de sistema para poder confirmar que los conjuntos de datos están completos y cumplen con sus criterios de aceptación para que puedan pasarse a la siguiente unidad, por ejemplo, para su análisis.

Estoy en el sector farmacéutico, por lo que debemos asegurarnos de que nuestros estudios sean precisos por razones reglamentarias. Por lo general, esto se realiza mediante comprobaciones de control de calidad de los datos, seguidas de comprobaciones de control de calidad para asegurarse de que el control de calidad funcionó como se anuncia. Esto se puede hacer más eficiente mediante el uso de sistemas electrónicos de captura de datos, pero en última instancia tiene que haber algún nivel de intervención humana.

¿Es posible usar una convención de nomenclatura para sus archivos de modo que sea relativamente fácil revisarlos manualmente para identificar brechas obvias?