¿Cómo decirle a mi supervisor que no usaré los datos que preparó un colega?

Comencé un postdoctorado hace aproximadamente un año. En el momento de mi contratación, me dijeron que otro posdoctorado estaba preparando el gran conjunto de datos que eventualmente usaría. Mientras tanto, debía ejecutar algunos modelos de muestra y desarrollar un método en algunos datos de prueba pequeños.

Diez meses después, cuando finalmente recibí los datos, la hoja de cálculo era un desastre (nombres de columnas extremadamente largos, sin nombres de columnas, errores tipográficos, sin documentación) y también comencé a encontrar errores en ellos de inmediato. Por ejemplo, algunos valores combinados se habían multiplicado por 2, 2,5 o 2,25. Nadie pudo explicar lo que sucedió, así que pasé casi 2 meses rehaciendo esos valores.

Se pone peor. Empecé a revisar las otras columnas y me di cuenta de que algunos indicadores "sin datos" se habían promediado con valores medidos. Esto produjo grandes valores negativos que deberían haber sido una señal de alerta para esos datos. Hubo otros errores descuidados similares en los datos. He tratado de ser muy cortés con el otro posdoctorado, pero no recibo mucha ayuda de esta persona.

Pasé casi 3 meses limpiando el desorden y sigo encontrando problemas. Mi presupuesto está casi terminado (me quedan unos 3 meses) y me piden que empiece a escribir y preparar un borrador en los próximos tres meses. Me preocupa que haya más problemas con los datos que no veo porque la persona que los preparó no prestó mucha atención a los detalles. También se preparó a mano en Excel y no se documentó bien o no se documentó en absoluto. No quiero poner mi nombre en algo que use datos potencialmente llenos de errores, especialmente porque estoy al principio de mi carrera. He expresado estas preocupaciones de manera algo indirecta a mi supervisor principal y él no es más que tranquilizador e incluso a la defensiva de los datos. Otro colega, no el que está a cargo del proyecto, está de acuerdo conmigo.

¿Qué tengo que hacer?

Vi una Q muy similar hace un tiempo, pero encontré esto: academia.stackexchange.com/q/101765/72855

Respuestas (3)

Ha encontrado una lección importante en la investigación: si la persona u organización que proporciona sus datos no es responsable de alguna manera de que los datos sean correctos, no lo será. La recopilación y el preprocesamiento de nuevos datos es un proceso iterativo con muchos reinicios a medida que descubre que las técnicas comunes deben adaptarse al conjunto de datos en particular. Si alguien simplemente le entrega datos que no tuvo que probar o validar en ningún lado, lo que obtiene es su primer resultado fallido. Si tocan los datos para hacerles algo, es casi seguro que lo hicieron incorrectamente; si hay una señal, probablemente crearon errores de señal; si hicieron alguna clasificación, probablemente no clasificaron las etiquetas y los valores de manera consistente, etc.

En cuanto a cómo proceder, aquí hay otra lección desafortunada para cualquier persona en un puesto de investigación asesorado: generalmente debe hacer lo que su supervisor desee. No me refiero a comportarse de manera poco ética si te empujan a hacerlo. Pero cambiar su enfoque para hacer lo mejor con lo que tiene en lugar de dejar que lo perfecto sea el enemigo de "al menos-usted-hizo algo". Honestamente, su supervisor probablemente tenga una mejor comprensión del panorama general. Es decir, obtener un resultado para mostrarle a la agencia de financiamiento que fue productivo, obtener una muesca en su CV y ​​esos resultados son los más importantes. Si bien un resultado de investigación maravilloso que impulsa el mundo de la ciencia verticalmente probablemente ya esté fuera de alcance. Sin embargo, puede ajustar la forma en que presenta los datos en su documento, por ejemplo, centrarse en los métodos y no en los resultados.

Si bien el consejo de Un algoritmo simple es sólido, agregaría que, de hecho, puede informar a su supervisor que los datos que obtuvo "no están listos para el horario de máxima audiencia". Esté preparado para mostrar por qué y qué ve como problemas con él. Espero que luego reciba consejos que probablemente debería seguir, incluso si no está de acuerdo, suponiendo que desea preservar las relaciones.

No es necesario seguir ciegamente, ni es necesario gritar y despotricar. Simplemente señale los defectos y por qué tendrán un impacto negativo en el trabajo. Es posible que el supervisor tenga alguna influencia para mejorar los datos que usted no tiene directamente. Por supuesto, una opción es que usted obtenga la mejora, lo cual no es justo ni ideal, pero al final resultará en un mejor trabajo.

No quiero poner mi nombre en algo que use datos potencialmente llenos de errores.

Tienes razón. No publiques si crees que los datos no son correctos.

La próxima vez aborde la calidad de los datos al inicio del proyecto.

P: ¿cómo decirle a mi supervisor que no usaré los datos? R: la próxima vez hazlo al comienzo del proyecto. Probablemente un buen consejo, pero no una respuesta que ayude a OP.