Datos incorrectos: cómo avanzar con éxito

Trabajo en un campo interdisciplinario. Mi aporte no lo genero yo mismo, sino personas talentosas en las que confío y que confían en mí para analizar sus datos y generar ideas fascinantes.

Pero aquí estoy, una vez más atrapado en un proyecto donde la entrada es mala. No sirve de nada culpar y encontrar un chivo expiatorio, estamos juntos en esto. Y la gente aprende. Pero he estado atrapado en proyectos con grandes promesas y aportes malos/insuficientes desde el comienzo de mi doctorado. Me mudé a otro lugar para un PostDoc ahora, pero esta situación aparentemente me persigue donde quiera que vaya.

No hay mucho que pueda lograr cuando la mayoría de mis proyectos se detienen después del control de calidad de entrada. Pero si quiero permanecer en la academia, necesito desesperadamente mejorar mi juego en la producción real, no solo en mi capacidad para solucionar problemas, ¿verdad?

¿Cómo puedo pasar de esto? ¿Qué posibilidades tengo si simplemente nunca consigo un "proyecto prestigioso" que resulte en una publicación valiosa? ¿Existe la posibilidad de seguir construyendo una buena reputación científica sin ellos? ¿Debería intentar escribir una reseña? ¿Asumir proyectos hasta que uno finalmente funcione? (Pero, ¿cuánto tiempo tendré éxito en conseguir otro trabajo si no lo hacen?) Podría trabajar con datos publicados por un tiempo, pero a menudo no son comparables entre estudios y carecen gravemente de metadatos.

La pregunta es, ¿tengo que aceptar que el éxito (es decir, básicamente poder permanecer) en la academia se basa en gran medida en la suerte y no soy uno de los afortunados o hay algo importante que pueda hacer? Realmente amo el trabajo que hago, me gustaría seguir adelante.

Hasta ahora he asumido proyectos adicionales, traté de hacer mis propios 'proyectos paralelos' en al menos partes utilizables de los datos con la esperanza de encontrar eventualmente un mejor conjunto de datos donde esto podría ser útil y me mantuve en contacto con colaboradores en un esfuerzo para solucionar problemas y, finalmente, producir una mejor entrada.

EDITAR: para abordar algunas preguntas: produzco canalizaciones de análisis, parcialmente basadas en mis propios métodos. Sin una aplicación de "datos reales" es difícil publicarlos en mi campo. Sí, son "datos del mundo real". No espero datos perfectos en absoluto. Pero espero datos técnicamente correctos y utilizables. Sin embargo, si la entrada es aleatoria o tiene pocas funciones para ser estadísticamente relevante, no hay nada que pueda hacer. Imagínese intentar hacer una prueba estadística sobre la similitud de las publicaciones de blog basadas en el uso de palabras escritas por diferentes grupos de personas, pero muchos "grupos" solo están representados por dos autores, el texto a veces tiene solo una oración y bastantes de las publicaciones luciendo como si fueran producidos por un generador de letras aleatorias, sin tener ninguna palabra real en ellas. Si bien me prometieron al menos 5 autores por grupo,

¿Qué haces realmente? Parece que toma entradas y produce salidas, pero ¿cómo está produciendo esa salida? Presumiblemente, estás aplicando algún método. ¿Ese método es tuyo? Si es así, ¿qué haces realmente? Parece que toma entradas y produce salidas, pero ¿cómo está produciendo esa salida? Presumiblemente, estás aplicando algún método. ¿Ese método es tuyo? Si es así, podría publicar el método. Entonces podría publicar el método como una contribución a la investigación. Tal vez pueda ampliar su pregunta para agregar algunos detalles más.
Qué tipos de salidas se realizan; ¿Incluyen papeles? eres un autor; etc.
¿Las entradas provienen del "mundo real"? Si es así, entonces no debe esperar datos perfectos; el mundo real es un lugar extraño al que no le importa mucho lo que necesitamos... Los métodos que utilizas para procesar esos datos deben ser capaces de hacer frente a esas imperfecciones. Si ese no es el caso, entonces la única solución es encontrar otros métodos que puedan tratar las imperfecciones. Si esperas hasta que el mundo se vuelva perfecto, entonces puedes esperar mucho tiempo.
¿No puedes participar en el proceso de recopilación de datos?
¿Puede usar conjuntos de datos públicos existentes, en lugar de usar conjuntos de datos "nuevos" que pueden resultar problemáticos?
El mundo está lleno de conjuntos de datos existentes. ¿Por qué necesitas unos nuevos ?
@Karl: OP puede ser empleado por personas que trabajan en una aplicación en particular (= pregunta del mundo real) para desarrollar análisis de datos para sus datos.
Bien, para abordar algunos de los comentarios: a veces participo en la planificación de la recopilación de datos, pero mi entrada ha sido "sobreescrita" e ignorada antes. Los conjuntos de datos existentes carecen de metadatos cruciales, por lo que son insuficientes para responder a las nuevas preguntas que tenemos. En algunos casos, no hay muchos datos existentes publicados, por lo que en lugar de trabajar con 5000 puntos de datos, tendría que trabajar con 45 si estuviera restringido a ellos.

Respuestas (4)

Resumen:

  • La vida real de investigación con datos del mundo real es desordenada*, y casi nunca habrá suficientes muestras (mi predicción muy personal).
  • Hay enormes oportunidades (y necesidades) al trabajar con datos pequeños y desordenados. ¿Quizás esa podría convertirse en su área de investigación?
  • Un buen trabajo de análisis de datos requiere una estrecha colaboración. En realidad ya al planificar los experimentos, pero seguro durante el análisis de datos.
    Una estrecha colaboración le permitirá hacerles conscientes de sus necesidades y que el análisis de datos no puede hacer milagros. También es necesario para usted porque, de lo contrario, puede estar empleando métodos de análisis inadecuados.

    * Cuando digo desordenado, no me refiero a una mala conservación (aunque también veo oportunidades aquí, aunque tal vez más negocios que investigación), pero la realidad se cuela con muchos factores que influyen creando una estructura en sus datos donde muchos (¿la mayoría?) de los datos Los enfoques de análisis asumen datos muy independientes. Creo que este es un campo que no solo merece más investigación sino que también tiene una gran importancia práctica.


Siento tu dolor. He estado (casi) allí también. En realidad, todavía lo soy (solo mi doctorado hace mucho tiempo): hasta ahora, con ≈ 15 años de experiencia profesional en quimiometría, todos los datos del mundo real que he encontrado hasta ahora tienen una cosa en común: tamaño de muestra demasiado pequeño (incluso si puede verse bien a primera vista).

  • Una consecuencia que obtuve para mí es que comencé a investigar sobre situaciones menos que ideales que encuentro en la práctica, p.
    • Situaciones de tamaño de muestra pequeño: saber que tengo muy pocos casos (algunos órdenes de magnitud por debajo de las recomendaciones generales), cómo diagnosticar cuándo fallan las cosas, cómo estabilizar los modelos, qué fallará, si existen límites estrictos, etc.
    • en términos de datos desordenados en el sentido anterior (con muchos factores que influyen): tuve situaciones en las que resultó que la biología realmente no obedece a la clasificación de enfermedades que usan los médicos (que fue desarrollada para propósitos totalmente diferentes, como aprendí más tarde on) cómo adaptar la metodología de análisis de datos a estas situaciones (que estaban en algún lugar entre la clasificación y la regresión)
    • cómo adaptar los procedimientos de validación/verificación en tales situaciones
      (trabajo mucho en la línea de lo que puede funcionar para modelar, siempre que haga una verificación y validación honestas de ese modelo)
    • Veo toneladas de preguntas igualmente importantes que no tienen respuesta.
      En la medida en que si necesita tales ideas de investigación, con gusto le proporcionaré preguntas ;-)

  • En mi campo, creo, va a quedar así: las muestras bien caracterizadas son caras .
    En cierto sentido, incluso puede decir que la investigación básica no está destinada a tener tamaños de muestra cómodos. Su objetivo es encontrar conocimientos básicos y señalar posibilidades prometedoras, pero el trabajo preliminar de obtener (y pagar) tamaños de muestra grandes para hacer que un método sea robusto para el uso de rutina es algo que se supone que la investigación aplicada/la industria debe hacer (y pagar). Ese punto de vista diría que el dinero de los contribuyentes no debe desperdiciarse en trabajos que la industria puede y debe hacer.

  • Por otro lado, a menudo veo tamaños de muestra innecesariamente demasiado pequeños en la investigación académica: demasiado pequeño aquí significa que dado el tamaño de la muestra, incluso sin ningún dato experimental, es (o lo habría sido si uno se hubiera molestado en verificar) claro que no hay conocimiento. ganado porque el estudio tiene muy poco poder estadístico. Esto es claramente mala ciencia y un desperdicio total de esfuerzo experimental y de análisis de datos.
    Si eso es a lo que te refieres en tu pregunta, va a ser un trabajo duro mejorar esto, ¡pero no te rindas! La ciencia necesita que gente como tú señale esto.

    Mi experiencia con eso es que, como estudiante de doctorado o posdoctorado reciente, cuánto puede hacer realmente para mejorar los datos puede depender mucho de cuánto peso tiene lo que dice con su supervisor (o incluso director de alto nivel).
    Lo que siempre puede (y debe) hacer es discutir claramente las limitaciones en términos de la posible interpretación de los resultados de su estudio, incluso en los manuscritos que escriba.

  • Para ser justos, existen limitaciones prácticas . Si estudiamos una enfermedad rara en la que el gran hospital universitario obtiene quizás una muestra por año, tiendo a pensar que es necesario trabajar con muy pocos casos (pero de nuevo: detalle las limitaciones). Después de todo, uno tiene que empezar en alguna parte.
    Mientras que, si estamos hablando de mediciones fácilmente accesibles sin una preocupación ética particular de una enfermedad en la que el hospital atiende decenas de casos por semana, entonces, por supuesto, una tesis sobre 5 casos parece algo perezosa (aunque no necesariamente del lado del estudiante de doctorado: el Es posible que el estudiante de doctorado no haya podido cambiar los planes de muestra preexistentes)

  • Una consecuencia para mi tesis doctoral fue: como no solo hacía análisis de datos sino también preparación de muestras y mediciones para mi tesis, hice un esfuerzo considerable para tener más muestras (afortunadamente tenía acceso a un banco de datos comparativamente grande, pero al final también ese enfoque estaba limitado por la disponibilidad de las condiciones más raras).
    Recomendaría al menos tomar un interés decidido en cómo se generan los datos (haga un recorrido por el laboratorio, haga que los socios de colaboración expliquen cómo funcionan las cosas y qué significan los datos).


 Sin embargo, si la entrada es aleatoria o tiene pocas funciones para ser estadísticamente relevante, no hay nada que pueda hacer.

Sí. Una vez más, esto debe comunicarse claramente: tengo la experiencia de que los grupos aplicados pueden esperar milagros del análisis de datos (y es posible que incluso tenga una lucha particularmente cuesta arriba aquí si este grupo en el pasado obtuvo análisis de datos que estaban muy sobreajustados y, por lo tanto, parecían demasiado optimista y nadie se dio cuenta de esto).
Además, deberá documentar que no es su "culpa" que estos datos no generen buenos resultados. Sin embargo, es factible (y nuevamente, en mi experiencia, algo que también se necesita en el trabajo diario de análisis de datos: estoy teniendo una situación así en mi escritorio en este momento nuevamente).

[...] "grupos" solo están representados por dos autores, el texto a veces tiene solo una oración y algunas de las publicaciones parecen haber sido producidas por un generador de letras al azar, sin tener palabras reales en ellas. Si bien me prometieron al menos 5 autores por grupo, un mínimo de 5000 palabras por texto y, por supuesto, la publicación escrita por el autor asignado.

Algunas reflexiones sobre esto. "Huelo" algunos problemas de comunicación/colaboración aquí. Nuevamente, son problemas cotidianos típicos en mi trabajo de investigación y análisis de datos:

  • He conocido cosas similares debido a problemas fundamentales de comunicación (por ejemplo, entre estadísticos que hablan sobre los tamaños de muestra necesarios en los 1000 para responder una pregunta en particular y científicos experimentales que "traducen" esto a "muchos" ≈ 7.

  • "algunas de las publicaciones parecen haber sido producidas por un generador de letras aleatorias"
    Es posible que sus socios de colaboración experimental no tengan idea de lo que usted no sabe sobre sus técnicas (de nuevo, problema de comunicación): a menos que tenga experiencia en estas técnicas, no tienen oportunidad de reconocer lo que está pasando en esas mediciones ruidosas y cómo lidiar con ellas.
    Podrían ser cualquier cosa, desde artefactos que deberían eliminarse porque el mecanismo subyacente que los causa es bien conocido y puede ignorarse por "la señal está oculta bajo este ruido y su analista de datos seguramente tiene algo de magia para sacarla de allí" (sin ir para trabajar, pero la expectativa típica) a "su valor atípico es mi caso más interesante" - sin la ayuda de la gente experimental/suministradora de datos, no obtendrá

  • Ver todo esto me hace pensar si tiene suficiente información sobre los antecedentes del estudio para incluso decidir qué enfoque de análisis de datos es adecuado.

Felicidades por una narrativa genuinamente perspicaz / útil. Esclarecedor para todos nosotros.
@paulgarrett: guau, muchas gracias.
:) Deberíamos recordarnos que las excelentes contribuciones de otras personas son a menudo recibidas con silencio... :)
¡Muchas gracias! Reflexionaré sobre esta información durante unos días y, con suerte, se me ocurrirá un plan. Por primera vez: hago todo lo posible para estar en estrecha colaboración. Solía ​​hacer recorridos por el laboratorio, incluso ayudar un poco en pequeños experimentos, pero ahora el laboratorio está trabajando con patógenos más peligrosos y no se me permite entrar allí. Sin embargo, trato de hacer muchas preguntas. Es un proceso tan lento... Cuando me refiero a "datos desordenados", en realidad sé que es aleatorio. Hice control de calidad y hablé con los experimentadores. Es ARN en este caso y la composición de la base es literalmente aleatoria.

Si usted es el analista/científico/estadístico de datos, debe ser consciente de las limitaciones de su enfoque dados los datos que se le proporcionan . Si no tiene suficientes datos, ni siquiera debe ejecutar el análisis ; si lo hace, es más probable que acepte los resultados si son lo que "espera" y los descarte de lo contrario.

Esto es peligroso.

Una gran parte del análisis de datos es conocer sus datos y conocer sus limitaciones. Si se le dan datos que son insuficientes para sacar las conclusiones que se le piden, debe decirlo y negarse a hacer el análisis. Especialmente en el caso ridículo que usaste como ejemplo, donde se espera que hagas generalizaciones sobre grupos de dos autores. Esto no tiene nada que ver con la suerte .

Nunca concluiría en un entorno científico que el Grupo A es más alto que el Grupo B basado en n=1 en cada grupo. No se deje caer en una trampa en la que intente llegar al mismo nivel de conclusión en otro contexto.

Creo que ya sabe la mayor parte de esto, porque habla de detenerse en la etapa de control de calidad, pero si así es como todos sus proyectos están terminando, entonces está dedicando demasiado tiempo a un proyecto sin tener acceso a los datos que muestra que el proyecto es factible. Tan pronto como le proporcionen datos que no son adecuados, debe decirles a sus colaboradores que no son suficientes, explicar por qué y seguir adelante. Este paso debería llevar 15 minutos si los datos son realmente tan malos como los que describe.

Estoy totalmente de acuerdo con esto si se trata de pruebas claras de hipótesis y/o DoE tiene fallas obvias. OTOH, si el problema es "solo" el tamaño de la muestra y la relación señal / ruido, descubrí que ejecutar análisis y hacer, por ejemplo, pruebas de perturbación puede proporcionar "resultados" que permiten comunicar más fácilmente de una manera convincente que la incertidumbre resultante no No permita ninguna conclusión. Esto es particularmente útil si se encuentra en una posición en la que es mejor demostrar que el problema son realmente los datos y no usted/su capacidad/pereza...

En la ciencia investigamos lo desconocido. Como tal, es imposible garantizar que su proyecto produzca resultados positivos. Si sabes que tu hipótesis es cierta de antemano, no tendría sentido hacer el proyecto. Sin embargo, si todos tus proyectos están saliendo mal, eso también suena inusual. El mejor lugar para buscar sería compañeros y colegas que trabajan con cosas similares - ¿es realmente el caso de que tienen más suerte que tú? ¿O tal vez están haciendo algo diferente?

Casi cualquier proyecto científico tendrá fortalezas y debilidades. No es necesariamente su trabajo proporcionar una descripción exhaustiva de las debilidades. Empezando por los revisores e incluso antes, no faltarán los detractores que los señalen. Vender las fortalezas, por otro lado, es algo que solo tú puedes hacer. Si hay 99 características que no tienen importancia estadística, no es productivo obsesionarse con ellas. Obviamente no los niegue cuando presente sus resultados. Pero la característica número 100 que tiene importancia es la más interesante y digna de mención, además de características cuya insignificancia en sí misma es sorprendente. A partir de ahí, se pueden descubrir características más significativas.

A medida que adquiera experiencia con el análisis, debe cultivar una idea de los buenos proyectos y los malos. Experimentos mal concebidos, falta de controles, experimentadores conocidos por su descuido, hipótesis locas que no tienen fundamento en la literatura, son todos ejemplos de obsequios para que un proyecto se mantenga alejado. Si está arrinconado y todos sus posibles proyectos tienen datos de mierda, entonces puede mirar más allá de sus colaboradores inmediatos. Los análisis exitosos se realizan todo el tiempo, por lo que seguramente hay datos que no son inútiles. Como mencionas, las reseñas son una buena manera de al menos publicar algo , también pueden atraer a nuevos colaboradores y ayudarte a comprender mejor el campo y ser más capaz de detectar malos proyectos. También puede intentar volver a analizar los datos de otros investigadores o artículos.

Otra opción es mejorar las cosas con tus colaboradores. Aunque un resultado negativo no es útil para la publicación, sigue siendo información útil. Les impide perder el tiempo con una pista falsa. Si los datos que obtiene son malos después de todo, debe intentar mostrar esto de manera convincente lo antes posible, para que pueda comunicarse rápidamente con sus colaboradores y comenzar a encontrar una solución. De hecho, puede usar su experiencia de fallas anteriores para guiarlos en el diseño del estudio y señalar los errores que podrían estar cometiendo y que le causaron problemas antes. Si se sabe muy poco sobre lo que se necesita para producir buenos datos, entonces los proyectos deben ser pequeños y rápidos, para que pueda iterar muchas veces hasta encontrar los parámetros correctos. Los grandes proyectos deben evitarse hasta que esté seguro de que se ha ocupado de todos los errores básicos.

Este es un problema común y es por eso que recomiendo profundizar más en las malas hierbas y elegir más con quién trabajar. (Básicamente, siempre asumí el liderazgo de cualquier colaboración... luego, de nuevo, esto es más fácil como sintetizador... la gente como tú está acostumbrada a ser apoyo... luego, revisé su trabajo y, a veces, encontré problemas... ninguno de ¡Alguna vez se molestaron en hacerme preguntas o aprender/criticar mis métodos!)

Problemas similares ocurren cuando las personas solicitan modelos y análisis matemáticos de PDE, pero las suposiciones de ingeniería son incorrectas. De hecho, agrega mucho más valor intelectual "preguntando cinco veces" y verificando la calidad de entrada, las suposiciones, etc. que simplemente activando la máquina de estadísticas o el solucionador de diffyQ. Idealmente, debería tratar de involucrarse incluso con el diseño del estudio.

Un área seria en la que podría investigar es el petróleo/gas de EE. UU. Hay mucho interés en optimización, redes neuronales, big data, etc. Además, tienen mucho dinero. (Incluso cuando dicen que no, lo hacen. Están acostumbrados a pagar mucho por servicios, viajes, herramientas, etc.) Los datos no siempre son perfectos, pero también tienen experiencia en hacer y tratar los puntos faltantes. Por supuesto, debe involucrarse más en la limpieza, inspección, corrección, etc. de las entradas. Pero no creo que se desanimen por un enfoque cuestionador, solo si les dice que vuelvan a disparar la sísmica o que se suban a una máquina del tiempo y perforen mejores verticales de prueba en 1950. Pero sospecho que sus herramientas a menudo pueden agregar valor incluso con datos imperfectos SIEMPRE QUE las imperfecciones se conozcan antes de que comience el análisis.

Ps Incluso las preguntas sobre SE a menudo sufren de esto. Las personas piden ayuda con el resultado X limitado por las condiciones 1, 2, 3. Pero realmente les serviría mejor cuestionarse cuál debería ser su objetivo de salida real y cuáles son las restricciones.