Trabajo en un campo interdisciplinario. Mi aporte no lo genero yo mismo, sino personas talentosas en las que confío y que confían en mí para analizar sus datos y generar ideas fascinantes.
Pero aquí estoy, una vez más atrapado en un proyecto donde la entrada es mala. No sirve de nada culpar y encontrar un chivo expiatorio, estamos juntos en esto. Y la gente aprende. Pero he estado atrapado en proyectos con grandes promesas y aportes malos/insuficientes desde el comienzo de mi doctorado. Me mudé a otro lugar para un PostDoc ahora, pero esta situación aparentemente me persigue donde quiera que vaya.
No hay mucho que pueda lograr cuando la mayoría de mis proyectos se detienen después del control de calidad de entrada. Pero si quiero permanecer en la academia, necesito desesperadamente mejorar mi juego en la producción real, no solo en mi capacidad para solucionar problemas, ¿verdad?
¿Cómo puedo pasar de esto? ¿Qué posibilidades tengo si simplemente nunca consigo un "proyecto prestigioso" que resulte en una publicación valiosa? ¿Existe la posibilidad de seguir construyendo una buena reputación científica sin ellos? ¿Debería intentar escribir una reseña? ¿Asumir proyectos hasta que uno finalmente funcione? (Pero, ¿cuánto tiempo tendré éxito en conseguir otro trabajo si no lo hacen?) Podría trabajar con datos publicados por un tiempo, pero a menudo no son comparables entre estudios y carecen gravemente de metadatos.
La pregunta es, ¿tengo que aceptar que el éxito (es decir, básicamente poder permanecer) en la academia se basa en gran medida en la suerte y no soy uno de los afortunados o hay algo importante que pueda hacer? Realmente amo el trabajo que hago, me gustaría seguir adelante.
Hasta ahora he asumido proyectos adicionales, traté de hacer mis propios 'proyectos paralelos' en al menos partes utilizables de los datos con la esperanza de encontrar eventualmente un mejor conjunto de datos donde esto podría ser útil y me mantuve en contacto con colaboradores en un esfuerzo para solucionar problemas y, finalmente, producir una mejor entrada.
EDITAR: para abordar algunas preguntas: produzco canalizaciones de análisis, parcialmente basadas en mis propios métodos. Sin una aplicación de "datos reales" es difícil publicarlos en mi campo. Sí, son "datos del mundo real". No espero datos perfectos en absoluto. Pero espero datos técnicamente correctos y utilizables. Sin embargo, si la entrada es aleatoria o tiene pocas funciones para ser estadísticamente relevante, no hay nada que pueda hacer. Imagínese intentar hacer una prueba estadística sobre la similitud de las publicaciones de blog basadas en el uso de palabras escritas por diferentes grupos de personas, pero muchos "grupos" solo están representados por dos autores, el texto a veces tiene solo una oración y bastantes de las publicaciones luciendo como si fueran producidos por un generador de letras aleatorias, sin tener ninguna palabra real en ellas. Si bien me prometieron al menos 5 autores por grupo,
Resumen:
Un buen trabajo de análisis de datos requiere una estrecha colaboración. En realidad ya al planificar los experimentos, pero seguro durante el análisis de datos.
Una estrecha colaboración le permitirá hacerles conscientes de sus necesidades y que el análisis de datos no puede hacer milagros. También es necesario para usted porque, de lo contrario, puede estar empleando métodos de análisis inadecuados.
* Cuando digo desordenado, no me refiero a una mala conservación (aunque también veo oportunidades aquí, aunque tal vez más negocios que investigación), pero la realidad se cuela con muchos factores que influyen creando una estructura en sus datos donde muchos (¿la mayoría?) de los datos Los enfoques de análisis asumen datos muy independientes. Creo que este es un campo que no solo merece más investigación sino que también tiene una gran importancia práctica.
Siento tu dolor. He estado (casi) allí también. En realidad, todavía lo soy (solo mi doctorado hace mucho tiempo): hasta ahora, con ≈ 15 años de experiencia profesional en quimiometría, todos los datos del mundo real que he encontrado hasta ahora tienen una cosa en común: tamaño de muestra demasiado pequeño (incluso si puede verse bien a primera vista).
En mi campo, creo, va a quedar así: las muestras bien caracterizadas son caras .
En cierto sentido, incluso puede decir que la investigación básica no está destinada a tener tamaños de muestra cómodos. Su objetivo es encontrar conocimientos básicos y señalar posibilidades prometedoras, pero el trabajo preliminar de obtener (y pagar) tamaños de muestra grandes para hacer que un método sea robusto para el uso de rutina es algo que se supone que la investigación aplicada/la industria debe hacer (y pagar). Ese punto de vista diría que el dinero de los contribuyentes no debe desperdiciarse en trabajos que la industria puede y debe hacer.
Por otro lado, a menudo veo tamaños de muestra innecesariamente demasiado pequeños en la investigación académica: demasiado pequeño aquí significa que dado el tamaño de la muestra, incluso sin ningún dato experimental, es (o lo habría sido si uno se hubiera molestado en verificar) claro que no hay conocimiento. ganado porque el estudio tiene muy poco poder estadístico. Esto es claramente mala ciencia y un desperdicio total de esfuerzo experimental y de análisis de datos.
Si eso es a lo que te refieres en tu pregunta, va a ser un trabajo duro mejorar esto, ¡pero no te rindas! La ciencia necesita que gente como tú señale esto.
Mi experiencia con eso es que, como estudiante de doctorado o posdoctorado reciente, cuánto puede hacer realmente para mejorar los datos puede depender mucho de cuánto peso tiene lo que dice con su supervisor (o incluso director de alto nivel).
Lo que siempre puede (y debe) hacer es discutir claramente las limitaciones en términos de la posible interpretación de los resultados de su estudio, incluso en los manuscritos que escriba.
Para ser justos, existen limitaciones prácticas . Si estudiamos una enfermedad rara en la que el gran hospital universitario obtiene quizás una muestra por año, tiendo a pensar que es necesario trabajar con muy pocos casos (pero de nuevo: detalle las limitaciones). Después de todo, uno tiene que empezar en alguna parte.
Mientras que, si estamos hablando de mediciones fácilmente accesibles sin una preocupación ética particular de una enfermedad en la que el hospital atiende decenas de casos por semana, entonces, por supuesto, una tesis sobre 5 casos parece algo perezosa (aunque no necesariamente del lado del estudiante de doctorado: el Es posible que el estudiante de doctorado no haya podido cambiar los planes de muestra preexistentes)
Una consecuencia para mi tesis doctoral fue: como no solo hacía análisis de datos sino también preparación de muestras y mediciones para mi tesis, hice un esfuerzo considerable para tener más muestras (afortunadamente tenía acceso a un banco de datos comparativamente grande, pero al final también ese enfoque estaba limitado por la disponibilidad de las condiciones más raras).
Recomendaría al menos tomar un interés decidido en cómo se generan los datos (haga un recorrido por el laboratorio, haga que los socios de colaboración expliquen cómo funcionan las cosas y qué significan los datos).
Sin embargo, si la entrada es aleatoria o tiene pocas funciones para ser estadísticamente relevante, no hay nada que pueda hacer.
Sí. Una vez más, esto debe comunicarse claramente: tengo la experiencia de que los grupos aplicados pueden esperar milagros del análisis de datos (y es posible que incluso tenga una lucha particularmente cuesta arriba aquí si este grupo en el pasado obtuvo análisis de datos que estaban muy sobreajustados y, por lo tanto, parecían demasiado optimista y nadie se dio cuenta de esto).
Además, deberá documentar que no es su "culpa" que estos datos no generen buenos resultados. Sin embargo, es factible (y nuevamente, en mi experiencia, algo que también se necesita en el trabajo diario de análisis de datos: estoy teniendo una situación así en mi escritorio en este momento nuevamente).
[...] "grupos" solo están representados por dos autores, el texto a veces tiene solo una oración y algunas de las publicaciones parecen haber sido producidas por un generador de letras al azar, sin tener palabras reales en ellas. Si bien me prometieron al menos 5 autores por grupo, un mínimo de 5000 palabras por texto y, por supuesto, la publicación escrita por el autor asignado.
Algunas reflexiones sobre esto. "Huelo" algunos problemas de comunicación/colaboración aquí. Nuevamente, son problemas cotidianos típicos en mi trabajo de investigación y análisis de datos:
He conocido cosas similares debido a problemas fundamentales de comunicación (por ejemplo, entre estadísticos que hablan sobre los tamaños de muestra necesarios en los 1000 para responder una pregunta en particular y científicos experimentales que "traducen" esto a "muchos" ≈ 7.
"algunas de las publicaciones parecen haber sido producidas por un generador de letras aleatorias"
Es posible que sus socios de colaboración experimental no tengan idea de lo que usted no sabe sobre sus técnicas (de nuevo, problema de comunicación): a menos que tenga experiencia en estas técnicas, no tienen oportunidad de reconocer lo que está pasando en esas mediciones ruidosas y cómo lidiar con ellas.
Podrían ser cualquier cosa, desde artefactos que deberían eliminarse porque el mecanismo subyacente que los causa es bien conocido y puede ignorarse por "la señal está oculta bajo este ruido y su analista de datos seguramente tiene algo de magia para sacarla de allí" (sin ir para trabajar, pero la expectativa típica) a "su valor atípico es mi caso más interesante" - sin la ayuda de la gente experimental/suministradora de datos, no obtendrá
Ver todo esto me hace pensar si tiene suficiente información sobre los antecedentes del estudio para incluso decidir qué enfoque de análisis de datos es adecuado.
Si usted es el analista/científico/estadístico de datos, debe ser consciente de las limitaciones de su enfoque dados los datos que se le proporcionan . Si no tiene suficientes datos, ni siquiera debe ejecutar el análisis ; si lo hace, es más probable que acepte los resultados si son lo que "espera" y los descarte de lo contrario.
Esto es peligroso.
Una gran parte del análisis de datos es conocer sus datos y conocer sus limitaciones. Si se le dan datos que son insuficientes para sacar las conclusiones que se le piden, debe decirlo y negarse a hacer el análisis. Especialmente en el caso ridículo que usaste como ejemplo, donde se espera que hagas generalizaciones sobre grupos de dos autores. Esto no tiene nada que ver con la suerte .
Nunca concluiría en un entorno científico que el Grupo A es más alto que el Grupo B basado en n=1 en cada grupo. No se deje caer en una trampa en la que intente llegar al mismo nivel de conclusión en otro contexto.
Creo que ya sabe la mayor parte de esto, porque habla de detenerse en la etapa de control de calidad, pero si así es como todos sus proyectos están terminando, entonces está dedicando demasiado tiempo a un proyecto sin tener acceso a los datos que muestra que el proyecto es factible. Tan pronto como le proporcionen datos que no son adecuados, debe decirles a sus colaboradores que no son suficientes, explicar por qué y seguir adelante. Este paso debería llevar 15 minutos si los datos son realmente tan malos como los que describe.
En la ciencia investigamos lo desconocido. Como tal, es imposible garantizar que su proyecto produzca resultados positivos. Si sabes que tu hipótesis es cierta de antemano, no tendría sentido hacer el proyecto. Sin embargo, si todos tus proyectos están saliendo mal, eso también suena inusual. El mejor lugar para buscar sería compañeros y colegas que trabajan con cosas similares - ¿es realmente el caso de que tienen más suerte que tú? ¿O tal vez están haciendo algo diferente?
Casi cualquier proyecto científico tendrá fortalezas y debilidades. No es necesariamente su trabajo proporcionar una descripción exhaustiva de las debilidades. Empezando por los revisores e incluso antes, no faltarán los detractores que los señalen. Vender las fortalezas, por otro lado, es algo que solo tú puedes hacer. Si hay 99 características que no tienen importancia estadística, no es productivo obsesionarse con ellas. Obviamente no los niegue cuando presente sus resultados. Pero la característica número 100 que sí tiene importancia es la más interesante y digna de mención, además de características cuya insignificancia en sí misma es sorprendente. A partir de ahí, se pueden descubrir características más significativas.
A medida que adquiera experiencia con el análisis, debe cultivar una idea de los buenos proyectos y los malos. Experimentos mal concebidos, falta de controles, experimentadores conocidos por su descuido, hipótesis locas que no tienen fundamento en la literatura, son todos ejemplos de obsequios para que un proyecto se mantenga alejado. Si está arrinconado y todos sus posibles proyectos tienen datos de mierda, entonces puede mirar más allá de sus colaboradores inmediatos. Los análisis exitosos se realizan todo el tiempo, por lo que seguramente hay datos que no son inútiles. Como mencionas, las reseñas son una buena manera de al menos publicar algo , también pueden atraer a nuevos colaboradores y ayudarte a comprender mejor el campo y ser más capaz de detectar malos proyectos. También puede intentar volver a analizar los datos de otros investigadores o artículos.
Otra opción es mejorar las cosas con tus colaboradores. Aunque un resultado negativo no es útil para la publicación, sigue siendo información útil. Les impide perder el tiempo con una pista falsa. Si los datos que obtiene son malos después de todo, debe intentar mostrar esto de manera convincente lo antes posible, para que pueda comunicarse rápidamente con sus colaboradores y comenzar a encontrar una solución. De hecho, puede usar su experiencia de fallas anteriores para guiarlos en el diseño del estudio y señalar los errores que podrían estar cometiendo y que le causaron problemas antes. Si se sabe muy poco sobre lo que se necesita para producir buenos datos, entonces los proyectos deben ser pequeños y rápidos, para que pueda iterar muchas veces hasta encontrar los parámetros correctos. Los grandes proyectos deben evitarse hasta que esté seguro de que se ha ocupado de todos los errores básicos.
Este es un problema común y es por eso que recomiendo profundizar más en las malas hierbas y elegir más con quién trabajar. (Básicamente, siempre asumí el liderazgo de cualquier colaboración... luego, de nuevo, esto es más fácil como sintetizador... la gente como tú está acostumbrada a ser apoyo... luego, revisé su trabajo y, a veces, encontré problemas... ninguno de ¡Alguna vez se molestaron en hacerme preguntas o aprender/criticar mis métodos!)
Problemas similares ocurren cuando las personas solicitan modelos y análisis matemáticos de PDE, pero las suposiciones de ingeniería son incorrectas. De hecho, agrega mucho más valor intelectual "preguntando cinco veces" y verificando la calidad de entrada, las suposiciones, etc. que simplemente activando la máquina de estadísticas o el solucionador de diffyQ. Idealmente, debería tratar de involucrarse incluso con el diseño del estudio.
Un área seria en la que podría investigar es el petróleo/gas de EE. UU. Hay mucho interés en optimización, redes neuronales, big data, etc. Además, tienen mucho dinero. (Incluso cuando dicen que no, lo hacen. Están acostumbrados a pagar mucho por servicios, viajes, herramientas, etc.) Los datos no siempre son perfectos, pero también tienen experiencia en hacer y tratar los puntos faltantes. Por supuesto, debe involucrarse más en la limpieza, inspección, corrección, etc. de las entradas. Pero no creo que se desanimen por un enfoque cuestionador, solo si les dice que vuelvan a disparar la sísmica o que se suban a una máquina del tiempo y perforen mejores verticales de prueba en 1950. Pero sospecho que sus herramientas a menudo pueden agregar valor incluso con datos imperfectos SIEMPRE QUE las imperfecciones se conozcan antes de que comience el análisis.
Ps Incluso las preguntas sobre SE a menudo sufren de esto. Las personas piden ayuda con el resultado X limitado por las condiciones 1, 2, 3. Pero realmente les serviría mejor cuestionarse cuál debería ser su objetivo de salida real y cuáles son las restricciones.
usuario2768
Ladrillo cameron
Maarten Buis
fabio dias
ff524
Carlos
cbeleites descontento con SX
skymningen