Solicitar datos sin procesar de investigaciones publicadas anteriormente

Estoy trabajando en un modelo matemático para ayudar a explicar algunos resultados experimentales y generar nuevas hipótesis. Desafortunadamente, no tengo los recursos ni el interés para recopilar datos experimentales, pero en este subcampo en particular no es común publicar un modelo sin mostrar su utilidad en algunos datos experimentales.

Hay varios hallazgos experimentales existentes que pueden ser explicados por mi modelo. Sin embargo, se presentan en otros documentos de modelado y los datos sin procesar no están disponibles con el documento o en los sitios web de los autores. En los artículos solo presentan datos parcialmente analizados (por ejemplo, muestran resultados promedio sobre los participantes, pero no resultados de participantes individuales; oa veces solo dan los resultados de pruebas estadísticas).

Quiero contactar a los autores para obtener sus datos sin procesar y tengo 3 preguntas relacionadas:

  1. ¿Cuál es el protocolo de contacto por correo electrónico para solicitar los datos brutos de los autores? ¿Es esto común?
  2. ¿Esperarán los investigadores ser invitados a bordo como coautores? ¿O es suficiente una cita de sus artículos y un reconocimiento de la forma "AK quisiera agradecer a X, Y, Z por proporcionar sus datos sin procesar"?
  3. Si mi modelo (sin ajustes a datos específicos) se encuentra en un estado de preimpresión, ¿debo enviar una preimpresión a los autores con los que me comunico? ¿Qué sucede si la preimpresión señala debilidades en su enfoque para modelar problemas similares?
Ver un sitio para solicitar datos de artículos: isitopendata.org

Respuestas (4)

Esto, como parece que casi todas las preguntas en este sitio, variará según el campo. Mi respuesta se aplica solo a la epidemiología y la investigación médica. Su experiencia puede ser diferente.

  • Es muy común que esto suceda en mi campo. Ha habido un énfasis creciente en el uso de metanálisis y revisiones sistemáticas para resumir cuerpos de trabajo, y con ellos casi siempre existe la necesidad de más información, datos sin procesar, etc. provenientes de los autores del estudio. Es bastante rutinario ahora. Es posible que no digan "sí" por varias razones. Una puede ser que estén trabajando en sus propios proyectos en una dirección similar. Pero hay otros: que las leyes de privacidad prohíban la divulgación de datos a cualquier persona o que sus fondos lo dicten de manera similar es bastante común. Así que prepárate para el "no".

  • En cuanto a la cuestión de la autoría, es probable que dependa del alcance de su solicitud de datos. En general, si solo está solicitando algunos números que se incluyen en un valor informado, entonces, con toda probabilidad, un reconocimiento es más que suficiente. Si, por otro lado, está solicitando acceso a los datos sin procesar de su estudio de cohorte de 5 años y muchos miles de dólares? Es probable que un miembro de su equipo de estudio sea el autor de su artículo, y habrá procesos de aprobación mucho más extensos que simplemente "Claro, se adjunta un archivo .csv".

  • "Si mi modelo (sin ajustes a datos específicos) está en un estado de preimpresión, ¿debo enviar una preimpresión a los autores con los que me comunico? ¿Qué pasa si la preimpresión señala debilidades en su enfoque para modelar problemas similares?" Para el contacto inicial, sugeriría que no es necesario, porque lo que realmente está tratando de averiguar es "¿Es posible el lanzamiento?". En etapas posteriores, esperaría ver lo que estaba haciendo, ya sea en una explicación completa o como una preimpresión. En cuanto a su "¿Qué pasaría si?" pregunta - ¿y qué si lo hace? La ciencia se trata de mejorar los métodos que utilizamos.

No lo considero la cantidad de datos que se solicitan, sino la medida en que los datos son críticos para su publicación. En mi opinión, proporcionar una tonelada de datos que se condensan en un solo punto de datos en la publicación no garantiza la autoría. Proporcionar un solo número que es fundamental para la publicación podría.
@DanielE.Shub De hecho, puede variar: elegí un ejemplo en mi campo de una solicitud que muy probablemente requeriría aprobaciones, autoría, etc.

Muchos formatos de revistas (y el arXiv) indican un "autor correspondiente". Esa es la persona con la que querrás contactar.

Hacerlo no es algo que ocurra todos los días, pero sucede.

En algunos campos, el acceso a los datos puede estar cubierto por acuerdos para mantener su confidencialidad durante un cierto período de tiempo (o hasta la primera publicación). Estos acuerdos a menudo también especifican la respuesta a la pregunta de autoría.

Si bien intentaría con el autor correspondiente en la dirección de correo electrónico proporcionada, a menudo el autor correspondiente es el estudiante graduado que hizo el trabajo. Los estudiantes de posgrado tienden a mudarse después de terminar y, a veces, incluso abandonan los estudios. Si eso falla, y no conocía a nadie en el artículo, probaría con el último autor.
En principio, arXiv permite a los autores correspondientes mantener actualizado el correo electrónico de contacto, pero la estrategia alternativa que sugiere Daniel es buena.

Esto puede ser útil o no en este caso, pero puede persuadirlos para que publiquen los datos por separado, en un diario de datos dedicado u otro archivo de datos. Dependiendo del campo, es posible que ya lo hayan hecho (algunos financiadores del Reino Unido, por ejemplo, están empezando a exigir esto como condición para la financiación).

Esto le brinda la opción adicional de otorgar crédito al citar el conjunto de datos directamente, así como los artículos relevantes, y también abre la posibilidad de que otros usen y citen los datos también, brindando más prestigio a los investigadores originales.

Actualmente, algunos investigadores están abiertos a este tipo de publicación de datos, mientras que otros no, por lo que su millaje puede variar.

Si desea encontrar datos para reutilizarlos o sugerir un lugar para depositarlos, hay algunas listas de archivos disponibles para consultar, como la lista de repositorios de DataCite y Databib .

Como nota al margen, figshare permite cargar datos sin procesar y obtener un identificador DOI para eso (lo que facilita citar y obtener crédito).

Hablo de ciencias biológicas, pero esto probablemente pueda aplicarse en otros lugares. En teoría, en el momento en que se publica un conjunto de análisis, los datos asociados con él también deben ser públicos o estar disponibles para:

  1. Otros investigadores que quieran utilizarlos
  2. Otros investigadores que quieran evaluar (es decir, repetir) los experimentos y verificar los hallazgos iniciales.

Entonces, en principio, si la publicación no tiene un enlace a los datos públicos, entonces podría comunicarse con la revista y presentar una queja. Por supuesto, depende de los datos, pero los datos de secuenciación de ADN o análisis de proteínas suelen estar disponibles. Puede haber limitaciones legales o de otro tipo para datos de pacientes, médicos o de otro tipo.

Esta es la forma formal.

Hay algunas excepciones: los datos son públicos pero aún no se ha publicado. Por política quieren/tienen que proporcionar los datos al público, pero la publicación está en preparación. En este caso, no puede usar los datos y debe comunicarse con el PI para ver cómo su análisis entra en conflicto (o no) con el de ellos. Cada institución tiene pautas diferentes.

Volviendo al problema inicial, en realidad, es posible que encuentre resistencia para obtener acceso a los datos sin procesar de un trabajo publicado (que, como dije, no debería ser el caso si los datos no son confidenciales, porque cualquiera debería poder evaluar y validar su análisis).

Tiene dos opciones: verificar los datos disponibles públicamente (dependiendo de su campo; puedo proponer algunos en ciencias biológicas con los que estoy familiarizado, si es necesario) y trabajar sus modelos en ellos. Eso sería más fácil para ti, ya que podrías evitar situaciones peculiares.

Contacta a los autores y propónles una colaboración para hacer un tipo de análisis diferente al de ellos (con tu modelo) sobre esos datos. Estarán encantados de colaborar con usted e incluso podrían proporcionarle algunas ideas sobre su análisis que lo harían aún mejor.

A las preguntas iniciales:

  1. Yo diría que es común. Es más común mirar directamente a los repositorios públicos y ver los datos que ya están publicados. La propuesta de colaboración podría ser un enfoque más seguro (en términos de resultados y buena relación y futuras colaboraciones)

  2. Es posible que estén esperando ser invitados. Depende de los términos de la colaboración. En cualquier caso, debe acordarse desde el principio, para evitar la frustración en el momento de la publicación (y después de haber dedicado tiempo a trabajar con los datos).

  3. No estoy familiarizado, pero si busca una colaboración, entonces tiene sentido explicar su método en la primera reunión. Si solo necesita los datos, o toma los datos de un repositorio público, no tiene que enviar nada.