¿Es apropiado reutilizar datos de publicaciones anteriores para un nuevo estudio?

Los datos de un estudio publicado se depositaron en Harvard Dataverse respetando la política de replicación de una revista científica. No tengo conexiones con los académicos que recopilaron los datos y publicaron el estudio, pero estoy realizando un trabajo relacionado, así que descargué los datos de "replicación" y los usé para realizar también algunos análisis nuevos. Ahora he encontrado algunos resultados interesantes, y dado que mis nuevas pruebas no son parte de la publicación original, me gustaría publicarlas en nuevos artículos (también usaré algunos datos originales que he recopilado).

Pregunta: ¿es apropiado utilizar datos recopilados por otros investigadores y hechos públicos con fines de replicación en otros para proporcionar nuevos conocimientos científicos? ¿Debo pedir permiso para usar los datos de replicación para una nueva publicación? En particular, ¿debo contactar a estos autores y, eventualmente, aceptar restricciones de datos o solicitudes de coautoría?

Las preguntas existentes cubren casos relacionados en los que los mismos autores reutilizan datos antiguos , un caso de escaneo de datos de una publicación existente y un caso en el que se usa la replicación (aparentemente sin extensiones) para conectarse con el autor o los autores , y un caso similar en el que una base de datos está disponible tras su publicación .

Un requisito de la investigación financiada con fondos federales es que los investigadores deben tener un plan para que los datos estén disponibles. Eso no siempre significa publicar los datos o proporcionar un PUF, un archivo de uso público, que se pueda descargar fácilmente. Dong cumple con los requisitos para un plan. Los datos que encontró son probablemente una consecuencia de ese requisito. El propósito, por supuesto, es permitir que cualquiera use los datos.

Respuestas (2)

Sí, eso no solo es apropiado, sino que, además de la replicación, es uno de los principales objetivos de la publicación de datos. No poder construir sobre los datos publicados limitaría en gran medida la acumulación de conocimientos y daría lugar a una duplicación inútil de los esfuerzos de recopilación de datos.

Por supuesto, debe citar la fuente de datos. Tal vez incluso debería reconocer a sus autores más allá de esta cita, especialmente si les ha solicitado algún comentario útil sobre su trabajo, que es algo que debería intentar. Conocen las limitaciones y las "peculiaridades" de su conjunto de datos mejor que nadie, e incluso podría haber potencial para la cooperación.

Tenga cuidado, por supuesto, con el problema de formular una hipótesis solo después de conocer el resultado de una muestra en particular y luego usar esa muestra para afirmar que tiene resultados válidos para la población de la que se extrajo la muestra.
@Buffy No estoy seguro de cómo se relaciona eso con usar o no usar conjuntos de datos existentes, para ser honesto. Seguramente podría pero no debería formular hipótesis ex-post en ambos casos.
Solo una advertencia para el OP aquí sobre el uso adecuado de las muestras.
@henning para mí, la relación es obvia. si recopilo algunos datos, necesitaré financiación (por adelantado) para pagarlos. Voy a tratar de convencer a mi patrocinador de que vale la pena financiar mis hipótesis. Antes de recopilar datos, me he comprometido con mis hipótesis. Puede haber algunos resultados interesantes no hipotéticos en mis datos. Aparte de las hipótesis que lancé a mis patrocinadores, ¿quién puede decir qué es ex-post y qué no? Es fuerte la tentación de pretender que uno formuló sus hipótesis antes y no después de analizar los datos.
@emory Entonces, la tentación de formular hipótesis ex post es mayor si no reutilizo un conjunto de datos existente. ¿O te entiendo mal? ¿Quizás está diciendo, por el contrario, que presentar una hipótesis al financiador es similar a registrar una hipótesis antes del análisis? (¿Y falta este casi registro si reutilizo los datos existentes?)
@henning Exactamente. Dado que no hay un registro de hipótesis antes del análisis, es su honor no formular hipótesis ex-post.
@emory está bien, pero, por supuesto, también podría registrarse previamente antes de analizar los datos existentes, y no estoy seguro de que la mayoría de las solicitudes de subvenciones realmente lo comprometan con hipótesis particulares. Entonces, si bien lo que dice Buffy es cierto, realmente se aplica independientemente de la reutilización de los datos existentes.
@emory Ese es un argumento puramente teórico. En la práctica, al igual que las hipótesis de Henning, parece ocurrir lo contrario : las personas son reacias a desechar los datos que generaron a un gran costo si no respaldan su hipótesis establecida, por lo que comienzan a rastrearlos en busca de información. — Además, la investigación basada en hipótesis no es el único enfoque válido. El análisis exploratorio es una alternativa común y válida.
@KonradRudolph Exploratory Data Analysis es bueno. El análisis exploratorio para formar hipótesis que luego se prueban con el mismo conjunto de datos (mientras se finge no haber realizado el análisis exploratorio) es malo.
Una solución parcial al problema planteado por @Buffy y Emory (y un paso necesario) es que debe quedar muy claro que los datos utilizados en los documentos posteriores son el mismo conjunto de datos utilizado para el original. Eso es cierto ya sea que el artículo esté escrito por el (los) autor (es) original (es) o por los nuevos, como ya lo indica esta respuesta.

Los datos que respaldan la investigación científica son públicos por defecto. Ocultarlo o retenerlo no debe considerarse como incumplimiento. Entonces, realmente nos estás preguntando:

¿Es apropiado utilizar datos recopilados por otros investigadores y no ocultos al público (lo que sería extraño e inapropiado) para proporcionar nuevos conocimientos científicos?

Sí, por supuesto que lo es, ¿por qué no iba a serlo?

Al igual que cuando cito un artículo, no me importa si el autor lo publicó para ayudar a la humanidad o para alardear de sus logros; tampoco me importa cuál es la excusa oficial para hacer lo predeterminado, obvio y necesario, que está publicando los datos.