¿Es ético reconstruir un conjunto de datos sin permiso?

Me comuniqué con un investigador sobre el uso de su conjunto de datos de un artículo publicado hace más de 20 años, pero no respondieron a mi correo electrónico. Hay una variedad de razones por las que podrían no haber respondido, que van desde estar retirados, destruir los datos, no confiar en los correos electrónicos no solicitados, codiciar el potencial de investigación futura de los datos y probablemente una miríada de otras posibilidades.

porque su estudio

  • usó una escala restringida (Likert [1,5]),
  • utilizó un tamaño de muestra relativamente pequeño,
  • utilizó un pequeño número de preguntas,
  • informó múltiples estadísticas que brindan ubicación, escala y correlaciones,
  • y estadísticas de ajuste del modelo,

me es posible recrear un conjunto de datos que sea idéntico al original.

El propósito de crear este conjunto de datos sería proporcionar un análisis hipotético con modelos actualizados y métodos estadísticos para comparar si las conclusiones serían similares con los nuevos métodos. Se hubiera preferido el conjunto de datos original, pero una reconstrucción proporcionaría un resultado equivalente para los métodos más nuevos.

Las medidas son respuestas de encuestas, por lo que, a primera vista, uno podría estar preocupado por la privacidad. Sin embargo, la población muestreada es grande y las preguntas de la encuesta no son específicas, por lo que no sería posible identificar individuos a partir de esta reconstrucción.

Suponiendo que soy transparente con lo que estoy haciendo en mi informe de los datos y el análisis, ¿es ético reconstruir un conjunto de datos sin obtener un permiso explícito?

¿Qué es lo que te preocupa de que pueda ser poco ético? Eso es lo que se hace rutinariamente en los estudios de replicación. Una forma en que la ciencia progresa probando hipótesis y modelos existentes en datos nuevos, aún no vistos de la realidad.
(Para ser claros, lo que tiene en mente aquí técnicamente no es "reconstruir el conjunto de datos X", sino "construir un nuevo conjunto de datos, basado en la configuración metódica de X").
@lighthousekeeper Creo que está reconstruyendo el conjunto de datos. OP está usando las estadísticas que se informaron y no solo usando la misma metodología.
@gib La parte que me preocupó es el uso de escalas de Likert; normalmente se usan para medir impresiones subjetivas (de encuestados humanos). Pero ahora veo que OP dice que pueden crear un conjunto de datos idéntico, lo que me confunde un poco, supongo.
¿De verdad quiere decir "idéntico" o "idéntico en resumen estadístico"?
"capaz de reconstruir su conjunto de datos", esto probablemente hace una serie de suposiciones sobre los métodos originales de los investigadores, el manejo de valores atípicos y otras cuestiones de disputa de datos que pueden o no haber mencionado en su informe. Solo debe tener en cuenta que, debido a toda esta indirección, su análisis ahora está sujeto a tales limitaciones de SU estudio, y que debe discutir esto en su informe.
@ AzorAhai-him: parece que el OP quiere decir que "idéntico" e "idéntico en las estadísticas resumidas" son lo mismo para este estudio en particular. Si la muestra tiene un tamaño de, digamos, 15, y se informan al menos 15 estadísticos de resumen, generalmente es posible resolver el conjunto de ecuaciones de estadísticos de resumen para los datos originales.
@Him Sí, por eso les pedí que aclararan, ya que no siempre es posible.
Honestamente, todo este enfoque suena preocupante: usar las estadísticas de resumen de un estudio de tamaño de muestra pequeño (¡eso es 6 s seguidos!) para luego usar algunos "métodos más nuevos" sin tener acceso a las distribuciones subyacentes... ¡Ay!
Incluso puedes reconstruir una imagen y publicarla; es ético. Recrear un conjunto de datos también está absolutamente bien.

Respuestas (3)

Sí. Este es un trabajo publicado, por lo que eres libre de hacer lo que quieras con él, con las advertencias habituales. El hecho de que esté "reconstruyendo su conjunto de datos" es irrelevante; el punto clave es que está construyendo sobre su trabajo anterior utilizando solo información publicada y disponible públicamente. Como menciona, tendrá que ser transparente en ambas direcciones: dé crédito por las partes que toma, pero asegúrese de no dar a entender que tiene "información privilegiada" sobre el estudio original.

Estoy de acuerdo, pero primero creo que OP debería decirle al investigador que puede reconstruir el conjunto de datos y lo que planea hacer con él. El investigador podría responder cuando se le diga esto, e incluso podría dar los datos originales, que serían útiles como verificación, o alguna otra información útil.
También mencionaría la metodología/los pasos/el código que siguió para reconstruir el conjunto de datos (tal vez en el apéndice) y mencionaría explícitamente la reconstrucción.

Hable con su IRB.

Los participantes originales en el estudio pueden o no haber tenido alguna expectativa de privacidad con sus datos. Esto existió como un acuerdo oficial real entre los investigadores originales y los participantes, y probablemente pasó por algún tipo de proceso de aprobación del IRB. Es casi seguro que los autores ni siquiera consideraron la posibilidad de que los datos pudieran reconstruirse perfectamente a partir de las estadísticas resumidas que proporcionaron, y anticiparon que no proporcionar los datos sin procesar era suficiente para mantener anónimas las respuestas individuales de los participantes. Posiblemente, a los participantes se les dijo explícitamenteque los datos sin procesar no estarían disponibles públicamente! Usted dice que es probable que no sea posible determinar las identidades, pero esto probablemente depende de varias cosas. A menudo, los estudios pequeños se muestrean por conveniencia, y los participantes son fácilmente identificables como los estudiantes que tomaron Psych2053 en PolyTech U con el profesor Study Author el semestre anterior a la publicación del estudio.

De todos modos, todo esto es algo que probablemente debería mencionar con su propio IRB. Estoy seguro de que les irá bien si toma las precauciones habituales de no poner los datos a disposición del público, o lo que sea. Aún así, apestaría tener el hecho de que no obtuviste la aprobación para volver a perseguirte.

Puedo apreciar esta respuesta, pero también me preocuparía un poco que los IRB tiendan a ser extremadamente conservadores. El OP dijo explícitamente "la población muestreada es grande" (por lo que la pequeña muestra es presumiblemente una pequeña muestra de encuestados de una gran población encuestada). Si el OP está realmente preocupado, podría analizar el conjunto de datos reconstruidos y solo publicar resúmenes/resultados del análisis (es decir, dejar que otros que quieran los datos originales lo reconstruyan por sí mismos). En cualquier caso, la información ya está disponible públicamente...
Desafortunadamente, siento que cualquier expectativa de "privacidad" que los participantes puedan haber tenido se vuelve discutible una vez que la información ya se ha publicado con su consentimiento informado ("informado" en la medida razonable en ese momento). De hecho, creo que tal restricción post-facto no solo obstaculizaría el avance de la ciencia, sino que potencialmente crearía un incentivo perverso para que futuros investigadores sin escrúpulos obtengan conjuntos de datos mal anonimizados de manera similar a los autores originales, precisamente para hacerlo más difícil para los futuros investigadores cuestionar sus resultados ...
Desde el punto de vista de la ética personal, creo que ciertamente es una especie de OP reflexionar sobre esto, y tal vez abstenerse de publicar si los datos parecen sensibles a sus propios ojos, pero de lo contrario, desde el punto de vista de la ética profesional, dado lo anterior, no No veo por qué un IRB debería tener algún aporte en esto.
Hagamos algunas suposiciones razonables. Las identidades personales han sido reemplazadas en la publicación original. La publicación original y las obras derivadas utilizan agregados. OP quiere reconstruir los datos originales. Las únicas identidades que OP puede usar son los seudónimos publicados. ¡OP seguramente no está robando el conjunto de datos original sin seudónimo de un depósito seguro! Por lo tanto, parece que OP no puede violar las identidades de los participantes del estudio. Pero hay dos preguntas: ¿Es ético para los participantes originales del estudio ? Y: ¿Es ético con los autores originales del artículo ?
"Seguramente OP no está robando el conjunto de datos original sin seudónimo", esto es justo, pero el hecho es que OP no tiene idea de qué les dijeron a los participantes originales del estudio que sucedería con estos datos. Tampoco está del todo claro en la descripción cómo identifican los datos. Ciertamente, esto califica como cierto nivel de desanonimización además de proporcionar estadísticas resumidas. ¿Qué tan anónimo es lo suficientemente anónimo? ¡Este es precisamente el tipo de cosas para las que están los IRB!
@BenBolker "En cualquier caso, la información está disponible públicamente ahora" De hecho, todo lo que ha hecho en línea, incluidas las contraseñas, está disponible públicamente. ¡Fueron enviados por las ondas de radio públicas! Por supuesto, extraer esta información de los datos que envió es un problema computacional difícil, pero la información estaba ahí. Si logro resolver este difícil problema computacional y ahora tengo acceso a sus contraseñas y nombres de usuario, ¿cuál es mi deber ético con esa información? Ciertamente, la actitud "¡bueno, ahora es público!" no parece correcto

No veo cómo la ética está involucrada aquí, especialmente porque el conjunto de datos tiene 20 años.

¿Cómo puede estar seguro de que cualquier resultado (positivo o no) es causado por el nuevo método y no es un artefacto de su reconstrucción de conjunto de datos potencialmente insuficiente?

¿Por qué no puede crear un nuevo conjunto de datos, usar los métodos antiguos, verificar que el resultado confirme el documento anterior y luego probar los métodos modernos? Y publique su nuevo conjunto de datos. Creo que ese sería el mejor enfoque, más científico.