¿Hay alguna propuesta para hacer que compartir código y datos con publicaciones sea un requisito?

Según el proyecto, muchos investigadores tienen que reescribir el código y reproducir conjuntos de datos de trabajos anteriores para realizar evaluaciones experimentales. Aunque se entiende que algunos conjuntos de datos contienen datos privados y, por lo tanto, no se pueden compartir, sería muy bueno tener acceso al código fuente y los resultados producidos junto con los documentos.

La mayoría de los trabajos de big data presentan resultados de experimentos realizados con bases de datos muy grandes, y el código desarrollado, que generalmente no es trivial para reescribir, rara vez está disponible para el público. Incluso escuché una vez que algunas conferencias comenzarían a solicitar el código fuente del proyecto para enviarlo junto con el documento.

Mi pregunta es: ¿existe alguna regulación global que establezca lo que una conferencia debe solicitar al aceptar un trabajo? Y, si es así, ¿hay alguna propuesta para hacer que el código fuente sea compartido?

AFAIK no existen tales regulaciones, pero en mi humilde opinión, esto es una obligación científica, de lo contrario, los resultados no son reproducibles y, por lo tanto, no son válidos. Github debería ser una plataforma lo suficientemente buena para el código público. En cuanto a compartir un gran conjunto de datos, me encantaría el equivalente de Github.

Respuestas (5)

El 'proceso' académico es un desorden no regulado de hábitos aleatorios y contradictorios.

Para responder directamente a su pregunta, NO , no hay regulaciones globales sobre qué conferencias o editores deben exigir o cómo deben hacer cualquier otra cosa.

Es un punto clave de la independencia académica: cualquiera es libre de realizar sus conferencias o publicaciones académicas como quiera. Existe un consenso no escrito sobre lo que constituye una buena práctica, pero no está regulado, no es obligatorio, varía según los campos académicos y varía según los países.

El cambio ocurre al convencer a muchas personas y organizaciones no relacionadas

Cualquier propuesta para cambiar algo (por ejemplo, hacer que compartir el código fuente sea obligatorio) solo se vuelve real cuando muchos organizadores separados (la mayoría de ellos que nunca escuchan unos de otros) en diferentes campos acuerdan que es una buena idea; que les beneficie sin hacérselo demasiado difícil ; y tomar la iniciativa para implementarlo. Ayuda si algún subcampo académico implementa la práctica y se considera que funciona bien.

La única fuerza es la financiación.

Las grandes agencias de financiamiento tienen el único poder práctico, ya que si condicionan el financiamiento a X, entonces la gente intentará obtener X, o al menos algo que en el papel se parezca a X. Tenga en cuenta que si no creen que X los beneficia , entonces será esta última opción; haciendo lo mínimo posible para marcar una casilla de verificación "sí, tenemos X". Y, por definición, no es una regulación global, sino específica de un país.

No conozco ninguna regulación global, pero la comunidad científica entiende el problema que describiste y es por eso que github recientemente hizo posible obtener un Identificador de objeto digital (DOI) para cualquier archivo de repositorio de GitHub ( publicación de blog ) haciendo que el código sea citable.

Por lo que recuerdo, cualquier DOI debe mantenerse durante al menos 10 años.

Hay un curso de Coursera de la especialización en ciencia de datos que habla sobre este tema. El curso es:

  • Investigación reproducible
  • sitio web: https://www.coursera.org/course/repdata
  • Institución: Universidad Johns Hopkins
  • Instructores: Roger D. Peng, Jeff Leek, Brian Caffo
  • Nota: el curso se puede hacer de forma gratuita.

Algunos de los temas del curso son:

  • Explicación de qué es la replicación de un trabajo de investigación
  • Explicación de lo que hace que una investigación sea reproducible (a partir de su pregunta, básicamente está preguntando si la investigación reproducible es un estándar en el mundo científico)
  • Descripción, tutoriales y ejercicios sobre cómo usar Rmarkdown, que es un paquete del lenguaje R desarrollado para crear código que puede ser: convertido a un formato legible por humanos (Sweave the code) y ejecutado para realizar un análisis de datos de algún tipo (Tangle el código).
  • Las últimas conferencias son bastante interesantes, porque hablan de ejemplos reales que han ocurrido en el pasado donde la investigación reproducible ha sido útil, y casos donde la falta de reproducibilidad ha sido un problema.

Mi pregunta es: ¿existe alguna regulación global que establezca lo que una conferencia debe solicitar al aceptar un trabajo? Y, si es así, ¿hay alguna propuesta para hacer que el código fuente sea compartido?

No me parece. Mi esperanza personal es que la investigación reproducible tienda a tener más citas y que sea más valorada por sus pares.

Se ha reconocido este problema, pero solo se avanza lentamente en el tipo de innovación institucional necesaria para abordarlo. Ya existen muchos componentes tecnológicos de la solución, pero existen fuerzas socioculturales de resistencia en casi todas las disciplinas académicas y publicaciones académicas. NSF y otras agencias de financiación están buscando formas de superar la resistencia.

Para un análisis y pronóstico exhaustivo, puede escuchar esta charla: LA CRISIS DE CREDIBILIDAD EN LA CIENCIA COMPUTACIONAL: UN PROBLEMA DE INFORMACIÓN (incluye diapositivas).

EDITAR : Aquí hay una publicación de blog reciente sobre esto en el campo de la biomedicina: ¿ Puede mostrarnos eso nuevamente, por favor?

No existe una regulación "universal" en particular, y los intentos de hacerlo, incluso para cosas como la política de intercambio de datos de PLoS, son un tanto fallidos. Esto se debe a que, como menciona @Peteris, la academia y la investigación son un grupo bastante desregulado. No hay una fuerza guía, y realmente no hay respaldo para que haya una.

Incluso las cosas que se aplican con firmeza, como la protección de los sujetos humanos, tienen estándares que varían de un lugar a otro.

Personalmente, también creo que quienes promueven estas políticas a menudo olvidan que diferentes campos tienen diferentes problemas. Para algunos campos, "Hacer que sus datos sean abiertos" los está comprometiendo con un problema de alojamiento y soporte de software bastante intensivo con muy poco dinero para respaldarlo. Para otros, "hacer que sus datos sean abiertos" puede exceder el consentimiento informado que dieron sus pacientes.