¿Cuál es la forma preferible de compartir datos?

Supongamos que hay datos que usted, como autor de un artículo de revista, quiere compartir con los lectores del artículo (por ejemplo, datos experimentales sin procesar, código, estándar de oro/datos de verdad sobre el terreno).

Cuál sería la mejor forma de hacer esto? Las posibilidades incluyen:

  • Agregue una nota a pie de página que indique que los datos están disponibles previa solicitud por correo electrónico.
  • Poner los datos a disposición para su descarga en una página web institucional.
  • Haga que los datos estén disponibles para su descarga en su página web personal.
  • Haga que los datos estén disponibles a través del editor del artículo.
  • Algo más...
Algo más: Dataverse .
Duplicado entre sitios: opendata.stackexchange.com/q/980/190
¿Qué dice la guía para los autores?
@Greg: En aras del argumento, supongamos que no especifica nada al respecto.
Para obtener la máxima utilidad, asegúrese de publicar los datos bajo una licencia que permita claramente que otros investigadores los utilicen. En algunas jurisdicciones, los derechos de la base de datos, por ejemplo, pueden impedir la reutilización a menos que se permita explícitamente la reutilización. Algunas licencias, por ejemplo, la serie 4.0 de licencias Creative Commons, manejan con gracia este riesgo .

Respuestas (5)

Lo más común y sostenible es depositar los datos en un repositorio de datos de investigación. Dependiendo de cuál elija, los datos obtendrán un identificador persistente, por ejemplo, un DOI, pueden citarse correctamente en publicaciones, pueden ser reutilizados por otros investigadores, ...

Puede encontrar una lista de repositorios de datos disponibles en re3data , el registro de repositorios de datos de investigación. El número de repositorios sigue creciendo. Incluso su institución/universidad podría ofrecer un repositorio de datos institucionales.

Si se trata de datos de interés general , busque un repositorio público como mencionó FuzzyLeapfrog (por supuesto, solo haga esto, si tiene el derecho legal de hacerlo).

Si se trata de algo muy específico de la publicación (p. ej., código que produce los resultados/gráficos/tablas de la publicación), utilice los "recursos adicionales" del editor (si están disponibles y son convenientes).

El Open Science Framework es bastante bueno. https://osf.io/

No es comercial, lo cual es una buena propiedad. Ofrece almacenamiento flexible y archivado para un proyecto. Tiene muchas herramientas diseñadas para almacenar datos, códigos y materiales en un entorno académico (por ejemplo, incluso puede compartir un enlace que oculta los nombres de los autores cuando se envía como parte de una revisión ciega).

Para obtener más información, consulte: https://osf.io/support/

Depende de un campo. En mi área, hoy en día es bastante común proporcionar información adicional en el repositorio de GitHub . GitHub, si bien es principalmente una plataforma de intercambio de software, se adapta bastante bien a esa tarea, ya que la investigación (en forma de publicación de revista/conferencia) generalmente está respaldada por algún código que se usó para recopilar datos y procesarlos/analizarlos, conjuntos de datos en sí mismos y el descripción de estos conjuntos de datos (es decir, metadatos). Además de eso, es fácil crear un conjunto de páginas web o incluso un sitio usando GitHub Pages .

Compartir datos en GitHub funciona de maravilla si el volumen de sus conjuntos de datos es moderado (por ejemplo, <100 Mb). Si es más grande, un repositorio de Github puede contener código, metadatos, algunos extractos de muestra de los conjuntos de datos y, además, especifica cómo acceder a los conjuntos de datos. Estos últimos pueden ser enlaces directos a los datos almacenados en, por ejemplo, Dropbox o algún otro almacenamiento en línea, en el sistema de almacenamiento de su departamento/organización (si lo hay), etc. Y/o pueden ser solo instrucciones sobre cómo obtener el conjuntos de datos (solicitud por correo electrónico, etc.). Además, allí se puede especificar cualquier otra información relacionada, como derechos de autor, cómo hacer referencia a una publicación y/o sus materiales de apoyo, etc.

¿Prevalece tanto GitHub en comparación con otros alojamientos de git, por ejemplo, BitBucket y otros?
La plataforma git específica como GitHub o BitBucket o GitLab, etc. no es tan crucial, en mi opinión. Aún así, de forma predeterminada (además de considerar los planes gratuitos), GitHub es preferible ya que tiene la base de usuarios más grande (por lo tanto, más posibilidades de que se noten sus cosas). BitBucket (o GitLab) supera a GitHub al permitir repositorios privados, pero para proyectos/datos académicos (que son principalmente de código abierto, al menos debería serlo) no es un inconveniente real. Bitbucket es peor que GitHub o GitLab ya que tiene restricciones en la cantidad de colaboradores (no crucial pero importante).
Por último, Bitbucket es mejor que los otros dos en términos de integración con otros sistemas de gestión/desarrollo de software (como JIRA), pero eso es irrelevante en la mayoría de los proyectos académicos.
Zenodo también puede crear un DOI para un repositorio de Github, lo que facilita la cita: guides.github.com/activities/citable-code
El problema de usar una plataforma git es que no hay garantía de disponibilidad a largo plazo. No solo confía en GitHub para alojar sus datos de forma gratuita a perpetuidad, sino que también es posible que usted, como propietario, elimine o reemplace los datos con otra cosa, accidental o intencionalmente. La ventaja de depositar en un archivo especializado es que estos suelen tener algunas garantías técnicas y sociales de disponibilidad y fijeza, lo cual es importante porque estos datos compartidos se están convirtiendo esencialmente en parte del registro científico. Sin embargo, la sugerencia de Guarav te ofrece lo mejor de ambos mundos.

Casi todo el mundo puede consumir archivos EXCEL (CSV), así que alójelos en Google Drive. Comparte enlaces con correos electrónicos con los que quieras estar. Aquí no tendrá problemas con los servidores de terceros o el servicio de datos y el formato CSV universalmente aceptable. Para datos muy grandes, divídalos en archivos.

No querrás molestar a tus lectores con la creación de una cuenta de Google si no tienen una.
Los archivos de Excel y los archivos CSV son bastante diferentes.
¿Cómo manejar datos como los resultados del modelo climático que contienen datos multidimensionales a lo largo del tiempo? ¡Definitivamente no CSV! ¿Cómo asegurar la disponibilidad de los datos en 10 o 20 años? ¿Qué pasa con el archivo a largo plazo?