¿Cómo integrar el control parcial de versiones, el intercambio de datos y los asistentes de investigación?

Actualmente, mis coautores y yo solemos GitHubcolaborar en la codificación y escritura, pero también en el intercambio de datos. Tenemos una gran cantidad de datos, a menudo no en formato de texto (por ejemplo, pdf). La mayor parte de esto es recopilado por asistentes de investigación, que no compartimos nuestro Gitrepositorio.

Más específicamente, usamos python, shell, Ry Statay Latexla mayor parte está completamente integrado. Es decir, pythonlos shellscripts generan los datos que utiliza Ry Statacuya salida se compila directamente en Latex.

No queremos desviarnos de este alto nivel de automatización, pero nuestro enfoque tiene dos deficiencias principales:

  1. Los asistentes de investigación pueden y no pueden cargar sus datos directamente en nuestro repositorio. En cambio, nos envían sus datos y archivos a través de otro gitrepositorio. Esto me genera una carga de trabajo adicional, pero queremos que usen git para su fascinante rastreador de problemas. Sin embargo, hay demasiado trabajo adicional para nosotros y, gita menudo, es demasiado complicado para los asistentes de investigación jóvenes (incluso los GUI).
  2. Debido a los datos, que eventualmente cambian, nuestro repositorio es muy grande (> 1,5 GB) y, a veces, Internet está restringido. Obtener el repositorio en una computadora nueva requiere mucho tiempo y, a menudo, no funciona. Aunque los datos sin procesar cambian de vez en cuando, git, que no se creó para el intercambio de datos, realiza un seguimiento de estos cambios. Pero eso es inútil para nuestro propósito.

¿Puede sugerirme otro(s) software(s) o enfoques que combinen la integración que hemos logrado hasta ahora donde podemos intercambiar datos fácilmente?

" git es a menudo demasiado complicado para los jóvenes asistentes de investigación (incluso las GUI) " - ¿en serio? Encuentro esto muy sorprendente, a menos que 'jóvenes' signifique 'niños pequeños reales'. ¿Qué aspecto particular de git está causando problemas? Si está haciendo algo inusualmente complicado con git, ¿podría colocarse en un archivo por lotes?
@AE: Nuestros asistentes de investigación no conocen los archivos por lotes y tampoco los espero. Eso es lo que los estudiantes no aprenden. ¿Qué tiene de complicado? Francamente, no lo sé. Solo veo que apenas lo aprenden. Pero discutir eso es inútil aquí.
@AE Tampoco creo firmemente que a alguien que es útil para la investigación en ciencias técnicas no se le pueda enseñar Git básico. Aún más, ¿por qué los RA no pueden verificar el Git global? Git está versionado, por lo que si cometen cosas que al OP no le gustan, siempre puede revertirlo. Esta configuración me suena un poco a complejidad accidental más que nada.
@xLeitix: Por una simple razón: es posible que no compartamos nuestros otros datos en el repositorio. Es en parte confidencial.
@MERose, no estoy sugiriendo que sus asistentes de investigación creen el archivo por lotes. Le sugiero que haga eso, si la secuencia de comandos 'git' es difícil o onerosa para los RA. Por 'archivo por lotes' solo me refiero a 'secuencia de comandos git en un archivo para ser ejecutado por el shell'. Y luego el asistente de investigación simplemente lo ejecuta escribiendo el nombre del archivo. O tal vez haciendo doble clic en un icono. ¿Seguramente eso no es demasiado complicado para ellos?
@AE Hablando por experiencia, escucho el temible sonido de la caja de Pandora al abrirse en tus palabras...
@xLeitix Vienes de un punto ciego aquí... lo que es muy simple para alguien con experiencia en informática puede ser realmente difícil para alguien con una gran experiencia técnica en otra área. Tengo colaboradores que son excelentes en su campo, pero que usan Excel para todos sus análisis de datos y lo encuentran bastante desafiante...

Respuestas (1)

Me he encontrado con problemas similares en colaboración con biólogos y descubrí que lo mejor es un enfoque de dos tecnologías.

  • Los datos experimentales a gran escala se comparten a través de una o más carpetas BitTorrent Sync . Los experimentadores pueden colocar sus archivos en el lugar apropiado de la carpeta y se sincronizan con el servidor y la copia de todos los demás (como DropBox, pero privado, gratuito y de tamaño ilimitado).
  • La cadena de herramientas analíticas, los productos de investigación, los informes, etc. se mantienen en su sistema de versión preferido (p. ej., git). Esto luego se integra con los datos experimentales simplemente dando un puntero a los directorios apropiados.

Esto tiene la ventaja de mantener la separación de datos que necesita, mantener el aterrador software de control de versiones alejado de los experimentadores y también evitar hacer malabarismos con enormes cantidades de datos en un sistema de control de versiones que nunca tuvo la intención de respaldar esto.

Pero, ¿cómo podemos asignar problemas a nuestros RA? ¿BitTorrent Sync ofrece eso?
BitTorrent Sync solo mueve datos. Si desea un rastreador de problemas, debe seleccionarlo por separado de uno de los muchos que existen .