Papeles inmaduros en arXiv

Soy de ciencias de la computación y normalmente nos enviamos a conferencias y con menos frecuencia a revistas. La publicación de preimpresiones en arXiv se vuelve cada vez más popular en mi campo. De la discusión aquí en AS, tengo la impresión de que arXiv es más que simplemente poner algo en un sitio web personal.

Por ejemplo, de ¿Qué hacer cuando encuentra un documento en arXiv con el mismo material esencial que el suyo? Entiendo que debería discutir los documentos de arXiv si están relacionados con su trabajo.

Ahora, un documento para una conferencia de CS contiene a menudo alrededor del 75% de teoría + 25% de sección experimental. La sección experimental lleva mucho tiempo, por lo que me pregunto (y temo) si existe una tendencia a cargar solo lo mínimo en arXiv para obtener crédito por la idea.

¿Es esto un problema? ¿Tal vez similar a los trolls de patentes, simplemente cargando ideas vagas con la esperanza de obtener citas?

Editar : Para aclarar: estoy trabajando en el campo de la minería de datos, donde es común tener experimentos para demostrar que su idea no solo funciona en teoría. Esta pregunta/inquietud surgió mientras discutíamos los pros y los contras de subir nuestro trabajo a arXiv, ya que nunca antes habíamos hecho esto, pero parece volverse más común en nuestro campo.

Edición 2 : parece que más personas están preocupadas por este problema, especialmente en el aprendizaje automático:

Yoav Goldberg:

Esta publicación también es una acción ideológica respecto a la publicación de arxiv: si bien estoy de acuerdo en que los ciclos cortos de publicación en arxiv pueden ser mejores que el largo proceso de revisión por pares que tenemos ahora, también hay una tendencia creciente de personas que usan arxiv para plantar banderas, y para eludir el proceso de revisión por pares. Esto es especialmente cierto para el trabajo que proviene de grupos "fuertes". Actualmente, publicar su trabajo (a menudo muy preliminar, a menudo incompleto) en arxiv prácticamente no tiene inconvenientes, solo beneficios potenciales.

Yoav Goldberg:

No me importa publicar documentos rápidamente en arxiv. Reconozco los beneficios obvios de la publicación arxiv y los plazos de entrega rápidos. Pero también hay que reconocer sus defectos. En particular, me preocupa la combinación de ciencia y relaciones públicas que facilita arxiv; los efectos de los ricos se hacen más ricos y el abuso de poder; y algunas de las dinámicas de publicación actuales de arxiv en la comunidad de DL. Está bien publicar temprano en arxiv.

NO ESTÁ BIEN tergiversar y reclamar en exceso lo que hizo. Los artículos descuidados con títulos amplios como "Generación adversaria del lenguaje natural" son dañinos. Es exactamente la diferencia entre el sistema de patentes (que en general es una idea razonable) y el troleo de patentes (que es un abuso dañino).

[...]

La mayoría de la gente no lee los artículos en profundidad, sino solo el título y, a veces, el resumen y, a veces, la introducción. Y cuando los documentos provienen de grupos establecidos, la gente tiende a confiar en las afirmaciones sin verificación. Es posible que los "investigadores serios" no caigan en esto, pero la población en general se deja engañar. Y por la población general me refiero a las personas que no están trabajando activamente en este subcampo exacto. Esto incluye profesionales de la industria, colegas, futuros estudiantes, posibles revisores de artículos y becas. En el poco tiempo que ha pasado desde que salió este trabajo, ya escuché, en varias ocasiones, “ ah, ¿te interesa la generación? ¿Has probado a usar GAN? Vi este artículo reciente en el que obtienen buenos resultados con el aprendizaje contradictorio para NLG”. Esto será extremadamente dañino y molesto para los investigadores de NLG que soliciten subvenciones el próximo año (recuerde, muchas subvenciones son revisadas por un panel de expertos capaces pero no especializados), ya que tendrán que desperdiciar un espacio y un esfuerzo valiosos para tratar con este documento y con Hu et al y explicando por qué son irrelevantes, o ser descartado por trabajar en este "problema ya resuelto", a pesar de que ni el documento en cuestión ni Hu et al realmente hicieron mucho, y a pesar del hecho que ambos papeles tienen pésimas valoraciones.

Y la discusión de seguimiento en reddit

La gente no es estúpida: si sacas muchos papeles a medio hacer, se dan cuenta. Es similar a las conferencias/revistas normales, en las que puede producir unidades menos publicables si lo desea, pero sería penalizado por hacerlo.
@BorisBukh - ¿Podría dar más detalles sobre la parte de la penalización? ¿Cómo exactamente?
@BorisBukh Gracias. Digamos que envía un borrador o un documento a medias (para ser el primero en tener la idea) y lo actualiza más tarde en arXiv. Esto es diferente a las revistas de bajo rango, donde, una vez enviado, no puede mejorar el artículo más adelante.
@TheDarkSide Obtienes una mala reputación, por lo que la gente está menos interesada en trabajar contigo o contratarte.
Sé que esta no es la pregunta real, pero este desglose de 75% + 25% está lejos de ser universal para CS. Los trabajos en congresos a los que suelo ir contienen entre un 99 % y un 100 % de teoría. Para la pregunta real, puede estar seguro de que la primera persona que desarrolle la idea y demuestre su utilidad obtendrá al menos el mismo crédito.
@ManuelSchmidt Primero, si la gente piensa que no hiciste el trabajo, no te darán crédito. En segundo lugar, la mayoría de las ideas a medias no son buenas; lo más probable es que, si no haces el trabajo, estarás generando muchas ideas basura. Incluso si hay una idea sensata uno-dos allí, nadie te tomará en serio.
Desafortunadamente, la gente pone papel sin pulir en Arxiv y luego afirma que alguien más está plagiando.

Respuestas (4)

Me parece que esta pregunta tiene menos que ver con el arxiv per se y más con cómo navegar haciendo investigación en un campo académico que se mueve muy rápidamente.

Tengo la impresión de que arXiv es más que poner algo en un sitio web personal.

Ciertamente es diferente . Las principales diferencias son:

(i) Muchas más personas verán su artículo.
(ii) De hecho, su documento se archivará, esencialmente de forma permanente. (Retirar un documento del archivo arxiv tiene el efecto de cargar una versión nueva y vacía. ¡Las versiones anteriores todavía están ahí!) En su propio sitio web, puede eliminar cosas al menos tan rápida y fácilmente como puede subirlas.
(iii) Algunas revistas (muy desagradables) pueden considerar la publicación en el arxiv como "publicación previa". (Esto es estrictamente inaudito en mi campo, las matemáticas. Supongo que CS está lo suficientemente cerca de las matemáticas como para que al menos sea muy raro en el tuyo).
(iv) Se aplican estándares mínimos de integridad y profesionalismo en el arxiv. Estos se enumeran en el sitio mismo, pero la esencia es que están buscando manuscritos en el último paso antes de la presentación de la conferencia/revista o más tarde. No están buscando borradores iniciales.

De estos puntos, probablemente el último sea el más relevante para usted. Si es estándar en su subcampo incluir un 25 % de datos experimentales [usted dice que eso es estándar en "CS", pero eso ciertamente no es cierto en todo el campo], entonces un documento cargado en arxiv sin eso probablemente se vería para muchos en tu campo estar incompleto, lo cual va en contra del espíritu y tal vez de las reglas del arxiv. Así que no lo recomendaría.

Pero la situación no cambia fundamentalmente para los documentos que usted u otros publican en su propio sitio web. La redacción de su pregunta sugiere que usted siente que es posible que no tenga que "responder" en el sentido académico a los documentos que encuentra en las páginas web de las personas (solo). Eso no es cierto. Como académico, debe responder al trabajo de los demás dondequiera que lo encuentre .

En términos de la posibilidad de que las personas carguen "lo mínimo en arXiv para obtener crédito por la idea": ¿es este un problema real para usted o simplemente algo que se pregunta podría ser un problema? Nunca me he encontrado con este problema en mi trabajo. El hecho de que se pregunte si podría ser un problema me hace pensar que puede ser un investigador bastante nuevo y que no ha comprendido completamente la forma en que funciona la comunidad académica. (Lo cual está bien, y solo tiene que esperar para comprenderlo mejor. Pero debe hablar con otros, incluidos asesores y mentores, para tratar de tener una mejor idea). La academia otorga un gran privilegio al trabajo terminado .exactamente por esta razón. Si publica un manuscrito que, por ejemplo, modifica un algoritmo e insinúa que podría ser más rápido en algunas situaciones, la reacción más probable que obtendrá es "Continúe..."

Esta pregunta finalmente puede haberme hecho entender de qué se trata la gente en este sitio cuando dice cosas como "Una idea no vale nada". Ciertamente, una idea no es inútil, pero una idea vaga y no implementada tiene un valor muy incierto, hasta el punto de que apresurarse a publicar "solo la idea vaga" sería una idea muy pobre.

Por cierto, no tienes que soltar algo inmediatamente porque alguien más tuvo "la misma idea" y sacó un artículo antes que tú. Mucho, quizás el más importante, del trabajo académico se superpone con otro trabajo y aún más refina y amplía las ideas de otros. Cómo responder al ver "tu idea" en otro papel es un tema para una respuesta diferente.

Finalmente, permítanme decirles: si lo que han hecho, están haciendo o quieren hacer tiene un valor real, entonces es poco probable que sea recibido con aplausos estruendosos esta semana y totalmente ignorado la próxima. Si vives con miedo de que alguien más diga lo que quieres decir, tal vez disminuyas la velocidad y encuentres más que decir.

Esta es una excelente respuesta que evita peyorativos, insultos y demasiada atribución de motivos al OP que pueden o no estar allí. +1

Si hay una tendencia a cargar solo lo mínimo en arXiv para obtener crédito por la idea.

No no hay. Ningún autor de renombre es estúpido al cargar basura públicamente (en arxiv o en cualquier otro lugar) y poner su nombre en ella. Tal vez, hay algunas personas que hacen lo que sugieres (aunque no puedo confirmarlo), pero estas publicaciones mediocres a malas no son nada de lo que debas preocuparte.

No hay evidencia de que OP estuviera hablando de cargar cosas a medias o con calidad basura en arXiv. Leí esto como diciendo "Tengo la sección de teoría de un artículo casi terminada, pero no he hecho todos los experimentos necesarios para un artículo completo de revista/conferencia, ¿debería subir la primera mitad del artículo para apostar?" mi reclamo? ¿Otros están haciendo esto de tal manera que debería preocuparme de que me saquen si no hago un reclamo?
@BillBarth. En ciertas disciplinas de CS (p. ej., algoritmos experimentales), subir una idea y decir: "funcionará porque yo lo digo, sin experimentos reales para demostrarlo" se considera basura. Entonces, a) el OP no debería hacerlo por su trabajo o b) preocuparse de que alguien más lo haga, porque nadie presta atención a tales afirmaciones sin experimentos.
Yo pensaría que una prueba de la complejidad computacional de un nuevo algoritmo, por ejemplo, sería la mitad de un artículo que no es basura y que podría necesitar algunos experimentos para incluirlos en el artículo completo. No veo ningún lugar donde OP nos haya pedido que confiemos en ellos. Creo que su comentario aquí es demasiado duro y demasiado absoluto. Podría suavizar esta respuesta sustancialmente y al mismo tiempo mejorarla notablemente.
@Bill: Estoy de acuerdo con usted en que el núcleo de la pregunta parece ser: "¿Debería tomar atajos en mi trabajo para sacarlo primero y hacer un reclamo?" Esta es una pregunta para que el OP le haga a los mentores con experiencia en su campo. Sin embargo, como respuesta general, diría "No. Por el contrario, debe tomarse el tiempo para hacer que su trabajo sea lo más sólido posible. Publicar un trabajo que sabe que está seriamente incompleto tiene todos los riesgos de diluir o arruinar el impacto de su trabajo". y tu propia reputación".
Pensaría que una prueba de la complejidad computacional de un nuevo algoritmo, por ejemplo, sería la mitad de un artículo que no es basura . Claro. Pero OP sugirió específicamente "subir [ing] solo lo mínimo a arXiv para obtener crédito por la idea". Proponer y analizar un algoritmo está lejos de ser el mínimo indispensable; de hecho, la mayoría de mis artículos no hacen otra cosa.

Me pregunto (y temo) si hay una tendencia a cargar solo lo mínimo en arXiv para obtener crédito por la idea.

Estás dejando que los desagradables detalles mundanos de la carrera por el crédito académico, el prestigio, los fondos y los trabajos enturbien tu juicio sobre las acciones académicas.

Si alguien tiene una buena idea, que se ha desarrollado lo suficiente como para constituir el 75% de un artículo, pero no ha tenido el tiempo o los recursos para probarla empíricamente, es mejor para la ciencia que esta persona publique algún tipo de nota / mini- artículo / publicación de blog sobre la idea para que otros la lean.

Entonces, otras personas interesadas podrían colaborar con este individuo que quizás haya resuelto un problema que se le planteó y que ahora no tiene que resolver por sí mismo. O incluso simplemente emprender el trabajo experimental ellos mismos. Esto también es seguro, en general, para conducir a algunos cambios en los detalles o la perspectiva sobre la parte puramente teórica, así como a ideas para futuras investigaciones.

Desafortunadamente, la comunicación científica se encuentra en un estado en el que se la trata como propiedad intelectual durante bastante tiempo, lo que también se conoce como "publicar o perecer". Esto tiene algunos corolarios, el más notable de los cuales es que todo se comporta en gran medida como patentes.

Sin embargo, si 5 personas publican aproximadamente la misma idea, no es seguro que la primera de ellas obtenga todo el crédito y el recuento de referencias que conlleva. Si va muy, muy grande, y pocas cosas lo hacen, sí, es probable que tengan sus nombres en alguna parte. Pero para cosas más mundanas como las métricas, ganan las mejor conectadas y más visibles. Eso hace que la investigación madura siga siendo valiosa y todo lo que sucede, en realidad, es que las personas intentan obtener más visibilidad para sus ideas publicando a menudo y publicando mucho. Y podría decirse que eso es algo bueno.

Personalmente, estuve en contra de publicar trabajos inmaduros durante muchos años hasta que me topé con "You and Your Research" de Richard Hamming. Una de las lecciones aprendidas fue que los artículos que uno escribe no son monumentos a su trabajo; podrían llegar a serlo, y uno puede optar por presentar un cuerpo de trabajo en su totalidad, y eso aún tiene ventajas significativas... Pero en última instancia, son principalmente comunicación. Y eso tiende a acelerarse. Para plasmar la mayor parte de la obra en piedra (o, en este caso, en papel) existen los libros.