El revisor cuestionó la credibilidad del artículo y los resultados después de la primera revisión, lo que nos llevó a encontrar un error importante. ¿Debemos revisar o retirar?

Los miembros de mi equipo y yo trabajamos en un documento de aprendizaje automático para predecir el aprobado y el reprobado en una prueba académica estándar. El artículo fue enviado a una revista de renombre. La primera revisión volvió con mucho ánimo pero con algunas sugerencias que nos hicieron cambiar la metodología de nuestro trabajo, especialmente con respecto a los datos: el preprocesamiento. Se realizaron los cambios y se volvió a enviar el manuscrito revisado. Sin embargo, una cosa que debería haberse debatido antes de enviarlos fue la precisión de los resultados, que fue del 100 % para múltiples métricas de evaluación en cada uno de los pliegues estratificados. Si bien la inquietud se planteó dentro de nuestro equipo, finalmente la presentamos sin asegurarnos rigurosamente de si todo estaba bien o no.

Ahora los comentarios del revisor han regresado y ha desafiado la credibilidad de nuestro trabajo, señalando específicamente que el 100% de precisión parece demasiado bueno para ser verdad. Volvimos a ejecutar los modelos para evaluar cómo se comporta y descubrimos que los resultados son bastante diferentes y no se acercan al 100 %. Hemos revisado todo el código y los pasos que tomamos para lograr los resultados, pero no podemos encontrar ninguna falla o error que pueda haber resultado en un 100% de precisión.

Los resultados actuales, que oscilan entre el 65 y el 80 % entre pliegues, parecen mucho más creíbles. Sin embargo, no estoy seguro de cómo responder al revisor, especialmente cuando no podemos encontrar nuestro error que resultó en el 100% de precisión. Queremos ser absolutamente honestos y queremos reconocer que cometimos un error al enviar el 100 % de precisión y que deberíamos haber sido más críticos con nuestro trabajo.

Mientras que como grupo queremos ser absolutamente transparentes con todos los archivos de datos y resultados que hemos obtenido y compartirlo con el revisor. Pero me preocupa un poco cómo percibiría el revisor una diferencia tan grande en los resultados que cambian la conclusión o al menos la interpretación.

¿Deberíamos enviar nuestras respuestas y revisar el manuscrito o retirar el documento?

Cualquier ayuda sería apreciada.

¿Es capaz de reproducir los resultados con una precisión del 100 %? ¿O simplemente volvió a ejecutar el código (sin modificarlo) y obtuvo una precisión diferente?
No, no podemos reproducir el 100% de precisión. Simplemente volvemos a ejecutar el código (sin modificarlo).
Esto va a sonar más duro de lo que pretendo. Pero ayudará a poner esto en términos claros: es imposible que estés haciendo exactamente las mismas cosas y obteniendo resultados diferentes. Algo debe ser diferente. ¡El hecho de que no haya descubierto qué es eso prueba que no entendió lo suficiente su método!
Entiendo perfectamente lo que quieres decir. Para ser brutalmente honesto, realmente no sé qué salió mal y esto obviamente genera preocupación sobre si entiendo o no completamente la metodología. Mi mejor suposición es que ocurrió una falla técnica al registrar las métricas de rendimiento, pero sí, sé que esta es una situación complicada y estamos haciendo todo lo posible para ver qué mejores respuestas podemos encontrar y luego decidir si responder o retirarnos.

Respuestas (4)

Le sugiero que retire su envío hasta que pueda averiguar qué está pasando. La buena ciencia debería ser reproducible, y esto no lo es. No criticó adecuadamente sus propios resultados y presentó un resultado que parecía "verse bien". Ahora ha cambiado parte de su metodología de modelado y ha obtenido otro conjunto de resultados que "se ven bien", aunque no puede articular ninguna razón teórica o práctica por la cual este conjunto de resultados es más sólido que el anterior. El primer resultado no pasó la "prueba del olfato" de un rendimiento razonable, y usted se disparó en el pie al no investigar. Ahora tiene un resultado que pasa la "prueba del olfato", pero el revisor es consciente de que su diligencia en la autocrítica es algo deficiente.

Básicamente, le está diciendo al revisor que "el último resultado fue un error, pero este no lo es, aunque no podemos explicar ninguna diferencia entre los dos". Es una gran petición para que el revisor confíe en su metodología actualizada, si usted mismo no puede explicar por qué es más correcta que lo que hizo la primera vez.

Los resultados ahora son reproducibles, lo único que me preocupa es qué salió mal la última vez. No hemos cambiado ninguno de nuestros métodos para obtener los resultados. Simplemente volvimos a ejecutar los modelos y vemos si el comportamiento del 100 % persiste o no. Entonces, ¿lo correcto sería retirar el artículo si no podemos encontrar una buena justificación de lo que salió mal la última vez?
No retiraría la presentación, pero de lo contrario, esta respuesta lo expresa muy bien. Debe ser más diligente para asegurarse de que los resultados sean correctos esta vez. ¿Quizás agregue otro conjunto de datos de prueba o una implementación alternativa para ver si obtiene resultados similares? Básicamente, vea si puede agregar algo para asegurarse tanto a usted como al revisor de que estos resultados son verdaderos. Entiendo que puede que ahora no sea posible rastrear lo que salió mal la primera vez; tómelo como una lección para hacer que su código sea más reproducible en cada etapa y siga adelante.
Para ser el abogado del diablo, el primer resultado podría ser un problema técnico o podría estar basado en un error de codificación que no se puede detectar.
@Titus, mi mejor suposición es que ocurrió algún tipo de falla durante la grabación/registro de las métricas de rendimiento, pero las conjeturas no funcionarán.
@juod Sí, tiene razón, debemos ser más diligentes. Es una lección aprendida.

Definitivamente debe retirar o revisar el manuscrito de una manera que explique lo que hizo mal anteriormente, lo que ha cambiado y cuáles son sus nuevos resultados. Incluso si pasa las revisiones y se publica, alguien lo cuestionará y su credibilidad se verá afectada. 100% es bastante cuestionable para ser justos, lo que sugiere en gran medida que sus datos de entrenamiento y prueba son demasiado similares/sobreajustados/que hay una fuga de datos, etc., lo cual es un error muy fundamental. Nadie te criticará por corregir tu error, aunque te sientas avergonzado.

Una vez estuve en un grupo y un compañero de laboratorio dijo que solucionaron el problema que teníamos con el sobreajuste sin revelar sus ediciones en detalle y nuestro líder de laboratorio insistió en que completáramos los experimentos, escribiésemos el artículo y lo enviáramos a pesar de mis sospechas y mi franqueza clara al respecto. . Incluso fue malo conmigo al respecto cuando cuestioné la solución mágica del compañero de laboratorio. Más tarde, finalmente, por casualidad, descubrimos que el compañero de laboratorio cambió el código para usar datos de entrenamiento como datos de prueba, por lo que estaba entrenando con los mismos datos y probándolos también (obtuvimos una precisión del 96% -98% incluso entonces, esto es explicable en redes neuronales). Ya había dejado el trabajo cuando su contrato estaba por terminar, y claramente esto no fue un error. Encontramos esto después de que escribimos todo el artículo al respecto y pasé mucho tiempo en ello, pero estaba ALEGRÍA de haberlo encontrado después de todo,

Tiene un papel que usted mismo describe como defectuoso. Te sugiero que lo arregles antes de seguir adelante. Tal vez haya tiempo para hacerlo sin retirarlo, pero si lo empuja hacia adelante, es probable que solo tenga malos resultados. Una "respuesta" en lugar de una corrección, probablemente no sea suficiente.

La revista podría rechazarlo. Pero si lo publican, los lectores podrían cuestionar sus métodos.

Si tiene tiempo para arreglarlo mientras permanece en el proceso de publicación, hágalo, pero de lo contrario, probablemente sea mejor retirarlo hasta que pueda encontrar los errores.

No diré que todo el documento tiene fallas. Los resultados, sin embargo, deberían haber sido debatidos rigurosamente. El problema real es por qué el 100% de ese tiempo puede deberse a una falla técnica en el registro de métricas o algo más, pero no puedo encontrar nada malo en el proceso. Hemos vuelto a ejecutar los experimentos y tenemos que informar sobre los resultados. No vamos a seguir adelante con los resultados defectuosos.
Bien, pero si no sabe por qué obtuvo los resultados que obtuvo, entonces todavía tiene un problema. ¿Tu trabajo es reproducible, por ejemplo? Es su reputación en la línea, por supuesto.
Exactamente, entonces, a menos que encontremos una buena razón para respaldar lo que salió mal la última vez, ¿deberíamos retirar el documento?
No puedo decir honestamente. Pero debes saberlo antes de que se publique. Si está obteniendo resultados inconsistentes, debe resolverlo. Preferiría trabajar duro en él y tratar de obtener una mejor versión antes de que una fecha límite requiera una decisión de su parte sobre el retiro. Si el software está involucrado aquí, tal vez tuvo una mala ejecución debido a parámetros incorrectos. Si es un modelo estadístico puro, entonces es posible una anomalía. Suceden cosas raras, y eventualmente sucederán.
Ahora estamos obteniendo resultados consistentes. No sé qué salió mal la última vez. Quizás fue un fallo técnico o algo similar.
Estás listo para irte, entonces.

Simplemente diga que ha vuelto a ejecutar los experimentos y ha cometido un error. Si el papel es rechazado depende de otras partes del papel. Su problema o solución podría ser novedoso y, por lo tanto, su solución es el mejor resultado hasta el momento. En ese caso, 60%-80% está bien. De hecho, esto podría dar lugar a muchos trabajos de seguimiento, es decir, citas, si su problema es interesante. Sin embargo, si hay una mejor solución, entonces no hay nada que publicar.

Solo puede hacerlo si realmente ENCONTRÓ el error.