Estudios sobre qué tan ruidoso es aceptar/rechazar envíos

Este año, la conferencia NIPS 2014 hizo un experimento interesante: los presidentes de la conferencia duplicaron el 10 % de las presentaciones (170 artículos) y las enviaron a dos grupos diferentes de revisores. El resultado: 25,9% de desacuerdo .

Esto indica que para casi cada uno de los cuatro trabajos, el trabajo es aceptado por un grupo de expertos mientras que el otro grupo lo rechaza. Esto solo muestra lo ruidoso que es el proceso de revisión. Me preguntaba si había otros experimentos similares para otros campos y cuál era el porcentaje de desacuerdo en cada uno (independientemente del lugar: revista o conferencia).

¡Gran pregunta! Esto parece una solicitud de respuestas basada en "un documento o cita de respaldo" (es decir, un estudio), así que agregué la etiqueta de solicitud de referencia , espero que esté bien.
@ ff524 Sería perfecto si la respuesta está respaldada por recursos/referencias. Sin embargo, incluso en el caso de que no haya resultados oficiales, tal vez algunos usuarios aquí estén al tanto de experimentos no oficiales (es decir, realizados a través de su papel en la organización de conferencias/edición de revistas) y me encantaría escucharlos.
Interesante. Esto sugiere que si lo envía a suficientes revistas, el artículo finalmente será aceptado incluso si vuelve a enviar exactamente el mismo artículo (suponiendo que obtenga diferentes revisores cada vez).
@Bitwise En la práctica, esa es exactamente la cantidad de artículos que se publican.
@ff524 Pensé que el proceso estándar es revisar el manuscrito después de cada rechazo de acuerdo con las sugerencias de los revisores (a menos que no sepan de qué están hablando).
@Bitwise Debería serlo (a menos que haya algún desacuerdo legítimo con las sugerencias de los revisores). Pero hay algunas personas que no se molestan: ¡"comprar diarios" es más fácil que trabajar! Consulte también Se le pidió nuevamente que revisara un artículo, cuando los autores no desean modificarlo.
@Bitwise Eres un poco demasiado optimista sobre las perspectivas de publicar un artículo enviándolo una y otra vez hasta que (por así decirlo) te toques el premio gordo de los revisores. Lo más probable es que haya algunos artículos que serían aceptados por cualquier revisor, algunos que serían rechazados por cualquiera y artículos en el límite como el 25,9 %. Volver a enviar un documento dudoso eventualmente lo aceptará si hay suficientes revisores independientes. Pero los papeles "rechazados por todos" todavía no tendrían suerte.

Respuestas (1)

Ha habido muchos estudios sobre esto. Aquí hay un metanálisis reciente de 48 (!) De ellos:

Bornmann, Lutz, Rüdiger Mutz y Hans-Dieter Daniel. "Un estudio de generalización de la confiabilidad de las revisiones por pares de revistas: un metanálisis de niveles múltiples de la confiabilidad entre evaluadores y sus determinantes". PLOS UNO 5.12 (2010): e14331.

Aquí está el resumen:

Fondo

Este artículo presenta el primer metanálisis de la confiabilidad entre evaluadores (IRR) de las revisiones por pares de revistas. La TIR se define como la medida en que dos o más revisiones independientes del mismo documento científico concuerdan.

Metodología/Principales Hallazgos

En total, se tomaron en cuenta en el metanálisis 70 coeficientes de confiabilidad (Kappa de Cohen, correlación intraclase [ICC] y correlación producto-momento de Pearson [r]) de 48 estudios. Los estudios se basaron en un total de 19.443 manuscritos; en promedio, cada estudio tuvo un tamaño de muestra de 311 manuscritos (mínimo: 28, máximo: 1983). Los resultados del metanálisis confirmaron los hallazgos de las revisiones narrativas de la literatura publicadas hasta la fecha: El nivel de TIR (ICC medio/r 2= .34, Kappa de Cohen medio = .17) fue bajo. Para explicar la variación de estudio a estudio de los coeficientes de la TIR, se calcularon análisis de metarregresión utilizando siete covariables. Dos covariables que surgieron en los análisis de metarregresión como estadísticamente significativas para obtener una homogeneidad aproximada de las correlaciones intraclase indicaron que, en primer lugar, cuantos más manuscritos se basen en un estudio, menores serán los coeficientes de TIR informados. En segundo lugar, si la información del sistema de calificación para los revisores se informó en un estudio, esto se asoció con un coeficiente de TIR más pequeño que si no se transmitiera la información.

Conclusiones/Importancia

Los estudios que reportan un nivel alto de TIR se deben considerar menos creíbles que aquellos con un nivel bajo de TIR. Según nuestro metanálisis, la TIR de las evaluaciones por pares es bastante limitada y necesita mejoras (p. ej., sistema de lectura).

Este metanálisis incluye estudios de acuerdos de revisión por pares en economía/derecho, ciencias naturales, ciencias médicas y ciencias sociales.

Aquí hay otro documento, que incluye una sección sobre la confiabilidad de la revisión por pares (es decir, el acuerdo entre los revisores) en el que se resumen una serie de otros estudios:

Bornmann, Lutz. "Revisión científica por pares". Revisión anual de ciencia y tecnología de la información 45.1 (2011): 197-245.

Específicamente en informática, hay esto :

Ragone, Azzurra, et al. "Sobre la revisión por pares en informática: análisis de su eficacia y sugerencias de mejora". Cienciometría 97.2 (2013): 317-356.

Midieron el acuerdo entre revisores en

un gran conjunto de datos de revisión de diez conferencias diferentes en informática para un total de ca. 9,000 reseñas en ca. 2.800 contribuciones presentadas.

y encontrado

en nuestro caso tenemos seis conferencias con ICC > 0,6, es decir con correlación significativa, 3 conferencias con correlación regular (0,4 < ICC < 0,59) y una conferencia con mala correlación entre evaluadores (ICC < 0,4).

También encontraron que el acuerdo sobre los documentos de "rechazo fuerte" era mucho mayor que el acuerdo sobre otros documentos. Más precisamente,

Un análisis más detallado muestra que si alguien otorga una calificación de la banda de "rechazo fuerte", aumenta la probabilidad de otorgar calificaciones no solo de las bandas de rechazo fuerte y débil (en un 14 y un 63 % correspondientemente) sino también de la banda limítrofe (en un 11 %). %). En el conjunto de "aceptación fuerte", la probabilidad de que otros den una calificación de "aceptación débil" es un 20% más alta que la probabilidad general, pero la probabilidad de dar calificaciones de otras bandas es casi la misma que la probabilidad general.

Por lo tanto, podemos decir que tenemos calificaciones sesgadas hacia la "aceptación débil" y los revisores aún están de acuerdo con las contribuciones muy malas mientras que no están de acuerdo con las muy buenas.