Este año, la conferencia NIPS 2014 hizo un experimento interesante: los presidentes de la conferencia duplicaron el 10 % de las presentaciones (170 artículos) y las enviaron a dos grupos diferentes de revisores. El resultado: 25,9% de desacuerdo .
Esto indica que para casi cada uno de los cuatro trabajos, el trabajo es aceptado por un grupo de expertos mientras que el otro grupo lo rechaza. Esto solo muestra lo ruidoso que es el proceso de revisión. Me preguntaba si había otros experimentos similares para otros campos y cuál era el porcentaje de desacuerdo en cada uno (independientemente del lugar: revista o conferencia).
Ha habido muchos estudios sobre esto. Aquí hay un metanálisis reciente de 48 (!) De ellos:
Bornmann, Lutz, Rüdiger Mutz y Hans-Dieter Daniel. "Un estudio de generalización de la confiabilidad de las revisiones por pares de revistas: un metanálisis de niveles múltiples de la confiabilidad entre evaluadores y sus determinantes". PLOS UNO 5.12 (2010): e14331.
Aquí está el resumen:
Fondo
Este artículo presenta el primer metanálisis de la confiabilidad entre evaluadores (IRR) de las revisiones por pares de revistas. La TIR se define como la medida en que dos o más revisiones independientes del mismo documento científico concuerdan.
Metodología/Principales Hallazgos
En total, se tomaron en cuenta en el metanálisis 70 coeficientes de confiabilidad (Kappa de Cohen, correlación intraclase [ICC] y correlación producto-momento de Pearson [r]) de 48 estudios. Los estudios se basaron en un total de 19.443 manuscritos; en promedio, cada estudio tuvo un tamaño de muestra de 311 manuscritos (mínimo: 28, máximo: 1983). Los resultados del metanálisis confirmaron los hallazgos de las revisiones narrativas de la literatura publicadas hasta la fecha: El nivel de TIR (ICC medio/r 2= .34, Kappa de Cohen medio = .17) fue bajo. Para explicar la variación de estudio a estudio de los coeficientes de la TIR, se calcularon análisis de metarregresión utilizando siete covariables. Dos covariables que surgieron en los análisis de metarregresión como estadísticamente significativas para obtener una homogeneidad aproximada de las correlaciones intraclase indicaron que, en primer lugar, cuantos más manuscritos se basen en un estudio, menores serán los coeficientes de TIR informados. En segundo lugar, si la información del sistema de calificación para los revisores se informó en un estudio, esto se asoció con un coeficiente de TIR más pequeño que si no se transmitiera la información.
Conclusiones/Importancia
Los estudios que reportan un nivel alto de TIR se deben considerar menos creíbles que aquellos con un nivel bajo de TIR. Según nuestro metanálisis, la TIR de las evaluaciones por pares es bastante limitada y necesita mejoras (p. ej., sistema de lectura).
Este metanálisis incluye estudios de acuerdos de revisión por pares en economía/derecho, ciencias naturales, ciencias médicas y ciencias sociales.
Aquí hay otro documento, que incluye una sección sobre la confiabilidad de la revisión por pares (es decir, el acuerdo entre los revisores) en el que se resumen una serie de otros estudios:
Bornmann, Lutz. "Revisión científica por pares". Revisión anual de ciencia y tecnología de la información 45.1 (2011): 197-245.
Específicamente en informática, hay esto :
Ragone, Azzurra, et al. "Sobre la revisión por pares en informática: análisis de su eficacia y sugerencias de mejora". Cienciometría 97.2 (2013): 317-356.
Midieron el acuerdo entre revisores en
un gran conjunto de datos de revisión de diez conferencias diferentes en informática para un total de ca. 9,000 reseñas en ca. 2.800 contribuciones presentadas.
y encontrado
en nuestro caso tenemos seis conferencias con ICC > 0,6, es decir con correlación significativa, 3 conferencias con correlación regular (0,4 < ICC < 0,59) y una conferencia con mala correlación entre evaluadores (ICC < 0,4).
También encontraron que el acuerdo sobre los documentos de "rechazo fuerte" era mucho mayor que el acuerdo sobre otros documentos. Más precisamente,
Un análisis más detallado muestra que si alguien otorga una calificación de la banda de "rechazo fuerte", aumenta la probabilidad de otorgar calificaciones no solo de las bandas de rechazo fuerte y débil (en un 14 y un 63 % correspondientemente) sino también de la banda limítrofe (en un 11 %). %). En el conjunto de "aceptación fuerte", la probabilidad de que otros den una calificación de "aceptación débil" es un 20% más alta que la probabilidad general, pero la probabilidad de dar calificaciones de otras bandas es casi la misma que la probabilidad general.
Por lo tanto, podemos decir que tenemos calificaciones sesgadas hacia la "aceptación débil" y los revisores aún están de acuerdo con las contribuciones muy malas mientras que no están de acuerdo con las muy buenas.
ff524
seteropére
bit a bit
ff524
bit a bit
ff524
andreas blass