Tengo un diagrama de dispersión (log-) con unos 10,000 puntos de datos que traza el tiempo de ejecución de algún algoritmo contra la entrada en instancias aleatorias de algún problema.
Tengo muchas de estas parcelas y, debido a limitaciones de espacio, no puedo dedicarles exactamente una gran cantidad de espacio. Las parcelas miden 1-2 pulgadas de alto. El problema es que un puñado (tal vez 5 o más) de estas muestras han tomado una cantidad de tiempo ridículamente corta para completarse (digamos, unos pocos milisegundos), mientras que casi todos los otros puntos de datos han tomado 2-3 órdenes de magnitud. más extenso.
Estoy tratando de demostrar que mi algoritmo es rápido, así que me imagino que no debería doler omitir estos pocos puntos de datos y generar más muestras, ¿verdad?
Siento que mencionar cualquier cosa confundiría innecesariamente al lector, y mantenerlos molestaría al lector ya que la trama tendría una gran cantidad de espacio en blanco. Y obviamente no es como si estuviera tratando de suprimir evidencia en contra de mi investigación o algo así --- los datos descartados solo están a favor de mi algoritmo.
¿Estaría violando algún código ético aquí si simplemente descarto esas muestras sin mencionar nada para que mis gráficos se vean mejor? ¿Es poco científico? Y si es así, ¿a alguien realmente le importaría?
La ciencia tiene como objetivo la revelación y la comprensión. Antes de que pueda considerar descartar estas muestras, debe comprender por qué existen.
La razón es que los datos inesperadamente "buenos" pueden ser tanto un signo de problemas con su teoría como los datos inesperadamente malos. ¿Estos puntos de datos le están diciendo que tiene un error en su algoritmo? ¿Están diciendo que la instrumentación que estaba usando para medir el tiempo no era confiable o no estaba calibrada correctamente? ¿O es simplemente que, bajo ciertas circunstancias, sus problemas aleatorios resultan extremadamente fáciles de resolver? Puede haber otras posibilidades también.
Si no puede determinar por qué existen los valores atípicos, debe incluirlos para ayudar al lector a evaluar su trabajo. Si determina que existen por una razón problemática, entonces, bueno, aún no está listo para publicar. Si determina que existen por una razón benigna, puede eliminarlos de la figura, pero debe explicar exactamente lo que ha hecho en el texto y por qué, o de lo contrario corre el riesgo de confundir al lector.
Al final del día, los datos que obtuvo son los datos que obtuvo, y debe tratarlos con honestidad.
¿Es poco científico?
Sí. El propósito de estos gráficos no es mostrar que el algoritmo es rápido, sino dar una imagen precisa de su velocidad. La eliminación intencional de valores atípicos sin explicación da una imagen distorsionada. Está bien si lo tiene claro (por ejemplo, si explica en el pie de foto o en el texto los valores atípicos que se eliminaron y por qué), pero no si lo hace en silencio.
Estos valores atípicos realmente podrían importar:
Tal vez indiquen un error en su código, en cuyo caso, al eliminarlos, parecería que está ocultando deliberadamente un trabajo descuidado.
Explicar los valores atípicos podría ser científicamente interesante e importante (tal vez podría conducir a un algoritmo aún más rápido), pero nadie lo intentará si ni siquiera sabe que está allí.
Si alguien más implementa el algoritmo y compara sus resultados con los suyos, puede perder tiempo tratando de entender por qué tienen valores atípicos y usted no.
Sí. Para un escenario práctico, imagine a alguien tratando de replicar su investigación, siguiendo solo su artículo y golpeándose en la cabeza pensando que tiene un error, porque su trama muestra estos extraños valores atípicos.
Básicamente, tienes que dar a la gente toda la información, porque no sabes cómo van a utilizar tu papel. Probablemente, a la mayoría de los lectores no les importen los valores atípicos, y probablemente juzgarán el método de la misma manera, pero no depende de usted tomar esa decisión.
Por supuesto, tienes que filtrar el ruido, de alguna manera. Por lo general, el truco consiste en encontrar la manera de brindarle al lector toda la información, al tiempo que le permite concentrarse en lo que es importante. En su caso, solo diría en el título de la trama, que 5 ejecuciones del algoritmo fueron tan rápidas que estaban fuera de la escala de la trama (o algo por el estilo).
La cuestión clave no es si elimina o no los valores atípicos, sino si describe y explica lo que hizo o no. Hay muchas razones válidas para eliminar los valores atípicos, pero si lo hace, debe decir que lo hizo y decir por qué.
A diferencia de algunas de las otras respuestas aquí, no creo que sea absolutamente necesario explicar completamente los valores atípicos antes de excluirlos. Pero si no tienes una explicación, también debes decirla. Idealmente, explicaría los resultados con y sin los valores atípicos. Si la presencia o ausencia de los valores atípicos no afecta la conclusión general, aún puede ceñirse a esa conclusión, mientras menciona los valores atípicos como una curiosidad que quizás valga la pena estudiar más a fondo.
Por supuesto, la forma en que los revisores considerarán cualquiera de estas estrategias depende de su campo y lugar de publicación. Pero esos revisores deben estar al tanto de cualquier elección que haya hecho en su análisis. Descartar valores atípicos es una elección analítica, y hacer cualquier elección analítica sin revelarla no es científico.
Como alguien con menos experiencia académica y más experiencia en informática, mi primer instinto para una pequeña cantidad de pruebas que fallan es que estas pruebas en particular no se ejecutaron correctamente. Básicamente, su algoritmo no se completó y regresó antes de tiempo debido a un error. Este error puede estar en su código, en su conjunto de datos o en ambos. De cualquier manera, una diferencia de órdenes de magnitud no es normal. Verifique los resultados de esas ejecuciones particulares y vea si son normales. Por lo que sabemos, esos 5 puntos de datos en realidad podrían ser el algoritmo que se ejecuta correctamente, y esos otros 9995 puntos de datos son los que tienen errores (poco probable, pero posible).
En cuanto a mostrar estos valores atípicos, ¿ha considerado mostrar ese gráfico con un eje Y log(10)? Esto reduciría la cantidad de espacio desperdiciado, pero aun así mostraría que hay valores atípicos.
De cualquier manera, eliminar puntos de datos por motivos de formato es falsificar datos, tal como lo haría si los eliminara porque no probaron su punto. Puede acabar fácilmente con tu carrera.
Para ser pragmático (y estar de acuerdo con la filosofía general de ser completamente transparente siempre), solo haga sus gráficos en el espacio provisto con los valores atípicos excluidos y luego coloque una gran nota al pie en el gráfico que explique que se excluyeron 5 puntos debido a restricciones de tamaño en la página. y ofrezca comentarios allí sobre por qué / cómo existen estos puntos. Solo mis 2 centavos de un académico sufrido a otro...
Siempre es una buena idea cambiar sus gráficos para que sus datos se vean más claros. Nunca es una buena idea cambiar los datos para que los gráficos se vean más claros.
Hay muchas maneras de informar a los lectores acerca de los valores atípicos. Mi favorito es usar una trama con un eje visiblemente roto , que llama la atención sobre los valores atípicos sin interrumpir el resto de la trama.
Es bueno que te preocupe confundir a tus lectores. Debe pensar detenidamente cómo advertir a sus lectores sobre detalles como este sin distraerlos de la historia que está tratando de contar. Sin embargo, como muchos otros le han aconsejado, nunca debe ignorar los datos en silencio para hacer que su historia suene más simple de lo que realmente es. Hacer esto podría hacer que su trabajo sea un poco más fácil de leer, pero solo al costo potencial de hacer que su trabajo sea imposible de reproducir (como dijo Peter) o descartar un detalle extraño que habría resultado ser una pista importante (como keshlam dicho).
Si comprende el motivo de los valores atípicos y representan un defecto en su metodología de medición, corrija el error y vuelva a realizar el experimento con instrumentación mejorada. No es necesario que publiques los detalles de todos los callejones sin salida por los que pasaste. Si no comprende el motivo de los valores atípicos, ignorarlos no es ético, aunque estoy seguro de que se hace con mucha frecuencia. Si comprende el motivo, por ejemplo, a veces el algoritmo simplemente tiene suerte, entonces debe mencionarlos, pero no es necesario que aparezcan en el mismo gráfico que todas las demás medidas si eso hace que el gráfico sea ilegible.
Nadie
usuario541686
Nadie
Wrzlprmft
usuario541686
JeffE
usuario541686