¿Qué tan válidos son los tiempos de reacción recopilados de los estudios en línea?

Los estudios en línea prometen la posibilidad de un gran aumento en el número y la variabilidad de las poblaciones para estudiar, pero existen muchas preocupaciones potenciales y la necesidad de validación, y lanzarse de cabeza parece imprudente.

Aquí, estoy interesado en la capacidad de recopilar datos de tiempo de respuesta en línea en comparación con una configuración de computadora estándar (por ejemplo, un estudio basado en PsychToolbox o E-Prime con entrada de teclado, no un cuadro de respuesta) en una cabina de experimentos en el sitio. Si bien estos estudios tienen sus propias limitaciones, como ser inadecuados para experimentos en los que los datos de RT de muy alta fidelidad son críticos para el estudio, solo me interesa saber si los estudios en línea difieren significativamente de ellos.

  • ¿Los RT en línea son diferentes de los RT en el sitio dentro de las tareas?
  • ¿El suelo teórico de los RT online en general es diferente al de los RT presenciales?
¿Responde esto a tu pregunta? cogsci.stackexchange.com/questions/109/…
¿Está interesado en datos de rango de milisegundos? O rango de segundos? En el rango de milisegundos, Internet y la dependencia de dos sistemas + servidores matarán
No es así, pero la cita parece útil si eventualmente respondo esto yo mismo. La pregunta es metodológica, por lo que no tengo un rango particular en mente: estoy interesado en cómo los estudios en línea se comparan con los estudios en el sitio sobre diferentes tareas, y en qué punto los estudios en línea comienzan a perder fidelidad en general, y si ese punto es diferente del de los métodos in situ basados ​​en teclado.
Tampoco estoy particularmente interesado en las comparaciones de cuadros de respuesta (pero no del todo desinteresado), porque la mayoría de las personas no tienen un cuadro de respuesta en casa, por lo que hay pocos beneficios en cualquier caso.

Respuestas (4)

Respuesta corta: es probable que los datos sean más ruidosos, no se puede confiar en el tiempo de reacción absoluto, pero dada la potencia suficiente (que es fácil de obtener en Internet), las diferencias relativas en el tiempo de reacción deberían ser similares a las del laboratorio. Sin embargo, los estudios de tiempo de reacción basados ​​en la web pueden plantear otros problemas, ya que tiene menos control sobre la presentación del estímulo y sobre cómo se comportan los participantes.

Respuesta larga: hay algunas investigaciones que han analizado la recopilación de datos de tiempo de reacción basada en Internet utilizando diferentes enfoques de software. El número de artículos es pequeño, pero convergen en la conclusión de que habrá más ruido, pero que puede ser bastante útil dependiendo de la pregunta de investigación específica.

El efecto del ruido adicional

Algo de ruido proviene del hecho de que el hardware y el software son muy diferentes "en la naturaleza". Por ejemplo, el uso de un applet JAVA Eichstaedt (2001) ha mostrado una gran variación en los tiempos de reacción dependiendo de las diferentes PC. Parte de esta variación entre computadoras se basa en factores que agregan alguna constante al tiempo de reacción en una máquina específica. Estas constantes no importan si realiza comparaciones de tiempo de reacción dentro de los sujetos, ya que son comunes en los paradigmas cognitivos. Otros factores agregarán ruido aleatorio. Por ejemplo, algunos teclados solo transmiten respuestas con cierta frecuencia (por ejemplo, cada 20 ms). Así, la resolución temporal estará ligada a este límite. Además, otro software que se ejecuta en segundo plano puede generar ruido aleatorio. Sin embargo, con suficientes ensayos y suficientes participantes, este ruido aleatorio puede ser una molestia manejable.

De hecho, utilizando simulaciones, Brand y Bradley (2012) descubrieron que agregar un retraso aleatorio de 10 a 100 ms a los tiempos de respuesta redujo el poder estadístico solo entre un 1 y un 4 % en un rango de diferentes tamaños de efectos.

La investigación que ha comparado los tiempos de respuesta recopilados con tecnologías en línea y de laboratorio sugiere conclusiones similares. Por ejemplo, utilizando ScriptingRT basado en Flash, Schubert et al. (2013, Estudio 1) han demostrado que

los SD de [tiempos de reacción] se mantuvieron por debajo de 7 ms en los tres navegadores. Ese valor es comparable a muchos teclados regulares y software de tiempo de reacción estándar. Además, la constante añadida por la medición en ScriptingRT fue de unos 60 ms. Este resultado sugiere que los investigadores que utilizan ScriptingRT deberían centrarse principalmente en las diferencias entre los RT y ser cautelosos al interpretar las latencias absolutas.

Del Estudio 2:

ScriptingRT dio como resultado latencias de respuesta más largas y una desviación estándar más grande que todos los demás paquetes, excepto SuperLab y E-Prime en una configuración. Sin embargo, en términos absolutos, el SD de 4.21 es comparable a lo que fue estándar para los teclados durante mucho tiempo [16]. Por lo tanto, está claro que cualquier prueba con ScriptingRT debe tener una buena potencia y usarse para evaluar principalmente paradigmas con un gran tamaño del efecto.

De manera similar, al comparar la recopilación de datos basada en JavaScript y Flash, Reimers y Stewart (2014) concluyeron que, en general,

la confiabilidad dentro del sistema fue muy buena tanto para Flash como para HTML5: las desviaciones estándar en los tiempos de respuesta medidos y las duraciones de presentación del estímulo fueron generalmente inferiores a 10 ms. La validez externa fue menos impresionante, con sobreestimaciones de los tiempos de respuesta de entre 30 y 100 ms, según el sistema. El efecto del navegador fue generalmente pequeño y asistemático, aunque las duraciones de presentación con HTML5 e Internet Explorer tendieron a ser más largas que en otras condiciones. De manera similar, la duración del estímulo y el tiempo de respuesta real fueron relativamente poco importantes: los tiempos de respuesta reales de 150, 300 y 600 ms dieron sobreestimaciones similares.

Replicaciones de paradigmas cognitivos con muestras en línea

Varios artículos han utilizado la recopilación de datos en línea para replicar efectos bien conocidos derivados de investigaciones de laboratorio.

Por ejemplo, Schubert et al. (2013) replicaron el efecto Stroop con online-vs. tecnología de laboratorio y descubrió que el tamaño del efecto era independiente del software utilizado. Utilizando JAVA, Keller et al. (2009) replican los resultados de un paradigma de lectura a su propio ritmo de la literatura psicolingüística. El proyecto de replicación más completo ha sido publicado por Crump et al. (2013) que replican Stroop, Switching, Flanker, Simon, Posner Cuing, parpadeo atencional, cebado subliminal y tareas de aprendizaje de categorías en Mechanical Turk de Amazon.

Otros desafíos y limitaciones

Hay varios otros desafíos y limitaciones asociados con la recopilación de tiempo de respuesta en línea.

  • Una pregunta diferente es la precisión con la que se pueden presentar los estímulos en línea. Habrá límites de resolución de tiempo (ver, por ejemplo, Garaizar et al. 2014, Reimers & Stewart, 2014, Schubert et al., 2013) y diferencias visuales (color y resolución) dependiendo del hardware y la luz ambiental.
  • A menudo, las muestras en línea serán más diversas con respecto a la edad y la educación, algunos pueden tener dificultades para comprender instrucciones difíciles. Además, en un estudio en línea es más fácil abandonar las aburridas tareas de RT que en el laboratorio (Crump et al., 2013)
  • El hardware de los participantes puede confundirse con otras variables, por lo que puede haber confusión en los tiempos de reacción absolutos porque una constante de RT sistemática puede agregarse a ciertos grupos demográficos. Esto no es un problema para las diferencias de tiempo de reacción entre los participantes. Sin embargo, las correlaciones de los tiempos de reacción absolutos con las variables de personalidad pueden ser espurias (como advierten Reimers y Stewart (2014)

Referencias

Marca y Bradley (2012). Evaluación de los efectos de la varianza técnica en los resultados estadísticos de los experimentos web que miden los tiempos de respuesta. Revista informática de ciencias sociales, 30, 350–357. doi:10.1177/0894439311415604

Crump, MJC, McDonnell, JV y Gureckis, TM (2013). Evaluación de Mechanical Turk de Amazon como herramienta para la investigación experimental del comportamiento. PLoS ONE, 8, e57410. doi: 10.1371/journal.pone.0057410

Eichstaedt, J. (2001). Un filtro de temporización inexacta para la medición del tiempo de reacción mediante subprogramas JAVA que implementan experimentos basados ​​en Internet. Métodos, instrumentos y computadoras de investigación del comportamiento, 33, 179–186. doi:10.3758/BF03195364

Garaizar, P., Vadillo, MA, & López-de-Ipiña, D. (2014). Precisión de presentación de la web revisada: métodos de animación en la era HTML5. PLoS ONE, 9, e109812. doi:10.1371/journal.pone.0109812

Keller, F., Gunasekharan, S., Mayo, N. y Corley, M. (2009). Precisión de tiempo de los experimentos web: un estudio de caso utilizando el paquete de software WebExp. Métodos de investigación del comportamiento, 41, 1–12. doi:10.3758/BRM.41.1.12

Reimers, S. y Stewart, N. (2014). Precisión del tiempo de presentación y respuesta en experimentos web de Adobe Flash y HTML5/JavaScript. Métodos de investigación del comportamiento, 1–19. doi:10.3758/s13428-014-0471-1

Schubert, TW, Murteira, C., Collins, EC, Lopes, D. (2013). ScriptingRT: una biblioteca de software para recopilar latencias de respuesta en estudios de cognición en línea. PLoS ONE 8: e67769. doi:10.1371/journal.pone.0067769

Wow, esa revisión de Crump es un verdadero hallazgo.
Hablando de Crump, QRTEngine afirma haber sido el primer paquete que mejoró los hallazgos de Crump: "Aunque los efectos Stroop y de parpadeo atencional se habían encontrado antes en estudios en línea (Crump et al., 2013), el presente estudio, hasta donde sabemos , fue el primero en proporcionar resultados similares al efecto de cebado enmascarado informado originalmente por Eimer y Schlaghecken (2002) [pero] usando métodos basados ​​en JavaScript". Su software está muerto en el agua, pero vale la pena leer sus componentes internos (detallados en el documento).

Hay algunos factores que podrían contribuir a las diferencias entre la medición del tiempo de reacción en línea y en el laboratorio.

Variación de hardware

Los participantes en un experimento en línea usarán sus propias computadoras para completar la tarea, lo que resultará en una gran variedad de hardware. Muchos estudios han analizado cómo las variaciones del hardware afectan la medición del tiempo de respuesta y, en general, encuentran que las variaciones del hardware pueden causar diferencias en el rango de 10 a 100 ms para una sola respuesta (p. ej ., Plant & Turner, 2009 ).

Variación de software

Los estudios en línea y los estudios de laboratorio tienden a realizarse con un software diferente, ya que la mayoría del software estándar basado en laboratorio no se puede usar para realizar un experimento en línea. Una opción popular para experimentos en línea es JavaScript y HTML. Reimers y Stewart (2014) midieron el error en las mediciones del tiempo de respuesta de JavaScript y, en general, encontraron que era de alrededor de 25 ms, con algunas variaciones entre diferentes hardware y software. de Leeuw y Motz (2015)realizó un experimento en el que los sujetos completaron una tarea de búsqueda visual en el laboratorio utilizando una versión del experimento de JavaScript y MATLAB (Psicofísica Toolbox), y descubrió que JavaScript midió tiempos de respuesta que eran aproximadamente 25 ms más lentos. Sin embargo, tanto JavaScript como MATLAB tuvieron una variación equivalente en las mediciones y ambos sistemas de software fueron igualmente sensibles a las manipulaciones experimentales de la tarea de búsqueda visual en los tamaños de muestra utilizados para el experimento.

En línea versus en el laboratorio

Hilbig (en prensa) asignó aleatoriamente a los participantes para que completaran un experimento en el laboratorio usando un software de laboratorio estándar (E-prime), en el laboratorio usando un navegador web o en línea en una ubicación elegida por el participante. Midieron los tiempos de respuesta en una tarea de decisión léxica estándar y encontraron que no había diferencias significativas entre los tres grupos. El efecto fue del orden de 120-220ms. El efecto es relativamente grande (d' ~ 1.5), pero dada la literatura actual, no hay razón para dudar de que así sea.

¿Importa?

La última parte de la respuesta es: ¿realmente importa si los tiempos de respuesta recopilados en línea son más ruidosos que los recopilados en el laboratorio? Resulta que incluso para mediciones bastante ruidosas, los tamaños de muestra moderados contrarrestarán el ruido adicional de la medición. Reimers & Stewart (2014) simularon el tamaño de muestra necesario para encontrar un efecto de 50ms con y sin el ruido adicional en los tiempos de respuesta causado por el uso de métodos en línea. Descubrieron que solo se necesitaba un 10% más de sujetos en su modelo para tener una probabilidad equivalente de detectar el efecto. Ulrich y Giray (1989) llegaron a una conclusión similar en un contexto de modelado diferente.

Referencias

  • de Leeuw, JR y Motz, BA (2015). ¿Psicofísica en un navegador web? Comparación de tiempos de respuesta recopilados con JavaScript y Psychophysics Toolbox en una tarea de búsqueda visual. Métodos de investigación del comportamiento . doi:10.3758/s13428-015-0567-2
  • Hilbig, BE (en prensa). Efectos del tiempo de reacción en investigación de laboratorio versus basada en la web: evidencia experimental. Métodos de investigación del comportamiento . doi:10.3758/s13428-015-0678-9
  • Plant, R. y Turner, G. (2009). Investigación psicológica con precisión de milisegundos en un mundo de computadoras comerciales: ¿nuevo hardware, nuevos problemas? Métodos de investigación del comportamiento , 41 (3), 598-614.
  • Reimers, S. y Stewart, N. (2014). Precisión del tiempo de presentación y respuesta en experimentos web de Adobe Flash y HTML5/JavaScript. Métodos de investigación del comportamiento
  • Ulrich, R. y Giray, M. (1989). Resolución de tiempo de los relojes: Efectos en la medición del tiempo de reacción - Buenas noticias para los malos relojes. Revista británica de psicología matemática y estadística , 42 , 1-12.
Actualmente no tengo votos para mejorar esta respuesta, pero quería agradecer especialmente por compartir su resumen de los datos no publicados con los detalles correctos (que trataré absolutamente con la mayor sospecha hasta que haya sido revisado por tres arbitrarios personas y bloqueado de forma segura detrás de un muro de pago de Elsevier). ¡Espero leer tu artículo!

Cubrimos una discusión sobre esto en un artículo que hemos enviado para revisión por pares. Aquí está la preimpresión .

Citaré esta pregunta/respuesta de stackExchange en el manuscrito (revisión posterior a la de los pares ahora) ya que hay algunos debates encantadores en curso y, sin duda, más a seguir.

Tangencialmente relevante para esta discusión hay una simulación que hicimos en el documento que explora cómo el no saber cómo se actualiza la pantalla afecta el tiempo del estímulo (considere que si RT comienza a grabarse desde una presentación de estímulo, el error en el tiempo del estímulo se mezcla con RT):

Probamos este problema de apariencia en una simulación en la que variamos la duración del estímulo visual, comenzando en un momento aleatorio durante el ciclo de actualización (10 000 presentaciones virtuales por duración del estímulo). La Figura 5 muestra la probabilidad de que se muestren estímulos de corta duración, o que se muestren durante la duración incorrecta, o que comiencen/se detengan en el momento incorrecto ( https://github.com/andytwoods/refreshSimulation ; disponible para ejecutar/modificar en línea aquí) http://jsfiddle.net/andytwoods/0f56hmaf/ ).ingrese la descripción de la imagen aquí

A continuación se muestra el resumen:

Este artículo proporciona una descripción general de la literatura sobre el uso de pruebas basadas en Internet para abordar preguntas en la investigación de la percepción. Las pruebas basadas en Internet tienen varias ventajas sobre la investigación en el laboratorio, incluida la capacidad de llegar a un conjunto relativamente amplio de participantes y recopilar grandes cantidades de datos empíricos de manera rápida y económica. En muchos casos, la calidad de los datos en línea parece coincidir con la recopilada en investigaciones de laboratorio. En términos generales, los participantes en línea tienden a ser más representativos de la población en general que los participantes en laboratorio. Sin embargo, existen algunas advertencias importantes cuando se trata de recopilar datos en línea. Obviamente, es mucho más difícil controlar los parámetros exactos de la presentación del estímulo (como las características de visualización) en la investigación en línea. También hay algunas consideraciones éticas espinosas que deben ser consideradas por los experimentadores. Se destacan las fortalezas y debilidades del enfoque en línea, en relación con otros, y se hacen recomendaciones para aquellos investigadores que podrían estar pensando en realizar sus propios estudios utilizando este enfoque cada vez más popular para la investigación en las ciencias psicológicas.

¡Bienvenido a CogSci Andy! ¡Eso sería genial! Para mejorar esta respuesta, ¿le importaría agregar una breve sinopsis de su publicación reciente?
No puedo decirle lo feliz que estoy de que haya encontrado información útil para su revisión aquí (y de que la haya enviado para la preimpresión). Con todos los problemas de energía que tenemos en el campo, saber cuándo y cuánto podemos confiar en los estudios en línea marcará una gran diferencia. Basado en un vistazo, parece que leeré muchos de los artículos que cita.
Espero que sea suficiente.

Dependiendo de cómo recopile los datos, los tiempos de reacción recopilados "en línea" probablemente serán diferentes de los recopilados "in situ". Al considerar los tiempos de reacción, es importante decidir si el tiempo de reacción se utiliza como disparador, como el tiempo de respuesta o la diferencia en el tiempo de respuesta.

Considere un experimento que muestra una serie aleatoria de imágenes durante 1/2 segundo cada una y el análisis consiste en promediar las imágenes que resultaron en pulsaciones de teclas. Si su sistema en línea presenta un retraso de 1 s, no promediará las imágenes que condujeron a la pulsación de la tecla, sino la imagen aleatoria posterior.

Considere un experimento que muestra una serie aleatoria de imágenes durante 1/2 segundo de vez en cuando se muestra una imagen de destino y el análisis se centra en la cantidad de tiempo promedio que se tarda en reaccionar a la imagen de destino. En este caso, su tiempo de reacción será 1 segundo más largo de lo que debería ser y sus datos no tendrán sentido.

Considere un experimento que muestra una serie aleatoria de imágenes durante 1/2 segundo cada una y cada cierto tiempo se muestra una de las dos imágenes de destino y el análisis se centra en la diferencia en la cantidad promedio de tiempo que se tarda en reaccionar a la imagen de destino. . En este caso, el tiempo de reacción para cada objetivo será 1 segundo más largo de lo que debería ser, pero la diferencia en la reacción será precisa. Si en este experimento, además del retraso de 1 s, también hay un retraso variable (por ejemplo, un jitter gaussiano con media 0 y varianza 1 s). Esta fluctuación agregará ruido a los datos y dificultará la visualización de pequeñas diferencias. Sin embargo, este ruido se promediará entre los ensayos y los participantes.

Como ocurre con la mayoría de las medidas psicológicas, el experimentador puede cambiar la fidelidad de la medida, el número de medidas de cada participante y el número de participantes entre sí. Los estudios en línea renuncian a la fidelidad y, en cierta medida, a la cantidad de mediciones de cada participante, para un gran número de participantes.

En un laboratorio con una caja de botones dedicada en una respuesta rápida de hardware dedicada, son posibles latencias de menos de 1 ms con pequeñas fluctuaciones. Esto, por supuesto, ignora al sujeto humano que da la respuesta. Wagenmakers et al (2005) sugieren una fluctuación de unos 100 ms en el mejor de los casos. Agregar una fluctuación de teclado y de red de 100 ms (lo que sería bastante malo) significa que el experimento en línea necesitaría un aumento del doble en la cantidad de sujetos para tener el mismo poder estadístico; si la varianza es el doble de grande (lo que sucede cuando agrega dos fuentes independientes de ruido con la misma varianza), necesita un N 2 veces mayor para tener el mismo error estándar de la media.

+1. Respuesta muy interesante, pero no satisface del todo tal como está. En la pregunta se indica que hay razones para sospechar las compensaciones entre fidelidad y cantidad, pero es concebible que el costo sea de hecho tan pequeño o constante que puede controlarse estadísticamente o ignorarse.
@ChristianHummeluhr No estoy muy seguro de lo que quieres decir, pero agregué algo más sobre la inestabilidad.
Gracias. Si bien soy un fanático de una citación de EJW, me temo que no estoy seguro de qué tiene que ver este documento con la pregunta. El documento trata sobre la relación de la media con la varianza en los datos RT, y no menciona la fluctuación ni compara los datos en línea con los datos in situ. ¿Es correcto el enlace?
@ChristianHummeluhr, la cita de EJW dice que la varianza/inestabilidad de los datos RT recopilados de manera óptima es lo suficientemente grande como para que la varianza/inestabilidad adicional de la recopilación de datos en línea no importe.