Los estudios en línea prometen la posibilidad de un gran aumento en el número y la variabilidad de las poblaciones para estudiar, pero existen muchas preocupaciones potenciales y la necesidad de validación, y lanzarse de cabeza parece imprudente.
Aquí, estoy interesado en la capacidad de recopilar datos de tiempo de respuesta en línea en comparación con una configuración de computadora estándar (por ejemplo, un estudio basado en PsychToolbox o E-Prime con entrada de teclado, no un cuadro de respuesta) en una cabina de experimentos en el sitio. Si bien estos estudios tienen sus propias limitaciones, como ser inadecuados para experimentos en los que los datos de RT de muy alta fidelidad son críticos para el estudio, solo me interesa saber si los estudios en línea difieren significativamente de ellos.
Respuesta corta: es probable que los datos sean más ruidosos, no se puede confiar en el tiempo de reacción absoluto, pero dada la potencia suficiente (que es fácil de obtener en Internet), las diferencias relativas en el tiempo de reacción deberían ser similares a las del laboratorio. Sin embargo, los estudios de tiempo de reacción basados en la web pueden plantear otros problemas, ya que tiene menos control sobre la presentación del estímulo y sobre cómo se comportan los participantes.
Respuesta larga: hay algunas investigaciones que han analizado la recopilación de datos de tiempo de reacción basada en Internet utilizando diferentes enfoques de software. El número de artículos es pequeño, pero convergen en la conclusión de que habrá más ruido, pero que puede ser bastante útil dependiendo de la pregunta de investigación específica.
El efecto del ruido adicional
Algo de ruido proviene del hecho de que el hardware y el software son muy diferentes "en la naturaleza". Por ejemplo, el uso de un applet JAVA Eichstaedt (2001) ha mostrado una gran variación en los tiempos de reacción dependiendo de las diferentes PC. Parte de esta variación entre computadoras se basa en factores que agregan alguna constante al tiempo de reacción en una máquina específica. Estas constantes no importan si realiza comparaciones de tiempo de reacción dentro de los sujetos, ya que son comunes en los paradigmas cognitivos. Otros factores agregarán ruido aleatorio. Por ejemplo, algunos teclados solo transmiten respuestas con cierta frecuencia (por ejemplo, cada 20 ms). Así, la resolución temporal estará ligada a este límite. Además, otro software que se ejecuta en segundo plano puede generar ruido aleatorio. Sin embargo, con suficientes ensayos y suficientes participantes, este ruido aleatorio puede ser una molestia manejable.
De hecho, utilizando simulaciones, Brand y Bradley (2012) descubrieron que agregar un retraso aleatorio de 10 a 100 ms a los tiempos de respuesta redujo el poder estadístico solo entre un 1 y un 4 % en un rango de diferentes tamaños de efectos.
La investigación que ha comparado los tiempos de respuesta recopilados con tecnologías en línea y de laboratorio sugiere conclusiones similares. Por ejemplo, utilizando ScriptingRT basado en Flash, Schubert et al. (2013, Estudio 1) han demostrado que
los SD de [tiempos de reacción] se mantuvieron por debajo de 7 ms en los tres navegadores. Ese valor es comparable a muchos teclados regulares y software de tiempo de reacción estándar. Además, la constante añadida por la medición en ScriptingRT fue de unos 60 ms. Este resultado sugiere que los investigadores que utilizan ScriptingRT deberían centrarse principalmente en las diferencias entre los RT y ser cautelosos al interpretar las latencias absolutas.
Del Estudio 2:
ScriptingRT dio como resultado latencias de respuesta más largas y una desviación estándar más grande que todos los demás paquetes, excepto SuperLab y E-Prime en una configuración. Sin embargo, en términos absolutos, el SD de 4.21 es comparable a lo que fue estándar para los teclados durante mucho tiempo [16]. Por lo tanto, está claro que cualquier prueba con ScriptingRT debe tener una buena potencia y usarse para evaluar principalmente paradigmas con un gran tamaño del efecto.
De manera similar, al comparar la recopilación de datos basada en JavaScript y Flash, Reimers y Stewart (2014) concluyeron que, en general,
la confiabilidad dentro del sistema fue muy buena tanto para Flash como para HTML5: las desviaciones estándar en los tiempos de respuesta medidos y las duraciones de presentación del estímulo fueron generalmente inferiores a 10 ms. La validez externa fue menos impresionante, con sobreestimaciones de los tiempos de respuesta de entre 30 y 100 ms, según el sistema. El efecto del navegador fue generalmente pequeño y asistemático, aunque las duraciones de presentación con HTML5 e Internet Explorer tendieron a ser más largas que en otras condiciones. De manera similar, la duración del estímulo y el tiempo de respuesta real fueron relativamente poco importantes: los tiempos de respuesta reales de 150, 300 y 600 ms dieron sobreestimaciones similares.
Replicaciones de paradigmas cognitivos con muestras en línea
Varios artículos han utilizado la recopilación de datos en línea para replicar efectos bien conocidos derivados de investigaciones de laboratorio.
Por ejemplo, Schubert et al. (2013) replicaron el efecto Stroop con online-vs. tecnología de laboratorio y descubrió que el tamaño del efecto era independiente del software utilizado. Utilizando JAVA, Keller et al. (2009) replican los resultados de un paradigma de lectura a su propio ritmo de la literatura psicolingüística. El proyecto de replicación más completo ha sido publicado por Crump et al. (2013) que replican Stroop, Switching, Flanker, Simon, Posner Cuing, parpadeo atencional, cebado subliminal y tareas de aprendizaje de categorías en Mechanical Turk de Amazon.
Otros desafíos y limitaciones
Hay varios otros desafíos y limitaciones asociados con la recopilación de tiempo de respuesta en línea.
Referencias
Marca y Bradley (2012). Evaluación de los efectos de la varianza técnica en los resultados estadísticos de los experimentos web que miden los tiempos de respuesta. Revista informática de ciencias sociales, 30, 350–357. doi:10.1177/0894439311415604
Crump, MJC, McDonnell, JV y Gureckis, TM (2013). Evaluación de Mechanical Turk de Amazon como herramienta para la investigación experimental del comportamiento. PLoS ONE, 8, e57410. doi: 10.1371/journal.pone.0057410
Eichstaedt, J. (2001). Un filtro de temporización inexacta para la medición del tiempo de reacción mediante subprogramas JAVA que implementan experimentos basados en Internet. Métodos, instrumentos y computadoras de investigación del comportamiento, 33, 179–186. doi:10.3758/BF03195364
Garaizar, P., Vadillo, MA, & López-de-Ipiña, D. (2014). Precisión de presentación de la web revisada: métodos de animación en la era HTML5. PLoS ONE, 9, e109812. doi:10.1371/journal.pone.0109812
Keller, F., Gunasekharan, S., Mayo, N. y Corley, M. (2009). Precisión de tiempo de los experimentos web: un estudio de caso utilizando el paquete de software WebExp. Métodos de investigación del comportamiento, 41, 1–12. doi:10.3758/BRM.41.1.12
Reimers, S. y Stewart, N. (2014). Precisión del tiempo de presentación y respuesta en experimentos web de Adobe Flash y HTML5/JavaScript. Métodos de investigación del comportamiento, 1–19. doi:10.3758/s13428-014-0471-1
Schubert, TW, Murteira, C., Collins, EC, Lopes, D. (2013). ScriptingRT: una biblioteca de software para recopilar latencias de respuesta en estudios de cognición en línea. PLoS ONE 8: e67769. doi:10.1371/journal.pone.0067769
Hay algunos factores que podrían contribuir a las diferencias entre la medición del tiempo de reacción en línea y en el laboratorio.
Variación de hardware
Los participantes en un experimento en línea usarán sus propias computadoras para completar la tarea, lo que resultará en una gran variedad de hardware. Muchos estudios han analizado cómo las variaciones del hardware afectan la medición del tiempo de respuesta y, en general, encuentran que las variaciones del hardware pueden causar diferencias en el rango de 10 a 100 ms para una sola respuesta (p. ej ., Plant & Turner, 2009 ).
Variación de software
Los estudios en línea y los estudios de laboratorio tienden a realizarse con un software diferente, ya que la mayoría del software estándar basado en laboratorio no se puede usar para realizar un experimento en línea. Una opción popular para experimentos en línea es JavaScript y HTML. Reimers y Stewart (2014) midieron el error en las mediciones del tiempo de respuesta de JavaScript y, en general, encontraron que era de alrededor de 25 ms, con algunas variaciones entre diferentes hardware y software. de Leeuw y Motz (2015)realizó un experimento en el que los sujetos completaron una tarea de búsqueda visual en el laboratorio utilizando una versión del experimento de JavaScript y MATLAB (Psicofísica Toolbox), y descubrió que JavaScript midió tiempos de respuesta que eran aproximadamente 25 ms más lentos. Sin embargo, tanto JavaScript como MATLAB tuvieron una variación equivalente en las mediciones y ambos sistemas de software fueron igualmente sensibles a las manipulaciones experimentales de la tarea de búsqueda visual en los tamaños de muestra utilizados para el experimento.
En línea versus en el laboratorio
Hilbig (en prensa) asignó aleatoriamente a los participantes para que completaran un experimento en el laboratorio usando un software de laboratorio estándar (E-prime), en el laboratorio usando un navegador web o en línea en una ubicación elegida por el participante. Midieron los tiempos de respuesta en una tarea de decisión léxica estándar y encontraron que no había diferencias significativas entre los tres grupos. El efecto fue del orden de 120-220ms. El efecto es relativamente grande (d' ~ 1.5), pero dada la literatura actual, no hay razón para dudar de que así sea.
¿Importa?
La última parte de la respuesta es: ¿realmente importa si los tiempos de respuesta recopilados en línea son más ruidosos que los recopilados en el laboratorio? Resulta que incluso para mediciones bastante ruidosas, los tamaños de muestra moderados contrarrestarán el ruido adicional de la medición. Reimers & Stewart (2014) simularon el tamaño de muestra necesario para encontrar un efecto de 50ms con y sin el ruido adicional en los tiempos de respuesta causado por el uso de métodos en línea. Descubrieron que solo se necesitaba un 10% más de sujetos en su modelo para tener una probabilidad equivalente de detectar el efecto. Ulrich y Giray (1989) llegaron a una conclusión similar en un contexto de modelado diferente.
Referencias
Cubrimos una discusión sobre esto en un artículo que hemos enviado para revisión por pares. Aquí está la preimpresión .
Citaré esta pregunta/respuesta de stackExchange en el manuscrito (revisión posterior a la de los pares ahora) ya que hay algunos debates encantadores en curso y, sin duda, más a seguir.
Tangencialmente relevante para esta discusión hay una simulación que hicimos en el documento que explora cómo el no saber cómo se actualiza la pantalla afecta el tiempo del estímulo (considere que si RT comienza a grabarse desde una presentación de estímulo, el error en el tiempo del estímulo se mezcla con RT):
Probamos este problema de apariencia en una simulación en la que variamos la duración del estímulo visual, comenzando en un momento aleatorio durante el ciclo de actualización (10 000 presentaciones virtuales por duración del estímulo). La Figura 5 muestra la probabilidad de que se muestren estímulos de corta duración, o que se muestren durante la duración incorrecta, o que comiencen/se detengan en el momento incorrecto ( https://github.com/andytwoods/refreshSimulation ; disponible para ejecutar/modificar en línea aquí) http://jsfiddle.net/andytwoods/0f56hmaf/ ).
A continuación se muestra el resumen:
Este artículo proporciona una descripción general de la literatura sobre el uso de pruebas basadas en Internet para abordar preguntas en la investigación de la percepción. Las pruebas basadas en Internet tienen varias ventajas sobre la investigación en el laboratorio, incluida la capacidad de llegar a un conjunto relativamente amplio de participantes y recopilar grandes cantidades de datos empíricos de manera rápida y económica. En muchos casos, la calidad de los datos en línea parece coincidir con la recopilada en investigaciones de laboratorio. En términos generales, los participantes en línea tienden a ser más representativos de la población en general que los participantes en laboratorio. Sin embargo, existen algunas advertencias importantes cuando se trata de recopilar datos en línea. Obviamente, es mucho más difícil controlar los parámetros exactos de la presentación del estímulo (como las características de visualización) en la investigación en línea. También hay algunas consideraciones éticas espinosas que deben ser consideradas por los experimentadores. Se destacan las fortalezas y debilidades del enfoque en línea, en relación con otros, y se hacen recomendaciones para aquellos investigadores que podrían estar pensando en realizar sus propios estudios utilizando este enfoque cada vez más popular para la investigación en las ciencias psicológicas.
Dependiendo de cómo recopile los datos, los tiempos de reacción recopilados "en línea" probablemente serán diferentes de los recopilados "in situ". Al considerar los tiempos de reacción, es importante decidir si el tiempo de reacción se utiliza como disparador, como el tiempo de respuesta o la diferencia en el tiempo de respuesta.
Considere un experimento que muestra una serie aleatoria de imágenes durante 1/2 segundo cada una y el análisis consiste en promediar las imágenes que resultaron en pulsaciones de teclas. Si su sistema en línea presenta un retraso de 1 s, no promediará las imágenes que condujeron a la pulsación de la tecla, sino la imagen aleatoria posterior.
Considere un experimento que muestra una serie aleatoria de imágenes durante 1/2 segundo de vez en cuando se muestra una imagen de destino y el análisis se centra en la cantidad de tiempo promedio que se tarda en reaccionar a la imagen de destino. En este caso, su tiempo de reacción será 1 segundo más largo de lo que debería ser y sus datos no tendrán sentido.
Considere un experimento que muestra una serie aleatoria de imágenes durante 1/2 segundo cada una y cada cierto tiempo se muestra una de las dos imágenes de destino y el análisis se centra en la diferencia en la cantidad promedio de tiempo que se tarda en reaccionar a la imagen de destino. . En este caso, el tiempo de reacción para cada objetivo será 1 segundo más largo de lo que debería ser, pero la diferencia en la reacción será precisa. Si en este experimento, además del retraso de 1 s, también hay un retraso variable (por ejemplo, un jitter gaussiano con media 0 y varianza 1 s). Esta fluctuación agregará ruido a los datos y dificultará la visualización de pequeñas diferencias. Sin embargo, este ruido se promediará entre los ensayos y los participantes.
Como ocurre con la mayoría de las medidas psicológicas, el experimentador puede cambiar la fidelidad de la medida, el número de medidas de cada participante y el número de participantes entre sí. Los estudios en línea renuncian a la fidelidad y, en cierta medida, a la cantidad de mediciones de cada participante, para un gran número de participantes.
En un laboratorio con una caja de botones dedicada en una respuesta rápida de hardware dedicada, son posibles latencias de menos de 1 ms con pequeñas fluctuaciones. Esto, por supuesto, ignora al sujeto humano que da la respuesta. Wagenmakers et al (2005) sugieren una fluctuación de unos 100 ms en el mejor de los casos. Agregar una fluctuación de teclado y de red de 100 ms (lo que sería bastante malo) significa que el experimento en línea necesitaría un aumento del doble en la cantidad de sujetos para tener el mismo poder estadístico; si la varianza es el doble de grande (lo que sucede cuando agrega dos fuentes independientes de ruido con la misma varianza), necesita un N 2 veces mayor para tener el mismo error estándar de la media.
aliced
aliced
Christian Hummeluhr
Christian Hummeluhr