¿Cómo usar Mechanical Turk para estudios más largos (es decir, más de 30 minutos)?

Estoy interesado en usar Mechanical Turk como un medio para reclutar participantes para estudios de psicología en línea. Nunca lo he usado para ninguna investigación. Sin embargo, muchos de mis estudios tardan entre 30 minutos y una hora en completarse. Un estudio típico podría involucrar responder un conjunto de cuestionarios usando Inquisit. Mi impresión es que Mechanical Turk funciona mejor con estudios breves (es decir, de uno a cinco minutos).

  • ¿Es posible usar Mechanical Turk para estudios más largos?
  • ¿Hay algún consejo importante para usar Mechanical Turk de manera efectiva para estudios más largos?
  • ¿Hay algún tutorial o estudio de caso que documente métodos exitosos para usar Mechanical Turk para estudios más largos?
  • O, alternativamente, ¿existen mejores sistemas para reclutar participantes pagados para estudios en línea más largos?

En general, aprecio que los estudios más largos requieran una remuneración mucho mayor, probablemente más que un múltiplo de la cantidad de tiempo. También me imagino que habría problemas adicionales de control de calidad.

No hay restricciones reales sobre lo que puede hacer para un estudio mturk; todo el código del experimento se puede alojar y ejecutar en sus propios servidores.
¿Cuál es la principal motivación para usar mturk (o, en general, mano de obra en línea)? ¿Es porque necesita más participantes de los que puede reclutar usando métodos convencionales? ¿Porque quiere un estudio largo que no requiera que sus participantes vengan al laboratorio todos los días? ¿Alguna otra razón?
@ofri Me imagino que la velocidad de contratación y la rentabilidad son las dos motivaciones principales. Por ejemplo, si pudiera lograr que 200 participantes conscientes completaran un estudio de 30 minutos por US $ 5 o US $ 10 por participante, y todo pudiera finalizarse en un día más o menos, eso me facilitaría mucho la vida. mturk gestiona el pago y también gestiona la asignación de tiempo libre a las tareas.
@jeff Es bueno que sea posible, pero tengo la impresión de que podría haber problemas adicionales con estudios más largos en torno a motivar a los participantes a completar la tarea en primer lugar y garantizar que la realicen concienzudamente.

Respuestas (2)

Acabo de empezar a leer sobre Mechanical Turk. Este es un resumen de algunos de los consejos que he encontrado. Es cierto que la mayor parte se aplica generalmente a los experimentos psicológicos, y no específicamente a los más largos.

David Sharek analiza su flujo de trabajo que incluye explícitamente estudios en el rango de 30 minutos . Así, este post es uno de los más relevantes para tratar el tema de los estudios más largos.

Recursos variados

Aquí hay algunos otros recursos variados; ver también las referencias en la parte inferior.

Varios blogs relevantes para Mechanical Turk mencionados por Buhrmester

Configuración de encuestas externas

El modelo general parece ser tener un enlace a un sitio externo (asegúrese de que se abre en una nueva pestaña o ventana) donde se entrega la encuesta y un cuadro para ingresar el código de finalización.

Buhrmester analiza varios sistemas de códigos de finalización y optó por la opción de tecnología relativamente baja de hacer que los participantes inventen un número de 4 o 5 dígitos y lo ingresen tanto en la encuesta como en el mturk. Luego usa datos de marca de tiempo para verificar el completador original.

Pago

Estado de Mason y Suri

Sin embargo, investigaciones recientes sobre el comportamiento de los trabajadores (Chilton et al., 2010) demostraron que los trabajadores tenían un salario de reserva (la cantidad mínima de pago por la que harían la tarea) de solo $ 1.38 por hora, con un promedio efectivo por hora. salario de $4,80 para los trabajadores (Ipeirotis, 2010a).

En cuanto a la relación entre el pago y la calidad del trabajador, citan estudios que sugieren que existe una relación positiva inicial que se nivela en cierto punto, de modo que en cierto punto el pago adicional no mejora el desempeño. Masson y Suri luego sugieren:

En consecuencia, a menudo es recomendable comenzar pagando menos del salario de reserva esperado y luego aumentar el salario si la tasa de trabajo completado es demasiado baja.

Del mismo modo, los salarios hasta cierto punto deberían aumentar la velocidad de recopilación de datos.

Rechazo de golpes

Con respecto al rechazo de aciertos, Michael simplemente ha aceptado todos los aciertos. Esto puede ser más simple que tratar de averiguar qué hits son legítimos. Esto también tenía sentido dado que a menudo solo pagaba 10 centavos por participante por experimentos de 10 minutos. También tiene la ventaja de no dañar su reputación.

Seguro de calidad

Hay dos problemas aquí. ¿El participante completó el estudio en absoluto? ¿Y completaron el estudio de manera adecuada (p. ej., probando una tarea de desempeño, leyendo las instrucciones correctamente, etc.)?

Un enfoque general es incorporar medios adicionales a los habituales para detectar datos dudosos. Si es sencillo filtrar a dichos participantes, entonces no corrompen el conjunto de datos final.

Algunas ideas:

  • medidas de tiempo de reacción a nivel de elemento
  • patrones de respuesta a ítems redactados negativa y positivamente
  • repetir elementos que deberían producir respuestas idénticas
  • medidas de desempeño
  • Incluya preguntas muy simples de verdadero o falso (p. ej., 2+2; ¿Quién es el presidente de los Estados Unidos); Mason y Suri mencionan que de 500 respuestas solo seis se equivocaron y tres no contestaron.

Buhrmester hace la observación causal de que la calidad de las respuestas puede variar según el país de los encuestados, por lo que, por ejemplo, la participación limitada a los participantes de EE. UU. es un medio burdo para filtrar la calidad.

Gestión de la reputación como solicitante

Buhrmester menciona aceptar todos los hits tanto por simplicidad como por administrar la reputación.

Mason y Suri (2012) analizan cómo se analiza y monitorea la reputación en sitios externos.

Turkopticon es un sitio que permite a los trabajadores calificar a los solicitantes en cuatro ejes: comunicatividad, generosidad, equidad y prontitud. Turker Nation es un tablero de anuncios en línea donde los trabajadores comentan rutinariamente sobre los solicitantes y se comunican sobre HIT individuales. Se recomienda encarecidamente que los nuevos solicitantes se “presenten” a sí mismos en la comunidad de Mechanical Turk publicando primero en Turker Nation antes de publicar HIT.

Referencias

  • Rand, DG (2012). La promesa de Mechanical Turk: cómo los mercados laborales en línea pueden ayudar a los teóricos a realizar experimentos de comportamiento. Revista de biología teórica, 299, 172-179.
  • Buhrmester, M., Kwang, T. y Gosling, SD (2011). Mechanical Turk de Amazon: ¿una nueva fuente de datos económicos pero de alta calidad? Perspectivas sobre la ciencia psicológica, 6(1), 3-5.
  • Mason, W. y Suri, S. (2012). Realización de investigaciones de comportamiento en Mechanical Turk de Amazon. Métodos de investigación del comportamiento, 44(1), 1-23.
  • Berinsky, AJ, Huber, GA y Lenz, GS (2011). Uso de Mechanical Turk como herramienta de reclutamiento de sujetos para la investigación experimental. Enviado para revisión.
  • Berinsky, AJ, Huber, GA y Lenz, GS (2012). Evaluación de los mercados laborales en línea para la investigación experimental: Amazon. El turco mecánico de com. Análisis Político, 20(3), 351-368.

Es posible que desee echar un vistazo a SurveyComet.com y TurkPrime.com . Ambos ofrecen un conjunto bastante bueno de herramientas para ejecutar encuestas alojadas externamente (como en Qualtrics y SurveyMonkey) y le permiten crear encuestas de seguimiento, excluir a trabajadores anteriores, tener paneles demográficos específicos y mucho más.

Una encuesta larga se puede dividir en dos partes. Inicie la parte 1 y luego la parte 2 como un seguimiento que solo estará abierto a aquellos que participaron en la parte 1.

Descargo de responsabilidad: formo parte del equipo de desarrollo de software y actualmente estoy trabajando en esos sitios.

Una mirada rápida sugiere que el precio parece razonable. Tendría curiosidad por saber: (a) qué proporción de participantes tiende a completar encuestas más largas a conciencia, es decir, sin saltarse preguntas ni responder al azar; (b) si puede usar herramientas externas que requieran la instalación de un complemento; en particular, Inquisit es una herramienta poderosa para ejecutar experimentos psicológicos en línea, pero requiere que el usuario instale un complemento.
R. Los trabajadores de SurveyComet son monitoreados para garantizar un alto grado de confiabilidad y las pruebas internas han demostrado que las presentaciones aleatorias son raras (<1%). B. Mechanical Turk no permite que los solicitantes pidan a los trabajadores que instalen programas, por lo que usar inquisit es una violación de los términos de servicio de Amazon.
@JeromyAnglim Aunque es posible que pueda eludir el requisito de los Términos de servicio de MTurk al afirmar que el HIT solo está abierto para los trabajadores que hayan descargado previamente Inquisit. Entonces la descarga no es parte del HIT.