Análisis de datos de preguntas de control para una encuesta

Tengo un estudio experimental con una lista de preguntas demográficas y relacionadas, y para identificar datos de participantes que potencialmente solo respondían las preguntas al azar (supongo que para responderlas más rápido), he incluido dos 7 muy similares. -Ponga las preguntas de la escala de Likert en diferentes puntos de la encuesta. Mi suposición sería que dado que las preguntas son reflexivas, las respuestas que los participantes deben dar serán al menos algo similares entre las dos preguntas (por ejemplo, debería ser muy poco probable que un participante responda 7 a una pregunta y 1 a la otra).

Todavía no he recopilado los datos; sin embargo, me gustaría tener un método para determinar qué conjuntos de datos son sospechosos (se podría considerar su exclusión en el análisis) en función de estas preguntas de control. Un método podría ser simplemente determinar dónde encajan los datos en una distribución gaussiana. Sin embargo, creo que el poder de discriminación limitado de una escala de 7 puntos haría de esta una prueba inadecuada. Mi otra idea era hacer un análisis de conglomerados de los datos, buscando cinco grupos: tres a lo largo de la línea de correlación (entre las preguntas) y dos para examinar valores inusualmente altos/bajos y bajos/altos. Pensé que esto podría proporcionar mejores sugerencias sobre qué conjuntos de datos podrían ser inusuales, ya que no usaría comparaciones un tanto arbitrarias, solo usaría los datos proporcionados.

Realmente agradecería cualquier sugerencia para un mejor método, o mejoras que pueda hacer, así como cualquier comentario sobre prácticas más "estándar" en esta área, ya que soy algo nuevo en la investigación.

No sé cuáles son sus preguntas de control, pero es posible que desee considerar que las preguntas que (para usted) tienen un significado similar, pueden no parecer tan similares a sus sujetos. Además, puede haber efectos de posicionamiento (priming) relacionados con las preguntas anteriores. Debe probar su cuestionario con sujetos atentos en un entorno supervisado de cerca y ver si las preguntas de control realmente obtienen la misma puntuación. Si hay incluso una pequeña variación en esta prueba de su prueba, debe tener mucho cuidado al interpretar una variación mayor en una situación que no supervisa de cerca.

Respuestas (3)

Parece que le preocupa la confiabilidad y, más específicamente, la confiabilidad interna . La confiabilidad interna es el grado en que diferentes preguntas miden el mismo constructo. Este concepto se usa a menudo en psicología y generalmente se mide usando el alfa de Cronbach . Sin embargo, normalmente se usa para medir la confiabilidad de una prueba y no la confiabilidad de un individuo .

Como señala Jeromy Anglim, creo que es importante considerar el objetivo aquí. Usar una escala de Likert de dos preguntas probablemente no sea lo suficientemente bueno para detectar valores atípicos de manera confiable: ¿Qué sucede si el encuestado marcó todos los '4' en una escala de Likert de 7 puntos? Invertir la escala no tendría ningún efecto.

Un enfoque alternativo es emplear un control de manipulación instruccional (Oppenheimer et al., 2009). La esencia de la técnica es atrapar a los participantes para que respondan una pregunta de una manera específica que solo podrían haber hecho leyendo las instrucciones cuidadosamente. Aquí hay un ejemplo de una encuesta administrada por Facebook:

ingrese la descripción de la imagen aquí

Si bien esta técnica puede descartar a algunos buenos participantes, es casi seguro que aumentará la relación señal-ruido de sus datos al incluir solo a los participantes que siguieron las instrucciones y leyeron las preguntas antes de responder.

Otra técnica comprobada y verdadera es usar una prueba administrada por computadora y observar los tiempos de reacción. Es posible que pueda descartar algunas respuestas (o participantes completos) simplemente buscando valores atípicos en el tiempo de respuesta que estén por debajo de la media.

Oppenheimer, DM, Meyvis, T. y Davidenko, N. (2009). Verificaciones de manipulación instructiva: detección satisfactoria para aumentar el poder estadístico. Revista de Psicología Social Experimental, 45(4), 867-872.

"La confiabilidad interna prueba el grado en que diferentes preguntas miden el mismo constructo" no parece del todo correcto. Puede tener 2 dimensiones subyacentes y tener un alfa de Cronbach alto. Ver: psycnet.apa.org/journals/pas/8/4/350
@RJ eso significa que el alfa de Cronbach podría no estar midiendo la confiabilidad interna, no es que la definición de confiabilidad interna sea incorrecta. Según el documento que cita, "la coherencia interna se refiere a la interrelación de un conjunto de elementos", lo que parece estar en línea con lo que estoy diciendo.
Estoy en desacuerdo principalmente con "medir la misma construcción". El documento también señala que "medir el mismo constructo" es diferente de "interrelación", que es lo que mide el alfa de Cronbach.
Ah, tal vez debería cambiar la redacción a "La confiabilidad interna es el grado en que..." y " Pruebas alfa de Cronbach ..." Puedo ver cómo mi definición no está en línea con lo que está probando el alfa de Cronbach , pero sigo pensando es una descripción precisa de lo que es la confiabilidad interna .
El ejemplo de FB es bastante problemático. El texto bajo "Casi terminado" no se relaciona visualmente con las siguientes dos preguntas, y el significado de "casi terminado" no indica instrucciones relevantes. ¡Nunca en mi vida lo leería, y me tomó un buen minuto entender la naturaleza de este ejemplo! Esto solo funcionaría si las instrucciones se colocaran entre el encabezado de la pregunta y la pregunta.
@lo que es una especie de punto. muchos experimentos de psicología contienen bloques de texto que explican cómo responder las siguientes preguntas. es importante que lo leas para responderlas correctamente. si omite secciones que no "espera tener instrucciones relevantes", entonces, bueno, es posible que se esté saltando instrucciones relevantes. caso en cuestión, la encuesta de facebook. sin embargo, este no es el único ejemplo de un IMC; intente leer también la referencia de oppenheimer o haga una búsqueda académica de "verificación de manipulación instructiva"
@Jeff Yo (creo que) entiendo, pero desde mi punto de vista, una buena encuesta debe cumplir con las reglas básicas del diseño de la interfaz de usuario. Un encabezado significa que viene algo nuevo. Eso es lo que aprendemos desde la escuela primaria en adelante. No puede usarlo simplemente para conectar componentes. La instrucción de una pregunta se encuentra entre el encabezado de una pregunta y la pregunta misma, o al lado de la pregunta. No puede simplemente romper las expectativas de los usuarios que se han creado al completar miles de formularios en línea y leer libros y revistas y esperar resultados significativos.
Estoy de acuerdo en que una buena interfaz de usuario es importante. Hay muchas razones por las que un participante puede no seguir las instrucciones, y una mala interfaz de usuario es una de ellas. Pero desde el punto de vista del analista de datos, realmente no importa cuál sea el motivo. El IMC detecta el incumplimiento de las instrucciones por cualquier motivo.
Aparte, en muchos experimentos, las instrucciones se aplicarán a un bloque de preguntas. Poner instrucciones entre una pregunta y sus respuestas no es factible. Estoy de acuerdo en que el título del encabezado en sí mismo "¡Casi listo!" es relleno, lo que probablemente lleva a mucha gente a saltarse esa sección. Probablemente debería decir "Instrucciones". Pero no creo que la ubicación de ninguno de los elementos sea un problema aquí. En cualquier caso, este es un debate para chat o para ux.SE y realmente no tiene nada que ver con mi respuesta en mi humilde opinión.
Tiene razón, la idea detrás de su respuesta es perfecta (y la he votado). El problema es que la pregunta está formateada para aparecer como un encabezado del mismo nivel semántico que el encabezado de la sección ("Casi terminado").
(-1) Creo que este es un pésimo consejo. La pregunta solo está tangencialmente relacionada con la confiabilidad. El alfa de Cronbach, además de ser mucho menos útil de lo que se suele pensar y muchas veces malinterpretado, no lo aborda en absoluto. El alfa, la consistencia interna o la confiabilidad surgen al construir o interpretar una escala y solo se pueden calcular sobre un conjunto de puntajes. Nada de esto ayuda a seleccionar las observaciones .
La única parte relevante es la pregunta trampa de Facebook, pero parece que aquí la cura es peor que la enfermedad. Corre el riesgo de confundir a una gran cantidad de encuestados sinceros (y ciertamente no puede suponer que los "buenos" encuestados que excluye se seleccionan al azar, por lo que no solo reduce el poder y el tamaño de la muestra, sino que también introduce sesgos) por un beneficio que es muy dudoso.
Los investigadores tienden a preocuparse por eso, pero todavía tengo que ver evidencia de que la satisfacción es generalmente un problema tan grande (no lo veo en mi investigación y he realizado todo tipo de experimentos psicológicos con estudiantes, pruebas de usabilidad, largas entrevistas con personas de todas las edades, estudios de crowdsourcing sobre Mechanical Turk, encuestas por Internet en más de una docena de países, etc.)
@GaëlLaurans No estoy sugiriendo el uso del alfa de Cronbach aquí. Lo mencioné porque parece que esa es la solución que OP estaba tratando de emplear, pero como dije en mi publicación, es inapropiado aquí. En cuanto al ejemplo de Facebook, no lo tome demasiado literalmente. Estoy promoviendo la idea general detrás de un IMC y no abogando por una implementación específica. Probablemente hay ejemplos más efectivos.
En cuanto al tema de la satisfacción, simplemente respondo la pregunta del OP. Él está preocupado por eso, y otros investigadores también han expresado su preocupación. Nunca dije que fuera un problema generalizado, pero parece ser un problema al menos en algunas circunstancias.

Prevención de respuestas aleatorias: un primer paso importante es pensar en formas de evitar que ocurran respuestas aleatorias en primer lugar. Algunas ideas incluyen: administrar la encuesta cara a cara; tener un supervisor experimental presente; comunicar la importancia de la investigación a los participantes y la importancia de que los participantes tomen la investigación en serio; utilizar la remuneración económica.

Dicho esto, hay situaciones en las que los participantes no se toman en serio un estudio respondiendo al azar, por ejemplo. Esto parece ser particularmente un problema cuando se recopilan datos en línea.

Enfoque general : Mi enfoque general para esto es desarrollar múltiples indicadores de participación problemática. Luego asignaré puntos de penalización a cada participante en función de la gravedad de los indicadores. Los participantes con puntos de penalización por encima de un umbral se excluyen de los análisis.

Las opciones de lo que es problemático dependen del tipo de estudio:

  • Si un estudio se realiza en un entorno cara a cara , el experimentador puede tomar notas y registrar cuando los participantes se involucran en un comportamiento problemático.
  • En los estudios de estilo de encuesta en línea, registro el tiempo de reacción para cada elemento. Luego veo cuántos elementos se responden más rápido de lo que la persona posiblemente podría leer y responder al elemento. Por ejemplo, responder un elemento de prueba de personalidad en menos de 600 o incluso 800 milisegundos indica que el participante se ha saltado un elemento. Luego cuento el número de veces que esto ocurre y establezco un límite.
  • En las tareas basadas en el desempeño , las acciones de otros participantes pueden implicar distracción o no tomarse la tarea en serio. Trataré de desarrollar indicadores para esto.

La distancia de Mahalanobis suele ser una herramienta útil para marcar valores atípicos multivariados. Puede inspeccionar más a fondo los casos con los valores más grandes para pensar si tienen sentido. Hay un poco de arte en decidir qué variables incluir en el cálculo de la distancia. En particular, si tiene una combinación de elementos redactados positiva y negativamente, el descuido a menudo se indica por la falta de movimiento entre los polos de una escala a medida que pasa de los elementos redactados positivamente a los negativos.

En general, también suelo incluir elementos al final de la prueba preguntando al participante si se tomó el experimento en serio.

Discusión en la literatura

Osborne y Blanchard (2010) analizan las respuestas aleatorias en el contexto de las pruebas de opción múltiple. Mencionan la estrategia de incluir ítems que todos los participantes deben contestar correctamente. Citar

Estos pueden ser contenidos que no deben perderse (p. ej., 2+2=__), preguntas de comportamiento/actitudes (p. ej., yo tejo la tela de toda mi ropa), artículos sin sentido (p. ej., hay 30 días en febrero), o elementos de prueba de opción múltiple específicos [por ejemplo, "¿Cómo se escribe 'forense'?" (a) fornsis, (b) forense, (c) phorensicks, (d) forensix].

Referencias

Para las encuestas, ¿cómo se utiliza un "vigilante" o "tomar notas grabando cuando los participantes se involucran en un comportamiento problemático" sin violar el anonimato del participante?
@RyanLang El anonimato se conserva siempre que no haya información de identificación adjunta a los datos. Puede anotar información sobre el tema, como un comportamiento poco común, para que sus datos sean más significativos. Por ejemplo, tomar nota de que un sujeto parecía intoxicado podría ayudar a explicar sus tiempos de reacción lentos y ayudarlo mejor a decidir excluir los datos. Tenga en cuenta que, por lo general, los datos no los recopila la misma persona que los evalúa, y ambos pueden ser diferentes de la persona que diseña un estudio. Me atrevería a decir que es obligatorio anotar cualquier cosa poco común en un probando.
Lo que normalmente debe mantener separado de los datos son nombres, direcciones, fechas de nacimiento, etc., que son más o menos exclusivos de una persona. Incluso puede recopilarlos dentro de sus datos, si son necesarios para su investigación, pero debe tener mucho cuidado con esta información y eliminarla tan pronto como ya no se use. Por lo general, su comisión de ética decidirá si permite la recopilación de esta información dentro de sus datos. (Esta es la ley alemana. La ley de otros países seguramente será diferente).
@Jerome Manejar la actitud de los sujetos hacia la realización de exámenes es una parte importante en el diseño de exámenes. Las buenas prácticas son: (1) crear interés en los temas proporcionando una explicación atractiva ("historia") y, si es posible, un resultado relevante (por ejemplo, mostrar o discutir los resultados que les gustaría saber); (2) ser amigable (esto también puede y debe hacerse en las encuestas en línea); (3) cree pruebas cortas que no cansen ni aburran a sus sujetos; (4) hacer que su prueba sea visualmente atractiva y fácil de "analizar"; (5) pregúntele a su abuela, si entiende sus preguntas; (6) no pague por participar

Esta no es una respuesta directa a su pregunta pero, en línea con mis comentarios a otra respuesta, mi consejo principal sería "no se preocupe por eso".

Los consejos de Jeromy Anglim son todos buenos, pero todavía no estoy convencido de que este sea un tema importante para la mayoría de las personas. Dado que eres nuevo en la investigación, probablemente haya docenas de otras cosas de las que deberías preocuparte.

Además, si ve evidencia de que hay un problema (tiempos de respuesta extremadamente cortos, respuestas contradictorias, gran cantidad de encuestados que brindan respuestas absurdas a preguntas abiertas), diría que primero debe dar un paso atrás y preguntarse si lo que que está preguntando es razonable (¿Tiene sentido la tarea? ¿Se puede esperar que las personas tengan una opinión sobre el tema que está investigando? ¿Está exigiendo demasiado esfuerzo?) en lugar de tratar de clasificar a los "malos" encuestados.

Si realmente desea profundizar en el tema y buscar literatura, otro nombre para este fenómeno es "satisfactorio". "Conjunto de respuestas" es una idea relacionada que podría ser de interés.

de acuerdo, este definitivamente debería ser un primer paso antes de "corregir" el "problema"