Manipulando la dificultad de adivinar una correlación

Estoy tratando de generar correlaciones entre variables aleatorias (bidimensionales) con una relación lineal definida (en el r sentido), pero con diferentes patrones visuales cuando se grafican. Estoy tratando de crear una tarea de 'adivinar la correlación' donde puedo manipular sistemáticamente la dificultad para que un observador adivine la relación lineal.

Lo que estoy haciendo ahora se le da una correlación r Genero el primer y segundo valor, X 1 y X 2 , con norte muestras de la distribución normal estándar. Luego a partir de ahí hago X 3 una combinación lineal de los dos X 3 = r X 1 + 1 r 2 X 2

Después: Y 1 = m 1 + σ 1 X 1 , Y 2 = m 2 + σ 2 X 3

Y ahora Y 1 y Y 2 tener una correlación r .

Para manipular la dificultad he estado jugando con los parámetros de la distribución y norte Sin embargo, no estoy satisfecho con los resultados.

¿Alguna idea sobre cómo aumentar sistemáticamente la dificultad de la tarea? (es decir, agregar valores atípicos, por ejemplo, etc.).

Nota: La dificultad es una cuestión cognitiva/psicológica más que estadística. Tengo la intención de probar la noción de dificultad empíricamente (es decir, bajo combinaciones de parámetros específicos, las personas tienden a hacerlo peor). La idea es generar gráficos con parámetros variables para un valor de correlación dado (es decir, cambiar el número de puntos, la varianza, el valor atípico, la forma funcional, etc.). Cuáles son los parámetros y cuál sería una forma sistemática de manipularlos.

Aunque las intenciones son cognitivas, y realmente me gusta la pregunta, creo que tiene la mejor oportunidad de encontrar una respuesta en Cross Validated . Marcaré la pregunta y veré si los moderadores pueden migrarla. La pregunta de allí aún estará vinculada a este sitio web, lo que hará que sea más fácil de encontrar.
@Robin No estoy de acuerdo hasta cierto punto. La pregunta es sobre cómo hacer que la tarea cognitiva de adivinar una correlación a partir de un diagrama de dispersión sea más difícil. Tal vez la gente de estadísticas tendría ideas, pero imagino que también es más una cuestión psicológica.
¿Supongo que sabes sobre esto? adivinalacorrelación.com
@JeromyAnglim Tienes razón. Leí la pregunta como "¿cómo se simulan las correlaciones?", Pensando que era más como una pregunta de codificación.

Respuestas (1)

Probablemente necesitará hacer una prueba piloto para determinar la dificultad de una tarea correlacional dada.

A partir de la prueba piloto, necesitaría cuantificar la dificultad de la tarea. Una opción sería la discrepancia media entre la correlación real y la prevista. Sin embargo, habría otras métricas tanto de grado de error como de dificultad.

Supondría que las correlaciones más fáciles de adivinar basadas en diagramas de dispersión serían relaciones lineales sólidas que involucran distribuciones normales bivariadas y muchos datos (p. ej., n > 1000).

Hay un montón de cosas que podrías intentar para hacer la tarea más difícil. Esto es lo que me viene a la mente:

  • Valores atípicos (tanto valores atípicos que aumentan la correlación como valores atípicos que disminuyen las correlaciones); variar el número de valores atípicos en una región en particular; combinar valores atípicos que aumentan y disminuyen la correlación; hacer que los valores atípicos sean aún más extremos
  • Relaciones no lineales (p. ej., mezclas de funciones lineales y otras, como funciones cuadráticas, cíclicas, paso a paso; funciones de potencia, funciones logísticas, circulares, etc.)
  • distribuciones bimodales en una o ambas variables
  • Distribuciones altamente sesgadas en una o ambas variables
  • Menos puntos de datos
  • datos que producen correlaciones solo un poco por encima o por debajo de cero
  • donde hay una función como una cuadrática, haz que x dependa de y en lugar de que y dependa de x.

En términos más generales, creo que la práctica y los efectos de retroalimentación también serán relevantes. Es decir, puede ser relevante determinar si las diferencias de dificultad con los novatos también corresponden a diferencias relativas de dificultad con los participantes que han estado expuestos a la gama completa de elementos que ha generado.