¿Qué significa estadísticamente que haya diferencias significativas en las puntuaciones medias de CI entre los grupos raciales?

Charles Murray (en su libro, "The Bell Curve") informó que existen diferencias reales entre los puntajes promedio de coeficiente intelectual de diferentes grupos raciales. También señala que la variación del CI dentro de dichos grupos es mayor que la variación entre los grupos. Estoy luchando por reconciliar estas dos afirmaciones.

Si por "diferencias reales" quiere decir diferencias estadísticamente significativas entre los promedios de los grupos, ¿no implica eso que la variación es mayor entre los grupos que dentro de ellos?

Es decir, ¿la prueba estadística para las diferencias de medias entre grupos (por ejemplo, ANOVA) no se basa en una comparación de las varianzas dentro de los grupos versus entre grupos? (si la varianza entre grupos es comparativamente lo suficientemente grande, esto constituye una diferencia estadísticamente significativa). diferencia entre los grupos?) Si no, ¿qué significa decir que los grupos son significativamente diferentes entre sí?

Respuestas (1)

La significancia estadística en este contexto está determinada por:

  • el tamaño subyacente de las diferencias de grupo,
  • los tamaños de muestra del grupo, y
  • su umbral de significancia estadística (tradicionalmente .05).

Incluso si hubiera diferencias de grupo muy pequeñas, si tuviera una muestra de gran tamaño (digamos, miles de personas de cada raza que realizan una prueba de inteligencia), entonces sería muy probable (es decir, un alto poder estadístico) encontrar una diferencia de grupo significativa.

Sin embargo, el punto de Murray no se trata de significación estadística. Es decir, no se trata de descartar la hipótesis nula. Las diferencias observadas en los puntajes de las pruebas de inteligencia a menudo son bastante grandes, y esta es un área muy estudiada con tamaños de muestra muy grandes. Así que decidir nuestra hipótesis nula no es un problema. Las diferencias en un estudio dado son estadísticamente significativas.

El punto de Murray es acerca de traducir las diferencias cuantitativas en las medias de los grupos en algo que sea lingüísticamente significativo. Hay varias maneras de hacer esto. Para las variables que son intrínsecamente significativas, a menudo hablamos de las escalas sin procesar (p. ej., podría hablar sobre la brecha salarial de género en dólares ganados por año o podría comparar razas en altura usando centímetros o pulgadas). Sin embargo, en psicología, a menudo tenemos escalas que carecen de significado intrínseco, lo que lleva al uso de medidas de efecto estandarizadas.

La medida estandarizada más común de las diferencias de grupo a menudo se denomina d de Cohen. Es decir, es la diferencia entre las medias de los grupos en términos de la desviación estándar. Entonces, por ejemplo, los puntajes de CI tienen una desviación estándar de 15. Entonces, si un grupo tiene una media de 110 y otro tiene una media de 95, entonces esa es una d de Cohen de 1.0 (es decir, (110 - 95) / 15 = 1.0) . Se han propuesto reglas empíricas basadas en un examen de la literatura psicológica que sugiere que .2 es pequeño, .5 es mediano y .8 es grande en términos de un efecto.

De memoria, algunas diferencias observadas en los puntajes de las pruebas de inteligencia entre razas están en ese rango de 0.8 a 1.2 (ver, por ejemplo , coeficiente intelectual conocido y desconocido ). Entonces, según las reglas generales convencionales para el tamaño del efecto, esto se etiquetaría como un gran efecto o una gran diferencia de grupo.

Sin embargo, no se trata de un hallazgo de mero interés académico. Este hallazgo puede tener profundas consecuencias negativas para la vida de las personas. Específicamente, el temor es que este hallazgo refuerce los estereotipos negativos y que las personas en el grupo que tiende a obtener puntajes más bajos en las pruebas de coeficiente intelectual tengan menos oportunidades en la vida (por ejemplo, educación, trabajo, inmigración, política, etc.). Y que el hallazgo apoyaría la intolerancia.

En particular, existe un peligro real de que las personas confíen en un estereotipo de grupo en lugar de juzgar a una persona por sus méritos. Por ejemplo, es razonable contratar a una persona para un trabajo porque muestra la mayor aptitud para el trabajo según las medidas de competencia y experiencia. No es razonable contratar a una persona porque proviene de un grupo racial que, en promedio, se desempeña mejor en el trabajo.

Murray usa un índice alternativo del tamaño del efecto para decir que la varianza entre grupos es menor que la varianza dentro del grupo. Por lo tanto, si realiza una regresión con el grupo como variable predictora, solo cuando explique más del 50% de la varianza, el grupo explicará más varianza que la varianza dentro de los grupos. Creo que necesitas una d de Cohen de 2.0 para explicar el 50% de la varianza.

Aquí hay una simulación en R:

x <- data.frame(group = "a", dv = rnorm(100000,0,1))
y <- data.frame(group = "b", dv = rnorm(100000,2,1))
df <- rbind(x, y)
fit <- lm(dv ~ group, df)
summary(fit)

Básicamente, estoy simulando datos para dos grupos y sus medias grupales difieren en dos desviaciones estándar y el resultado es un 50 % de la varianza explicada (y un 50 % de la varianza no explicada; es decir, dentro de la varianza del grupo):

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.0007719  0.0031664  -0.244    0.807    
groupb       1.9974176  0.0044780 446.050   <2e-16 ***
Multiple R-squared:  0.4987,    Adjusted R-squared:  0.4987 

En general, una diferencia de grupo de 2,0 es muy grande. Aquí hay otro artículo que habla sobre diferentes índices para las diferencias de grupo (la Tabla 1 es particularmente interesante).

Entonces, en general, Murray presumiblemente está señalando que, aunque las diferencias de grupo son bastante grandes según los estándares convencionales, hay muchas personas en el grupo de puntaje más bajo que obtienen puntajes más altos que el grupo de puntaje más alto. Por lo tanto, no use este hallazgo para estereotipar o marginar a las personas.

Seguir

Preguntaste en los comentarios:

Dadas las diferencias entre los grupos, ¿es técnicamente correcto decir que un individuo seleccionado al azar de un grupo con una puntuación más baja tiene más probabilidades de tener una puntuación más baja que un individuo seleccionado al azar de un grupo con una puntuación más alta?

Sí, eso es exacto.

Para responder a esa pregunta, consulte la Tabla 1 aquí .

"Probabilidad de que la persona del grupo experimental sea mayor que la persona del control, si ambos se eligen al azar (=CLES)"

  • sin diferencias de grupo: 50% de probabilidad
  • 0,5 SD diferencia: 64% de probabilidad
  • 1 SD de diferencia (es decir, lo que a veces se ha encontrado históricamente para algunas diferencias de coeficiente intelectual de raza): 76% de probabilidad
  • 2 SD diferencia: 92% de probabilidad
Como dijiste, por supuesto, existe una superposición considerable en las puntuaciones de CI entre dichos grupos; pero, dadas las diferencias entre los grupos, ¿es técnicamente correcto decir que un individuo seleccionado al azar de un grupo con una puntuación más baja tiene más probabilidades de tener una puntuación más baja que un individuo seleccionado al azar de un grupo con una puntuación más alta?
Escuché (nota, no es confiable) que las pruebas de coeficiente intelectual en Estados Unidos al menos están escritas pensando en el niño blanco promedio. ¿Eso es una litera?