Preguntas sobre la interpretación de los resultados y puntajes del análisis factorial

Estoy tratando de aprender el análisis factorial y pensé que sería una buena idea intentar "imitar" muy mal el cálculo de las puntuaciones de coeficiente intelectual con un conjunto de datos de valores ficticios como una forma de "aprender con el ejemplo".

Para empezar, esto es lo que pretendo hacer, y no sé si esta metodología es correcta o no: tengo las cargas para ese factor determinadas. Ahora que tengo las cargas, quiero generar una puntuación para cada una de las muestras. Eso me dejará con una población de puntajes que luego puedo estandarizar alrededor de una media de 100. A partir de ahí trazaría una distribución normal. Cada vez que obtengo una nueva muestra, puedo generar una puntuación para ella y ver dónde cae en la distribución.

Para obtener mis resultados, estoy usando la biblioteca Sklearn de Python, específicamente la FactorAnalysisclase. Noté que la FactorAnalysisclase tiene un score_samples()método. La puntuación de salida para cada muestra es la verosimilitud logarítmica de la muestra.

Estas son algunas de las preguntas que tengo:

  • ¿Mi enfoque para generar una distribución basada en las puntuaciones factoriales de las muestras es erróneo? ¿Cómo lo hacen en la práctica?

  • ¿Es el logaritmo de verosimilitud de una muestra un puntaje apropiado para usar? (Si no, ¿qué formas alternativas existen para puntuar una muestra?)

  • Seguí adelante y generé las puntuaciones usando el score_samples()método para todas las muestras, pero oscilan entre -4 y -49. ¿Hay alguna razón por la que serían negativos?

  • Si solo está buscando 1 factor latente, ¿es una buena práctica establecer la cantidad de factores en 1 o debería dejarlo sin especificar de todos modos?

Aquí están las cargas si dejo establecer el número de factores en 1:

            Factor 1
variable 1  0.082558
variable 2  0.107940
variable 3  0.199645
variable 4  0.612495
variable 5  0.623707

Aquí están las cargas si no especifico el número de factores:

             Factor 1   Factor 2   Factor 3  Factor 4  Factor 5       
variable 1   0.263914   0.426346  -0.012893   -0.0       0.0
variable 2   0.297078   0.415269  -0.002193    0.0      -0.0
variable 3   0.243590  -0.005131   0.085178   -0.0      -0.0
variable 4   0.487537  -0.224135  -0.019501   -0.0      -0.0
variable 5   0.484462  -0.248173  -0.008902    0.0       0.0

Respuestas (1)

¿Mi enfoque para generar una distribución basada en las puntuaciones factoriales de las muestras es erróneo? ¿Cómo lo hacen en la práctica?

Encontré esto algo difícil de seguir. Pero, en general, debería poder aproximarse a un conjunto de puntajes de prueba usando una distribución normal multivariante donde la matriz de covarianza implica correlaciones positivas entre todas las pruebas. Algunos pueden ser más grandes y otros más pequeños, pero la idea es que todas las pruebas de habilidad estén correlacionadas. Y la capacidad mental general puede estimarse como el primer factor no rotado que resulta de tales pruebas.

¿Es el logaritmo de verosimilitud de una muestra un puntaje apropiado para usar? (Si no, ¿qué formas alternativas existen para puntuar una muestra?)

Esto suena más a cómo evalúas un modelo. Por ejemplo, cómo se evalúan las soluciones analíticas factoriales. En general, los puntajes guardados de los factores serán un compuesto ponderado de los puntajes de las pruebas de los componentes.

En R, puedes usarfactanal

factanal(x, factors, data = NULL, covmat = NULL, n.obs = NA,
         subset, na.action, start = NULL,
         scores = c("none", "regression", "Bartlett"),
         rotation = "varimax", control = NULL, ...)

Ver el scoresargumento. Hay algunos métodos diferentes.

Seguí adelante y generé las puntuaciones usando el método score_samples() para todas las muestras, pero oscilan entre -4 y -49. ¿Hay alguna razón por la que serían negativos?

No conozco Pitón. Pero, en general, las puntuaciones guardadas de los factores suelen cuantificarse de tal manera que son puntuaciones z (p. ej., media = 0, sd = 1).

Si solo está buscando 1 factor latente, ¿es una buena práctica establecer la cantidad de factores en 1 o debería dejarlo sin especificar de todos modos?

Debe extraer solo un factor o asegurarse de no aplicar ninguna rotación a los factores extraídos. Sin una rotación, el primer factor será equivalente a un solo factor. Si rota, la variación se repartirá entre los factores extraídos.

Ya veo, gracias. Ahora estoy usando R y es mucho mejor para el análisis factorial. Supongo que la única pregunta que me queda es ¿cómo se indexarían correctamente las puntuaciones? Realicé el análisis y tengo las puntuaciones de los factores, pero no estoy seguro de cómo indexarlas.
@tear728 por índice, ¿quieres decir, "¿cómo los extraes y los agregas a tu archivo de datos?
@Jeremy Anglim tal vez índice no era el término correcto para usar. Quise decir índice como en la creación de una distribución basada en los puntajes, pero luego noté en su respuesta que los puntajes de los factores son puntajes z, por lo que servirá. Sin embargo, todavía hay una última parte que necesito aclarar. Así que realicé el análisis factorial, encontré las cargas y las puntuaciones factoriales para cada muestra en la población. Sin embargo, digamos que aparece una nueva muestra individual de datos sin procesar. ¿Cómo calificaría adecuadamente esa muestra individual? Si ayuda, puedo hacer esto como una nueva pregunta en su lugar.
Por supuesto. Tal vez haga una pregunta separada y publique un enlace aquí para que me hagan ping.
Aquí está la nueva pregunta... gracias por cualquier ayuda: psicología.stackexchange.com /questions/20404/…