Uso del análisis de correspondencia canónica en matrices con datos faltantes

Tengo una matriz de sitios donde no se muestrearon todas las variables ambientales que quiero evaluar. En otras palabras, hay sitios con todo el conjunto de variables muestreadas, y hay otros sitios donde solo se muestrearon algunas variables. ¿Funciona el análisis de correspondencia canónica con datos faltantes para las variables ambientales? Si es así, ¿cuál sería el efecto de no incluir los valores faltantes?

esta pregunta podría formularse mejor en validación cruzada ( stats.stackexchange.com )
Eché un vistazo rápido por allí. Creo que los ecologistas pueden estar más familiarizados con el CCA que los estadísticos 'convencionales'.
¡Pensé que debería mencionarlo ya que existe la posibilidad de que obtenga una votación cerrada ya que esta sigue siendo una pregunta basada en estadísticas / muestreo!
Tuve suerte al publicar preguntas estadísticas motivadas ecológicamente en CV. Me sorprendió que la palabra 'ordenación' no sea muy conocida fuera de las estadísticas ecológicas :p

Respuestas (1)

En primer lugar, no puede analizar completamente las correlaciones por pares entre sus variables ambientales con valores de NA y, por lo tanto, no puede descartar por completo la inclusión de variables covariables. Si este es el caso, no podrá saber cuál de las variables covariantes es responsable de las tendencias en sus datos.

En segundo lugar, no creo que CCA funcione con valores de NA: tendrá que eliminar las observaciones que contienen esos valores faltantes o completarlos con promedios de columna. Sin embargo, ambos métodos tendrán un impacto en sus resultados, así que avance con cautela.

En tercer lugar, me pregunto si CCA es el camino que quieres seguir. nMDS (escala multidimensional no métrica) tiene muchas menos restricciones que CCA. Además, no sufre de tantas suposiciones/limitaciones como CCA.

De McCune & Grace (2002):

Las dos preguntas siguientes se pueden utilizar para decidir si la CCA es adecuada: (1) ¿Está interesado solo en la estructura de la comunidad que está relacionada con las variables ambientales medidas? (2) ¿Es razonable un modelo unimodal de las respuestas de las especies al medio ambiente? Si, para un problema específico, responde afirmativamente a ambos, entonces CCA podría ser apropiado

Sin embargo, la falta de datos ambientales sigue siendo un problema en nMDS.