Quiero calcular el AIC para una filogenia que deduje por máxima verosimilitud. Para calcular el AIC necesito saber el número de parámetros en el modelo. Pero, ¿cómo determino esto?
El número de parámetros depende tanto del número de taxones como del modelo de evolución de la secuencia. La topología normalmente no se considera un parámetro en el sentido habitual de la inferencia estadística (ya que es la topología especificada a priori sobre la que se calculó la probabilidad).
Entonces, por ejemplo, si infiere un árbol a partir de datos de nucleótidos para 25 secuencias bajo el modelo General Time Reversible (GTR) con heterogeneidad de tasa gamma distribuida entre sitios y frecuencias estacionarias empíricas (esto se denomina comúnmente GTR+F+G), entonces tendría 56 parámetros con el siguiente desglose: 2n - 3 = 47 longitudes de rama (donde n = 25, el número de puntas), 3 frecuencias (porque estos suman 1, una vez que se conocen tres, el otro se conoce automáticamente, por lo que solo cuente 3 parámetros estimados), 5 tasas de sustitución (en realidad hay 6 parámetros de sustitución en GTR, pero es típico establecer uno, generalmente G > C, en 1, y estimar los demás en relación con esto, por lo tanto, solo 5 estimados) y 1 parámetro alfa para la forma de la distribución gamma de tasas (las distribuciones gamma en realidad tienen dos parámetros, alfa y beta,pero por filogenética generalmente los restringimos para que sean iguales).
En total, esto da 47 longitudes de rama y 3 + 5 + 1 = 9 parámetros del modelo, y 47 + 9 = 56
lavidaenlosárboles