¿Cómo mido la distancia genética?

No estoy seguro de cómo medir la distancia genética. Parece que hay muchas ecuaciones diferentes, y todas las que encontré son bastante antiguas.

En mi problema específico, quiero ver si el giro en el colágeno difiere si las especies son diferentes. (Tengo un programa para predecir el giro del colágeno según la secuencia de aminoácidos)

Por lo tanto, quiero un valor numérico objetivo para basar mi comparación. La "distancia genética estándar de Nei" parece buena, pero es muy antigua, así que me preguntaba si había una alternativa moderna. ¿Hay un paquete R o algo así para calcularlo automáticamente?

Respuestas (2)

Aquí hay algunas respuestas, no está claro cuál es la más cercana a lo que desea.

[editado para ser más completo y directo]

1) La distancia de Nei es principalmente para comparar poblaciones de la misma especie, por lo que debería estar bien si eso es lo que está haciendo. Supongo que, según su publicación, está más interesado en las comparaciones entre especies. Por supuesto, la lógica es la misma, solo que las matemáticas son diferentes. Para la divergencia entre poblaciones, también se usa comúnmente Fst (índice de fijación). Pero si está utilizando una alineación de secuencias o algunos datos similares para calcular distancias genéticas, hay muchas, muchas métricas. Algunos de ellos son muy simples, por ejemplo, puede usar la distancia de Hamming y simplemente contar la cantidad de diferencias de residuos entre cada secuencia.

En cuanto al cálculo de estas métricas, hay un servidor web llamado GenePop en línea que calculará Fst por usted si conecta un conjunto de datos. No conozco paquetes de R que calculen estas cosas, supongo que solo mirando wikipedia que codificar funciones para hacer esto sería relativamente trivial (si se siente cómodo con r).

2) Si realmente está buscando entre especies, un enfoque algo más apropiado podría ser modelar su especie en una filogenia, en lugar de utilizar métodos de distancia (aunque los dos están intentando resolver el mismo problema). Hay muchos programas en línea fáciles de usar para esto, por ejemplo: FastML . Simplemente puede copiar y pegar una alineación de secuencia allí. Después de tener el árbol, por ejemplo, en formato newick, existen buenas herramientas para visualizar árboles tanto en línea en iTOL como a través de R con APE .

APE también tiene buenas utilidades para modelar procesos filogenéticos, por lo que, en principio, podría modelar directamente los cambios en los pliegues de proteínas a lo largo del tiempo evolutivo (suponiendo que tenga un resumen significativo del plegamiento de proteínas, ya sea continuo o discreto).

No tengo suficiente reputación para vincular a más de los recursos que mencioné, lo siento.

Ya trabajé con SeaView para hacer árboles filogenéticos, pero estoy buscando un buen valor numérico que pueda usar para hacer algunos análisis de datos (y aprendizaje automático muy básico). Desde el momento de la divergencia y simplemente contar diferentes bases parecía un poco básico. buscando algo más preciso... Estoy usando secuencias de aminoácidos de colágeno tomadas de PDB. Gracias, tu respuesta me da algunos consejos.
Ah, ya veo. mi suposición ingenua es que todas las métricas de distancia le dirán cosas similares. sin embargo, dado que está trabajando con diferentes especies y desea una métrica de distancia más sofisticada, puede probar algo como protdist de [phylip] ( evolution.genetics.washington.edu/phylip/doc/protdist.html ), que tiene varios modelos de sustitución disponible. Una vez más, recomendaría tratar de modelar el problema filogenéticamente, lo cual se prefiere en el campo. Las distancias pueden ser complicadas porque las observaciones no son independientes. Pero probablemente la mayoría de los métodos darán lo mismo. ¡Buena suerte!

Creo que mi enfoque sería hacer un árbol filogenético y colorear las puntas con un giro de colágeno. Hay varios paquetes R para ayudar con esto, incluidos APE, ADE4 y poppr. Para hacer un árbol filogenético, primero calculas una distancia. Mencionaste el de Nei, y en realidad todavía se usa con bastante frecuencia. Sé que no estás haciendo genética de poblaciones, pero consulta este tutorial: https://grunwaldlab.github.io/Population_Genetics_in_R/Pop_Structure.html. Calculan Gst (mencionado en el otro comentario), hablan sobre algunas métricas distantes diferentes (incluida la de Nei), hacen árboles filogenéticos y todo está en R. Incluso colorean las puntas por población; en su caso, sus poblaciones serían Sea tipos de torsión de colágeno con sus muestras nombradas por especies (Lagarto-1, Lagarto-2, Chimpancé-1, Chimpancé-2, etc.). También puede colorear las puntas por especie y nombrar sus muestras por tipo de giro (adelante-1, adelante-2, atrás-2, etc.). Sé que esta pregunta es antigua, pero espero que alguien más que tropiece aquí encuentre útil esta respuesta.