Si secuenciamos el genoma de cada especie, ¿estarían de acuerdo todas las filogenias?

El Árbol de la Vida todavía está en debate. La mayor parte de este debate parece deberse a la falta de información genómica, pero esa deficiencia está disminuyendo rápidamente con los avances tecnológicos y el poder de secuenciación.

Hipotéticamente, si conociéramos el genoma de cada especie, ¿resolveríamos todos los debates filogenéticos? Si no, ¿qué quedaría aún por debatir?

Respuestas (4)

Transferencia horizontal de genes

¡No esperes tener un árbol! La transferencia horizontal de genes ocurre y, por lo tanto, terminaríamos con una red, no con un árbol.

árboles de genes

Diferentes secuencias de ADN tienen diferentes historias evolutivas. Véase, en particular, la cuestión de la clasificación de linajes incompletos. Esto significa que uno puede calcular un árbol para una secuencia de ADN dada que debe estar en desacuerdo con el árbol de otra secuencia. Por lo tanto, no espere un árbol de especies perfecto en el que todas las secuencias coincidan.

Tenga en cuenta que los dos puntos "Transferencia horizontal de genes" y "Árboles de genes" están muy relacionados. Tanto que podían encajar juntos.

No todos los individuos han sido descubiertos.

Si al decir of every organismquisiste decir "de todos los organismos con los que nos encontramos", entonces todavía tenemos el problema de los organismos que nunca hemos encontrado. Si quisiste decir "absolutamente cada individuo que existe", entonces esto no es un problema. También importa si te refieres a cada individuo de cada especie o solo a un individuo por especie.

Además, no está claro si, en su hipótesis, ¡podemos secuenciar a todos los individuos muertos! Los linajes extintos seguirían sin resolverse si no podemos secuenciarlos.

Eventos mutacionales masivos

Es posible que un evento mutacional muy grande nos impida ver la relación exacta entre los individuos. Pero eso solo interferiría en una filogenia de escala extremadamente fina (nivel intraespecífico).

Metodología

Si realmente muestreamos a todos los individuos, el detalle de la metodología puede no importar mucho. Todavía habrá que decidir si queremos considerar AATCmás cerca de AA.Co de AGTC(donde .indica una eliminación). Nuevamente, esto probablemente solo importará en una escala muy fina (nivel dentro de la especie).

Potencia de cálculo

Por supuesto, si secuenciamos cada nucleótido que existe en la tierra, nunca tendríamos el poder computacional para almacenar los datos. No hablando de procesarlo realmente. Tampoco tendríamos el poder computacional para procesar la secuenciación (ni la cantidad necesaria de productos para permitir que suceda la secuenciación).

Si tuviera la intención de secuenciar completamente solo un individuo por especie (y luego, nuevamente, la naturaleza arbitraria del concepto de especie complicará las cosas), entonces podríamos tener el poder computacional (vea el comentario de @KonradRudolf)


El concepto de especie a menudo puede ser engañoso. Es posible que desee leer la publicación ¿Cómo pudieron los humanos cruzarse con los neandertales si somos una especie diferente? para una discusión sobre el concepto de especie.

Podrías comprimir los datos. Mucho de esto es similar; Estoy seguro de que a alguien se le ocurriría un algoritmo de compresión de datos que funciona mejor que los existentes en grupos de genomas.
“nunca tendríamos el poder computacional para siquiera almacenar los datos”. — No estoy seguro de cómo llegaste allí. Incluso los datos genómicos sin comprimir no son tan grandes. El genoma humano (haplotipo) es un mísero 3 GiB. Suponiendo que esto sea representativo (¡en realidad es bastante alto!), y suponiendo estimaciones de 8,7 millones de especies distintas, esto daría como resultado datos de ~26 PiB. Eso es maní . ¡ Los esfuerzos modernos de secuenciación producen rutinariamente la misma cantidad de datos cada mes !
@KonradRudolph No estaba hablando simplemente de secuenciar cualquier especie (sin importar cómo se defina), sino cada genoma distinto, que es básicamente cada forma de vida en la tierra. Entonces, al menos unos miles de millones de veces lo que calculaste.
@Nicolai Punto justo, pero dado el texto de la pregunta real, probablemente sea solo una inexactitud en el título (OP significa "organismo" = "especie" en lugar de "organismo" = "individuo").
@KonradRudolph Sí, por eso dije if we sample every nucleotide that exist on earth. Edité esta parte para que quede aún más claro.
@ Remi.b Creo que "muestra" es el término incorrecto porque significa que no miras a cada uno individualmente.
No estoy seguro de entender por qué muestra no es un buen término. Reemplacé "muestra" por "secuencia". Si tiene una mejor alternativa, no dude en editar la respuesta. Gracias
Suponiendo que se refería a todas las especies, está dentro del alcance de una máquina de discos de DVD.
@KonradRudolph ¿Realmente producimos ~26 PB por mes? Es posible que desee probar una respuesta a la pregunta ¿Cuántos datos de acceso abierto hay en la genética?
@Remi.b No "nosotros": Múltiples institutos/empresas individuales cada uno . Gracias por el enlace, intentaré encontrar algunas estadísticas oficiales. Desafortunadamente, la mayor parte de esto no es de acceso abierto ni público de ninguna manera.
@Nicolai Debido a la gran redundancia en los genomas de muchas especies (especialmente en todas esas regiones conservadas), un "mil millones de veces" en realidad no es tanto. Podría almacenar fácilmente una gran cantidad de genomas en un árbol radix u otra estructura de datos altamente compacta. Los SNP y similares no necesitan especificarse explícitamente para cada criatura individual.

Una respuesta rápida (pero no del todo simplista) (habiendo trabajado en el campo): dadas secuencias idénticas de ADN de especies bien conocidas con probables relaciones cercanas, en otras palabras, comparando escarabajos con otros escarabajos, en lugar de serpientes o plátanos - investigadores respetados casi nunca llegan a los mismos árboles filogenéticos, especialmente con secuencias muy grandes de ADN, incluso si están trabajando con exactamente las mismas muestras de ADN .

Hay varias razones.

  1. Los investigadores tienen opiniones diferentes sobre el peso para dar la probabilidad de diferentes mutaciones posibles que podrían haber resultado en las diferencias entre las secuencias de ADN. Esto da como resultado automáticamente diferentes árboles filogenéticos. Esto lleva a:

  2. Hay innumerables caminos que podrían conducir a las diferencias en las secuencias de ADN. Esto quiere decir que no hay forma de conocer el camino real que de hecho condujo a una determinada diferencia, y mucho menos a todos los que componen incluso dos especies diferentes. Esto significa entonces que hay innumerables árboles filogenéticos diferentes que describen la posible ascendencia de incluso dos especies relativamente similares. Los algoritmos computarizados de generación y clasificación de árboles se utilizan para dar sentido a los grandes números involucrados, pero no pueden y no enumeran todos los árboles posibles, ya que eso no se puede hacer. La lista es infinita en tamaño. En cambio, dejan de generar árboles una vez que alcanzan un límite preestablecido (por el investigador, basado en la heurística) de probabilidad, luego ordenan los que tienen. No es tan aleatorio como parece, pero hay un grado de conjetura en cualquier árbol filogenético. Esto solo podría mitigarse conociendo las secuencias de ADN de cada ancestro de cada organismo para que podamos ver cómo cambia el ADN en cada par de bases en cada secuencia en cada generación. Es un poco como pedir un viaje en el tiempo, pero las matemáticas son más difíciles.

  3. Existe un desacuerdo fundamental, de especie a especie, acerca de qué cambios en el ADN provocan diferentes especies y cuáles simplemente representan la variación en una sola especie. En realidad, hay aproximadamente una mutación por cada división celular (consulte este artículo sobre tasas de mutación en humanos para ver la escala del problema 1 ) en la mayoría de las especies conocidas, la mayoría de las cuales no tienen sentido o se eliminan espontáneamente a través de células o ( a menudo, en el caso de las células germinales) muerte del organismo. Este es un problema real, discutido extensamente por taxónomos sistemáticos.

  4. Debido a que el ADN de diferentes especies es realmente diferente , no es posible lograr una coincidencia uno a uno de las secuencias de ADN entre dos especies. Los investigadores hacen una mejor conjetura, basándose en lo que creen que es más probable (y se vuelve más difícil a medida que se utilizan más especies).

  5. Los métodos estadísticos (que son requeridos por el tamaño infinito de los conjuntos de datos, incluso con cantidades (relativamente) pequeñas de ADN y números de especies) solo indican la probabilidad de un árbol en particular. No pueden predecir la filogenia real . Esto solo puede saberse si todos (o al menos la mayoría) de los ancestros de cada uno de los ADN de los organismos representativos pueden examinarse en busca de las mutaciones que dieron como resultado la especiación.

En resumen (porque esta respuesta realmente no lo era, a pesar de lo que dije originalmente), las secuencias de ADN de todas las especies existentes no serían suficientes para resolver la filogenia. Las secuencias de ADN de cada organismo individual existente no serían suficientes. Solo conocer las secuencias de ADN de todos los organismos que han existido alguna vez sería suficiente para resolver la filogenia por completo.

No, pero ayudaría. Primero, sin embargo, hablemos de las limitaciones. La limitación de la que hablas no está desapareciendo rápidamente. La iniciativa del código de barras (que intenta secuenciar un pequeño fragmento de ADN mt de cada organismo en la Tierra) se ha fortalecido durante casi 20 años y ni siquiera está cerca de cubrir todas las especies en la Tierra. Muchas especies solo se han encontrado una vez y no se han visto desde su descripción. La mayoría de las especies permanecen sin describir. Luego está el tema de la potencia informática. No sería posible analizar los datos de 10 millones de especies (una estimación aproximada del número de especies en la Tierra), o incluso 1,8 millones (número actual). Además, los filogenéticos son un grupo de argumentadores. Es probable que haya debates sobre la metodología. También es probable que haya errores en el manejo de los datos.

Sin embargo, como dijiste, tu pregunta era hipotética. Un análisis cuidadoso y sin errores, asumiendo una cobertura completa y modelos perfectos, y asumiendo que tuviéramos el poder de cómputo para hacerlo, resolvería la mayor parte del debate. Todavía no resolvería especies con evolución reticulada o politomías duras (grupos que se dividen simultáneamente en más de dos linajes). Para eso, necesitarías más de un individuo para representar una especie, e incluso con 10 por especie, sería difícil.

Además, la gran mayoría de las especies se han extinguido, por lo que no les queda ADN para muestrear.
"[T]hus" parece ser un poco precipitado. El ADN se puede conservar y extraer de todo tipo de medios, por ejemplo, ámbar. Al ámbar no le importa mucho si la especie incrustada en él está extinta o no.

Esta pregunta es muy parecida a preguntar "si encontráramos todos los fósiles que hay, ¿sabríamos todo sobre la vida en el pasado?" o "si encontráramos todos los manuscritos antiguos que existen, ¿sabríamos todo sobre la historia?". La respuesta para ambos es "no", porque los fósiles y los manuscritos son un registro intrínsecamente incompleto. No todos los organismos se fosilizan; no todo está escrito; no todos los fósiles o manuscritos sobrevivieron hasta hoy, y los que lo hicieron sufrieron varios niveles de descomposición; cuanto más tiempo ha pasado, más se han descompuesto.

Lo mismo ocurre con la señal filogenética que se puede inferir de los genes. La razón por la que podemos inferir la ascendencia de los genes en primer lugar es que todos obtienen sus genes de sus padres, y esos genes se modifican ligeramente en cada generación. Esto significa que los hermanos tienen genes muy similares, los primos tienen genes ligeramente menos similares, y así sucesivamente hasta que tengas el árbol genealógico de todos los seres vivos.

Excepto que varios factores estropean esto. Aquí hay algunos:

  • No todo el mundo recibe sus genes de sus padres. Los animales en su mayoría lo hacen, pero las bacterias intercambian genes de tal manera que cada gen puede tener su propio árbol genealógico, independiente del de la bacteria en la que se encuentra. Esto es extremadamente relevante para el origen de la vida en particular porque involucró bacterias y arqueas.

  • La clasificación "muy similar, menos similar, etc." funciona si tenemos genes infinitamente grandes, que contienen información infinita. Si no lo hacemos, en algún momento se obtienen dos individuos cuyas bases de ADN son diferentes entre sí, y a partir de ese momento no pueden obtenermás diferentes, sin importar cuán distantes estén relacionados. Además, con el ADN finito obtienes mutaciones además de mutaciones: es posible que tengas dos linajes relacionados de forma lejana que obtengan la misma mutación por casualidad, o una mutación anterior se revierta, o una nueva mutación ocurra encima de una anterior, pareciendo una sola mutación. Todo esto puede desdibujar la "señal" de parentesco, y es la razón por la cual los árboles filogenéticos se calculan utilizando métodos estadísticos y tanta información de ADN como sea posible. Nosotros (la mayoría de nosotros) tenemos genomas enormes, que es la razón por la que podemos hacer árboles filogenéticos tan buenos como los que hacemos, pero hay genomas lo suficientemente pequeños como para que se hayan barajado por completo desde que comenzó la vida, y es más difícil construir árboles filogenéticos. árboles allí. En el extremo opuesto del espectro,

  • La teoría también se basa en que las mutaciones son aleatorias; cada individuo es diferente de su progenitor en una medida predecible porque ningún factor hace que algunas mutaciones sean más probables que otras. Este es el caso de muchas partes del genoma, y ​​eso las hace bastante buenas para la filogenética, pero muchas otras partes se seleccionan a favor o en contra. Lo que significa que es más probable que algunas mutaciones se mantengan porque son beneficiosas en algún momento, y es más probable que otras se eliminen rápidamente porque son dañinas. Esta es la razón por la que, incluso en organismos con genomas pequeños que podrían mezclarse por completo desde que comenzó la vida, en realidad no están completamente mezclados: las partes del genoma que son necesarias para la vida siguen siendo las mismas. Esto puede ser bueno para examinar la filogenia profunda, porque significa que esas secuencias cambian mucho más lentamente. También puede ser malo, porque ahora las relaciones familiares no son la única razón por la que cambian: la aptitud también afecta eso y ya no se puede estar seguro de que dos organismos tengan un ADN similar o diferente debido a su relación, o porque se han adaptado a funciones iguales o diferentes. Esto depende del ADN en cuestión, si la función puede ser realizada por muchas configuraciones de ADN diferentes o solo una, pero al final del día, es otro factor para confundir la señal de relación. Y aunque la tasa de cambio más lenta en las secuencias conservadas hace posible separar filogenias muy profundas, de la misma manera no lo hará a una resolución muy alta, porque hay menos diferencias a partir de las cuales trabajar. la aptitud también afecta eso y ya no se puede estar seguro de que dos organismos tengan un ADN similar o diferente debido a su relación, o porque se han adaptado a funciones iguales o diferentes. Esto depende del ADN en cuestión, si la función puede ser realizada por muchas configuraciones de ADN diferentes o solo una, pero al final del día, es otro factor para confundir la señal de relación. Y aunque la tasa de cambio más lenta en las secuencias conservadas hace posible separar filogenias muy profundas, de la misma manera no lo hará a una resolución muy alta, porque hay menos diferencias a partir de las cuales trabajar. la aptitud también afecta eso y ya no se puede estar seguro de que dos organismos tengan un ADN similar o diferente debido a su relación, o porque se han adaptado a funciones iguales o diferentes. Esto depende del ADN en cuestión, si la función puede ser realizada por muchas configuraciones de ADN diferentes o solo una, pero al final del día, es otro factor para confundir la señal de relación. Y aunque la tasa de cambio más lenta en las secuencias conservadas hace posible separar filogenias muy profundas, de la misma manera no lo hará a una resolución muy alta, porque hay menos diferencias a partir de las cuales trabajar. si la función puede ser realizada por muchas configuraciones de ADN diferentes o solo una, pero al final del día, es otro factor para confundir la señal de relación. Y aunque la tasa de cambio más lenta en las secuencias conservadas hace posible separar filogenias muy profundas, de la misma manera no lo hará a una resolución muy alta, porque hay menos diferencias a partir de las cuales trabajar. si la función puede ser realizada por muchas configuraciones de ADN diferentes o solo una, pero al final del día, es otro factor para confundir la señal de relación. Y aunque la tasa de cambio más lenta en las secuencias conservadas hace posible separar filogenias muy profundas, de la misma manera no lo hará a una resolución muy alta, porque hay menos diferencias a partir de las cuales trabajar.

Esencialmente, como los fósiles y los manuscritos, la información genómica es una señal imperfecta para construir árboles genealógicos, y está en descomposición : cuanto más tiempo ha pasado, más tiempo ha pasado para que los diversos factores que lo hacen imperfecto en primer lugar hagan su magia. . Entonces, para responder a su pregunta, tener la información genómica de todas las especies u organismos ayudaría mucho a resolver el Árbol de la Vida, e incluso podría resolver todos los debates actuales al respecto. Pero también podría no serlo. Difícil de saber sin resolver los debates. E incluso si lo hace, probablemente aún habría preguntas pendientes; el contorno general de la imagen sería claro, pero todavía habría todo tipo de detalles que no se rellenaron.