¿Cuántas gigabases de ADN hay en la tierra?

El genoma humano tiene unos 770 MB, el genoma de C. elegans tiene unos 100 MB, el de la levadura S. cerevisiae tiene unos 12 MB. Se han secuenciado otros genomas diferentes: ¿cuántos GB de ADN genómico tenemos ahora?

Digamos que nos gustaría hacer un arca de disco duro de Noé: ¿cuánto espacio se necesitaría para representar los genomas de todas las especies conocidas en la tierra? ¿Hay alguna manera de proporcionar una estimación?

También estoy interesado en la biodiversidad total: por ejemplo, si dos especies tienen genomas de 1 GB cada una y tienen la mitad de su ADN en común, esto contaría como 1,5 GB.

Creo que esta es una pregunta sin respuesta: ¡hay un puñado de especies cuyos genomas han sido secuenciados, y muchos millones en la tierra que permanecen completamente sin caracterizar!
Sin embargo, el genoma humano tiene regiones altamente repetitivas ("baja complejidad"), lo que significa que puede comprimirse mucho más. Esta es la medida real del “tamaño” de la biodiversidad, ya que mide el contenido real de la información. Y agregar tamaños de genoma es mucho más complejo de lo que parece, su aproximación de 1.5 GB no es muy precisa.
@KonradRudolph Tienes que elegir entre la representación más reducida del genoma y la más completa. Estoy seguro de que tendremos registros de cientos de millones de variantes solo en el genoma humano para fines de la próxima década. Hay propuestas para alejarse de una construcción de referencia única para el genoma humano. No solo almacenar la secuencia en sí, sino que la anotación que describe cómo se usan las variantes ya supera los 770 MB.
@shigeta No creo que esto sea relevante aquí. Lo que Craig quiere medir es el contenido de información combinado de todos los genomas, y el contenido de información es, por definición, la entropía que, nuevamente por definición, corresponde al tamaño de los datos en su representación más ajustada (teóricamente) posible.
Realmente depende de lo que estés tratando de entender. Las medidas de información total son convenientes para la contabilidad, pero teniendo en cuenta el trabajo reciente que muestra la frecuencia con la que se produce la transferencia horizontal de genes en las bacterias, phys.org/news205389256.html , probablemente sea cierto que nunca se quedará sin genomas bacterianos para agregar a la base de datos de secuencias. como @MarkSchltheiss está señalando. Definitivamente soy más pesimista en cuanto a la manejabilidad de un catálogo completo de secuencias genómicas.
¿Por qué es más interesante hablar de megas que de megabases?
@nico Porque la gente está acostumbrada a pensar en bytes; tienen una impresión relativa de cuánto puede contener "1 GB de espacio de información".
@Armatus: OK... aunque para mí tiene mucho más sentido hablar de megabases. Personalmente, no tengo una idea de cuánto de una secuencia de ADN se puede almacenar en 1 Gb... también porque realmente depende de cómo la almacene.
@nico: Supongo que nos gusta convertir cosas en unidades que podamos relacionar con cantidades conocidas. Por ejemplo, estoy acostumbrado a los metros, así que siempre prefiero convertir pulgadas y millas. No puedo imaginar cuán lejos están exactamente "5 millas". Pero sé que es aproximadamente 1: 1.5, por lo que aproximadamente 7.5 km, que es aproximadamente 3/4 del camino al trabajo, que hago en bicicleta en aproximadamente 25 minutos y así sucesivamente. :)
Si desea representar toda la información genética en la Tierra, debe obtener todos los individuos , no todas las especies. Existe una variación significativa entre dos humanos o dos abedules, por lo que no puede simplemente tomar una muestra por especie y decir '¡lo tengo!'.
¿Qué pasa con los algoritmos de compresión?

Respuestas (2)

Si simplemente toma un orden de insectos, Coleoptera, hay poco menos de 400 000 especies descritas con estimaciones de 850 000 a 4 000 000 de especies en total solo en este orden. El número de primates es inferior a 1.000. Si su suposición de, por ejemplo, 10 MB para todos los demás primates fuera precisa, simplemente agregando la estimación de nivel inferior de 850 000 a 10 MB por 1000, estamos rápidamente en 8500 GB, lo que parece ser un factorial fuera del rango de GB.

Entonces, tenemos una estimación amplia de plantas, animales, etc. no bacterianos, digamos 8,700,000.

Jason Gans encontró en un estudio de suelo de 1 gramo aproximadamente 1.000.000 de especies bacterianas.

Entonces, la contabilidad total del número de especies es totalmente imposible de estimar para nada en este momento, y mucho menos para el genoma .

Incluso para algo tan "común" como una jirafa, existen hasta 9 subespecies con diferencias genómicas dentro de cada subespecie.

Entonces, una vez que los describamos todos, ¡podemos trabajar en la secuencia del genoma para cada uno y obtener algunas respuestas!

El trabajo genético reciente en la jirafa ahora indica múltiples especies de lo que alguna vez se pensó que eran subespecies, algunas de las cuales ahora se consideran en peligro de extinción debido a la baja población en algunas.

Según este documento hay ~ 5.3 × 10 34 pares de bases de ADN en la tierra. Un par de bases contiene aproximadamente 2 bits de información (4 posibilidades). Entonces eso sería ~ 8.48 × 10 35 bytes de información.

o más que la información total en todos los medios de almacenamiento tecnológico digital y analógico en la tierra combinados.

Principalmente me preguntaba acerca de tu contenido de información total en todo el ADN en la tierra. Es probable que este número sea mucho más alto que el contenido total de la información, ya que muchos de esos hilos estarán duplicados, pero voté a favor de su respuesta, ya que aún proporciona un buen límite superior y posiblemente algunos buenos lugares para comenzar con otros cálculos. ¡Gracias!
la información duplicada sigue siendo información, la mayor parte de la información en libros o en medios digitales también está duplicada. Cualquier estimación con la que la compares contendrá mucha información duplicada. Alos el documento original enumera el número en megabases, lo convertí por conveniencia.