[ Fuente ]
En un episodio del programa de la BBC QI - Bastante interesante (Serie J, Episodio 1), Stephen Fry dijo :
¿Cuánta información crees que hay en el ADN de un pequeño espermatozoide...?
Son 37.5MB...
...una eyaculación masculina normal, si es que existe, equivale a 15.875 GB. Eso es alrededor de 7500 computadoras portátiles con información...
La página de Twitter del programa lo resumió:
Un espermatozoide tiene 37,5 MB de información de ADN.
Una eyaculación transfiere 15.875 GB de datos, equivalentes a los que se encuentran en 7.500 computadoras portátiles.
(con "200 millones de espermatozoides por eyaculación" en realidad obtendríamos 7150 TB;
pero estoy más interesado en saber de dónde viene el número de 37,5 MB)
Mi pregunta:
No estoy seguro de dónde provienen estos números y la respuesta depende de cómo codifique los datos del genoma y si define toda la redundancia (datos innecesarios y repetitivos) como "información".
En primer lugar, el genoma humano contiene entre 3,1 (hombres) y 3,2 (mujeres) mil millones de pares de bases. Dado que el cromosoma X es tres veces más largo que el cromosoma Y, las mujeres tienen una longitud total del genoma mayor que los hombres.
Fuente: "Información de ensamblaje del genoma humano" del "Consorcio de referencia del genoma"
Un par de bases está hecho de dos de las cuatro nucleobases adenina, citosina, guanina y timina, pero solo las cuatro combinaciones AT, TA, CG y GC son posibles ya que las nucleobases A y T no se unirán con las nucleobases C y G y viceversa. Estas cuatro combinaciones se pueden codificar con dos bits, por lo que se requieren entre 6,2 y 6,4 gigabits o alrededor de 750 megabytes para almacenar una copia exacta del genoma.
Ahora, incluso si necesita 750 megabytes para almacenar los "datos en bruto" de un genoma humano, al menos un científico informático tendrá dificultades para definir todo esto como "información". Por ejemplo, si graba 74 minutos de silencio completo en un CD, el disco también contiene aproximadamente 750 megabytes de "datos", pero en realidad no contiene "información". Grandes partes del genoma humano son repetitivas, solo una parte muy pequeña difiere realmente entre diferentes individuos y, por la diferencia, varias secuencias de pares de bases solo ocurren en unas pocas variedades bien definidas.
En realidad, hay algunas investigaciones en el campo "cómo almacenar un genoma humano lo más compacto posible", ya que las bases de datos del genoma probablemente se expandirán rápidamente y los científicos necesitan formas eficientes de compartir datos. Algunas herramientas están disponibles para este propósito, por ejemplo, DNAzip, que usando un diccionario de ~5 gigabytes (datos permanentes) puede comprimir un genoma humano hasta aproximadamente 4 megabytes.
Fuente: "Genomas humanos como archivos adjuntos de correo electrónico"
Para una respuesta más simple, puede mirar el tamaño de un archivo de texto codificado en ASCI que contiene la información del genoma humano. Este, por supuesto, no es el contenido de información del genoma que, como puede ver en la respuesta anterior y los comentarios en este hilo, no es tan fácil de definir.
En cualquier caso, cuando los biólogos trabajan en la secuencia del genoma, suele ser en forma de secuencias FASTA . El genoma humano como archivo multi fasta es de ~3Gb. Véase, por ejemplo, el archivo UCSC/hg19/Sequence/WholeGenomeFasta/genome.fa
obtenido al extraer este archivo .
Una vez más, insisto en que este no es el contenido de información del genoma . Sin embargo, para aquellos de nosotros que no somos teóricos de la información, brinda una manera fácil de representar el tamaño del genoma en un formato con el que estamos familiarizados: texto.
Mella
Mella
Oliver_C
Mella
vartec
Andreas Bonini
Mella
rjzii
Zonata
Martín Scharrer
nico
andres grimm
Chad
vartec
Chad
inf3rno
usuario14801
usuario14703