¿El ADN de un espermatozoide contiene 37,5 MB de información?

factoide de esperma [ Fuente ]

En un episodio del programa de la BBC QI - Bastante interesante (Serie J, Episodio 1), Stephen Fry dijo :

¿Cuánta información crees que hay en el ADN de un pequeño espermatozoide...?

Son 37.5MB...

...una eyaculación masculina normal, si es que existe, equivale a 15.875 GB. Eso es alrededor de 7500 computadoras portátiles con información...


La página de Twitter del programa lo resumió:

Un espermatozoide tiene 37,5 MB de información de ADN.
Una eyaculación transfiere 15.875 GB de datos, equivalentes a los que se encuentran en 7.500 computadoras portátiles.


(con "200 millones de espermatozoides por eyaculación" en realidad obtendríamos 7150 TB;
pero estoy más interesado en saber de dónde viene el número de 37,5 MB)


Mi pregunta:

  • ¿El ADN de un espermatozoide contiene 37,5 MB de información?
Me molestó mucho cuando se transmitió esto, ya que la afirmación de 7500 TB es claramente falsa. ¡Cada espermatozoide es aproximadamente una mezcla aleatoria de la mitad del ADN del progenitor, por lo que 200 millones de selecciones de la mitad del ADN del progenitor no van a multiplicar la información contenida por 200 millones! Los 37,5 MB suenan en un orden de magnitud razonable, los valores exactos dependerán de cómo codifique la información, etc. Yo mismo calcularía los números, pero ¿sería eso aceptable como respuesta?
Wikipedia parece reclamar una cifra entre 2 MB (diferencia haploide de la referencia estándar) y 700-800 MB (genoma haploide completo). No estoy seguro de qué conjunto de aproximaciones utilizó QI para obtener 37,5 MB.
Si son 2 bytes por par base y hay 3200 millones de pares base, entonces serían 763 MB. Me hace preguntarme de dónde viene "37.5".
@Olicer_C, la entropía en el ADN es inferior a 2 bits por par de bases, ~ 1,75, pero eso solo lo reduce a 625 MB-667 MB. Si toma solo las diferencias de la secuencia de referencia humana, puede bajar a 2 MB. 37,5 MB parece un tamaño bastante extraño.
"equivalente a 15,875 GB" es BS total, la copia exacta de la misma información no es información adicional. Es como decir que copiar "lorem ipsum" unas miles de veces es "equivalente a los contenidos de la Biblioteca del Congreso".
Depende de la codificación utilizada y del contenido del ADN. Puedo crear una codificación en la que si el primer bit es 1, entonces el ADN es mi ADN, si es 0, entonces sigue el ADN, y en ese caso sería 1 bit para mi ADN y más para los demás. Entonces la respuesta es: depende
@coleopterist Dr.Frank Scali ha dividido la cifra de 763 MB para incluir solo ADN codificante de proteínas (que es ~ 1% del genoma). No creo que sea un buen enfoque para la transferencia de información, ya que el resto del genoma contiene elementos reguladores funcionales (Consulte el proyecto ENCODE genoma.ucsc.edu/ENCODE ) que estima que el 80% es funcional. Sin embargo, el 100% de las bases son legibles como información. También ha multiplicado ingenuamente por MB/espermatozoides para obtener datos totales, lo cual es incorrecto, ya que todos los espermatozoides comparten el mismo ADN de células parentales.
Esto realmente depende del esquema de codificación, si está utilizando ASCII para codificar, entonces está hablando de 8 bits para el par base, lo que aumentará mucho los números. Una gran cantidad de datos genómicos se transmiten como ASCII, por lo que tampoco es descabellado usarlos para el cálculo.
Solo me gustaría señalar que, aunque muchos datos se repiten en el cálculo, físicamente hablando, todavía se transmiten (no se puede comprimir la información del ADN del esperma).
@RobZ: Depende si realmente hablan de información o de datos . En la teoría de la codificación, el contenido de la información no cambiará mediante un esquema de codificación sin pérdidas. Simplemente determina la cantidad de datos que necesita para representarlo. Por supuesto, 200 millones de veces los mismos mensajes te dan 200 millones de veces el tamaño de los datos, pero no más información adicional.
Por supuesto, es absolutamente ingenuo calcular una cantidad de información a partir de la longitud del ADN de una célula. La información almacenada en el ADN no depende apenas de su secuencia, sino de DÓNDE está la secuencia, cómo se pliega espacialmente el ADN, si está modificado (por ejemplo, metilado), qué factores de transcripción y qué proteínas están presentes en esa célula específica y pronto. Este tipo de comparaciones de ADN/computadora -aunque muy comunes- son solo ejercicios de estilo (en mi opinión, sin sentido).
Escuché que el recuento de espermatozoides de los humanos es bajo en comparación con otros animales.
@Vartec: en realidad, es como decir que puede copiar Lorum Ipsum suficientes veces para llenar un almacén de datos con el mismo volumen de información que contiene el LOC. No se puede afirmar que los datos que se transfieren no sean redundantes en absoluto.
@Chad: la pregunta citada es "Cuánta información ", más copias no es lo mismo que más información.
@Vartec: la pregunta es solo sobre un espermatozoide y una eyaculación completa ... sin embargo, todavía diría que, aunque es principalmente la misma información una y otra vez, no puede saber qué es hasta que la lee, y puede leer cada uno uno, por lo que cada uno es de hecho una copia única de la información. Si descarga el mismo archivo de 1 mb 1024 veces, sigue siendo 1 g de datos descargados. Si fuera un indicador de la información, estaría de acuerdo.
No calificaría el transporte de una unidad de almacenamiento de datos como transferencia de datos...
¿Ni siquiera puedo entender? ¿Quién sacó estos 37 mb del aire y dijo que sí, es el equivalente... blaahhhh, cómo se convierte en datos de computadora jajaja?
Creo que la verdadera pregunta aquí es: ¿por qué no podemos usar el ADN para codificar información? Es decir, almacenar 37MB de nuestros propios datos creando un espermatozoide artificial o modificando uno existente. Si modificamos los existentes, el gran suministro debería hacer que las "unidades de disco" sean mucho más baratas y hacer que el juego de palabras "dick drive" finalmente sea real :)

Respuestas (2)

No estoy seguro de dónde provienen estos números y la respuesta depende de cómo codifique los datos del genoma y si define toda la redundancia (datos innecesarios y repetitivos) como "información".

En primer lugar, el genoma humano contiene entre 3,1 (hombres) y 3,2 (mujeres) mil millones de pares de bases. Dado que el cromosoma X es tres veces más largo que el cromosoma Y, las mujeres tienen una longitud total del genoma mayor que los hombres.

Fuente: "Información de ensamblaje del genoma humano" del "Consorcio de referencia del genoma"

Un par de bases está hecho de dos de las cuatro nucleobases adenina, citosina, guanina y timina, pero solo las cuatro combinaciones AT, TA, CG y GC son posibles ya que las nucleobases A y T no se unirán con las nucleobases C y G y viceversa. Estas cuatro combinaciones se pueden codificar con dos bits, por lo que se requieren entre 6,2 y 6,4 gigabits o alrededor de 750 megabytes para almacenar una copia exacta del genoma.

Ahora, incluso si necesita 750 megabytes para almacenar los "datos en bruto" de un genoma humano, al menos un científico informático tendrá dificultades para definir todo esto como "información". Por ejemplo, si graba 74 minutos de silencio completo en un CD, el disco también contiene aproximadamente 750 megabytes de "datos", pero en realidad no contiene "información". Grandes partes del genoma humano son repetitivas, solo una parte muy pequeña difiere realmente entre diferentes individuos y, por la diferencia, varias secuencias de pares de bases solo ocurren en unas pocas variedades bien definidas.

En realidad, hay algunas investigaciones en el campo "cómo almacenar un genoma humano lo más compacto posible", ya que las bases de datos del genoma probablemente se expandirán rápidamente y los científicos necesitan formas eficientes de compartir datos. Algunas herramientas están disponibles para este propósito, por ejemplo, DNAzip, que usando un diccionario de ~5 gigabytes (datos permanentes) puede comprimir un genoma humano hasta aproximadamente 4 megabytes.

Fuente: "Genomas humanos como archivos adjuntos de correo electrónico"

CAG y T son nucleótidos , no proteínas. Las proteínas son cadenas largas de aminoácidos; Los nucleótidos son pequeñas moléculas cíclicas.
@matt_black: ¿No son en realidad nucleobases, para ser muy precisos?
@Tor-EinarJarnbjo: A, C, G y T se pueden usar para identificar tanto la nucleobase (por ejemplo, adenina) como el nucleósido (por ejemplo, adenosina).
El segundo número es interesante pero no es realmente una respuesta a la pregunta: el contenido de la información es ciertamente más de 4 MB, ya que no se puede ignorar el tamaño del diccionario.
El contenido de información correcto es comparable al tamaño del genoma, alrededor de 1 Gbyte. Solo hay un pequeño factor de información redundante o inútil.
Especulación: 37,5 MB es el 5% de 750 MB . ¿Por qué 5%? Hasta hace poco se creía que la mayor parte de nuestro ADN es "basura", y muchas veces escuché que el 95% era basura . Por lo tanto, a quien se le ocurrió "37,5 MB" podría haber descartado el 95 % de los 750 MB como no información .
@RonMaimon No, es sustancialmente menos. Tal vez no 37 MB (no recuerdo de dónde viene este número, pero se cita con frecuencia en bioinformática; tal vez Oliver tenga razón, pero lo dudo: la mayoría de los científicos saben desde hace mucho tiempo que el "ADN basura" no resiste el escrutinio). Sin embargo, el ADN contiene bastantes regiones de baja complejidad y puede comprimirse hasta al menos 700 MB.
Debo decir que no estoy contento de que esta sea la respuesta aceptada. El número de 37 MB está en el estadio de béisbol de los números citados a menudo en bioinformática. Si es correcto o no, requiere alguna explicación, y esto falta por completo aquí. Desafortunadamente, no puedo por mi vida recordar cómo se derivó el número.

Para una respuesta más simple, puede mirar el tamaño de un archivo de texto codificado en ASCI que contiene la información del genoma humano. Este, por supuesto, no es el contenido de información del genoma que, como puede ver en la respuesta anterior y los comentarios en este hilo, no es tan fácil de definir.

En cualquier caso, cuando los biólogos trabajan en la secuencia del genoma, suele ser en forma de secuencias FASTA . El genoma humano como archivo multi fasta es de ~3Gb. Véase, por ejemplo, el archivo UCSC/hg19/Sequence/WholeGenomeFasta/genome.faobtenido al extraer este archivo .

Una vez más, insisto en que este no es el contenido de información del genoma . Sin embargo, para aquellos de nosotros que no somos teóricos de la información, brinda una manera fácil de representar el tamaño del genoma en un formato con el que estamos familiarizados: texto.