¿Por qué este proyecto codificó la información del ADN en binario y no en base 4?

He leído un artículo sobre científicos de Harvard que codifican 700 TB de datos en hebras de ADN. Pero codificaron la información en base 2, por lo que T y G representan 1 y C y A representan 0. Pero, ¿por qué binario? ¿Por qué no usaron simplemente la base 4?

EDITO: aquí el enlace

Simplemente porque las computadoras basadas en silicio funcionan fundamentalmente y almacenan información en binario. Entonces, incluso si quisiéramos pensar en los datos en base 4, la computadora aún tendría que convertir a binario

Respuestas (1)

En el artículo de investigación sobre el esfuerzo, dan la siguiente explicación para duplicar nucleótidos, en lugar de que cada nucleótido represente dos bits:

Esto nos permite codificar los mensajes de muchas maneras para evitar secuencias que son difíciles de leer o escribir, como el GC extremo.

En la práctica, eligieron qué base del par era al azar (por lo tanto, un contenido de GC del 50 %), mientras que no permitían corridas de homopolímero superiores a tres.

Su esquema también utiliza códigos de barras y direcciones como "índice"/"índice"/"números de página". (Los datos no se almacenaron en una sola pieza larga de ADN, sino en una gran cantidad de fragmentos más cortos). Al tener un esquema de codificación ligeramente flexible, esto les permite evitar potencialmente insertar esos elementos de anotación dentro de los contenidos.

Además, un esquema de codificación ligeramente flexible les permitiría evitar codificar accidentalmente un texto con parte del genoma de un agente seleccionado. (Es decir, no querrá sintetizar parte del genoma de la viruela cuando almacene su novela. Si puede cambiar los nucleótidos utilizados, puede evitarlo).

Interesante. Cuando leí la pregunta por primera vez, asumí erróneamente que solo habían usado dos bases en el ADN sintético, y me pregunté si habían evitado C debido a su desaminación espontánea a U. Esto podría parecer mejor para el almacenamiento a largo plazo. Me pregunto por qué no hicieron eso. Presumiblemente algo estructural.