BBC News publicó recientemente un artículo que dice que:
Se codificó una imagen y un cortometraje en ADN, utilizando las unidades de herencia como medio para almacenar información... El equipo secuenció el ADN bacteriano para recuperar el gif y la imagen, verificando que los microbios efectivamente habían incorporado los datos según lo previsto. .
El artículo de noticias muestra una imagen de una mano (que se muestra arriba) y un cortometraje (que no se muestra aquí) de un jinete que fue codificado en el ADN "usando una herramienta de edición del genoma conocida como Crispr [sic]" .
Mi pregunta es, ¿qué significa esto? ¿Los científicos dividieron una imagen en 0 y 1 y (¿la instalaron?) en bacterias? ¿Cómo un científico (¿descarga?) una imagen en bacterias y luego (¿vuelve a descargar?) la imagen más tarde? ¿Cómo retiene el ADN la información de una imagen que puede ser (descargada)?
La imagen no estaba en el ADN como tal, sino como una representación abstracta que podía convertirse en imagen a partir del conocimiento del código. Brevemente, codificaron la imagen en ADN, utilizando un par de estrategias diferentes en las que el ADN representaba píxeles, ya sea con una sola base de ADN que representaba un píxel o con un triplete que representaba un píxel. Conociendo el código que usaron, pudieron extraer la información y volver a convertirla en una imagen.
Citando el artículo original, codificación CRISPR-Cas de una película digital en los genomas de una población de bacterias vivas :
Comenzamos con una imagen y valores de píxeles almacenados en un código de nucleótidos... Primero codificamos imágenes de una mano humana utilizando dos estrategias diferentes de codificación de valores de píxeles: una estrategia rígida, en la que 4 colores de píxeles se especificaron cada uno por una base diferente ; y una estrategia flexible, en la que se especificaron 21 colores de píxeles posibles mediante una tabla de tripletes de nucleótidos degenerados... Para distribuir la información entre múltiples protoespaciadores, le dimos a cada protoespaciador un código de barras que definía qué conjunto de píxeles (denominado "píxel") se codificaba por los nucleótidos en ese espaciador. Cuatro nucleótidos definen cada píxel, y los píxeles de un píxel determinado se distribuyen por la imagen...
Su estrategia de 21 colores se describe en esta figura:
Nota: El documento no es de acceso abierto. Si desea una versión de acceso completo, Church a menudo coloca versiones de acceso gratuito de sus documentos en su sitio web ; este documento, el número 441 en su lista, todavía se muestra como "en prensa" allí, pero vuelva a consultarlo a intervalos y tal vez esté disponible allí
AAG
no se asigna a un número?Solo para agregar lo que podría haber faltado en la hermosa respuesta de @iayork. Solo quiero dar una imagen más simple de la codificación realizada en el ADN de E. coli .
Primero, para la estrategia rígida en la que 4 colores de píxeles se especificaban cada uno con una base diferente, supongamos que tenemos una secuencia:
AAGCCCTGGTCAGCT
Ignore el primer AAG y comience con C. Ahora, cada base de ADN puede representar un número binario de 2 dígitos, y cada número corresponde a un color, como:
C = 00
t = 01
A = 10
sol = 11
Con esta estrategia en mente, la secuencia CCCT daría 00000001 píxeles (o conjunto de píxeles), y así sucesivamente a medida que crece la secuencia. Este píxel definiría el color de cuatro píxeles en la imagen. Así, cada base corresponde a un píxel en la imagen, y la base define el color del píxel en una imagen de 4 colores.
Ahora, pasemos a la estrategia flexible . Para empezar, vuelve a ver la tabla:
Aquí estamos usando codones estándar de 3 bases. Del valor predefinido para cada color (1 a 21), podemos encontrar el color usando el codón. Por ejemplo, de la misma secuencia:
AAGCCCTGGTCAGCT
Ignore AAG nuevamente y comience con CCC. De la tabla, CCC codifica un valor de 1. Pase al siguiente, TGG codifica un valor de 16, TCA codifica 10 y GCT codifica 7, y así sucesivamente para secuencias más largas. Entonces, ahora obtenemos una imagen con 4 píxeles, es decir, 2 x 2 con los píxeles que tienen el código de color 1, 16, 10, 7. De esta manera, cada píxel puede tener un color de valores predefinidos. Al extraer estos datos, la imagen sale como (de gizmodo ):
La parte anterior hablaba principalmente de la imagen única de una mano. Ahora, hablando del GIF de montar a caballo, el proceso es casi el mismo. Aquí, tenemos que codificar 5 imágenes en lugar de una. Los científicos codificaron estas 5 imágenes en 5 celdas diferentes. Después de cultivarlas durante algunas generaciones, extrajeron la información de todas las imágenes (utilizando herramientas bioinformáticas estándar) y las compilaron para recuperar el GIF. Los GIF iniciales y finales se ven así (de wired.com ):
¿Qué significan estos rígidos y flexibles ?
En esta técnica, los términos rígido y flexible se refieren más a la base individual que al codón. En la estrategia rígida , el valor de cada base es fijo, es decir, rígido. Por ejemplo, en cualquier secuencia, C codificará el valor '00', cualquiera que sea la base siguiente o anterior. Esto significa que tanto en CCCT como en GGTC, C tiene su valor rígido '00'. Entonces, para una imagen de 4 colores, donde cada base corresponde rígidamente al color de un píxel, obtenemos tantos píxeles como bases en la secuencia.
Por otro lado, en la estrategia flexible , las bases individuales no tienen un valor fijo, y el valor total de un píxel está definido por todas las bases que codifican ese píxel. Por ejemplo, TCC codifica un valor de 6 mientras que CCC codifica 1. El valor de la base individual es degenerado (o flexible ), de ahí el nombre de estrategia flexible .
Por lo tanto, en pocas palabras, mientras que la estrategia rígida es más eficiente ya que un píxel está definido por una base (mientras que en la estrategia flexible, un píxel está definido por un codón), la estrategia flexible es más adecuada para obtener más imágenes en color, ya que obtienes más opciones de color aumentando el número de bases en un codón (mientras que solo obtiene 4 colores en estrategia rígida, definida por 4 bases).
¿Por qué ignoramos a AAG?
Como @canadianer señala en su respuesta, AAG es un PAM , es decir, un motivo adyacente protoespaciador. Según Wikipedia :
El motivo adyacente del protoespaciador (PAM) es una secuencia de ADN de 2 a 6 pares de bases que sigue inmediatamente a la secuencia de ADN objetivo de la nucleasa Cas9 en el sistema inmunitario adaptativo bacteriano CRISPR. PAM es un componente del virus o plásmido invasor, pero no es un componente del locus bacteriano CRISPR.
En términos simples (evitando los detalles técnicos), se requiere PAM para que CRISPR funcione, pero no es parte de la secuencia en sí. Al igual que una puntuación, es necesaria para el correcto funcionamiento de CRISPR, pero no debe leerse con fines de codificación/descodificación. Para el Cas9 que se encuentra en E. coli (y es el más popular), la secuencia AAG sirve como PAM y, por lo tanto, no se usa aquí con fines de codificación. Los científicos también evitaron usar AAG en sus píxeles para que no hubiera más de un sitio de reconocimiento para la integración (ignore este punto si no está al tanto del funcionamiento de CRISPR).
AAG
secuencia es un PAM para una proteína Cas específica. Hay proteínas Cas de diferentes especies bacterianas y tienen diferentes PAM.Dado que algunas personas preguntaron por qué AAG
se evita el triplete en el código, pensé en agregar esto además de las otras respuestas. La parte interesante de esta investigación no es necesariamente la codificación de la imagen, sino cómo utilizaron el sistema CRISPR para integrar el ADN codificante en el genoma. Puede ser una sorpresa para algunos que la imagen no esté codificada en una cadena larga sino, debido a la naturaleza del sistema CRISPR tipo I de E. coli , en fragmentos de 33 pares de bases llamados protoespaciadores (de los cuales 27 bases se usan para la codificación real, que da 9 píxeles por espaciador). Por lo tanto, toda la imagen de 30x30 píxeles requería una integración estable de 100 protospacers (aunque no necesariamente en una sola celda). Estos protoespaciadores (oligonucleótidos) se sintetizaron químicamente y luego se introdujeron en las células medianteelectroporación _
La integración de estos protoespaciadores en el locus CRISPR genómico utilizó la sobreexpresión de endonucleasas heterólogas Cas1 y Cas2. Estas proteínas reconocen preferentemente el ADN exógeno cuando está flanqueado por un motivo asociado a protoespaciadores (PAM) , que en el caso del sistema CRISPR en cuestión es AAG
. El complejo reconoce el PAM y escinde el ADN exógeno para formar el espaciador de 33 pb que se inserta en el genoma. Simplistamente, podría representarse algo como esto:
Sin embargo, considere una situación en la que se utiliza AAG para codificar un píxel:
Esto crea un PAM interno que podría provocar la pérdida de información, según el PAM que se reconozca. En realidad, los principales beneficios de tener un código degenerado es evitar ciertas combinaciones de tripletes que conducen a PAM internas o repeticiones de secuencias (que son propensas a errores en la replicación).
Referencias/lecturas adicionales:
PD: Para quien le importe, esas imágenes no son técnicamente correctas pero, por el momento, no tengo ganas de cambiarlas. En realidad, el PAM no forma parte del espaciador procesado.
ortocresol
canadiense
Carreras de ligereza en órbita
Zaibis