¿Qué significa "escribir una imagen y un GIF en el ADN de las bacterias"?

BBC News publicó recientemente un artículo que dice que:

Se codificó una imagen y un cortometraje en ADN, utilizando las unidades de herencia como medio para almacenar información... El equipo secuenció el ADN bacteriano para recuperar el gif y la imagen, verificando que los microbios efectivamente habían incorporado los datos según lo previsto. .

Esta es la imagen:

El artículo de noticias muestra una imagen de una mano (que se muestra arriba) y un cortometraje (que no se muestra aquí) de un jinete que fue codificado en el ADN "usando una herramienta de edición del genoma conocida como Crispr [sic]" .

Mi pregunta es, ¿qué significa esto? ¿Los científicos dividieron una imagen en 0 y 1 y (¿la instalaron?) en bacterias? ¿Cómo un científico (¿descarga?) una imagen en bacterias y luego (¿vuelve a descargar?) la imagen más tarde? ¿Cómo retiene el ADN la información de una imagen que puede ser (descargada)?

Solo voy a migrar esto a Biología , creo que obtendrá una mejor respuesta allí. Por cierto, el artículo de la BBC enlaza con el artículo de la revista Nature en el que se publicó este trabajo. Ese es el primer lugar desde el que deberías empezar a intentar leer (aunque no te culparía si no lo entendieras).
Es refrescante ver cómo se utiliza la parte CRISPR real del sistema CRISPR-Cas.
"¿Dividieron los científicos una imagen en 0 y 1?" Las imágenes digitales ya son 0 y 1. No hay necesidad de "descomponer" nada.
Solo una nota fuera de tema: al decir una "película corta de un caballo de montar", creo que es probablemente la primera película hecha en la historia, "Race Horse", que en realidad solo eran varias imágenes de cuerdas. peliculas.stackexchange.com/a/42182/20039

Respuestas (3)

La imagen no estaba en el ADN como tal, sino como una representación abstracta que podía convertirse en imagen a partir del conocimiento del código. Brevemente, codificaron la imagen en ADN, utilizando un par de estrategias diferentes en las que el ADN representaba píxeles, ya sea con una sola base de ADN que representaba un píxel o con un triplete que representaba un píxel. Conociendo el código que usaron, pudieron extraer la información y volver a convertirla en una imagen.

Citando el artículo original, codificación CRISPR-Cas de una película digital en los genomas de una población de bacterias vivas :

Comenzamos con una imagen y valores de píxeles almacenados en un código de nucleótidos... Primero codificamos imágenes de una mano humana utilizando dos estrategias diferentes de codificación de valores de píxeles: una estrategia rígida, en la que 4 colores de píxeles se especificaron cada uno por una base diferente ; y una estrategia flexible, en la que se especificaron 21 colores de píxeles posibles mediante una tabla de tripletes de nucleótidos degenerados... Para distribuir la información entre múltiples protoespaciadores, le dimos a cada protoespaciador un código de barras que definía qué conjunto de píxeles (denominado "píxel") se codificaba por los nucleótidos en ese espaciador. Cuatro nucleótidos definen cada píxel, y los píxeles de un píxel determinado se distribuyen por la imagen...

Su estrategia de 21 colores se describe en esta figura:

ingrese la descripción de la imagen aquí

Nota: El documento no es de acceso abierto. Si desea una versión de acceso completo, Church a menudo coloca versiones de acceso gratuito de sus documentos en su sitio web ; este documento, el número 441 en su lista, todavía se muestra como "en prensa" allí, pero vuelva a consultarlo a intervalos y tal vez esté disponible allí

Para aclarar, si tuviera una imagen cuadrada de digamos 9 píxeles (3x3), asignaría bases "arbitrarias" a cada píxel, digamos, línea 1: [GAT], línea 2: [TAC] y línea 3: [AAA ]. Y hago una regla arbitraria que establece que este código de bases de 3 líneas es equivalente a esta imagen de 9 píxeles. Luego instalo este código usando el método CRISPR en bacterias y lo vuelvo a leer. En pocas palabras, ¿es esto lo que hicieron los científicos?
Para que quede claro para el OP, esto no es conceptualmente diferente a la codificación de imágenes en binario, excepto que hay 4 estados posibles en lugar de solo 2. Efectivamente, cada base en el ADN es de 2 bits.
@PiratePi conceptualmente eso es bastante correcto. Usted describe la codificación arbitraria para una imagen completa, lo hicieron usando una codificación arbitraria (pero consistente) por píxel, pero esa es la única diferencia.
Solo para agregar una explicación de un punto que puede no estar claro (y podría incorporarse útilmente en la respuesta). GIF es un formato para imágenes en color que permite imágenes de hasta 256 colores rojo-verde-azul (2^8). Una tabla de colores define qué color corresponde a cada uno de los 256 valores numéricos. El código genético solo permitirá definir un máximo de 64 colores a partir de una secuencia de ADN. Estos 64 colores aún pueden ser interpretados por un software que puede interpretar la codificación de imágenes GIF; el hecho de que las otras 192 posibilidades no se utilicen es irrelevante. Lo mismo para 21, en lugar de 64.
Aunque no hay nada que les impida usar "codones" de 4 bases para obtener 256 colores.
@canadianer De hecho; para este propósito, no hay nada más especial en el uso de codones de 3 bases que en el uso de bytes de 8 bits.
¿Hay alguna razón por la que AAGno se asigna a un número?
“La imagen no estaba en el ADN como tal, solo como una representación abstracta que podía convertirse en imagen a partir del conocimiento del código” Correcto, que es lo que significa codificación . La imagen estaba absolutamente "en el ADN"... y la subsiguiente extracción fiel lo prueba.
@AndrewPiliser Esta sería una gran pregunta separada. AAG es el PAM utilizado por E. coli que es necesario para la adquisición de protospacer, o al menos aumenta en gran medida la eficiencia de adquisición.
¿Qué es exactamente un protoespaciador?
"Cuatro nucleótidos definen cada píxel, y los píxeles de un píxel dado se distribuyen a lo largo de la imagen" ¿Son estos 4 nucleótidos la primera base de un codón triplete?
El documento mencionado no es de libre acceso.
@Konrad Rudolph hicieron ambas cosas. " una estrategia rígida, en la que 4 colores de píxeles se especificaron cada uno con una base diferente; y una estrategia flexible, en la que 21 colores de píxeles posibles se especificaron mediante una tabla de tripletes de nucleótidos degenerada "
@Mockingbird El enfoque de cuatro nucleótidos era una estrategia diferente, más simple pero menos flexible, de la estrategia del triplete.
@iayork Gracias por la aclaración, resulta que leí mal el comentario que [el comentario que critiqué] estaba respondiendo.
Odio acumular más comentarios aquí, pero debería corregir mi afirmación anterior de que "nada les impide usar codones de 4 bases". De hecho, veo en el documento que ya estaban preocupados por el costo de sintetizar todos estos oligonucleótidos.
@LightnessRacesinOrbit Supongo que si la imagen estuviera codificada en el ADN , entonces las bacterias podrían construir alguna proteína que se parecería a esa imagen. Por desgracia, no lo era, ni remotamente. En cambio, es solo que el ADN se usó como un medio para almacenar datos de imágenes , lo cual es mucho menos emocionante.

Solo para agregar lo que podría haber faltado en la hermosa respuesta de @iayork. Solo quiero dar una imagen más simple de la codificación realizada en el ADN de E. coli .

  • Primero, para la estrategia rígida en la que 4 colores de píxeles se especificaban cada uno con una base diferente, supongamos que tenemos una secuencia:

    AAGCCCTGGTCAGCT

    Ignore el primer AAG y comience con C. Ahora, cada base de ADN puede representar un número binario de 2 dígitos, y cada número corresponde a un color, como:

    C = 00

    t = 01

    A = 10

    sol = 11

    Con esta estrategia en mente, la secuencia CCCT daría 00000001 píxeles (o conjunto de píxeles), y así sucesivamente a medida que crece la secuencia. Este píxel definiría el color de cuatro píxeles en la imagen. Así, cada base corresponde a un píxel en la imagen, y la base define el color del píxel en una imagen de 4 colores.

  • Ahora, pasemos a la estrategia flexible . Para empezar, vuelve a ver la tabla:

    mesa de estrategia flexible

    Aquí estamos usando codones estándar de 3 bases. Del valor predefinido para cada color (1 a 21), podemos encontrar el color usando el codón. Por ejemplo, de la misma secuencia:

    AAGCCCTGGTCAGCT

    Ignore AAG nuevamente y comience con CCC. De la tabla, CCC codifica un valor de 1. Pase al siguiente, TGG codifica un valor de 16, TCA codifica 10 y GCT codifica 7, y así sucesivamente para secuencias más largas. Entonces, ahora obtenemos una imagen con 4 píxeles, es decir, 2 x 2 con los píxeles que tienen el código de color 1, 16, 10, 7. De esta manera, cada píxel puede tener un color de valores predefinidos. Al extraer estos datos, la imagen sale como (de gizmodo ):

imagen

La parte anterior hablaba principalmente de la imagen única de una mano. Ahora, hablando del GIF de montar a caballo, el proceso es casi el mismo. Aquí, tenemos que codificar 5 imágenes en lugar de una. Los científicos codificaron estas 5 imágenes en 5 celdas diferentes. Después de cultivarlas durante algunas generaciones, extrajeron la información de todas las imágenes (utilizando herramientas bioinformáticas estándar) y las compilaron para recuperar el GIF. Los GIF iniciales y finales se ven así (de wired.com ):

GIF

¿Qué significan estos rígidos y flexibles ?

En esta técnica, los términos rígido y flexible se refieren más a la base individual que al codón. En la estrategia rígida , el valor de cada base es fijo, es decir, rígido. Por ejemplo, en cualquier secuencia, C codificará el valor '00', cualquiera que sea la base siguiente o anterior. Esto significa que tanto en CCCT como en GGTC, C tiene su valor rígido '00'. Entonces, para una imagen de 4 colores, donde cada base corresponde rígidamente al color de un píxel, obtenemos tantos píxeles como bases en la secuencia.

Por otro lado, en la estrategia flexible , las bases individuales no tienen un valor fijo, y el valor total de un píxel está definido por todas las bases que codifican ese píxel. Por ejemplo, TCC codifica un valor de 6 mientras que CCC codifica 1. El valor de la base individual es degenerado (o flexible ), de ahí el nombre de estrategia flexible .

Por lo tanto, en pocas palabras, mientras que la estrategia rígida es más eficiente ya que un píxel está definido por una base (mientras que en la estrategia flexible, un píxel está definido por un codón), la estrategia flexible es más adecuada para obtener más imágenes en color, ya que obtienes más opciones de color aumentando el número de bases en un codón (mientras que solo obtiene 4 colores en estrategia rígida, definida por 4 bases).

¿Por qué ignoramos a AAG?

Como @canadianer señala en su respuesta, AAG es un PAM , es decir, un motivo adyacente protoespaciador. Según Wikipedia :

El motivo adyacente del protoespaciador (PAM) es una secuencia de ADN de 2 a 6 pares de bases que sigue inmediatamente a la secuencia de ADN objetivo de la nucleasa Cas9 en el sistema inmunitario adaptativo bacteriano CRISPR. PAM es un componente del virus o plásmido invasor, pero no es un componente del locus bacteriano CRISPR.

En términos simples (evitando los detalles técnicos), se requiere PAM para que CRISPR funcione, pero no es parte de la secuencia en sí. Al igual que una puntuación, es necesaria para el correcto funcionamiento de CRISPR, pero no debe leerse con fines de codificación/descodificación. Para el Cas9 que se encuentra en E. coli (y es el más popular), la secuencia AAG sirve como PAM y, por lo tanto, no se usa aquí con fines de codificación. Los científicos también evitaron usar AAG en sus píxeles para que no hubiera más de un sitio de reconocimiento para la integración (ignore este punto si no está al tanto del funcionamiento de CRISPR).

Referencia: Shipman, S., Nivala, J., Macklis, J. y Church, G. (2017). Codificación CRISPR-Cas de una película digital en los genomas de una población de bacterias vivas. Naturaleza. http://dx.doi.org/10.1038/nature23017

Solo una nota: la AAGsecuencia es un PAM para una proteína Cas específica. Hay proteínas Cas de diferentes especies bacterianas y tienen diferentes PAM.
¿Por qué CAS9 no lee AAG?
Buena adición, pero no hay Cas9 en BL21. En este documento, el reconocimiento de PAM para la adquisición de protospacer está mediado únicamente por el complejo heterólogo Cas1-Cas2. Se evita el AAG interno para que no haya más de un sitio de reconocimiento para la integración.
También puede mencionar los beneficios de un código degenerado que se analizan en el documento, especialmente evitar repeticiones y PAM internos.
Una imagen digital tiene muchos píxeles en diferentes secciones. Pero, ¿hay alguna forma de ubicar píxeles de una ubicación específica de una imagen con este método? ¿O los científicos designaron diferentes bacterias para diferentes secciones?
@mockingbird AFAIK, la única forma es contar. No, los científicos codificaron una imagen completa en una celda, solo se incorporaron imágenes diferentes en celdas diferentes. En cuanto a su primera pregunta, Cas9 lee AAG, pero es más una señal, por lo que no corremos el riesgo de usarlo como píxel. Ver el primer comentario de canadiense.
@Mockingbird Creo que simplemente secuenciaron al por mayor todo el locus CRISPR, lo que realmente no es demasiado interesante. Para mí, la mejor parte de esta investigación es cómo usaron CRISPR para integrar la información en el genoma.
No entiendo lo que quiere decir con "al por mayor secuenciado todo el locus CRISPR". ¿Quiere decir que todo el locus CRISPR está codificado para una imagen? Pero una imagen tiene muchos píxeles. ¿Cómo mantuvieron el orden?
@Another ¿Puede incluir un enlace a un documento sobre este fenómeno que no está detrás del muro de pago?
@another'Homosapien' Sí, acabo de terminar ;)
escribes - Ahora, cada base del ADN puede representar un número binario de 2 dígitos . ¿Por qué 2 dígitos? ¿Por qué no 1 o 3 dígitos?
@user1993 porque solo hay 4 bases, demasiadas para 1 dígito (2) y muy pocas para 3 dígitos (8)
Pero lo que no se aclaró en la respuesta fue el uso de la palabra "GIF": ¿codificaron los investigadores la imagen en el formato de intercambio de gráficos CompuServe, o "GIF" se usa intencionalmente como un nombre inapropiado porque es una forma más familiar de diciendo "imagen animada"?
@ oldmud0 Tampoco lo consideraré. Simplemente dividieron el GIF (es decir, un grupo de imágenes) en imágenes individuales y lo codificaron. Más tarde, extrajeron los datos de imágenes individuales y los fusionaron para recuperar el GIF. Por lo tanto, no está codificado en formato GIF, ni GIF es un nombre inapropiado. Me parece perfectamente bien :)
@another'Homosapien' Entonces, sería más profesional y correcto referirse a una imagen animada no como un GIF, sino como una imagen animada, ¿no? Un GIF en sí mismo no se escribió en el ADN, ni el formato de la imagen animada es importante (" formato de intercambio de gráficos ") en el experimento.
Francamente, sí, debería ser así. Pero las personas que no están tan familiarizadas con las computadoras y los formatos a menudo no entienden el término 'imagen animada', ya que a esto se refieren con el término 'GIF' (irónico, lo sé, pero lo he visto muchas veces)
@oldmud0 Sin volver a leer el artículo, supongo que la descripción correcta sería que transcodificaron un GIF en su nuevo código de ADN.

Dado que algunas personas preguntaron por qué AAGse evita el triplete en el código, pensé en agregar esto además de las otras respuestas. La parte interesante de esta investigación no es necesariamente la codificación de la imagen, sino cómo utilizaron el sistema CRISPR para integrar el ADN codificante en el genoma. Puede ser una sorpresa para algunos que la imagen no esté codificada en una cadena larga sino, debido a la naturaleza del sistema CRISPR tipo I de E. coli , en fragmentos de 33 pares de bases llamados protoespaciadores (de los cuales 27 bases se usan para la codificación real, que da 9 píxeles por espaciador). Por lo tanto, toda la imagen de 30x30 píxeles requería una integración estable de 100 protospacers (aunque no necesariamente en una sola celda). Estos protoespaciadores (oligonucleótidos) se sintetizaron químicamente y luego se introdujeron en las células medianteelectroporación _

La integración de estos protoespaciadores en el locus CRISPR genómico utilizó la sobreexpresión de endonucleasas heterólogas Cas1 y Cas2. Estas proteínas reconocen preferentemente el ADN exógeno cuando está flanqueado por un motivo asociado a protoespaciadores (PAM) , que en el caso del sistema CRISPR en cuestión es AAG. El complejo reconoce el PAM y escinde el ADN exógeno para formar el espaciador de 33 pb que se inserta en el genoma. Simplistamente, podría representarse algo como esto:

ingrese la descripción de la imagen aquí

Sin embargo, considere una situación en la que se utiliza AAG para codificar un píxel:

ingrese la descripción de la imagen aquí

Esto crea un PAM interno que podría provocar la pérdida de información, según el PAM que se reconozca. En realidad, los principales beneficios de tener un código degenerado es evitar ciertas combinaciones de tripletes que conducen a PAM internas o repeticiones de secuencias (que son propensas a errores en la replicación).


Referencias/lecturas adicionales:

Amitai G, Sorek R. 2016. Adaptación CRISPR-Cas: información sobre el mecanismo de acción. Nat Rev Microbiol 14:67-76.

Shipman SL, Nivala J, Macklis JD, Church GM. 2017. Codificación CRISPR-Cas de una película digital en los genomas de una población de bacterias vivas. Naturaleza.

Wang J, Li J, Zhao H, Sheng G, Wang M, Yin M, Wang Y. 2015. Base estructural y mecánica de la adquisición de espaciadores dependientes de PAM en sistemas CRISPR-Cas. Celda 163:840-853

PD: Para quien le importe, esas imágenes no son técnicamente correctas pero, por el momento, no tengo ganas de cambiarlas. En realidad, el PAM no forma parte del espaciador procesado.

Bastante bueno, +1! Sin embargo, creo que deberías ampliar un poco el segundo párrafo: P
@another'Homosapien' Traté de evitar demasiados detalles mecánicos ya que espero que muchas de las personas interesadas en esta pregunta no estén muy bien versadas en las complejidades de CRISPR-Cas (y yo tampoco). Aunque estoy abierto a sugerencias.
Sin un poco de jerga, ¿cómo se supone que alguien debe evaluar la credibilidad? ;)