Dos conjuntos de cromosomas y el resultado de la secuenciación

Los seres humanos tienen dos conjuntos de cromosomas que no están conectados en cada célula. ¿Estoy en lo correcto?

Supongo que, al secuenciar el ADN, ambos conjuntos deben secuenciarse y la salida debe proporcionarse en algún orden, es decir, el conjunto paterno seguido del materno o viceversa, aunque puede que no sea posible saber cuál es paterno y cuál es materno. .

(Sé que hay diferentes tipos de técnicas de secuenciación y la salida puede diferir según la técnica. Aquí estoy hablando del caso general). Traté de aclarar esta pregunta yo mismo. Pero puede ser que esto sea algo tan básico que nadie parece tocar este aspecto.

Nota para los observadores: pregunta anterior a la que se hace referencia.
Para muchas preguntas de investigación biológica no es importante saber si la secuencia proviene del cromosoma paterno o materno. - Sin embargo, como usted señaló, existen diferentes enfoques para obtener las secuencias. Algunos de ellos permitirían distinguir diferentes cromosomas (ver en.wikipedia.org/wiki/Contig ). En la práctica: si desea saber si una variante de un gen proviene del padre o de la madre, es más fácil / económico secuenciarlos (o hacer alguna otra prueba más rápida / económica).
Si la respuesta dada a una pregunta no es clara, puede hacer dos cosas: escribir un comentario o adaptar su pregunta. Mostrar el tipo de actitud que tiene "No entiendo la respuesta actual y no me importa hacerlo" es en realidad un insulto hacia las personas que invierten tiempo para escribir una respuesta. En realidad no es la mejor idea.
Creo que la pregunta se reduce a simplemente: ¿Cómo se informan los resultados heterocigóticos del proceso de alineación de secuencias?

Respuestas (1)

Esto es muy similar a sus preguntas anteriores, pero aparentemente no está entendiendo las explicaciones que estamos dando, así que lo intentaré nuevamente, dando una explicación (con suerte no demasiado técnica) de cómo funciona la secuenciación genómica de próxima generación. Para evitar confusiones, supondremos que estamos trabajando con muestras humanas.

Primero, se recolectan muchas células individuales (el número depende de la aplicación, puede variar desde 1 célula hasta millones o más) y se recolecta su ADN. Este proceso destruye las células y todas las copias de todos los cromosomas se mezclan. Como se mencionó en su otra pregunta, no hay forma posible de determinar qué secuencia cromosómica es materna y cuál es paterna . Los científicos normalmente ni siquiera piensan en esto.

Luego, la muestra de ADN recolectada se purifica y se descompone en pedazos pequeños, luego se liga a ciertos adaptadores para etiquetarlos para la reacción de secuenciación. Luego, la muestra se amplifica en una PCR estándar para crear material de partida que es muchas veces más abundante que antes. Esta es la biblioteca de ADN.

Finalmente, la muestra está lista para la secuenciación. Lo que suceda exactamente a continuación depende del secuenciador que esté utilizando: Illumina, Ion Torrent, 454 o SOLiD son las marcas de instrumentos más utilizadas. Dentro de cada marca, Illumina por ejemplo, hay múltiples tipos diferentes de secuencias.

Sin embargo, pasaremos por alto todo eso y llegaremos directamente a la salida: el instrumento produce un archivo que consta de "lecturas" de la reacción. Estas lecturas son secuencias de ADN que consisten en As, Ts, Gs y Cs, las "letras" (también conocidas como "bases") del ADN. Las longitudes de las lecturas varían según la tecnología y el instrumento, generalmente en el rango de 100 a 700 bases. Sin embargo, una máquina, la PacBio RS II, puede producir lecturas de alta calidad de hasta 14 000 bases, aunque, que yo sepa, no tiene un uso generalizado.

Aquí es donde intervienen las computadoras. Las lecturas individuales se superponen entre sí en diversos grados, dependiendo de la calidad de la información que esté buscando y de si está buscando o no eventos raros, como una pequeña población de células mutadas tomadas de un tumor heterogéneo. Para nuestros propósitos, diremos que nuestra ejecución de secuenciación resultó en una superposición de 25 veces, lo que significa que cada base en la secuencia de ADN original del donante de muestra se secuenció un promedio de 25 veces diferentes. Luego, las computadoras pueden "alinear" las secuencias, ya sea solo entre ellas, sin una plantilla o, más comúnmente, con una plantilla de secuencia preexistente, como un genoma de referencia .. Eventualmente, la computadora arrojará dos secuencias: la cadena directa y la inversa (aunque normalmente solo elegiría una cadena y usaría la cadena inversa para verificar errores). Esta secuencia es la secuencia promedio del cromosoma u otra región de ADN a la que se dirige.

De Wikimedia Commons: Asignación de lecturas.png

Sin embargo, es bastante fácil detectar mutaciones, como polimorfismos de un solo nucleótido ( SNP ), deleciones, inserciones, etc. En el caso de un SNP (pronunciado "snip"), un alelo de un gen tiene una secuencia en un cromosoma (vamos digamos ATTC G TAAC) mientras que otro alelo de un gen en el otro cromosoma tiene un cambio de una sola base (ATTC T TAAC, por ejemplo, donde la G se cambió a una T ).

El punto, directamente relacionado con su pregunta, es el siguiente: la secuencia final que finalmente sale después de todas las disputas informáticas es una secuencia única con ciertas áreas que pueden diferir de un cromosoma a otro, o de una célula a otra en la muestra original. No hay forma de determinar si la G en nuestro ejemplo anterior estaba en el cromosoma materno o paterno. Tampoco hay forma de saber si, 20 000 bases más adelante, hay otra mutación en el mismo cromosoma que el G., porque ninguna lectura individual puede (actualmente) abarcar toda esa longitud. Es posible que tenga muchas posibilidades de determinar si la otra mutación está, por ejemplo, a 300 bases de distancia, ya que muchas tecnologías pueden realizar lecturas de alta calidad durante más tiempo, por lo que solo tendrá que encontrar las individuales que contengan ambas. posiciones.

Sé que esto fue un poco extenso, pero espero haber podido responder a su pregunta.

Matt, si el chico no entendió la primera vez, ¿por qué diste una respuesta tan larga y técnica la segunda vez? Sería suficiente decir lo que hay en tu último párrafo que probablemente nunca llegue a decir. es decir, el resultado es una mezcla de ambos cromosomas, por lo que sólo sabemos si la secuencia en algún punto es igual para ambos o diferente. (Y debido al cruce no existe tal cosa como materno o paterno).
@David, tenía que intentarlo: las respuestas a la pregunta anterior no eran tan buenas , y aunque el OP dijo que no le importaban los detalles de la secuenciación, pensé que explicar cómo funciona la secuenciación en términos generales ayudaría ellos entienden por qué no hay un "orden" de qué cromosoma viene primero. Y tenía algo de tiempo libre, así que no fue gran cosa.
@David con respecto al cruce: eso sucede durante la meiosis en el padre, cuando se forman las células germinales. El óvulo es haploide, al igual que el espermatozoide, pero después de que se unen los cromosomas no se vuelven a cruzar.
¡Vaya! Muestra lo poco que sé sobre biología clásica.
@MattDMo ¿Podría explicar el último párrafo de su respuesta? Usted dijo (en su ejemplo) que no podemos determinar que la G en nuestra secuencia estaba en el cromosoma materno o paterno. ¿No se secuenciarán ambos alelos en los cromosomas homólogos? En caso afirmativo, ¿tenemos secuencias de ambos cromosomas (ya sea que se distinga o no) en la secuencia final? No conozco los detalles intrincados sobre este tema, pero se me ocurrió si tenemos o no un solo alelo de un gen en la secuencia final o ambos alelos (en el caso de diploide) y cómo sucede esto tanto para el ¿casos?
@Ramil Todos los fragmentos de ADN en la muestra están (teóricamente) secuenciados, por lo que se secuenciarán ambos alelos de un gen en particular, pero a menos que ya tengamos las secuencias paterna y materna como referencia, no hay forma de saber si la G proviene de la madre o el padre. El punto central de mi respuesta (y el último párrafo completo) es que el producto final es una secuencia única , con "punteros" electrónicos que indican áreas de heterocigosidad, como la diferencia G→T . Sin embargo , no podemos decir en qué cromosoma original estaba el G frente al T.
@MattDMo Si se secuencian ambos alelos de los genes, ¿cómo obtenemos una secuencia única para cada gen? Y la heterocigosidad que mencionaste, ¿es con respecto al genoma de referencia?
@Ramil Las diferencias entre los alelos son generalmente muy leves cuando se trata de la secuencia de ADN, tal vez unas pocas o solo una diferencia de base. Ya expliqué cómo se detectan y reportan estas diferencias en la secuencia final. Dependiendo de la longitud de lectura del instrumento, es posible que no pueda mostrar que hay múltiples diferencias en el mismo alelo; necesitaría una tecnología diferente, como RNA-Seq, para eso. Usé el término heterocigosidad para referirme a la diferencia entre los dos alelos posiblemente presentes en la muestra.
@MattDMo ¿Quiere decir que el hilo hacia adelante y hacia atrás que mencionó da la diferencia y la secuencia final es el promedio?
@Ramil No, la cadena directa e inversa no tienen nada que ver con la determinación de las variaciones entre los alelos, solo se usan para agregar más confianza a las lecturas, ya que son complementos perfectos entre sí. La secuencia final usa este código , por lo que en nuestra instancia de ejemplo, la base se informaría como una K (ya sea G o T ). Con una confianza lo suficientemente alta en esta llamada, se puede suponer que tanto G como T están presentes en ese locus, es decir, dos alelos. También puede volver a las lecturas originales y ver que ~50% son G y 50% T.
@MattDMo ¡Oh! Muchas gracias. Tiene sentido para mí ahora.