Los seres humanos tienen dos conjuntos de cromosomas que no están conectados en cada célula. ¿Estoy en lo correcto?
Supongo que, al secuenciar el ADN, ambos conjuntos deben secuenciarse y la salida debe proporcionarse en algún orden, es decir, el conjunto paterno seguido del materno o viceversa, aunque puede que no sea posible saber cuál es paterno y cuál es materno. .
(Sé que hay diferentes tipos de técnicas de secuenciación y la salida puede diferir según la técnica. Aquí estoy hablando del caso general). Traté de aclarar esta pregunta yo mismo. Pero puede ser que esto sea algo tan básico que nadie parece tocar este aspecto.
Esto es muy similar a sus preguntas anteriores, pero aparentemente no está entendiendo las explicaciones que estamos dando, así que lo intentaré nuevamente, dando una explicación (con suerte no demasiado técnica) de cómo funciona la secuenciación genómica de próxima generación. Para evitar confusiones, supondremos que estamos trabajando con muestras humanas.
Primero, se recolectan muchas células individuales (el número depende de la aplicación, puede variar desde 1 célula hasta millones o más) y se recolecta su ADN. Este proceso destruye las células y todas las copias de todos los cromosomas se mezclan. Como se mencionó en su otra pregunta, no hay forma posible de determinar qué secuencia cromosómica es materna y cuál es paterna . Los científicos normalmente ni siquiera piensan en esto.
Luego, la muestra de ADN recolectada se purifica y se descompone en pedazos pequeños, luego se liga a ciertos adaptadores para etiquetarlos para la reacción de secuenciación. Luego, la muestra se amplifica en una PCR estándar para crear material de partida que es muchas veces más abundante que antes. Esta es la biblioteca de ADN.
Finalmente, la muestra está lista para la secuenciación. Lo que suceda exactamente a continuación depende del secuenciador que esté utilizando: Illumina, Ion Torrent, 454 o SOLiD son las marcas de instrumentos más utilizadas. Dentro de cada marca, Illumina por ejemplo, hay múltiples tipos diferentes de secuencias.
Sin embargo, pasaremos por alto todo eso y llegaremos directamente a la salida: el instrumento produce un archivo que consta de "lecturas" de la reacción. Estas lecturas son secuencias de ADN que consisten en As, Ts, Gs y Cs, las "letras" (también conocidas como "bases") del ADN. Las longitudes de las lecturas varían según la tecnología y el instrumento, generalmente en el rango de 100 a 700 bases. Sin embargo, una máquina, la PacBio RS II, puede producir lecturas de alta calidad de hasta 14 000 bases, aunque, que yo sepa, no tiene un uso generalizado.
Aquí es donde intervienen las computadoras. Las lecturas individuales se superponen entre sí en diversos grados, dependiendo de la calidad de la información que esté buscando y de si está buscando o no eventos raros, como una pequeña población de células mutadas tomadas de un tumor heterogéneo. Para nuestros propósitos, diremos que nuestra ejecución de secuenciación resultó en una superposición de 25 veces, lo que significa que cada base en la secuencia de ADN original del donante de muestra se secuenció un promedio de 25 veces diferentes. Luego, las computadoras pueden "alinear" las secuencias, ya sea solo entre ellas, sin una plantilla o, más comúnmente, con una plantilla de secuencia preexistente, como un genoma de referencia .. Eventualmente, la computadora arrojará dos secuencias: la cadena directa y la inversa (aunque normalmente solo elegiría una cadena y usaría la cadena inversa para verificar errores). Esta secuencia es la secuencia promedio del cromosoma u otra región de ADN a la que se dirige.
De Wikimedia Commons: Asignación de lecturas.png
Sin embargo, es bastante fácil detectar mutaciones, como polimorfismos de un solo nucleótido ( SNP ), deleciones, inserciones, etc. En el caso de un SNP (pronunciado "snip"), un alelo de un gen tiene una secuencia en un cromosoma (vamos digamos ATTC G TAAC) mientras que otro alelo de un gen en el otro cromosoma tiene un cambio de una sola base (ATTC T TAAC, por ejemplo, donde la G se cambió a una T ).
El punto, directamente relacionado con su pregunta, es el siguiente: la secuencia final que finalmente sale después de todas las disputas informáticas es una secuencia única con ciertas áreas que pueden diferir de un cromosoma a otro, o de una célula a otra en la muestra original. No hay forma de determinar si la G en nuestro ejemplo anterior estaba en el cromosoma materno o paterno. Tampoco hay forma de saber si, 20 000 bases más adelante, hay otra mutación en el mismo cromosoma que el G., porque ninguna lectura individual puede (actualmente) abarcar toda esa longitud. Es posible que tenga muchas posibilidades de determinar si la otra mutación está, por ejemplo, a 300 bases de distancia, ya que muchas tecnologías pueden realizar lecturas de alta calidad durante más tiempo, por lo que solo tendrá que encontrar las individuales que contengan ambas. posiciones.
Sé que esto fue un poco extenso, pero espero haber podido responder a su pregunta.
MattDMo
tsttst
cris
mgkrebbs