¿El error de secuenciación es una función del nucleótido que se lee?

Question

¿El error de secuenciación es una función del nucleótido que se lee?

Biología
secuencia ADN
análisis de secuencias
genética molecular

Remi.b

Mirando en Google Scholar, puedo ver que para Illumina (solo para considerar un ejemplo) la tasa de error de secuenciación es del orden de 0.001-0.01 por nucleótido.

Hablando de error de secuenciación, consideremos solo los desajustes (sustitución de un nucleótido por otro). Conociendo el nucleótido "verdadero" en una posición determinada, ¿es tan probable que se lea como cualquier otro nucleótido específico durante un desajuste o hay sesgo? Por ejemplo, si el verdadero nucleótido es A, ¿es más probable que se encuentre como a G(ya que ambos son purinas) que a To a C? ¿Es más probable que algunos nucleótidos se lean mal que otros?

Espero que la respuesta no dependa demasiado de las técnicas de secuenciación.

WYSIWYG

En realidad , la respuesta de sailorgyaru es muy cercana. La llamada de base en Illumina es diferente de la secuenciación de Sanger. En este último, se puede asignar una posición ruidosa a diferentes nucleótidos con diferentes probabilidades. En Illumina, la mala calidad puede deberse a múltiples razones: lavado inadecuado, mala captura de señal, etc. Un lavado deficiente puede causar una mala calidad general en todas partes. Tal vez pueda observar las frecuencias de desajuste de los nucleótidos en las lecturas con una buena calidad general (phred medio > 20). Sospecho que es probable que la falta de coincidencia sea aleatoria.

Respuestas (1)

¿El error de secuenciación es una función del nucleótido que se lee?

En realidad , la respuesta de sailorgyaru es muy cercana. La llamada de base en Illumina es diferente de la secuenciación de Sanger. En este último, se puede asignar una posición ruidosa a diferentes nucleótidos con diferentes probabilidades. En Illumina, la mala calidad puede deberse a múltiples razones: lavado inadecuado, mala captura de señal, etc. Un lavado deficiente puede causar una mala calidad general en todas partes. Tal vez pueda observar las frecuencias de desajuste de los nucleótidos en las lecturas con una buena calidad general (phred medio > 20). Sospecho que es probable que la falta de coincidencia sea aleatoria.

sintiendo · Answer 1

Desafortunadamente, depende de las técnicas de secuenciación.

Por ejemplo, en la secuenciación de Illumina, cada fragmento de secuencia se amplifica (para obtener una señal más fuerte) y forma un grupo en la micromatriz. Cada grupo está secuenciado por ciclos de:

Adición de nucleótidos terminadores fluorescentes. Estos nucleótidos se modifican para contener un grupo de inhibición/terminación y evitan que se agreguen más nucleótidos. Teóricamente, solo se incorpora un nucleótido en cada fragmento de ADN en este paso.
Lavar el exceso de nucleótidos.
Capturar el nucleótido incorporado utilizando técnicas de imagen y determinar qué base se incorporó (según el color de la fluorescencia).
Separar el terminador de los nucleótidos agregados, para que la reacción pueda continuar.

Imagen de Metzker, 2010 .

De esta forma, se sintetiza cada fragmento, un nucleótido a la vez, y se detecta cada nucleótido que se incorpora. Sin embargo, el primer paso no es perfecto: a veces se incorpora más de un nucleótido en un determinado fragmento de ADN, o no se incorpora ningún nucleótido. Eventualmente, los fragmentos de ADN en un grupo (todos con la misma secuencia) se desincronizarán ("fases") y la señal fluorescente se volverá menos clara, con una mezcla de diferentes colores. Esta es la causa principal del error de secuenciación de las máquinas de Illumina y también la razón por la que las lecturas de Illumina son relativamente cortas (~300 pb).

Entonces, para responder a su pregunta, en este ejemplo, los nucleótidos pueden leerse erróneamente como nucleótidos cercanos en esa secuencia. Los errores variarán usando otros métodos de secuenciación y cómo funcionan esos métodos.

El artículo que vinculé anteriormente explica varios métodos de secuenciación con más detalle. (Desafortunadamente, está detrás de un muro de pago, por lo que es posible que algunos no puedan verlo).

Bienvenido a Biology.SE y gracias por su respuesta. Entonces, solo para asegurarse, ¿de hecho, la probabilidad de Aque se lea como un nucleótido dado depende del nucleótido y depende de la técnica utilizada? No solo estás diciendo que la tasa de error depende de la técnica, ¿verdad?
No puedo decirlo con seguridad, pero no creo que dependa del nucleótido (al menos no de las propiedades químicas del nucleótido). La mayoría de los métodos de secuenciación utilizan marcadores fluorescentes de diferentes colores para detectar qué nucleótido se incorpora, y qué base se llama depende de la intensidad de la señal de color. Quizás es más probable que ciertas bases se incorporen erróneamente al ADN en general, pero nunca he visto que eso se mencione como un factor significativo.
En el futuro, recomendamos vincular los trabajos citados a través de PubMed o DOI. Los sitios web de los editores pueden (y lo hacen) cambiar. Además, verifique dos veces sus enlaces antes de publicarlos. El enlace al periódico de Metzker estaba roto.

¿El error de secuenciación es una función del nucleótido que se lee?

Remi.b

WYSIWYG

Respuestas (1)

sintiendo

Remi.b

sintiendo

MattDMo

sintiendo

¿Cuál es la diferencia entre la secuenciación aleatoria y la secuenciación basada en clones?

Métodos para la identificación microbiana en el suelo

¿Es posible obtener cadenas simples de ADN en solución? [cerrado]

¿Qué aspecto tienen las lecturas finales emparejadas de Illumina HiSeq/MiSeq?

¿Existe una explicación biológica para una diferencia de 0,5 en el tamaño del alelo con el producto de la PCR?

¿Herramienta para la alineación de nucleótidos con todos los códigos de nucleótidos (por ejemplo, R, Y, W, S, etc.)?

¿Cuál es la diferencia entre la alineación de secuencias y el ensamblaje de secuencias?

¿Qué son los marcadores genéticos codominantes y dominantes?

¿Qué factores debo tener en cuenta al seleccionar un genoma de referencia para el mapeo?

¿Cómo puedo generar una secuencia aleatoria de ADN?