Mirando en Google Scholar, puedo ver que para Illumina (solo para considerar un ejemplo) la tasa de error de secuenciación es del orden de 0.001-0.01 por nucleótido.
Hablando de error de secuenciación, consideremos solo los desajustes (sustitución de un nucleótido por otro). Conociendo el nucleótido "verdadero" en una posición determinada, ¿es tan probable que se lea como cualquier otro nucleótido específico durante un desajuste o hay sesgo? Por ejemplo, si el verdadero nucleótido es A
, ¿es más probable que se encuentre como a G
(ya que ambos son purinas) que a T
o a C
? ¿Es más probable que algunos nucleótidos se lean mal que otros?
Espero que la respuesta no dependa demasiado de las técnicas de secuenciación.
Desafortunadamente, depende de las técnicas de secuenciación.
Por ejemplo, en la secuenciación de Illumina, cada fragmento de secuencia se amplifica (para obtener una señal más fuerte) y forma un grupo en la micromatriz. Cada grupo está secuenciado por ciclos de:
Imagen de Metzker, 2010 .
De esta forma, se sintetiza cada fragmento, un nucleótido a la vez, y se detecta cada nucleótido que se incorpora. Sin embargo, el primer paso no es perfecto: a veces se incorpora más de un nucleótido en un determinado fragmento de ADN, o no se incorpora ningún nucleótido. Eventualmente, los fragmentos de ADN en un grupo (todos con la misma secuencia) se desincronizarán ("fases") y la señal fluorescente se volverá menos clara, con una mezcla de diferentes colores. Esta es la causa principal del error de secuenciación de las máquinas de Illumina y también la razón por la que las lecturas de Illumina son relativamente cortas (~300 pb).
Entonces, para responder a su pregunta, en este ejemplo, los nucleótidos pueden leerse erróneamente como nucleótidos cercanos en esa secuencia. Los errores variarán usando otros métodos de secuenciación y cómo funcionan esos métodos.
El artículo que vinculé anteriormente explica varios métodos de secuenciación con más detalle. (Desafortunadamente, está detrás de un muro de pago, por lo que es posible que algunos no puedan verlo).
A
que se lea como un nucleótido dado depende del nucleótido y depende de la técnica utilizada? No solo estás diciendo que la tasa de error depende de la técnica, ¿verdad?
WYSIWYG