Estoy confundido en cuanto a cómo los secuenciadores de ADN como Illumina calculan realmente las puntuaciones de calidad. Para cada llamada de base, se calcula algún valor predictivo de calidad, en función de varias propiedades de la máquina de secuenciación, como la intensidad de la luz durante la lectura.
¿Sabemos exactamente cómo se calculan estos puntajes de calidad? ¿Exactamente cuántos factores intervienen en el cálculo de estos valores CUAL?
Estoy restringiendo esta respuesta a Illumina. Incluso entonces, no conozco los detalles exactos del análisis de datos sin procesar (es un software propietario).
Básicamente, Illumina graba la secuencia a partir de imágenes fotográficas. Cada nucleótido tiene una etiqueta fluorescente distinta. En un ciclo, se bombea un nucleótido y se eliminan los nucleótidos no incorporados (esto se repite para todos los nucleótidos). Un láser excita el fluoróforo y la luz emitida se registra en forma de fotografía. La plantilla de ADN está presente en forma de grupos de hebras (en un lugar determinado), lo que permite una fácil identificación visual de la fluorescencia.
La llamada base se realiza mediante análisis de imágenes. Cada imagen se analiza en busca de intensidades de diferentes colores y, en base a esto, se calcula el puntaje de calidad. El puntaje de calidad es básicamente la probabilidad logarítmica de que un nucleótido ocurra en una posición dada (basado en la intensidad de su color) en comparación con otros nucleótidos.
Esta es la explicación más simple de cómo Illumina hace llamadas de base. Hay diferentes tipos de errores y sesgos y hay diferentes enfoques estadísticos para corregirlos.
Eche un vistazo a las siguientes referencias para obtener más detalles:
usuario3234810
ShanZhengYang
WYSIWYG
ShanZhengYang
WYSIWYG
ShanZhengYang
WYSIWYG