¿Por qué el rango de calidad del formato fastq es tan amplio?

Con referencia al formato fastq , está claro que en formato fastq, hay 94 valores de calidad para un ácido nucleico secuenciado de una lectura de secuencia de ADN y son:

!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~

Entonces, tengo dos preguntas:

  1. ¿Por qué el rango de valores de calidad es tan amplio (94 niveles)?

  2. En un caso particular de análisis de datos, vimos que la frecuencia Ies tan alta que no es de buena calidad. Entonces, ¿por qué aceptaríamos una investigación de tan mala calidad?

Respuestas (2)

Inicialmente, había varias codificaciones de calidad que solían seguir diferentes rangos de caracteres ASCII para indicar la calidad de la lectura. El rango que mencionas es una unión de todos esos formatos de codificación. Hoy en día, la codificación más común es Phred+33 (usada por Illumina, Sanger, Ion Torrent y otros secuenciadores populares) que usa estos caracteres:

!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHI

El carácter Idenota una puntuación de phred de 40. Los alineadores, cuando leen archivos fasta , asignan de forma predeterminada una puntuación de 40 ( I) a todas las posiciones. Esta podría ser una de las razones por las que está viendo mucho I.

De todos modos, si su fastq sigue el formato phred+33, entonces 40 ( I) es una puntuación bastante buena que denota una lectura de buena calidad. O podría estar alineando archivos fasta. Sería una mala puntuación si su codificación es phred+64, lo cual supongo que no es el caso.

SUMA

El archivo que vinculó es un archivo fastq . Este experimento de secuenciación se ha realizado en una máquina 454 GS FLX Titanium . Las máquinas 454 usan una forma diferente de calcular los puntajes de calidad en comparación con los puntajes phred tradicionales de basecalling. Del manual :

6.6 Puntuaciones de calidad base equivalentes a Phred

Las puntuaciones de calidad para las bases llamadas individuales se determinan mediante un método desarrollado en colaboración con el Broad Institute (Genome Research, 18(5): 763-70, 2008), mediante el cual la metodología descrita por Ewing y Green (Genome Research, 8: 186- 194, 1998) para la creación de puntuaciones de calidad como parte del algoritmo Phred basecalling se aplica para generar puntuaciones de calidad para 454 lecturas de secuenciación. Los puntajes de calidad calculados para cada base llamada se escriben en los archivos CWF y SFF(y opcionalmente a un archivo paralelo al archivo basecall FASTA). Brevemente, el método compara las propiedades de las señales del diagrama de flujo de cada base con las propiedades que se ha encontrado que se correlacionan con información de señal precisa y/o propensa a errores, utilizando conjuntos de entrenamiento de datos de lectura. Un análisis multivariante de esas propiedades determina los conjuntos de valores de propiedad que mejor describen los "contenedores" de llamadas base, luego asigna las tasas de precisión del conjunto de entrenamiento de las llamadas base en cada contenedor como un puntaje de calidad utilizando la siguiente escala:

q = 10   Iniciar sesión 10 ( Tasa de error )

Por lo general, tendrá dos archivos para 454 experimentos: uno que contiene la secuencia y el otro que contiene la calidad en cada posición. Estos archivos se pueden combinar para generar un fastq. Este archivo está codificado en el formato phred+33 (también llamado Sanger/Illumina 1.9) que mencioné anteriormente. Phred+33, supongo, también es el formato de codificación estándar adoptado por NCBI/ENA/DDBJ y todas las secuenciaciones nuevas se codifican en este formato. Si no conoce la codificación, puede ejecutar fastqc en su archivo fastq e informa el tipo de codificación.

En su caso, Idenotaría una puntuación de 40 (valor ASCII - 33) lo que significa una tasa de error de 10 -4 , es decir, la lectura es de buena calidad.

El siguiente gráfico se obtiene mediante una ejecución fastqc en su archivo. Las barras denotan estadísticas de calidad en cada posición. Tenga en cuenta que la calidad media cae hacia el final de la lectura.

ingrese la descripción de la imagen aquí

Un archivo fasta no indica calidad, pero cuando los asigna a su objetivo, el alineador (sé de los basados ​​​​en Bowtie) asigna una puntuación predeterminada de 40 en cada posición, durante la alineación (y en la salida).

Estoy seguro de que son archivos fastq. Este es un archivo de ejemplo. Sin embargo, ahora, mi pregunta es: ¿cómo podría Iser una puntuación bastante buena? Por otro lado, ¿fasta también da valor a la calidad de esta manera? No los encontré aquí . Gracias por tratar de ayudarme.
El formato FASTA no tiene estas partituras. Creo que FASTQ es solo una extensión de FASTA para incluir las puntuaciones (y posiblemente otra información). Pero no tengo evidencia de que este sea realmente el caso.
@WYSIWYG ¿Los alineadores realmente asignan una puntuación predeterminada de 40? (¡Realmente no lo se!). ¿Alguna referencia que pueda echar un vistazo con respecto a esto? Gracias.
@ddiez Bowtie lo hace; de eso estoy seguro. Puede consultar el manual o probar una ejecución ficticia. Creo que STAR también lo hace pero no estoy seguro. Los alineadores también, por defecto, asumen una codificación phred+33.

Como mencionó @WYSIWYG en su respuesta, los puntajes de calidad en formato de archivo FASTQ están codificados en caracteres ASCII, y ha habido varias formas de codificar esta información. La página de wikipedia FASTQ que vincula en su pregunta describe algunas (no estoy seguro si todas) las diferentes alternativas.

Ahora, ¿por qué tenemos esta amplia gama de caracteres para los puntajes de calidad? Se reduce a la pregunta de qué significan realmente estos caracteres. Lo que realmente nos importa es la probabilidad de que una base en particular se haya asignado incorrectamente. Esta es la probabilidad de error de llamada base (p). Podemos definir un puntaje de calidad basado en la probabilidad de error como:

q = -10 x log10(p)

Entonces, si su llamada base es realmente incorrecta (probabilidad de error p = 1), entonces q = 0. Si su llamada base es ciertamente correcta ( p = 0), entonces q -> Inf as p -> 0. Imagina que tu probabilidad de error es p = 0.0001(es decir, lo más probable es que la base esté correctamente asignada). entonces q = -10 * log10(0.0001) = 40_ Por lo tanto, una puntuación de q = 40significa una probabilidad de error en esa llamada base de 1/10000. Los puntajes de calidad se consideran, que yo sepa, entre 0 y 40.

Ahora, otro tema es cómo incluir esta información para cada base en el archivo FASTQ. Se necesitaría demasiado espacio de almacenamiento para incluir la puntuación como un número de valor real (es decir, con decimales). En cambio, una posibilidad es redondearlo; después de todo, no hay mucha diferencia entre un puntaje de, digamos, 39.7 y 40; nos importa más el orden de magnitud. Pero entonces todavía tendremos que almacenar números enteros de dos dígitos por base. Lo que podemos hacer es asignar la puntuación redondeada al carácter ASCII correspondiente + algún desplazamiento . Es decir, como puede ver en la página FASTQ, el valor ASCII para el carácter Ies 73. Si está utilizando la codificación phred-33, esto significa que el carácter I = 73corresponde al puntaje de calidad q = 73 - 33 = 40, lo que significa p = 0.0001. Voilá. Personaje! = 33representa la puntuación 33 - 33 = 0 (p = 1). En una representación phred-64, una partitura q = 40se codifica con el carácter h = 104. entonces q = 104 - 64 = 40_

Por supuesto, esto es solo una aproximación aproximada de cómo se mapea el puntaje phred real. Phred es en realidad el nombre de un programa que fue desarrollado para asignar los puntajes de calidad a caracteres ASCII. El método con más detalle se explica en la publicación original (que admito que solo había pasado):

Ewing B, Green P. Base-calling de trazas de secuenciador automatizado usando phred. II. Probabilidades de error . Genoma Res. 1998 marzo;8(3):186-94.