¿Múltiples transcritos que coinciden con el mismo gen en los datos de secuenciación de ARN ensamblados de novo, pero los valores de FPKM varían?

Tengo un conjunto de datos de conjuntos de datos de RNA-seq ensamblados de novo en diferentes tipos de muestras.

Cuando BLASTing, muchas de las coincidencias de las transcripciones individuales coinciden con el mismo gen en el genoma de referencia. Sin embargo, cada transcripción individual tiene su propio valor FPKM único.

Estoy confundido, en primer lugar, en cuanto a cómo puede tener varias secuencias del mismo gen con diferentes valores de FPKM y, por supuesto, también me pregunto cuál sería un enfoque adecuado para el análisis posterior. ¿Debería simplemente sumar los valores de FPKM para las secuencias con las mismas coincidencias?

Respuestas (1)

Si la cuantificación se realiza a nivel de transcripción, cada transcripción identificada de un gen determinado tendrá un número diferente de lecturas atribuidas, por lo tanto, un valor RPKM diferente.

Para el análisis posterior, puede continuar en el nivel de transcripción.

Creo que no puede sumar los valores de FPKM directamente, porque son inversamente proporcionales a las longitudes de la transcripción ("K" significa "por kilobase"). Si desea realizar el análisis posterior a nivel de gen y usar valores de FPKM, deberá multiplicar los valores de FPKM de las transcripciones por las longitudes de transcripción correspondientes antes de sumar. Luego tendrás que dividir esta suma por la longitud del gen, o algo así.

De hecho, no puede sumar FPKM, y hoy en día probablemente debería intentar evitar usarlos en primer lugar (tienen algunos sesgos, pero aún se usan ampliamente). Pero incluso si obtiene los recuentos sin procesar por transcripción, no debe sumarlos directamente para obtener los recuentos por genes. Si obtuvo sus conteos usando Kallisto o Salmon, la forma más fácil es usar sleuth para trabajar directamente en las transcripciones, o tximport para sumar los conteos e ingresarlos en DESeq, edgeR u otro programa.