Tengo un conjunto de datos de conjuntos de datos de RNA-seq ensamblados de novo en diferentes tipos de muestras.
Cuando BLASTing, muchas de las coincidencias de las transcripciones individuales coinciden con el mismo gen en el genoma de referencia. Sin embargo, cada transcripción individual tiene su propio valor FPKM único.
Estoy confundido, en primer lugar, en cuanto a cómo puede tener varias secuencias del mismo gen con diferentes valores de FPKM y, por supuesto, también me pregunto cuál sería un enfoque adecuado para el análisis posterior. ¿Debería simplemente sumar los valores de FPKM para las secuencias con las mismas coincidencias?
Si la cuantificación se realiza a nivel de transcripción, cada transcripción identificada de un gen determinado tendrá un número diferente de lecturas atribuidas, por lo tanto, un valor RPKM diferente.
Para el análisis posterior, puede continuar en el nivel de transcripción.
Creo que no puede sumar los valores de FPKM directamente, porque son inversamente proporcionales a las longitudes de la transcripción ("K" significa "por kilobase"). Si desea realizar el análisis posterior a nivel de gen y usar valores de FPKM, deberá multiplicar los valores de FPKM de las transcripciones por las longitudes de transcripción correspondientes antes de sumar. Luego tendrás que dividir esta suma por la longitud del gen, o algo así.
Alexlok