Siempre me he enfrentado a un problema al analizar pequeños datos de RNAseq, en el paso del recorte del adaptador.
La longitud de las lecturas depende de la máquina y las recientes, como HiSeq, pueden proporcionar ~200 pb.
El problema, sin embargo, es con lecturas más pequeñas que la longitud máxima de lectura de la máquina y esto es común con ARN pequeños como los miARN (especialmente si el concatémero de ARN pequeño y el adaptador 3' completo es más grande que la longitud máxima de lectura).
El primer paso del análisis es el recorte del adaptador de 3' (Illumina Truseq: TCGTATGCCGTCTTCTGCTTGT).
Hay varios algoritmos disponibles para hacer este trabajo y lo que hacen precisamente es verificar si hay superposiciones entre la secuencia del adaptador y el extremo 3 de las lecturas y luego recortar la región alineada.
No puede estar realmente seguro de alineaciones muy pequeñas porque es posible que no se originen realmente en los adaptadores, lo que significa que debe especificar un límite inferior de alineación para el recorte. Normalmente lo configuro como 5 (intuitivamente).
Pero si una pequeña parte de la secuencia realmente vino del adaptador, permanecerá y no hay forma de recortarla sin ninguna duda.
El verdadero problema surge durante la alineación de las lecturas con la secuencia de referencia. Los alineadores como corbatín (que prefiero usar), generalmente tienen un argumento definido por el usuario para la cantidad de desajustes permitidos. Bowtie generalmente no funciona muy bien si permite muchos desajustes.
Posteriormente, es posible que pierda una lectura realmente valiosa.
Para evitar este problema, a veces recorte las lecturas a alrededor de 25 nt (para el perfilado de miARN). Esto crea un nuevo problema:
Realmente no se puede distinguir si la lectura provino de un pre-miARN (un ARN más largo) o de un miARN maduro (un ARN más pequeño que surge del procesamiento de pre-miARN)
¿Alguien tiene una experiencia o una idea sobre cómo resolver este problema?
Primero le recomendaría que haga esta pregunta biostar ya que el tema sobre el que está preguntando es mucho más relevante allí.
Habiendo dicho eso, tiene otra opción que es usar un alineador que sujete suavemente los extremos de 3 'de las lecturas específicamente para tener en cuenta la contaminación del adaptador (o poliA, o lo que sea) que podría haber pasado desapercibido.
STAR es uno de esos alineadores. Si busca "clip" en los archivos de su lista de correo , debería encontrar varias publicaciones relacionadas con su pregunta.
WYSIWYG
Steve Lianoglou