Problemas con el análisis de datos pequeños de RNAseq - Recorte del adaptador

Siempre me he enfrentado a un problema al analizar pequeños datos de RNAseq, en el paso del recorte del adaptador.

Descripción general de RNAseq pequeño (Illumina)

  1. El ARN se fracciona por tamaños usando columnas o PAGE
  2. Ligadura de adaptadores de 3' y 5'
  3. síntesis de ADNc
  4. amplificación por PCR
  5. Secuenciación

La longitud de las lecturas depende de la máquina y las recientes, como HiSeq, pueden proporcionar ~200 pb.

El problema, sin embargo, es con lecturas más pequeñas que la longitud máxima de lectura de la máquina y esto es común con ARN pequeños como los miARN (especialmente si el concatémero de ARN pequeño y el adaptador 3' completo es más grande que la longitud máxima de lectura).

El primer paso del análisis es el recorte del adaptador de 3' (Illumina Truseq: TCGTATGCCGTCTTCTGCTTGT).

Hay varios algoritmos disponibles para hacer este trabajo y lo que hacen precisamente es verificar si hay superposiciones entre la secuencia del adaptador y el extremo 3 de las lecturas y luego recortar la región alineada.

ahora el problema es este

No puede estar realmente seguro de alineaciones muy pequeñas porque es posible que no se originen realmente en los adaptadores, lo que significa que debe especificar un límite inferior de alineación para el recorte. Normalmente lo configuro como 5 (intuitivamente).

Pero si una pequeña parte de la secuencia realmente vino del adaptador, permanecerá y no hay forma de recortarla sin ninguna duda.

El verdadero problema surge durante la alineación de las lecturas con la secuencia de referencia. Los alineadores como corbatín (que prefiero usar), generalmente tienen un argumento definido por el usuario para la cantidad de desajustes permitidos. Bowtie generalmente no funciona muy bien si permite muchos desajustes.

Posteriormente, es posible que pierda una lectura realmente valiosa.

Alternativa

Para evitar este problema, a veces recorte las lecturas a alrededor de 25 nt (para el perfilado de miARN). Esto crea un nuevo problema:

Realmente no se puede distinguir si la lectura provino de un pre-miARN (un ARN más largo) o de un miARN maduro (un ARN más pequeño que surge del procesamiento de pre-miARN)

¿Alguien tiene una experiencia o una idea sobre cómo resolver este problema?

Respuestas (1)

Primero le recomendaría que haga esta pregunta biostar ya que el tema sobre el que está preguntando es mucho más relevante allí.

Habiendo dicho eso, tiene otra opción que es usar un alineador que sujete suavemente los extremos de 3 'de las lecturas específicamente para tener en cuenta la contaminación del adaptador (o poliA, o lo que sea) que podría haber pasado desapercibido.

STAR es uno de esos alineadores. Si busca "clip" en los archivos de su lista de correo , debería encontrar varias publicaciones relacionadas con su pregunta.

Gracias Steve... Pero me pregunto por qué este foro es menos adecuado... mi propósito de unirme aquí era tener toda la biología en un solo foro sin tener que tener varias cuentas... tengo una cuenta en seqanswers y haré esta pregunta allí . pero estoy un poco decepcionado por este concepto de nichos separados (especialmente cuando todo se trata de la misma área de estudio).
@WYSIWYG: sugerí biostar , no seqanswers ;-) Aún así, este foro es menos adecuado simplemente porque su pregunta es más de naturaleza bioinformática que estrictamente biológica, y encontrará más experiencia relacionada con bioinformática en biostar que aquí. Me imagino que es probable que haya muchas personas en biostar que son fuertes bioinformáticos que no tienen cuentas en este sitio, y usted se beneficiaría de obtener su opinión. Considere, por ejemplo, por qué hay diferentes sitios SE para matemáticas y estadísticas :-)