¿Alguna herramienta para alinear los datos de la secuencia del genoma completo con otro genoma y dar a las regiones del exón una calificación más alta?

Quiero alinear los datos WGS de varios mamíferos con una referencia, como la secuencia del genoma humano. Dado que en la mayoría de los casos los exones deben conservarse y empalmarse de la misma manera y los intrones deben variar, quiero usar una herramienta que sea consciente de la anotación de exón e intrón.

Es decir, a las coincidencias en una región del exón se les debería haber dado una mayor ponderación que a las coincidencias en las regiones intrónicas.

Además, cuando un par de lectura se asigna a 2 exones, el tamaño de inserción debe ser más flexible ya que la longitud del intrón puede variar entre diferentes mamíferos. Dado que la inserción de la biblioteca es inferior a 2 kb para bibliotecas cortas, la situación más común debería ser una lectura en el exón y otra en el intrón.

Esto es diferente de RNA-seq ya que estoy usando datos WGS de un genoma completo, por lo que tanto los exones como los intrones están en las lecturas. Y quiero alinearlos con una secuencia de referencia humana.

El software SeqSphere y DNAstar Lasergene son buenos

Respuestas (1)

Si no está tratando de ensamblar sino solo de alinear cada lectura con el genoma, puede usar exonerate. En una plataforma Unix/Linux, una vez que lo haya instalado, ejecute algo como:

exonerate -m genome2genome WGS.fasta genome.fasta > out.txt 

Del exoneratemanual:

          genome2genome
                 This  model  is  similar  to  the  cod‐
                 ing2coding  model,  except  introns are
                 modelled on both sequences.  (not work‐
                 ing well yet)

Sin embargo, lo que recomendaría es alinearse con un conjunto de datos de ADNc de referencia, no con todo el genoma. En ese caso, deberías usar esto en su lugar:

exonerate -m cdna2genome genome_cdna.fasta WGS.fasta > out.txt 

Del manual de exoneración:

          cdna2genome
                 This   combines   properties   of   the
                 est2genome and coding2genome models, to
                 allow modeling of an whole cDNA where a
                 central coding region can be flanked by
                 non-coding UTRs.  When  the  CDS  start
                 and  end  is  known it may be specified
                 using  the  --annotation  option   (see
                 below)  to permit only the correct cod‐
                 ing region to appear in the alignemnt.