Quiero alinear los datos WGS de varios mamíferos con una referencia, como la secuencia del genoma humano. Dado que en la mayoría de los casos los exones deben conservarse y empalmarse de la misma manera y los intrones deben variar, quiero usar una herramienta que sea consciente de la anotación de exón e intrón.
Es decir, a las coincidencias en una región del exón se les debería haber dado una mayor ponderación que a las coincidencias en las regiones intrónicas.
Además, cuando un par de lectura se asigna a 2 exones, el tamaño de inserción debe ser más flexible ya que la longitud del intrón puede variar entre diferentes mamíferos. Dado que la inserción de la biblioteca es inferior a 2 kb para bibliotecas cortas, la situación más común debería ser una lectura en el exón y otra en el intrón.
Esto es diferente de RNA-seq ya que estoy usando datos WGS de un genoma completo, por lo que tanto los exones como los intrones están en las lecturas. Y quiero alinearlos con una secuencia de referencia humana.
Si no está tratando de ensamblar sino solo de alinear cada lectura con el genoma, puede usar exonerate
. En una plataforma Unix/Linux, una vez que lo haya instalado, ejecute algo como:
exonerate -m genome2genome WGS.fasta genome.fasta > out.txt
Del exonerate
manual:
genome2genome
This model is similar to the cod‐
ing2coding model, except introns are
modelled on both sequences. (not work‐
ing well yet)
Sin embargo, lo que recomendaría es alinearse con un conjunto de datos de ADNc de referencia, no con todo el genoma. En ese caso, deberías usar esto en su lugar:
exonerate -m cdna2genome genome_cdna.fasta WGS.fasta > out.txt
Del manual de exoneración:
cdna2genome
This combines properties of the
est2genome and coding2genome models, to
allow modeling of an whole cDNA where a
central coding region can be flanked by
non-coding UTRs. When the CDS start
and end is known it may be specified
using the --annotation option (see
below) to permit only the correct cod‐
ing region to appear in the alignemnt.
vassiaalk