¿Alguna herramienta para alinear los datos de la secuencia del genoma completo con otro genoma y dar a las regiones del exón una calificación más alta?

Question

¿Alguna herramienta para alinear los datos de la secuencia del genoma completo con otro genoma y dar a las regiones del exón una calificación más alta?

Biología
bioinformática
secuencia ADN
análisis de secuencias

Galaxia

Quiero alinear los datos WGS de varios mamíferos con una referencia, como la secuencia del genoma humano. Dado que en la mayoría de los casos los exones deben conservarse y empalmarse de la misma manera y los intrones deben variar, quiero usar una herramienta que sea consciente de la anotación de exón e intrón.

Es decir, a las coincidencias en una región del exón se les debería haber dado una mayor ponderación que a las coincidencias en las regiones intrónicas.

Además, cuando un par de lectura se asigna a 2 exones, el tamaño de inserción debe ser más flexible ya que la longitud del intrón puede variar entre diferentes mamíferos. Dado que la inserción de la biblioteca es inferior a 2 kb para bibliotecas cortas, la situación más común debería ser una lectura en el exón y otra en el intrón.

Esto es diferente de RNA-seq ya que estoy usando datos WGS de un genoma completo, por lo que tanto los exones como los intrones están en las lecturas. Y quiero alinearlos con una secuencia de referencia humana.

vassiaalk

El software SeqSphere y DNAstar Lasergene son buenos

Respuestas (1)

¿Alguna herramienta para alinear los datos de la secuencia del genoma completo con otro genoma y dar a las regiones del exón una calificación más alta?

terdón · Answer 1

Si no está tratando de ensamblar sino solo de alinear cada lectura con el genoma, puede usar exonerate. En una plataforma Unix/Linux, una vez que lo haya instalado, ejecute algo como:

exonerate -m genome2genome WGS.fasta genome.fasta > out.txt

Del exoneratemanual:

          genome2genome
                 This  model  is  similar  to  the  cod‐
                 ing2coding  model,  except  introns are
                 modelled on both sequences.  (not work‐
                 ing well yet)

Sin embargo, lo que recomendaría es alinearse con un conjunto de datos de ADNc de referencia, no con todo el genoma. En ese caso, deberías usar esto en su lugar:

exonerate -m cdna2genome genome_cdna.fasta WGS.fasta > out.txt

Del manual de exoneración:

          cdna2genome
                 This   combines   properties   of   the
                 est2genome and coding2genome models, to
                 allow modeling of an whole cDNA where a
                 central coding region can be flanked by
                 non-coding UTRs.  When  the  CDS  start
                 and  end  is  known it may be specified
                 using  the  --annotation  option   (see
                 below)  to permit only the correct cod‐
                 ing region to appear in the alignemnt.

¿Alguna herramienta para alinear los datos de la secuencia del genoma completo con otro genoma y dar a las regiones del exón una calificación más alta?

Galaxia

vassiaalk

Respuestas (1)

terdón

¿Herramienta para la alineación de nucleótidos con todos los códigos de nucleótidos (por ejemplo, R, Y, W, S, etc.)?

Práctica estándar para generar curvas de rarefacción a partir de datos de secuenciación de próxima generación

Diseñe cebadores degenerados arbitrarios (con criterios no vinculantes)

Secuencia de referencia para definir polimorfismos de un solo nucleótido

Tratando de comprender el panorama general detrás de la secuenciación, alineación y búsqueda de ADN

Buscando una base de datos de objetivos de fármacos contra el cáncer para guiar la secuenciación del ADN del tumor del paciente

Validación de marcadores usando transcriptoma y secuencias genómicas derivadas de una sola célula

secuencias quiméricas [cerrado]

Algoritmo de agrupamiento de secuencias recomendado para datos de transcriptomas

¿Cómo interpretar la matriz de identidad porcentual creada por Clustal Omega?