Tengo alineaciones de árboles de genes Ensembl compara (Compara.gene_trees.57.fasta.gz descargados de ftp://ftp.ensembl.org/pub/release-57/emf/ensembl-compara/homologies/ ) en formato de nucleótidos. Según la documentación, dice que el archivo "contiene la alineación de péptidos para cada árbol genético en formato fasta".
Me preguntaba cuál podría ser una herramienta útil para obtener las alineaciones de aminoácidos correspondientes del archivo.
Gracias,
Ikram
Como regla general, tanto dentro como fuera del mundo de la bioinformática, los sitios FTP públicos contienen archivos README que explican qué contiene cada archivo que ofrece el servidor FTP. El archivo README.protein_trees dice:
Compara.gene_trees.{release}.emf.gz
contiene la alineación de péptidos para cada genetree en formato de alineación emf
Compara.gene_trees.{release}.fasta.gz
contiene la alineación de péptidos para cada árbol de genes en formato fasta
Esto significa que tanto Compara.gene_trees.57.emf.gz como Compara.gene_trees.57.fasta.gz contienen las alineaciones de proteínas. Eché un vistazo rápido a los archivos y parece que Compara.gene_trees.57.fasta.gz
en realidad contiene secuencias de nucleótidos, pero de Compara.gene_trees.57.emf.gz
hecho contiene una alineación de proteínas:
$ zgrep -m 1 AAAAASAAAT Compara.gene_trees.57.emf.gz.crdownload
SAAA-AHS-AGTAAAAA--AA--AAAAASAAAT-ASAATAI-SASSA-ASAAT-V----AAASVAA-HAFAS---ASAAASAAAAA-TIVAAAAX-SAASIYSAAAA-YAA--AASAS-ASAASAS-ASAASSSSSARS-AAS
Entonces, para responder a su pregunta, el archivo que desea es el .emf.gz
indicado.
Armatus
Ikram Ullah