Conversión de la alineación del ADN del árbol genético de Ensembl Compara a la alineación de aminoácidos correspondiente

Tengo alineaciones de árboles de genes Ensembl compara (Compara.gene_trees.57.fasta.gz descargados de ftp://ftp.ensembl.org/pub/release-57/emf/ensembl-compara/homologies/ ) en formato de nucleótidos. Según la documentación, dice que el archivo "contiene la alineación de péptidos para cada árbol genético en formato fasta".

Me preguntaba cuál podría ser una herramienta útil para obtener las alineaciones de aminoácidos correspondientes del archivo.

Gracias,

Ikram

El archivo está comprimido con gzip, así que use una herramienta como 7zip o WinRAR para descomprimirlo. Después de eso, simplemente abra el archivo fasta en cualquier lector de texto...?
Gracias Armatus por el comentario. De hecho, puedo ver el archivo usando zless en ubuntu. El problema es que los datos están en formato de nucleótidos (AGTC...) y yo los quiero en formato de aminoácidos (NGHIK... etc). Supongo que, dado que los datos son una secuencia de codificación, no se necesitan cambios de marco y solo podría funcionar un mapeo de ADN a proteína (pero no estoy seguro, y solo quiero confirmarlo antes de escribir un código para ello)

Respuestas (1)

Como regla general, tanto dentro como fuera del mundo de la bioinformática, los sitios FTP públicos contienen archivos README que explican qué contiene cada archivo que ofrece el servidor FTP. El archivo README.protein_trees dice:

Compara.gene_trees.{release}.emf.gz

                       contiene la alineación de péptidos para cada genetree en formato de alineación emf

Compara.gene_trees.{release}.fasta.gz

                      contiene la alineación de péptidos para cada árbol de genes en formato fasta

Esto significa que tanto Compara.gene_trees.57.emf.gz como Compara.gene_trees.57.fasta.gz contienen las alineaciones de proteínas. Eché un vistazo rápido a los archivos y parece que Compara.gene_trees.57.fasta.gzen realidad contiene secuencias de nucleótidos, pero de Compara.gene_trees.57.emf.gzhecho contiene una alineación de proteínas:

$ zgrep -m 1 AAAAASAAAT Compara.gene_trees.57.emf.gz.crdownload 
SAAA-AHS-AGTAAAAA--AA--AAAAASAAAT-ASAATAI-SASSA-ASAAT-V----AAASVAA-HAFAS---ASAAASAAAAA-TIVAAAAX-SAASIYSAAAA-YAA--AASAS-ASAASAS-ASAASSSSSARS-AAS

Entonces, para responder a su pregunta, el archivo que desea es el .emf.gzindicado.