Disculpe si esto se ha respondido en otro lugar, pero no pude encontrar una respuesta a este problema.
Me gustaría recuperar todas las secuencias de codificación pronosticadas en el ftp de NCBI para una especie determinada . Digamos que mi especie de interés hoy es Stegastes partitus y que voy aquí . Sé cómo obtener todos los mRNA predichos (./RNA/Gnomon_mRNA.fsa) o todas las proteínas predichas (./protein/protein.fa) pero no encuentro cómo obtener el CDS... si alguna vez es posible. Esto se puede hacer en el FTP de Ensembl.
¡Gracias por cualquier idea!
EDITAR: la salida sería idealmente un archivo multifasta como este:
>Stegastes_partitus_gene1_cds
ATG(.................................)TAA
>Stegastes_partitus_gene2_cds
ATG(.............................)TGA
>Stegastes_partitus_gene3_cds
...
La carpeta GNOMON y GFF contiene los archivos que desea, el GNOMON si revisa el README se relaciona con el predictor de genes GNOMON y el GFF creo que se vincula al mismo archivo. Creo que el archivo que desea es ref_Stegastes_partitus-1.0.2_scaffolds.gff3.gz
el que contiene las coordenadas en los andamios.
Y como dijiste que estás en Linux, entonces la mejor y más geek forma de hacerlo es awk.
awk '!/#/{if($3=="CDS")print}' ref_Stegastes_partitus-1.0.2_scaffolds.gff3 > SomeFile.gff3
ACTUALIZAR
Esta parte es de python. Con referencia a la respuesta del usuario anterior, si obtiene el archivo GBK, rna.gbk, esto debería permitirle obtener CDS usandobiopython
También debe consultar el tutorial de Peter Cook sobre el manejo de archivos genbank en python
from Bio import SeqIO
from __future__ import print_function
Genome = SeqIO.parse("Examples/rna.gbk","genbank")
handle = open("Examples/rna.faa","w")
for genes in Genome:
i=1
for Feature in genes.features:
if Feature.type=="CDS":
FASTA=Feature.extract(genes.seq)
print(">"+genes.id+"_CDS_"+str(i),file=handle)
print(FASTA,file=handle)
i += 1
Recomendaría que instales anaconda , es un software de gestión de paquetes, que cuando se instala instala su propia versión de python y junto con ella instala unos 400 paquetes diferentes. Las instrucciones están disponibles en el enlace. Entonces estos paquetes deberían venir con el enlace.
Después de haber instalado anaconda, coloque todo ese código desde allí en un Myfile.py
y ejecútelo en la línea de comando con python Myfile.py
.
La carpeta RNA de su enlace proporciona varios formatos de archivo anotados. Estos incluyen una referencia al CDS para cada transcripción.
Descargue y descomprima el archivo rna.gbk.gz y ábralo. Verá la información de ubicación de CDS para cada entrada.
Una forma basada en la web de obtener estos datos:
"Stegastes partitus"[Organism]
como devolvería solo un hit que es la última versión de referencia del ensamblaje. Dado que solo hay un resultado, se le dirige a la página 'Informe completo' de manera predeterminada. Haga clic en el enlace en la esquina superior izquierda y cambie el formato 'Informe completo' a 'Resumen'
tsttst
DobladoCromatina
DobladoCromatina
Clorin
DobladoCromatina