Recuperar todos los cd previstos de NCBI

Disculpe si esto se ha respondido en otro lugar, pero no pude encontrar una respuesta a este problema.

Me gustaría recuperar todas las secuencias de codificación pronosticadas en el ftp de NCBI para una especie determinada . Digamos que mi especie de interés hoy es Stegastes partitus y que voy aquí . Sé cómo obtener todos los mRNA predichos (./RNA/Gnomon_mRNA.fsa) o todas las proteínas predichas (./protein/protein.fa) pero no encuentro cómo obtener el CDS... si alguna vez es posible. Esto se puede hacer en el FTP de Ensembl.

¡Gracias por cualquier idea!


EDITAR: la salida sería idealmente un archivo multifasta como este:

>Stegastes_partitus_gene1_cds
ATG(.................................)TAA
>Stegastes_partitus_gene2_cds
ATG(.............................)TGA
>Stegastes_partitus_gene3_cds
...
Un sitio de control de calidad, que se especializa en preguntas bioinformáticas detalladas, es biostars.org
Estoy rechazando porque el archivo Léame ya le dice que la carpeta GNOMON debe contener los archivos que desea.
El GNOMON y la carpeta GFF. Según la minería de texto, puede usar Excel y awk ... awk es más una pregunta de stackoverflow ... pero no creo que esté en Linux.
@Koustav Pal ¿Estás votando negativo porque sabes la respuesta? Al menos podría proporcionar una respuesta adecuada;) ¡Gracias de todos modos! PD: estoy en Linux, lo que no significa que sepa todo sobre la minería de texto, de ahí mi pregunta.
Mi punto es, lea el archivo Léame. Ni siquiera leí el archivo Léame, solo hice ctrl+F para CDS y descubrí que estaban dentro de las carpetas GNOMON y GFF

Respuestas (3)

La carpeta GNOMON y GFF contiene los archivos que desea, el GNOMON si revisa el README se relaciona con el predictor de genes GNOMON y el GFF creo que se vincula al mismo archivo. Creo que el archivo que desea es ref_Stegastes_partitus-1.0.2_scaffolds.gff3.gzel que contiene las coordenadas en los andamios.

Y como dijiste que estás en Linux, entonces la mejor y más geek forma de hacerlo es awk.

awk '!/#/{if($3=="CDS")print}' ref_Stegastes_partitus-1.0.2_scaffolds.gff3 > SomeFile.gff3

ACTUALIZAR


Esta parte es de python. Con referencia a la respuesta del usuario anterior, si obtiene el archivo GBK, rna.gbk, esto debería permitirle obtener CDS usandobiopython

También debe consultar el tutorial de Peter Cook sobre el manejo de archivos genbank en python

from Bio import SeqIO
from __future__ import print_function

Genome = SeqIO.parse("Examples/rna.gbk","genbank")
handle = open("Examples/rna.faa","w")
for genes in Genome:
    i=1
    for Feature in genes.features:
        if Feature.type=="CDS":
            FASTA=Feature.extract(genes.seq)
            print(">"+genes.id+"_CDS_"+str(i),file=handle)
            print(FASTA,file=handle) 
            i += 1

Recomendaría que instales anaconda , es un software de gestión de paquetes, que cuando se instala instala su propia versión de python y junto con ella instala unos 400 paquetes diferentes. Las instrucciones están disponibles en el enlace. Entonces estos paquetes deberían venir con el enlace.

Después de haber instalado anaconda, coloque todo ese código desde allí en un Myfile.pyy ejecútelo en la línea de comando con python Myfile.py.

No puedo votar (no hay suficiente representante), pero +1 de todos modos. "Me gustaría recuperar todas las secuencias de codificación predichas en el ftp NCBI para una especie". --> ¡Nos estamos acercando! :)
te refieres a alguna especie?
Sí, por ejemplo éste (Stegastes partitus). (Ver mi edición)
Los CDS son un poco diferentes, porque esta anotación en particular se proporciona con archivos GFF en las coordenadas genómicas. Y los genomas en sí tienen muchas versiones en diferentes etapas de ensamblaje, principalmente contig, scaffold, cromosoma ensamblado con cromosomas desconocidos, pero los archivos deben estar dentro de ./GFF/ y el nombre cambiará según la versión y la etapa de ensamblaje del genoma gff el archivo se relaciona con
Ahh entonces quieres las secuencias!
¡Sí! Disculpas si esto no fue claro.
revisa las ediciones
¡Brillante! Muchas gracias :) Y, de hecho, la página web de Peter Cock es muy útil, lo tendré en cuenta.

La carpeta RNA de su enlace proporciona varios formatos de archivo anotados. Estos incluyen una referencia al CDS para cada transcripción.

Stegastes_partitus/ARN/

Descargue y descomprima el archivo rna.gbk.gz y ábralo. Verá la información de ubicación de CDS para cada entrada.

Sí, pero esto no proporciona un acceso "fácil" (como un archivo multifasta) a todos los cd de esta especie.
No es verdad. Eso requeriría algunas habilidades de minería de texto, pero sería bastante fácil para alguien que tenga esa experiencia, si la tuviera o conociera a alguien que la tuviera. Solo soy un hack.

Una forma basada en la web de obtener estos datos:

  1. Vaya a la página de la Asamblea del NCBI: https://www.ncbi.nlm.nih.gov/assembly y busque la especie de su interés. Aquí, la consulta sería algo así "Stegastes partitus"[Organism]como devolvería solo un hit que es la última versión de referencia del ensamblaje. Dado que solo hay un resultado, se le dirige a la página 'Informe completo' de manera predeterminada. Haga clic en el enlace en la esquina superior izquierda y cambie el formato 'Informe completo' a 'Resumen'
  2. En este punto, verá el botón 'Descargar ensamblajes'. Haga clic en eso, elija la fuente de datos como RefSeq y el tipo de archivo como 'CDS from genomic' y ¡listo!