¿Descargar genes de levadura específicos de forma automatizada?

Tengo 6 genes de levadura Candida albicans , a saber orf19.723, orf19.5908, orf19.610, y . Y he encontrado los genes ortólogos correspondientes del sitio web del Instituto Broad de otras 16 especies de levadura. Así que tengo todos los nombres de los genes. Ahora, ¿cómo descargaría específicamente estos genes y desde dónde puedo hacerlo, preferiblemente de manera automatizada?orf19.2119orf19.4998orf19.4056

¿También hay alguna convención de nomenclatura estándar? Porque los nombres ORF dados también tienen otros nombres como BCR1, EFG1 y NDT80.

La lista de nombres de genes que tengo:

The orthologs of C. Albicans with S. cerevisiae
orf19.2119  YHR124W 
orf19.4998  YBR033W YKL034W 
orf19.5908  YBR083W 
orf19.610   YMR016C YKL043W 
orf19.723   NONE
orf19.4056  YMR136W 

The orthologs of C. Albicans with S. paradoxus
orf19.2119  spar33-g1.1 
orf19.4998  spar197-g23.1   spar324-g3.1    
orf19.5908  spar200-g4.1    
orf19.610   spar184-g1.1    spar324-g10.1   
orf19.723   NONE
orf19.4056  spar165-g2.1

The orthologs of C. Albicans with S. mikatae
orf19.2119  NONE
orf19.4998  smik146-g12.1   smik109-g17.1   
orf19.5908  smik83-g2.1 
orf19.610   smik571-g2.1    smik109-g10.1   
orf19.723   NONE
orf19.4056  smik1535-g1.1   

The orthologs of C. Albicans with S. bayanus
orf19.2119  sbayc514-g9.1   
orf19.4998  sbayc611-g22.1  sbayc652-g20.1  
orf19.5908  sbayc678-g131.1 
orf19.610   sbayc638-g23.1  sbayc652-g27.1  
orf19.723   NONE
orf19.4056  sbayc657-g41.1

The orthologs of C. Albicans with S. castellii
orf19.2119  Scas697.24  
orf19.4998  Scas625.4   
orf19.5908  Scas718.27  Scas635.12  
orf19.610   Scas106.1   Scas709.52  Scas625.8   
orf19.723   NONE
orf19.4056  Scas680.22d 

The orthologs of C. Albicans with C. glabrata
orf19.2119  CAGL0L13090g    
orf19.4998  CAGL0L01947g    
orf19.5908  CAGL0M01716g    CAGL0F04081g    
orf19.610   CAGL0M07634g    CAGL0L01771g    
orf19.723   NONE
orf19.4056  CAGL0I00902g    CAGL0L06776g    

The orthologs of C. Albicans with S. kluyveri
orf19.2119  SAKL0E11330g    
orf19.4998  SAKL0A09812g    
orf19.5908  SAKL0B06578g    
orf19.610   SAKL0D13442g    
orf19.723   SAKL0A03476g    
orf19.4056  SAKL0E04862g    

The orthologs of C. Albicans with K. lactis
orf19.2119  KLLA0F24420g    
orf19.4998  KLLA0F25674g    
orf19.5908  KLLA0E12507g    
orf19.610   KLLA0F04840g    
orf19.723   NONE
orf19.4056  KLLA0F17116g    

The orthologs of C. Albicans with A. gossypii
orf19.2119  AGR347W 
orf19.4998  AFR275W 
orf19.5908  AER177W 
orf19.610   ABR055C 
orf19.723   NONE
orf19.4056  ADR249W 

The orthologs of C. Albicans with K. waltii
orf19.2119  Kwal33.14699    
orf19.4998  Kwal26.8099 
orf19.5908  Kwal27.12423    
orf19.610   Kwal26.8176 
orf19.723   NONE
orf19.4056  Kwal47.17849    

The orthologs of C. Albicans with C. tropicalis
orf19.2119  CTRG01097.3 
orf19.4998  CTRG03636.3 
orf19.5908  CTRG02294.3 
orf19.610   NONE
orf19.723   CTRG00608.3 
orf19.4056  CTRG04523.3 

The orthologs of C. Albicans with L. elongosporus
orf19.2119  LELG01178   
orf19.4998  NONE
orf19.5908  LELG02666   
orf19.610   LELG05390   
orf19.723   LELG03123   
orf19.4056  LELG01761   

The orthologs of C. Albicans with C. parapsilosis
orf19.2119  CPAG04608   
orf19.4998  NONE
orf19.5908  CPAG01691   
orf19.610   CPAG00178   
orf19.723   CPAG00564   
orf19.4056  CPAG05034   

The orthologs of C. Albicans with D. hansenii
orf19.2119  DEHA2A07282g    
orf19.4998  NONE
orf19.5908  DEHA2G13794g    
orf19.610   DEHA2E10978g    
orf19.723   DEHA2E05984g    
orf19.4056  DEHA2E07172g    DEHA2F25916g    

The orthologs of C. Albicans with C. guilliermondii
orf19.2119  PGUG02096.1 
orf19.4998  NONE
orf19.5908  PGUG04378.1 
orf19.610   PGUG03651.1 
orf19.723   PGUG05571.1 
orf19.4056  PGUG05533.1 

The orthologs of C. Albicans with C. lusitaniae
orf19.2119  CLUG00404   
orf19.4998  NONE
orf19.5908  CLUG04694   
orf19.610   CLUG02047   
orf19.723   CLUG00627   
orf19.4056  CLUG05535
Puede consultar biopython si se siente cómodo con la programación de Python
¿En qué sistema operativo harías esto? ¿Tienes acceso a herramientas UNIX? Además, muéstranos el resto de los nombres de los genes. ¿Qué identificadores tienes? La respuesta dependerá de a qué base de datos apunten los identificadores.
@terdon: tengo herramientas de Unix (debian es el sistema operativo). OK Voy a enumerar los genes.
Sería bastante fácil si tiene ID de Refseq/ENSEMBL para esos genes.
@terdon: He actualizado la pregunta.

Respuestas (2)

Estas secuencias no tienen ninguna identificación estándar. La información en Saccharomyces Genome Database también está obsoleta (2005) y no tiene estos identificadores.

Estas secuencias se pueden encontrar aquí (en el mismo sitio).

Cada especie tiene un nombre corto:

ORGANISMO Nombre corto 
S.cerevesiae Scer
S. bayanus Sbay
S. paradoxus Spar
A. gossypii Agos

.... etcétera. 

Primera letra del nombre del género en mayúsculas + primeras 3 letras del nombre de la especie en minúsculas.

El archivo fasta (para todos los ORF) es:
www.broadinstitute.org/regev/orthogroups/nt/<Shortname>.fasta

Desde allí, puede usar grep para recuperar la secuencia.

Entonces, si ha guardado nombres abreviados y nombres de genes en dos archivos separados, puede hacer algo como esto:

for shortname in `cat shortname.txt`; do wget -O tmp.fa "http://www.broadinstitute.org/regev/orthogroups/nt/"$shortname.fasta; grep -A 1 -f ids.txt tmp.fa >> $shortname"_Select.fa"; done
OK gracias, eso fue muy útil.
@dexterdev El código de búsqueda se puede hacer mejor y más rápido según lo que realmente desee como salida.
@dexterdev La primera es la secuencia de nucleótidos y la segunda es la secuencia de proteínas. Di el primer enlace porque dijiste que querías nucleótido.
Perdón por la pregunta tonta. Lo miré, pero no me di cuenta de eso. Lo siento.

Bien, el primer paso debe ser asignar todos estos ID a la misma base de datos. Intente usar http://uniprot.org si desea secuencias de proteínas más, busque cada una de ellas y encuentre la ID de Refseq correspondiente. Dado que tiene identificaciones de varias bases de datos, es posible que deba buscarlas en Google individualmente. Si conoce el tipo de identificación de cada identificador que tiene, puede usar una herramienta como el convertidor de nombres de genes de DAVID para automatizarlo.

Una vez que tenga una lista de ID de la misma base de datos, guárdelas en un archivo (una ID por línea). Luego, para las accesiones UniProt, puede obtener la secuencia de la proteína FASTA ejecutando:

while read name; do wget -O - http://uniprot.org/$name.fasta; done < names.txt

Para los ID de RefSeq, puede utilizar la herramienta de recuperación por lotes de Entrez.

Respuesta útil. Una cosa, no estoy trabajando en secuencias de proteínas, sino solo en secuencias de nucleótidos.
Cuando busqué en Google estas identificaciones, no pude encontrar ninguna coincidencia en una base de datos. Revisé SGD pero su repositorio (del MIT) está obsoleto (2005). Incluso entonces, el archivo orf fasta ( S.paradoxus ) no tenía un identificador como spar*o SPAR*. Ejemplo; primer encabezado fasta: ORFN:24882 YPRWsigma4, Contig c301 66351-67256. Estos ni siquiera son del ensamblaje completo; dice contigo.