Tengo 6 genes de levadura Candida albicans , a saber orf19.723
, orf19.5908
, orf19.610
, y . Y he encontrado los genes ortólogos correspondientes del sitio web del Instituto Broad de otras 16 especies de levadura. Así que tengo todos los nombres de los genes. Ahora, ¿cómo descargaría específicamente estos genes y desde dónde puedo hacerlo, preferiblemente de manera automatizada?orf19.2119
orf19.4998
orf19.4056
¿También hay alguna convención de nomenclatura estándar? Porque los nombres ORF dados también tienen otros nombres como BCR1, EFG1 y NDT80.
La lista de nombres de genes que tengo:
The orthologs of C. Albicans with S. cerevisiae
orf19.2119 YHR124W
orf19.4998 YBR033W YKL034W
orf19.5908 YBR083W
orf19.610 YMR016C YKL043W
orf19.723 NONE
orf19.4056 YMR136W
The orthologs of C. Albicans with S. paradoxus
orf19.2119 spar33-g1.1
orf19.4998 spar197-g23.1 spar324-g3.1
orf19.5908 spar200-g4.1
orf19.610 spar184-g1.1 spar324-g10.1
orf19.723 NONE
orf19.4056 spar165-g2.1
The orthologs of C. Albicans with S. mikatae
orf19.2119 NONE
orf19.4998 smik146-g12.1 smik109-g17.1
orf19.5908 smik83-g2.1
orf19.610 smik571-g2.1 smik109-g10.1
orf19.723 NONE
orf19.4056 smik1535-g1.1
The orthologs of C. Albicans with S. bayanus
orf19.2119 sbayc514-g9.1
orf19.4998 sbayc611-g22.1 sbayc652-g20.1
orf19.5908 sbayc678-g131.1
orf19.610 sbayc638-g23.1 sbayc652-g27.1
orf19.723 NONE
orf19.4056 sbayc657-g41.1
The orthologs of C. Albicans with S. castellii
orf19.2119 Scas697.24
orf19.4998 Scas625.4
orf19.5908 Scas718.27 Scas635.12
orf19.610 Scas106.1 Scas709.52 Scas625.8
orf19.723 NONE
orf19.4056 Scas680.22d
The orthologs of C. Albicans with C. glabrata
orf19.2119 CAGL0L13090g
orf19.4998 CAGL0L01947g
orf19.5908 CAGL0M01716g CAGL0F04081g
orf19.610 CAGL0M07634g CAGL0L01771g
orf19.723 NONE
orf19.4056 CAGL0I00902g CAGL0L06776g
The orthologs of C. Albicans with S. kluyveri
orf19.2119 SAKL0E11330g
orf19.4998 SAKL0A09812g
orf19.5908 SAKL0B06578g
orf19.610 SAKL0D13442g
orf19.723 SAKL0A03476g
orf19.4056 SAKL0E04862g
The orthologs of C. Albicans with K. lactis
orf19.2119 KLLA0F24420g
orf19.4998 KLLA0F25674g
orf19.5908 KLLA0E12507g
orf19.610 KLLA0F04840g
orf19.723 NONE
orf19.4056 KLLA0F17116g
The orthologs of C. Albicans with A. gossypii
orf19.2119 AGR347W
orf19.4998 AFR275W
orf19.5908 AER177W
orf19.610 ABR055C
orf19.723 NONE
orf19.4056 ADR249W
The orthologs of C. Albicans with K. waltii
orf19.2119 Kwal33.14699
orf19.4998 Kwal26.8099
orf19.5908 Kwal27.12423
orf19.610 Kwal26.8176
orf19.723 NONE
orf19.4056 Kwal47.17849
The orthologs of C. Albicans with C. tropicalis
orf19.2119 CTRG01097.3
orf19.4998 CTRG03636.3
orf19.5908 CTRG02294.3
orf19.610 NONE
orf19.723 CTRG00608.3
orf19.4056 CTRG04523.3
The orthologs of C. Albicans with L. elongosporus
orf19.2119 LELG01178
orf19.4998 NONE
orf19.5908 LELG02666
orf19.610 LELG05390
orf19.723 LELG03123
orf19.4056 LELG01761
The orthologs of C. Albicans with C. parapsilosis
orf19.2119 CPAG04608
orf19.4998 NONE
orf19.5908 CPAG01691
orf19.610 CPAG00178
orf19.723 CPAG00564
orf19.4056 CPAG05034
The orthologs of C. Albicans with D. hansenii
orf19.2119 DEHA2A07282g
orf19.4998 NONE
orf19.5908 DEHA2G13794g
orf19.610 DEHA2E10978g
orf19.723 DEHA2E05984g
orf19.4056 DEHA2E07172g DEHA2F25916g
The orthologs of C. Albicans with C. guilliermondii
orf19.2119 PGUG02096.1
orf19.4998 NONE
orf19.5908 PGUG04378.1
orf19.610 PGUG03651.1
orf19.723 PGUG05571.1
orf19.4056 PGUG05533.1
The orthologs of C. Albicans with C. lusitaniae
orf19.2119 CLUG00404
orf19.4998 NONE
orf19.5908 CLUG04694
orf19.610 CLUG02047
orf19.723 CLUG00627
orf19.4056 CLUG05535
Estas secuencias no tienen ninguna identificación estándar. La información en Saccharomyces Genome Database también está obsoleta (2005) y no tiene estos identificadores.
Estas secuencias se pueden encontrar aquí (en el mismo sitio).
Cada especie tiene un nombre corto:
ORGANISMO Nombre corto S.cerevesiae Scer S. bayanus Sbay S. paradoxus Spar A. gossypii Agos .... etcétera.
Primera letra del nombre del género en mayúsculas + primeras 3 letras del nombre de la especie en minúsculas.
El archivo fasta (para todos los ORF) es:
www.broadinstitute.org/regev/orthogroups/nt/<Shortname>.fasta
Desde allí, puede usar grep para recuperar la secuencia.
Entonces, si ha guardado nombres abreviados y nombres de genes en dos archivos separados, puede hacer algo como esto:
for shortname in `cat shortname.txt`; do wget -O tmp.fa "http://www.broadinstitute.org/regev/orthogroups/nt/"$shortname.fasta; grep -A 1 -f ids.txt tmp.fa >> $shortname"_Select.fa"; done
Bien, el primer paso debe ser asignar todos estos ID a la misma base de datos. Intente usar http://uniprot.org si desea secuencias de proteínas más, busque cada una de ellas y encuentre la ID de Refseq correspondiente. Dado que tiene identificaciones de varias bases de datos, es posible que deba buscarlas en Google individualmente. Si conoce el tipo de identificación de cada identificador que tiene, puede usar una herramienta como el convertidor de nombres de genes de DAVID para automatizarlo.
Una vez que tenga una lista de ID de la misma base de datos, guárdelas en un archivo (una ID por línea). Luego, para las accesiones UniProt, puede obtener la secuencia de la proteína FASTA ejecutando:
while read name; do wget -O - http://uniprot.org/$name.fasta; done < names.txt
Para los ID de RefSeq, puede utilizar la herramienta de recuperación por lotes de Entrez.
spar*
o SPAR*
. Ejemplo; primer encabezado fasta: ORFN:24882 YPRWsigma4, Contig c301 66351-67256
. Estos ni siquiera son del ensamblaje completo; dice contigo.
Luigi
terdón
dexterdev
WYSIWYG
dexterdev