¿Cómo obtener el número de acceso de proteína versionado para un número de acceso de Refseq?
Tengo algunos números de acceso de RefSeq versionados y me gustaría saber sus números de acceso de proteínas correspondientes.
De acuerdo con RefSeqFAQ http://www.ncbi.nlm.nih.gov/books/NBK50679/#RefSeqFAQ.what_causes_the_version_number , no existe una asignación 1 a 1 entre estos números.
Además, los registros de nucleótidos (NM_, XM_) y proteínas (NP_, XP) para la misma transcripción pueden no tener el mismo número de versión después de una actualización. Por ejemplo, una actualización de la UTR 5' de un registro de nucleótidos de RefSeq provocaría un cambio en el número de versión del registro de nucleótidos actualizado, pero no del registro de proteínas correspondiente. Por el contrario, un cambio en el sitio de inicio anotado de la secuencia de codificación sin un cambio en la secuencia de nucleótidos subyacente provocaría una actualización del número de versión para
NP_
pero no para elNM_
.
He intentado esto, pero me da una enorme
>>> from Bio import Entrez
>>> Entrez.email='email@example.com'
>>> f = file('entrez_NM_005529.5.txt', 'w')
>>> print >>f, Entrez.efetch(
... db="protein",id="NM_005529.5", rettype="native", retmode="xml").read()
Los resultados XML contienen el número de cuenta de la proteína, <Textseq-id_accession>NP_005520</Textseq-id_accession>
pero no hay una versión especificada. ¿Existe una forma sencilla de obtener la versión correspondiente de la transcripción de la proteína?
Hay otra manera simple para las secuencias humanas.
Vaya a RefSeq FTP y descargue el archivo LRG_RefSeqGene . Este archivo contiene asignaciones actualizadas entre las secuencias de genes, ARNm y proteínas (últimas versiones).
De LÉAME :
Tab-delimited file reporting, for each Gene, the accession.version
of the genomic and RNA and protein RefSeqs the RefSeqGene/LRG
project treats as reference standards.
The columns are:
NCBI taxonomy id (all 9606)
GeneID
Symbol of the gene (official from HGNC when available)
Accession.version of the standard RefSeq
Term describing the RefSeq
RefSeqGene genomic sequence
Ref Std, nucleotide RNA sequence
Ref Std, protein protein sequence
The LRG equivalent of the RefSeq standard
LRG: genomic sequence
t1 locations for transcript 1
p1 CDS from transcript 1
NOTE: t values can be > 1 , the integer assigned to t
is matched by the integer assigned to p
Algunas líneas del archivo:
9606 3329 HSPD1 NG_008915.1 NM_199440.1 NP_955472.1 reference standard
9606 3329 HSPD1 NG_008915.1 NM_002156.4 NP_002147.2 aligned: Selected
9606 3336 HSPE1 NG_008914.1 NM_002157.2 NP_002148.1 reference standard
9606 3339 HSPG2 NG_016740.1 NM_005529.6 NP_005520.4 reference standard
No es tan fácil para otros organismos. Para ellos, debe analizar la página de ARNm para encontrar la identificación de la proteína RefSeq o ir a sus bases de datos designadas específicas (como FlyBase para Drosophila) y obtener información sobre el mapeo del gen a la proteína.
Para obtener registros de RefSeq de NCBI mediante el análisis, primero debe obtener el número de acceso de GI correspondiente al ARNm.
Ejemplo: NM_007393
(beta-actina de ratón)
http://eutils.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi?db=nucleotide&term=NM_007393
lo que daría el número de acceso de GI: 930945786
.
Luego obtenga la proteína GI usando este número de acceso:
http://eutils.ncbi.nlm.nih.gov/entrez/eutils/elink.fcgi?dbfrom=nucleotide&db=protein&id=930945786
que da el número de acceso GI:6671509
Finalmente, obtenga el ID de RefSeq (si está disponible) correspondiente a esta accesión de GI. Puede descargar la tabla de funciones y buscar el ID de RefSeq:
http://eutils.ncbi.nlm.nih.gov/entrez/eutils/elink.fcgi?dbfrom=nucleotide&db=protein&id=930945786&rettype=ft
Para obtener más información sobre cómo usar Entrez E-Utilities, consulte aquí .
terdón