¿Cómo obtener la transcripción de proteína RefSeq correcta para una transcripción de nucleótido RefSeq dada?

¿Cómo obtener el número de acceso de proteína versionado para un número de acceso de Refseq?

Tengo algunos números de acceso de RefSeq versionados y me gustaría saber sus números de acceso de proteínas correspondientes.

De acuerdo con RefSeqFAQ http://www.ncbi.nlm.nih.gov/books/NBK50679/#RefSeqFAQ.what_causes_the_version_number , no existe una asignación 1 a 1 entre estos números.

Además, los registros de nucleótidos (NM_, XM_) y proteínas (NP_, XP) para la misma transcripción pueden no tener el mismo número de versión después de una actualización. Por ejemplo, una actualización de la UTR 5' de un registro de nucleótidos de RefSeq provocaría un cambio en el número de versión del registro de nucleótidos actualizado, pero no del registro de proteínas correspondiente. Por el contrario, un cambio en el sitio de inicio anotado de la secuencia de codificación sin un cambio en la secuencia de nucleótidos subyacente provocaría una actualización del número de versión para NP_pero no para el NM_.

He intentado esto, pero me da una enorme

>>> from Bio import Entrez
>>> Entrez.email='email@example.com'
>>> f = file('entrez_NM_005529.5.txt', 'w')
>>> print >>f,  Entrez.efetch(
...     db="protein",id="NM_005529.5", rettype="native", retmode="xml").read()

Los resultados XML contienen el número de cuenta de la proteína, <Textseq-id_accession>NP_005520</Textseq-id_accession>pero no hay una versión especificada. ¿Existe una forma sencilla de obtener la versión correspondiente de la transcripción de la proteína?

¿Siempre está tratando con la última versión de nt o necesita obtener versiones anteriores?

Respuestas (1)

Hay otra manera simple para las secuencias humanas.

Vaya a RefSeq FTP y descargue el archivo LRG_RefSeqGene . Este archivo contiene asignaciones actualizadas entre las secuencias de genes, ARNm y proteínas (últimas versiones).

De LÉAME :

    Tab-delimited file reporting, for each Gene, the accession.version
      of the genomic and RNA and protein RefSeqs the RefSeqGene/LRG 
      project treats as reference standards.  

    The columns are:
      NCBI taxonomy id (all 9606)
      GeneID 
      Symbol of the gene (official from HGNC when available)
      Accession.version of the standard RefSeq
      Term describing the RefSeq 
         RefSeqGene              genomic sequence
         Ref Std, nucleotide     RNA sequence
         Ref Std, protein        protein sequence

      The LRG equivalent of the RefSeq standard
         LRG:                    genomic sequence
         t1                      locations for transcript 1
         p1                      CDS from transcript 1

         NOTE: t values can be > 1 ,  the integer assigned to t
               is matched by the integer assigned to p

Algunas líneas del archivo:

9606    3329    HSPD1   NG_008915.1     NM_199440.1     NP_955472.1     reference standard
9606    3329    HSPD1   NG_008915.1     NM_002156.4     NP_002147.2     aligned: Selected
9606    3336    HSPE1   NG_008914.1     NM_002157.2     NP_002148.1     reference standard
9606    3339    HSPG2   NG_016740.1     NM_005529.6     NP_005520.4     reference standard

No es tan fácil para otros organismos. Para ellos, debe analizar la página de ARNm para encontrar la identificación de la proteína RefSeq o ir a sus bases de datos designadas específicas (como FlyBase para Drosophila) y obtener información sobre el mapeo del gen a la proteína.

Para obtener registros de RefSeq de NCBI mediante el análisis, primero debe obtener el número de acceso de GI correspondiente al ARNm.

Ejemplo: NM_007393(beta-actina de ratón)

http://eutils.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi?db=nucleotide&term=NM_007393

lo que daría el número de acceso de GI: 930945786.

Luego obtenga la proteína GI usando este número de acceso:

http://eutils.ncbi.nlm.nih.gov/entrez/eutils/elink.fcgi?dbfrom=nucleotide&db=protein&id=930945786

que da el número de acceso GI:6671509

Finalmente, obtenga el ID de RefSeq (si está disponible) correspondiente a esta accesión de GI. Puede descargar la tabla de funciones y buscar el ID de RefSeq:

http://eutils.ncbi.nlm.nih.gov/entrez/eutils/elink.fcgi?dbfrom=nucleotide&db=protein&id=930945786&rettype=ft

Para obtener más información sobre cómo usar Entrez E-Utilities, consulte aquí .

Gracias por una respuesta muy completa. Afortunadamente solo estoy tratando con humanos, pero esto servirá como una explicación muy útil para otros.