Comprender los códigos de identificación comunes (ID) en las bases de datos biológicas

Sé que esto es muy básico, pero me gustaría entenderlo y es difícil saber por dónde empezar con una nueva base de datos.

tengo la salida:

sp|Q9NZT1|CALL5_HUMAN

Sin embargo, no estoy seguro exactamente a qué se refiere esto.

  • ¿Q9NZT1 es un identificador único?
  • ¿CALL5_HUMAN también es único?
  • ¿Se deben usar ambos juntos para obtener información?

  • ¿Cuántos tipos de identificación hay?

¡Hola y bienvenido a Bio.SE! He hecho algunas modificaciones a su pregunta para que quede más claro a lo que se refiere. Siéntase libre de revertir esos cambios :)
@James gracias, todo está bien. agradezco cualquier comentario y ayuda :-)
Me alegro de poder ayudar. No estaba seguro de lo que estabas preguntando exactamente cuando dijiste "¿Cuántos tipos de identificación hay?" ¿Respondí a su pregunta o estaba hablando de manera más general "¿cuántas bases de datos usan ID diferentes?"
@James, su respuesta fue muy buena, pero le agradezco que la haga más general sobre las bases de datos, etc. para que pueda aceptarla.
Si abre la pregunta a las bases de datos generales, se vuelve demasiado amplia para responder de manera significativa. Le sugiero que edite la pregunta para dejar en claro lo que quiere saber. Actualicé mi respuesta con un poco de información relacionada con algunas de las bases de datos más populares.

Respuestas (1)

Códigos de identificación de biología comunes.

  • PDB: 2BIB por ejemplo. Código de 4 letras para una estructura específica.

  • Uniprot: Q9NZT1 por ejemplo. Una combinación de seis letras de números y letras para un registro TrEMBL o Swissprot. Este registro contiene información sobre dominios, y Uniprot enlaza con muchas cosas útiles como bases de datos de interacción, conjuntos de datos de redundancia, etc.

  • Pfam: X1WG39_DANRE Un ID uniprot seguido de un identificador. Estrechamente vinculado con Uniprot, pero con énfasis en los dominios.

  • NCBI: NP_000108.1 Por ejemplo. Estos ID se vinculan a un gen, transcripción o proteína en refseq. En un registro NCBI hay dos distinciones principales en el prefijo del código de ID: aserciones hipotéticas/automáticas (XM_, XR_ y XP_) y aserciones seleccionadas manualmente (NM_, NR_ y NP_). A esto le sigue un número de 6 dígitos y, a veces, un "." y un número, que indica una isoforma de empalme.


Identificaciones Uniprot

No estoy seguro de dónde obtuvo este resultado, por lo que parece una extraña concatenación de información de Uniprot.

Q9NZT1 es, de hecho, la ID única de Uniprot. Esto es específico de uniprot.

CALL5_HUMAN es el "nombre del gen" o "Identificador" y, a menudo, abarca diferentes bases de datos para ese gen. Es un poco más back-end, pero esencialmente no es único debido a las isoformas de empalme.

Hay muchos ID en uniprot y muchos tipos. Ya debajo notará que algunos son swiss prot, otros son Trembl. Estos son los principales tipos. Swissprot se revisa manualmente, mientras que Trembl es una colección compilada automáticamente.

captura de pantalla que muestra que hay medio millón de ID de Swiss-prot y 60 millones de ID de TrEMBL

Hay muchos tipos de códigos de acceso diferentes y cada base de datos utiliza su propia nomenclatura con la que se encontrará. Desafortunadamente, hay demasiados para enumerarlos aquí de forma exhaustiva.