¿Por qué la secuencia de aminoácidos presentada en el Catalytic Site Atlas de una proteína dada difiere de la secuencia en el RSCB Protein Data Bank?

Quería comparar la secuencia de aminoácidos de las enzimas para este proyecto en el que estoy trabajando y necesito compararlas en su sitio catalítico. Para eso, fui al Catalitic Site Atlas para obtener la información sobre el sitio catalítico, pero como no ofrecen una manera fácil de descargar los datos de la estructura mediante programación, los descargué del RSCB PDB descargando la secuencia fasta. Al verificar los sitios catalíticos, no coincidía con lo que me decía la CSA y fue entonces cuando me di cuenta de que son archivos diferentes. Tomemos por ejemplo los 3nos, el CSA presenta la siguiente secuencia :

MGNLKS...

Mientras que el PDB presenta la siguiente secuencia :

PKFPRV...

¿Por qué no son la misma secuencia si es la misma proteína?

Lo siento si es una pregunta novata, no soy biólogo, solo un científico informático al que le gusta la bioinformática.

Informacion IMPORTANTE:

Los datos de CSA provienen de aquí mientras que los datos de PDB provienen de aquí

Edite su pregunta y proporcione los enlaces exactos que utilizó para descargar. La explicación más simple es que en realidad no está mirando la misma proteína, pero no podemos estar seguros a menos que muestre exactamente lo que está comparando. Por ejemplo, su enlace RCSB muestra dos secuencias pero no hay información sobre de qué especie son, qué isoforma, ni si son la proteína completa. De hecho, parecen fragmentos de proteínas (la mayoría de las proteínas comienzan con una M). Supongo que está viendo la secuencia completa en un sitio y una subsecuencia en el otro, pero no puedo estar seguro.
Ahí tienes, lo siento por eso

Respuestas (3)

Los resultados de la cristalografía (archivos pdb) casi siempre contienen una secuencia truncada.

Ambos extremos de una proteína a menudo son flexibles (incluso en un cristal) y no dan como resultado suficientes datos para un buen ajuste. Los residuos correspondientes se eliminan del modelo y la secuencia, y solo quedan los residuos que muestran una densidad de electrones definida.

Una secuencia está parcialmente contenida en la otra (resaltada).

Entonces, la secuencia CSA es (formato FASTA, truncada):

>sp|P29474|NOS3_HUMAN Nitric oxide synthase, endothelial OS=Homo sapiens GN=NOS3 PE=1 SV=3
MGNLKSVAQEPGPPCGLGLGLGLGLCGKQGPATPAPEPSRAPASLLPPAPEHSPPSSPLT QPPEG PKFPRVKNWEVGSITYDTLSAQAQQDGPCTPRRCLGSLVFPRKLQGRPSPGPPAP EQLLSQARDFINQYYSSIKRSGSQAHEQRLQEVEAEVAATGTYQLRESELVFGAKQAWRN ...

tomado de http://www.uniprot.org/uniprot/P29474 para mayor comodidad.

Mientras que el PDB uno es:

>3NOS:A|PDBID|CHAIN|SEQUENCE PKFPRVKNWEVGSITYDTLSAQAQQDGPCTPRRCLGSLVFPRKLQGRPSPGPPAPEQLLSQARDFINQYYSSIKRSGSQA HEQRLQEVEAEVAATGTYQLRESELVFGAKQAWRNAPRCVGRIQWGKLQVFDARDCRSAQEMFTYICNHIKYATNRGNLR SAITVFPQRCPGRGDFRIWNSQLVRYAGYRQQDGSVRGDPANVEITELCIQHGWTPGNGRFDVLPLLLQAPDEPPELFLL...

La entrada de Uniprot menciona 3 isoformas diferentes debido al empalme alternativo, así que tal vez eso es lo que está pasando aquí. Aquí está el resultado de una alineación de secuencia (usando https://www.ebi.ac.uk/Tools/psa/emboss_matcher/ ):

#=======================================
#
# Secuencias_alineadas: 2
# 1: NOS3_HUMANO
# 2: SECUENCIA
# Matriz: EBLOSUM62
# Gap_penalty: 14\
# Extender_penalización: 4
#
# Longitud: 240
# Identidad: 240/240 (100,0%)
# Similitud: 240/240 (100,0%)
# Brechas: 0/240 ( 0.0%)
# Puntuación: 1294
#
#
#=======================================

NOS3_HUMAN 66 PKFPRVKNWEVGSITYDTLSAQAQQDGPCTPRRCLGSLVFPRKLQGRPSP 115
                     |||||||||||||||||||||||||||||||||||||||||||||||||||
SECUENCIA 1 PKFPRVKNWEVGSITYDTLSAQAQQDGPCTPRRCLGSLVFPRKLQGRPSP 50

NOS3_HUMANO 116 GPPAPEQLLSQARDFINQYYSSIKRSGSQAHEQRLQEVEAEVAATGTYQL 165
                     |||||||||||||||||||||||||||||||||||||||||||||||||||
SECUENCIA 51 GPPAPEQLLSQARDFINQYYSSIKRSGSQAHEQRLQEVEAEVAATGTYQL 100

NOS3_HUMAN 166 RESELVFGAKQAWRNAPRCVGRIQWGKLQVFDARDCRSAQEMFTYICNHI 215
                     |||||||||||||||||||||||||||||||||||||||||||||||||||
SECUENCIA 101 RESELVFGAKQAWRNAPRCVGRIQWGKLQVFDARDCRSAQEMFTYICNHI 150

NOS3_HUMANO 216 KYATNRGNLRSAITVFPQRCPGRGDFRIWNSQLVRYAGYRQQDGSVRGDP 265
                     |||||||||||||||||||||||||||||||||||||||||||||||||||
SECUENCIA 151 KYATNRGNLRSAITVFPQRCPGRGDFRIWNSQLVRYAGYRQQDGSVRGDP 200

NOS3_HUMAN 266 ANVEITELCIQHGWTPGNGRFDVLPLLLQAPDEPPELFLL 305
                     ||||||||||||||||||||||||||||||||||||||||
SECUENCIA 201 ANVEITELCIQHGWTPGNGRFDVLPLLLQAPDEPPELFLL 240

Esta respuesta es correcta, solo quería agregar que la numeración de secuencia correcta se conserva en el archivo PDB en el registro DBREF (que puede ver al abrir el PDB en un editor de texto):

DBREF 3NOS A 66 492 UNP P29474 NOS3_HUMAN 66 492

En lenguaje sencillo, la secuencia presentada en este archivo ( 3NOScadena A) corresponde a los residuos 66- de la entrada492 asociada UniProt ( UNP) (acceso: ).P29474