¿Por qué y cómo uniprot enumera alrededor de 150.000 proteínas en el genoma humano?

El uso organism:"Homo sapiens (Human) [9606]"como consulta en uniprot devuelve unas 146.000 proteínas. Tenía la impresión de que sólo había 20-25.000 genes codificadores de proteínas en el genoma humano . ¿Tiene esto algo que ver con las isoformas de empalme, como las de SpliceProt , u otra base de datos o herramienta de isoformas de empalme?

Respuestas (2)

Bueno, estás asumiendo un genoma/proteoma secuenciado por identificación fiscal NCBI. Eso ya no es cierto. Entonces, si hace clic en el filtro de proteoma, se reduce a la mitad. Lo que te lleva al rango de 60,000. Ahora bien, no todos estos son proteínas conceptuales "diferentes", muchos son artefactos de la forma en que GenBank/EMBL/DDBJ interactúan con la sección TrEMBL de UniProtKB, es decir, no están normalizados en lenguaje DB.

Entonces, para el caso humano, también desea agregar el filtro Swiss-Prot para obtener un proteoma decente que le proporcione alrededor de 20,000 proteínas. Correspondiente al recuento de genes humanos predicho/confirmado.

En todas las bases de datos de bioinformática, debe prestar atención a la diferencia entre los registros de la base de datos y los conceptos biológicos. Raramente mapean limpiamente uno a uno. En este caso un registro UniProt no es una proteína, sino información sobre una proteína y un registro diferente podría tener información sobre la misma "proteína". O al menos lo mismo bajo algunas definiciones de "igual".

Vea el anuncio del proyecto de proteoma humano en UniProtKB

Las isoformas conocidas se almacenan con mayor frecuencia en la sección de productos alternativos de una entrada de UniProt. En algunos casos raros, cuando la variante de empalme tiene una función biológica completamente diferente, se describen en entradas separadas de UniProt. Para UniProtKB/Swiss-Prot Human existe una relación casi 1 a 1 entre genes y proteínas. Los casos como los anteriores y las proteínas de fusión son las excepciones a esta regla.

TrEMBL intenta reducir automáticamente la redundancia en INSDC mediante la fusión automática de entradas en el mismo taxid y ahora proteoma que tienen una secuencia informada idéntica. Sin embargo, las variaciones de los productos de un solo gen debido a mutaciones o limitan lo que puede hacer la fusión automática. Por ejemplo, hoy hay 8 registros para el gen P53 en TrEMBL. Muchos de ellos de mutantes, es decir, genomas de cáncer, etc.

Dado que la mayoría de las proteínas existen en más de una isoforma, el número debe ser superior a 20.000.
@chris en las isoformas UniProtKB no obtiene un registro independiente. Consulte neXtProt para obtener una base de datos centrada en isoformas de proteínas humanas.
Respuesta muy perspicaz, gracias. Para ser claros, estas 100 000 isoformas y artefactos provienen de GenBank, EMBL y DDBJ y se presentan como entradas de TrEMBL.
El punto clave es que hay más proteínas que genes porque existen muchos genes en múltiples formas de empalme. No debe esperar que la cantidad de genes y la cantidad de proteínas coincidan.

Hay más de 20 mil genes en el genoma, pero cada uno de ellos puede producir múltiples proteínas. Además de esto, tiene fragmentos de proteínas y productos de escisión que aumentan aún más el número de entradas.

También esperaba averiguar específicamente dónde o cómo uniprot encuentra la información sobre esos productos adicionales.
@GoodGravy Datos de proteómica, supongo
@GoodGravy Muchos de ellos provienen directamente de documentos y otras bases de datos como NCBI. Por ejemplo, B7U540 es una entrada que proviene de mí (a través de NCBI, ya que nunca la envié directamente a UniProt).