El uso organism:"Homo sapiens (Human) [9606]"
como consulta en uniprot devuelve unas 146.000 proteínas. Tenía la impresión de que sólo había 20-25.000 genes codificadores de proteínas en el genoma humano . ¿Tiene esto algo que ver con las isoformas de empalme, como las de SpliceProt , u otra base de datos o herramienta de isoformas de empalme?
Bueno, estás asumiendo un genoma/proteoma secuenciado por identificación fiscal NCBI. Eso ya no es cierto. Entonces, si hace clic en el filtro de proteoma, se reduce a la mitad. Lo que te lleva al rango de 60,000. Ahora bien, no todos estos son proteínas conceptuales "diferentes", muchos son artefactos de la forma en que GenBank/EMBL/DDBJ interactúan con la sección TrEMBL de UniProtKB, es decir, no están normalizados en lenguaje DB.
Entonces, para el caso humano, también desea agregar el filtro Swiss-Prot para obtener un proteoma decente que le proporcione alrededor de 20,000 proteínas. Correspondiente al recuento de genes humanos predicho/confirmado.
En todas las bases de datos de bioinformática, debe prestar atención a la diferencia entre los registros de la base de datos y los conceptos biológicos. Raramente mapean limpiamente uno a uno. En este caso un registro UniProt no es una proteína, sino información sobre una proteína y un registro diferente podría tener información sobre la misma "proteína". O al menos lo mismo bajo algunas definiciones de "igual".
Vea el anuncio del proyecto de proteoma humano en UniProtKB
Las isoformas conocidas se almacenan con mayor frecuencia en la sección de productos alternativos de una entrada de UniProt. En algunos casos raros, cuando la variante de empalme tiene una función biológica completamente diferente, se describen en entradas separadas de UniProt. Para UniProtKB/Swiss-Prot Human existe una relación casi 1 a 1 entre genes y proteínas. Los casos como los anteriores y las proteínas de fusión son las excepciones a esta regla.
TrEMBL intenta reducir automáticamente la redundancia en INSDC mediante la fusión automática de entradas en el mismo taxid y ahora proteoma que tienen una secuencia informada idéntica. Sin embargo, las variaciones de los productos de un solo gen debido a mutaciones o limitan lo que puede hacer la fusión automática. Por ejemplo, hoy hay 8 registros para el gen P53 en TrEMBL. Muchos de ellos de mutantes, es decir, genomas de cáncer, etc.
Hay más de 20 mil genes en el genoma, pero cada uno de ellos puede producir múltiples proteínas. Además de esto, tiene fragmentos de proteínas y productos de escisión que aumentan aún más el número de entradas.
cris
Jerven
Jaime
Jack Aidley