Los humanos solos tienen miles de proteínas. Con eso en mente, parece que la cantidad total de proteínas entre todas las especies sería muy grande.
¿Hay estimaciones disponibles de cuántas proteínas existen en la tierra en todos los organismos? También me interesaría saber cuántas de estas son proteínas únicas en comparación con proteínas que son muy similares a otras proteínas, es decir , una estimación de proteínas no redundantes junto con proteínas redundantes.
Según Uniprot, hay 85.381.808 registros de proteínas, y con el filtro UniRef90 ( es decir , eliminando registros que pueden representarse por una entrada con al menos un 90% de similitud de secuencia), hay 42.424.511 . Sin embargo, estas bases de datos son objetivos móviles y cambiarán con el tiempo. Secuenciaremos más especies, encontraremos nuevas isoformas de empalme y varios otros métodos ampliarán las bases de datos. De hecho, las bases de datos también se truncarán de vez en cuando, ya que algunas proteínas hipotéticas pueden estar basadas en genes que resultan no codificar proteínas después de todo.
En 2007, un estudio estimó que el proteoma de la Tierra contendría alrededor de 5 millones de secuencias , y que la mayoría de ellas estarían aclaradas para 2012. Sospecho que este es un estudio muy completo, sin embargo, muchas cosas han cambiado en los últimos 10 años. Esta estimación es en realidad menor que los casi 9 millones de especies estimadas en estudios más recientes .
Así que hagamos un poco de matemáticas en la parte de atrás del sobre. Supongamos que el artículo que estima casi 9 millones de especies es correcto y que solo hemos catalogado alrededor de 1,2 millones. Pero UniProt ni siquiera se acerca a este número. UniProt contiene 25477 nombres científicos en su vocabulario controlado . Entonces, para 25 mil nombres, tenemos 85 millones de registros de proteínas. ¿Y si tuviéramos 8,75 millones de nombres? Asumamos:
Podemos reorganizar esto para:
Estimación generosa (Uniprot, 335527 proteínas por especie):
Estimación conservadora ( Swissprot , 41 proteínas por especie):
En aras de la exhaustividad, supongamos que la cantidad de <90 % de proteínas idénticas permanecerá alrededor de la mitad de ese valor. Podemos decir que podría haber alrededor a Proteínas "únicas" , menos de un billón ( ). Dadas las 335 mil proteínas absurdamente generosas y las 41 proteínas muy mezquinas por especie, podemos estar bastante seguros de que si realmente hay 8,75 millones de especies, la cantidad de proteínas se ubicará entre esas estimaciones.
La suposición más importante aquí es que las proteínas tienen una relación lineal con las especies, lo que es poco probable que sea el caso, y en la generosa estimación pretendemos que no hay proteínas en UniProt que no tengan anotación de especies. En cuanto a Swissprot, esto solo incluye proteínas que se han curado manualmente, por lo que ignora muchas proteínas que es seguro asumir que existen y, por lo general, solo cubre proteínas que son de interés para los científicos.
Una corrección menor a su pregunta, UniProt enumera ~ 20 mil genes de codificación de proteínas en el proteoma humano , no millones. Esos genes que codifican proteínas están sujetos a diversas modificaciones postraduccionales y empalmes de isoformas, por lo que habrá más proteínas finales que 20k.
bryan krause
anongoodnurse
Jaime
Jaime
Jaime
Jaime