¿Cuántas proteínas hay en el proteoma de la Tierra? [cerrado]

Los humanos solos tienen miles de proteínas. Con eso en mente, parece que la cantidad total de proteínas entre todas las especies sería muy grande.

¿Hay estimaciones disponibles de cuántas proteínas existen en la tierra en todos los organismos? También me interesaría saber cuántas de estas son proteínas únicas en comparación con proteínas que son muy similares a otras proteínas, es decir , una estimación de proteínas no redundantes junto con proteínas redundantes.

Bueno, recuerde que casi todas las proteínas se desarrollan a partir de otras proteínas relacionadas, por lo que cuántas considera únicas es realmente una cuestión de definición. Si tú y yo tenemos una proteína con una sustitución de un solo aminoácido, ¿es una proteína nueva? Hace que la pregunta sea imposible de responder.
Como mencionó @BryanKrause, si tiene la intención de que 'único' signifique "encontrado solo en humanos / solo en uno de todos los demás organismos", habrá muy pocos. Si quiere decir 'único' para decir "diferente", no tenemos esa respuesta. ¡Todavía estamos descubriendo nuevas especies casi todos los días!
@BryanKrause La redundancia de proteínas es un método bastante común para permitir que los grupos de proteínas estén representados por una sola proteína. Esto evita sesgos introducidos por sistemas demasiado estudiados o por grandes grupos de proteínas muy similares que enmascaran proteínas distantes que tendrían una bioquímica diferente. Es una forma científica de generar listas de proteínas "únicas".
No veo ninguna razón por la que deba cerrarse como poco claro. Es un simple fácil de entender la pregunta. De hecho, es subjetivo, pero hay documentos que estiman este tipo de preguntas, por lo que no es completamente una cuestión de opinión.
Voy a votar para reabrir esta pregunta ya que ha habido estudios científicos sobre exactamente esta pregunta. Ver "Hacia la finalización del proteoma terrestre" Pérez-Iratxeta et al. 2007. Esta pregunta se puede cuantificar y explorar objetivamente. Por otro lado, los votos poco claros parecen deberse a una falta de comunicación de que las secuencias individuales pueden representar grupos homólogos. He editado la pregunta para que esta parte de la pregunta sea más clara.
Para los votantes cercanos, ¿qué pasa con esta pregunta es demasiado amplia? Potencialmente, podría responderse solo con un número y una cita.

Respuestas (1)

Registros actuales

Según Uniprot, hay 85.381.808 registros de proteínas, y con el filtro UniRef90 ( es decir , eliminando registros que pueden representarse por una entrada con al menos un 90% de similitud de secuencia), hay 42.424.511 . Sin embargo, estas bases de datos son objetivos móviles y cambiarán con el tiempo. Secuenciaremos más especies, encontraremos nuevas isoformas de empalme y varios otros métodos ampliarán las bases de datos. De hecho, las bases de datos también se truncarán de vez en cuando, ya que algunas proteínas hipotéticas pueden estar basadas en genes que resultan no codificar proteínas después de todo.

En 2007, un estudio estimó que el proteoma de la Tierra contendría alrededor de 5 millones de secuencias , y que la mayoría de ellas estarían aclaradas para 2012. Sospecho que este es un estudio muy completo, sin embargo, muchas cosas han cambiado en los últimos 10 años. Esta estimación es en realidad menor que los casi 9 millones de especies estimadas en estudios más recientes .

Estimación aproximada

Así que hagamos un poco de matemáticas en la parte de atrás del sobre. Supongamos que el artículo que estima casi 9 millones de especies es correcto y que solo hemos catalogado alrededor de 1,2 millones. Pero UniProt ni siquiera se acerca a este número. UniProt contiene 25477 nombres científicos en su vocabulario controlado . Entonces, para 25 mil nombres, tenemos 85 millones de registros de proteínas. ¿Y si tuviéramos 8,75 millones de nombres? Asumamos:

PAGS r mi d i C t mi d   PAGS r o t mi i norte s PAGS r mi d i C t mi d   S pags mi C i mi s = k norte o w norte   PAGS r o t mi i norte s k norte o w norte   S pags mi C i mi s

Podemos reorganizar esto para:

PAGS r mi d i C t mi d   S pags mi C i mi s   ×   k norte o w norte   PAGS r o t mi i norte s k norte o w norte   S pags mi C i mi s = PAGS r mi d i C t mi d   PAGS r o t mi i norte s

Estimación generosa (Uniprot, 335527 proteínas por especie):

8750000 × 85381808 25477 = 2.932413 mi + 10

Estimación conservadora ( Swissprot , 41 proteínas por especie):

8750000 × 554241 13408 = 3.616952 mi + 7

En aras de la exhaustividad, supongamos que la cantidad de <90 % de proteínas idénticas permanecerá alrededor de la mitad de ese valor. Podemos decir que podría haber alrededor 1.8 mi + 7 a 1.5 mi + 10 Proteínas "únicas" , menos de un billón ( 1 mi + 12 ). Dadas las 335 mil proteínas absurdamente generosas y las 41 proteínas muy mezquinas por especie, podemos estar bastante seguros de que si realmente hay 8,75 millones de especies, la cantidad de proteínas se ubicará entre esas estimaciones.

La suposición más importante aquí es que las proteínas tienen una relación lineal con las especies, lo que es poco probable que sea el caso, y en la generosa estimación pretendemos que no hay proteínas en UniProt que no tengan anotación de especies. En cuanto a Swissprot, esto solo incluye proteínas que se han curado manualmente, por lo que ignora muchas proteínas que es seguro asumir que existen y, por lo general, solo cubre proteínas que son de interés para los científicos.


Una corrección menor a su pregunta, UniProt enumera ~ 20 mil genes de codificación de proteínas en el proteoma humano , no millones. Esos genes que codifican proteínas están sujetos a diversas modificaciones postraduccionales y empalmes de isoformas, por lo que habrá más proteínas finales que 20k.

¡El proteoma humano puede contener millones de proteínas diferentes si consideramos que las proteínas con diferentes modificaciones postraduccionales (PTM) son diferentes!
@JeppeNielsen Hice una pregunta similar sobre esto: ¿Por qué UniProt enumera 150,000 proteínas en el proteoma humano?
El hecho de que una base de datos no considere que las proteínas con diferentes PTM sean diferentes no significa que las proteínas sean idénticas. Si ignora los PTM, no puede explicar los tipos de sangre ABO, ya que son causados ​​​​por diferencias en los patrones de glicosilación.
Otro buen ejemplo sería el receptor de insulina, que viene en muchas variantes diferentes.
@JeppeNielsen Sí, hay muchos PTM, isoformas de empalme y otras variantes que realizan diferentes funciones. Sin embargo, todos son de ~20.000 genes codificadores de proteínas.
Entonces, diría que el genoma contiene ~ 20,000 genes que codifican proteínas. El proteoma es mucho más grande.
@canadianer Todavía no existe una definición estricta del proteoma. UniProt tiene 20k registros bajo el proteoma humano. Después de los PTM y el empalme de isoformas, hay muchas más proteínas. He dicho esto en los comentarios, pero como dos personas no están contentas por alguna razón, he editado la respuesta para que sea más clara.
Cada registro UniProt contiene isoformas y modificaciones. Que elijan organizar su base de datos de esta manera no me parece que tenga nada que ver con la definición del término proteoma. Cualquier definición que haya escuchado se refiere al complemento completo de proteínas expresadas. Consulte UniProt's , por ejemplo: Un proteoma es el conjunto de secuencias de proteínas que se pueden derivar mediante la traducción de todos los genes que codifican proteínas de un genoma completamente secuenciado, incluidos productos alternativos como variantes de empalme...
PD: Me disculpo si parecí discutidor; esa no era mi intención. Creo que las definiciones son importantes, pero también me doy cuenta de que no hay verdaderas autoridades en mucha terminología.
Gracias canadiense, tu comentario anterior resalta lo que estaba tratando de transmitir. Es decir, que el número de entradas de la base de datos es mucho menor que el posible número de proteínas derivadas de esas entradas.
@JeppeNielsen Sí, veo tu punto. Pero incluso si cada registro tuviera un promedio de 10 isoformas de empalme y PTM, estos errores no son nada en comparación con el otro error que causa suposiciones que parecen generar varios órdenes de magnitud de variación en la estimación.