¿Dónde puedo encontrar grandes conjuntos de datos de redes de interacción de proteínas?

¿Dónde encuentro grandes conjuntos de datos de redes de interacción de proteínas para el cáncer o las enfermedades de alzheimer? Hasta ahora, encontré String pero no tiene suficientes proteínas para mis propósitos. ¿Existen tales bases de datos con más entradas? Sigo abierto a cualquier propuesta de la enfermedad para elegir. la parte más importante es el volumen de datos. ¿Y cómo puedo obtener la anotación de cada proteína de la red extraída de Uniprot?

Bienvenido a Biología.SE. Edité tu pregunta para que quede más clara. Por favor, siéntase libre de editar más. ¡Gracias!
La base de datos String es una de las mejores disponibles, ¿cuántas proteínas necesita? (considere que se predice que el genoma humano tiene alrededor de 25k genes que codifican proteínas)
@alec_djinn Necesito alrededor de 5k o 6k de proteínas para el alzheimer o el cáncer, pero no sé cómo recuperar esa cantidad de una vez.
@AM No puedo encontrar el número exacto de entradas para las proteínas humanas, tal vez debería contactarlos, 5k suena razonable, espero que lo tengan. Si no, tal vez pueda integrarse con otras proteínas de mamíferos. Hasta donde yo sé, STRING es lo más completo que puedes encontrar ahora.
@alec_djinn Está bien. gracias me pondre en contacto con ellos
@AM ¿Qué te hace pensar que puedes encontrar proteínas 5k para el Alzheimer? ¿Su hipótesis es que 1/5 del genoma humano está involucrado en el Alzheimer? Sin embargo, podría tomar los genes en la vía KEGG para la enfermedad de Alzheimer, o tomar los genes que se sabe que son genéticamente causantes o asociados con la EA e incluir todos sus interactores. Creo que la red crecerá bastante como tal.
@alec_djinn ehm, la base de datos STRING es una de las más grandes disponibles pero no una de las mejores. Probablemente lo peor, en realidad, ya que tiene muchos datos malos. A menos que tenga los conocimientos suficientes para analizar las cosas malas, no lo recomiendo.
@AM edite su pregunta y aclare sus necesidades. ¿Desea limitar los resultados solo a interacciones binarias? ¿También te interesan las interacciones no directas como formar parte del mismo complejo? ¿Quieres solo interacciones verificadas experimentalmente o también inferidas por anotaciones electrónicas? ¿Tiene una lista de proteínas de interés? Agrega más detalles.
@WouterDeCoster, ¿me sugeriría una aplicación donde pueda obtener un conjunto de datos tan grande? No estoy realmente limitado a Azheimer, fue solo una propuesta. Estoy abierto a cualquier enfermedad que me proporcione esta proporción de datos.
@terdon si no es así, ¿qué base de datos recomendaría? No tengo una proteína de interés, solo quiero un gran conjunto de datos de interacción proteína proteína para una enfermedad, eso es todo, estoy abierto a cualquier sugerencia.
@AM sí, pero ¿qué quiere decir con "interacciones proteína-proteína para una enfermedad"? ¿Cómo definiría la lista de proteínas que le interesan? Normalmente comienza con una pequeña lista de proteínas "cebo" y luego recopila sus interactores, avanzando tantos pasos hacia abajo en la red como sea necesario.
@terdon No me importa la lista de proteínas que necesito, más que la idea de una red específica para una enfermedad, tener 4k a 5k de proteínas, eso es todo
No sé cómo podrías definir eso. La inclusión de una proteína en la lista de proteínas implicadas en una enfermedad depende en gran medida de cómo se defina la asociación de enfermedades. ¿Son sólo las proteínas con función las que afectan a esta enfermedad? ¿Son también las proteínas las que interactúan con ellos? ¿Cuántos pasos eliminados? ¿Qué hay de las proteínas que controlan la expresión de genes relacionados? ¿O proteínas que interactúan con ellas? ¿O deberían ser solo las interacciones de proteínas cuyas alteraciones afectan a la enfermedad? ¿Y eso debería incluir proteínas ubicuas que están involucradas en casi todo?

Respuestas (1)

Hay un montón de bases de datos de interacción proteína-proteína decentes: Biocarta, BioGrid, DIP, InnateDB, IntAct, MINT, PPID. Algunos de ellos no están disponibles ahora, pero puede descargar conjuntos de datos desde la página de descarga de Expression2Kinases porque están integrados en la tubería X2K como parte del análisis de Genes2Networks. Si necesita más proteínas, puede enviar su lista de proteínas a X2K y usar el análisis G2N para conectar factores de transcripción enriquecidos a través de interacciones proteína-proteína conocidas.

Además, recientemente se publicó el nuevo conjunto de datos llamado hu.MAP . Es un conjunto de datos de interacciones proteína-proteína humana determinadas por más de 9000 experimentos de espectrometría de masas realizados por Marcotte Lab de UT Austin. Un documento que describe el proyecto hu.MAP está disponible en Biorxiv .

BioPlex ( interacciones biofísicas de complejos basados ​​en O RFeome) es otra base de datos con verificación experimental. Los autores lo describen como una red que es

el resultado de crear miles de líneas celulares, cada una de las cuales expresa una versión etiquetada de una proteína de la colección ORFeome. La inmunopurificación de la proteína etiquetada y la detección de proteínas asociadas mediante espectrometría de masas son los componentes básicos de la red. El objetivo general del proyecto es determinar las interacciones de proteínas para cada miembro de la colección.

Revisé IntAct y ofrece lo que estaba buscando, me pregunto si hay una manera de extraer todas las anotaciones de proteínas asociadas de uniprot. porque necesito obtener todas las anotaciones de cada proteína contenida en el conjunto de datos