¿Cuál es una buena lista de estructuras de proteínas sin resolver?

Estoy tratando de obtener una lista de proteínas estructuradas solubles únicas que no tienen una estructura resuelta. Es decir, no son las proteínas de membrana habituales o algún derivado de otra proteína.

Las cosas en las que he podido pensar son factores de transcripción de baja producción y nuevas proteínas de fusión.

Puede construirlo usted mismo comparando los nombres de las proteínas (de la especie que elija) y los registros PDB. Los archivos planos UniProt tienen accesiones PDB para algunas proteínas, no para todas. Extraer las entradas sin PDB debería ser un buen punto de partida. Avíseme si esto le interesa y puedo escribir una respuesta con los detalles.
@terdon, eso suena más o menos como lo que estoy buscando. Desafortunadamente, podría haber un número significativo de proteínas que tienen análogos en otras especies pero esencialmente la misma estructura. Probablemente, la prueba segura sería mirar las estructuras sin resolver en ecoli.
Elige una proteína, cualquier proteína. Es probable que elija uno que no tenga una estructura cristalina resuelta. Además, deberá encontrar evidencia de que la proteína no está desordenada si desea que su estructura signifique algo.
@leonardo, bueno, eso parece ser un desafío.

Respuestas (3)

Hay algunos proyectos financiados y análisis disponibles solo para este propósito.

La genómica estructural o los proyectos de estructura de alto rendimiento toman todas las secuencias peptídicas disponibles, las agrupan en familias y se aseguran de que las familias de secuencias que apuntan a los nuevos pliegues más probables estén disponibles.

Aquí está el estado y la lista de objetivos para el centro conjunto de genómica estructural . Esta lista está filtrada por especies, así como por el estado del proyecto.

Su análisis está disponible para que lo exploremos. http://www1.jcsg.org/prod/newscripts/psca/help/document.cgi

Lo siento, esto no es tan completo. Nature también alberga Target Track, que permite que varios centros de estructura de alto rendimiento coordinen sus esfuerzos. Cada uno puede tener recursos que podrían hacer su trabajo por usted.

Así es como lo haría:

  1. Descargue el archivo plano UniProt/SWISSPROT para bacterias desde aquí .

  2. Después de descomprimir los archivos, extraiga las identificaciones de proteínas de E. coli para las que no hay una anotación PDB en el archivo (le doy una línea de comando que funcionará en sistemas *ix (Linux/Unix/OSX, etc.)):

    zcat uniprot_sprot_bacteria.dat.gz | gawk '{if($1~/ID/){if($2~/_ECOLI/){id=$2; frag=0; eco=1; want=1}else{eco=0}}  if($1~/DE/ && $0~/Flags: Fragment/){frag=1;}if($1~/DR/ && $2~/PDB/){want=0; } if($1~/\/\// && want==1 && eco==1 && frag==0){print id}}' > no_pdbs.txt
    

    Explicar los detalles de esta línea de comando está claramente fuera de tema aquí :). Baste decir que imprimirá aquellos UniProt ID del archivo plano cuyo nombre termina en _ECOLI y para los cuales no hay anotación PDB en el archivo. También ignora los fragmentos de proteínas. Si necesita ayuda para entenderlo, hágamelo saber y podemos chatear o algo.

El resultado de este análisis rápido y sucio es una lista de 2694 proteínas de E.coli sin anotaciones PDB en los archivos planos de UniProt.

ADVERTENCIAS:

  • Estas son solo las proteínas SWISSPROT seleccionadas, es posible que desee obtener también las proteínas UniProt/TrEMBL desde aquí . Sin embargo, le recomendaría que se apegue a SWISSPROT.

  • Como han señalado otros, debe filtrar esta lista por homología con otras estructuras conocidas.

  • El hecho de que no haya una anotación PDB en el archivo plano no significa necesariamente que no haya una estructura conocida.

Entonces, esto no es perfecto, pero debería servir como punto de partida. ¡Buena suerte!

También puede filtrar por diferentes bases de datos de modelos de proteínas como "ProteinModelPortal" para deshacerse de las proteínas que se pueden modelar en función de la homología.

Intente buscar en las bases de datos de homología de estructuras: las secuencias para las que no tienen anotación son probablemente el tipo de secuencias que está buscando.

SUPERFAMILY tiene una anotación completa en casi 2500 genomas celulares completamente secuenciados. este sería un buen lugar para empezar...