Estoy tratando de obtener una lista de proteínas estructuradas solubles únicas que no tienen una estructura resuelta. Es decir, no son las proteínas de membrana habituales o algún derivado de otra proteína.
Las cosas en las que he podido pensar son factores de transcripción de baja producción y nuevas proteínas de fusión.
Hay algunos proyectos financiados y análisis disponibles solo para este propósito.
La genómica estructural o los proyectos de estructura de alto rendimiento toman todas las secuencias peptídicas disponibles, las agrupan en familias y se aseguran de que las familias de secuencias que apuntan a los nuevos pliegues más probables estén disponibles.
Aquí está el estado y la lista de objetivos para el centro conjunto de genómica estructural . Esta lista está filtrada por especies, así como por el estado del proyecto.
Su análisis está disponible para que lo exploremos. http://www1.jcsg.org/prod/newscripts/psca/help/document.cgi
Lo siento, esto no es tan completo. Nature también alberga Target Track, que permite que varios centros de estructura de alto rendimiento coordinen sus esfuerzos. Cada uno puede tener recursos que podrían hacer su trabajo por usted.
Así es como lo haría:
Descargue el archivo plano UniProt/SWISSPROT para bacterias desde aquí .
Después de descomprimir los archivos, extraiga las identificaciones de proteínas de E. coli para las que no hay una anotación PDB en el archivo (le doy una línea de comando que funcionará en sistemas *ix (Linux/Unix/OSX, etc.)):
zcat uniprot_sprot_bacteria.dat.gz | gawk '{if($1~/ID/){if($2~/_ECOLI/){id=$2; frag=0; eco=1; want=1}else{eco=0}} if($1~/DE/ && $0~/Flags: Fragment/){frag=1;}if($1~/DR/ && $2~/PDB/){want=0; } if($1~/\/\// && want==1 && eco==1 && frag==0){print id}}' > no_pdbs.txt
Explicar los detalles de esta línea de comando está claramente fuera de tema aquí :). Baste decir que imprimirá aquellos UniProt ID del archivo plano cuyo nombre termina en _ECOLI y para los cuales no hay anotación PDB en el archivo. También ignora los fragmentos de proteínas. Si necesita ayuda para entenderlo, hágamelo saber y podemos chatear o algo.
El resultado de este análisis rápido y sucio es una lista de 2694 proteínas de E.coli sin anotaciones PDB en los archivos planos de UniProt.
ADVERTENCIAS:
Estas son solo las proteínas SWISSPROT seleccionadas, es posible que desee obtener también las proteínas UniProt/TrEMBL desde aquí . Sin embargo, le recomendaría que se apegue a SWISSPROT.
Como han señalado otros, debe filtrar esta lista por homología con otras estructuras conocidas.
El hecho de que no haya una anotación PDB en el archivo plano no significa necesariamente que no haya una estructura conocida.
Entonces, esto no es perfecto, pero debería servir como punto de partida. ¡Buena suerte!
Intente buscar en las bases de datos de homología de estructuras: las secuencias para las que no tienen anotación son probablemente el tipo de secuencias que está buscando.
SUPERFAMILY tiene una anotación completa en casi 2500 genomas celulares completamente secuenciados. este sería un buen lugar para empezar...
terdón
bobthejoe
usuario560
bobthejoe