Tengo una lista de más de 100 proteínas y necesito realizar un psi-blast para cada una de ellas solo contra "proteínas bacterianas".
Fui a la herramienta de explosión de proteínas de NCBI , pero no pude averiguar cómo seleccionar/limitar la base de datos objetivo.
Aquí están las 2 configuraciones que probé:
pdb
, Organismo:bacteria (taxid:2)
landmark
, Organismo:bacteria (taxid:2)
¿Alguien puede decirme si alguno de los enfoques es correcto? Si no es así, indique el camino correcto.
Todos mis datos provienen de la " Tabla complementaria 10 " del artículo " Genómica comparativa del parásito de la malaria humana olvidado Plasmodium vivax ".
Alrededor del 5% de todas mis secuencias de proteínas se predicen ISS. Las secuencias restantes son predichas por la IEA
Su enfoque es correcto, pero vale la pena considerar qué base de datos funcionará mejor para usted. Las preguntas a considerar son;
Para secuencias de proteínas usaría;
Base de datos; UniProtKB/Swiss-Prot(swissprot)
Organismo bacteria (taxid:2) (o un subconjunto)
Las razones de esto son que me siento cómodo con la forma en que Uniprot maneja sus ID, proporcionan un gran espacio de búsqueda que incluye una clara delimitación entre secuencias confiables (revisadas) y otras (no revisadas), y finalmente las ID de UniprotKB se asignan bien a los genes. Esto último puede ser problemático. También sé que no tendré problemas para buscar PDB con ID de UniprotKB.
A pesar de usar y gustar el banco de datos de proteínas (PDB), no los usaría para este tipo de búsqueda, ya que son una base de datos estructural que reduce su espacio de búsqueda. PDB tiene 8292 estructuras para E. coli en comparación con 23 017 secuencias revisadas y 1 335 860 sin revisar en Uniprot. Si solo está interesado en las estructuras, entonces el PDB es ideal.
No he usado el punto de referencia .
Jaime