¿Cómo realizar PSI-BLAST para una secuencia de proteína dada solo contra la base de datos de proteínas bacterianas?

Tengo una lista de más de 100 proteínas y necesito realizar un psi-blast para cada una de ellas solo contra "proteínas bacterianas".

Fui a la herramienta de explosión de proteínas de NCBI , pero no pude averiguar cómo seleccionar/limitar la base de datos objetivo.

Aquí están las 2 configuraciones que probé:

  1. Base de datos: pdb, Organismo:bacteria (taxid:2)
  2. Base de datos: landmark, Organismo:bacteria (taxid:2)

¿Alguien puede decirme si alguno de los enfoques es correcto? Si no es así, indique el camino correcto.


Editar 1 - agregar más detalles

Todos mis datos provienen de la " Tabla complementaria 10 " del artículo " Genómica comparativa del parásito de la malaria humana olvidado Plasmodium vivax ".

Alrededor del 5% de todas mis secuencias de proteínas se predicen ISS. Las secuencias restantes son predichas por la IEA

pdb solo contiene ID con estructuras depositadas. No he oído hablar de punto de referencia, ¿podría proporcionar un enlace a él? Estoy de acuerdo con @Michael_A en que Uniprot es el camino a seguir.

Respuestas (1)

Su enfoque es correcto, pero vale la pena considerar qué base de datos funcionará mejor para usted. Las preguntas a considerar son;

  1. ¿La base de datos proporciona un amplio espacio de búsqueda para los organismos que le interesan?
  2. ¿Sus ID funcionan bien para buscar en otras bases de datos?
  3. ¿Cómo maneja la base de datos host los identificadores a lo largo del tiempo?

Para secuencias de proteínas usaría;

Base de datos; UniProtKB/Swiss-Prot(swissprot)

Organismo bacteria (taxid:2) (o un subconjunto)

Las razones de esto son que me siento cómodo con la forma en que Uniprot maneja sus ID, proporcionan un gran espacio de búsqueda que incluye una clara delimitación entre secuencias confiables (revisadas) y otras (no revisadas), y finalmente las ID de UniprotKB se asignan bien a los genes. Esto último puede ser problemático. También sé que no tendré problemas para buscar PDB con ID de UniprotKB.

A pesar de usar y gustar el banco de datos de proteínas (PDB), no los usaría para este tipo de búsqueda, ya que son una base de datos estructural que reduce su espacio de búsqueda. PDB tiene 8292 estructuras para E. coli en comparación con 23 017 secuencias revisadas y 1 335 860 sin revisar en Uniprot. Si solo está interesado en las estructuras, entonces el PDB es ideal.

No he usado el punto de referencia .

Estoy buscando homología estructural en proteínas bacterianas. Dado que señaló que PDB es una base de datos estructural, ¿eso la convertiría en una mejor candidata?
Todavía usaría Uniprot ya que las ID de Uniprot se pueden usar para buscar PDB. Sin embargo, podrías hacer ambas cosas. El único inconveniente de Uniprot es que probablemente devolverá una lista grande. Tomarse el tiempo para comprender la estructura de las participaciones de uniprot lo ayudará a lidiar con eso. Si puede salirse con la suya con las secuencias revisadas, me quedaría con esas.