¿Cómo realizar PSI-BLAST para una secuencia de proteína dada solo contra la base de datos de proteínas bacterianas?

Question

¿Cómo realizar PSI-BLAST para una secuencia de proteína dada solo contra la base de datos de proteínas bacterianas?

pdb
ncbi
explosión
Biología
bioinformática

zhirzh

Tengo una lista de más de 100 proteínas y necesito realizar un psi-blast para cada una de ellas solo contra "proteínas bacterianas".

Fui a la herramienta de explosión de proteínas de NCBI , pero no pude averiguar cómo seleccionar/limitar la base de datos objetivo.

Aquí están las 2 configuraciones que probé:

Base de datos: pdb, Organismo:bacteria (taxid:2)
Base de datos: landmark, Organismo:bacteria (taxid:2)

¿Alguien puede decirme si alguno de los enfoques es correcto? Si no es así, indique el camino correcto.

Editar 1 - agregar más detalles

Todos mis datos provienen de la " Tabla complementaria 10 " del artículo " Genómica comparativa del parásito de la malaria humana olvidado Plasmodium vivax ".

Alrededor del 5% de todas mis secuencias de proteínas se predicen ISS. Las secuencias restantes son predichas por la IEA

Jaime

pdb solo contiene ID con estructuras depositadas. No he oído hablar de punto de referencia, ¿podría proporcionar un enlace a él? Estoy de acuerdo con @Michael_A en que Uniprot es el camino a seguir.

Respuestas (1)

¿Cómo realizar PSI-BLAST para una secuencia de proteína dada solo contra la base de datos de proteínas bacterianas?

pdb solo contiene ID con estructuras depositadas. No he oído hablar de punto de referencia, ¿podría proporcionar un enlace a él? Estoy de acuerdo con @Michael_A en que Uniprot es el camino a seguir.

miguel_a · Answer 1

Su enfoque es correcto, pero vale la pena considerar qué base de datos funcionará mejor para usted. Las preguntas a considerar son;

¿La base de datos proporciona un amplio espacio de búsqueda para los organismos que le interesan?
¿Sus ID funcionan bien para buscar en otras bases de datos?
¿Cómo maneja la base de datos host los identificadores a lo largo del tiempo?

Para secuencias de proteínas usaría;

Base de datos; UniProtKB/Swiss-Prot(swissprot)

Organismo bacteria (taxid:2) (o un subconjunto)

Las razones de esto son que me siento cómodo con la forma en que Uniprot maneja sus ID, proporcionan un gran espacio de búsqueda que incluye una clara delimitación entre secuencias confiables (revisadas) y otras (no revisadas), y finalmente las ID de UniprotKB se asignan bien a los genes. Esto último puede ser problemático. También sé que no tendré problemas para buscar PDB con ID de UniprotKB.

A pesar de usar y gustar el banco de datos de proteínas (PDB), no los usaría para este tipo de búsqueda, ya que son una base de datos estructural que reduce su espacio de búsqueda. PDB tiene 8292 estructuras para E. coli en comparación con 23 017 secuencias revisadas y 1 335 860 sin revisar en Uniprot. Si solo está interesado en las estructuras, entonces el PDB es ideal.

No he usado el punto de referencia .

Estoy buscando homología estructural en proteínas bacterianas. Dado que señaló que PDB es una base de datos estructural, ¿eso la convertiría en una mejor candidata?
Todavía usaría Uniprot ya que las ID de Uniprot se pueden usar para buscar PDB. Sin embargo, podrías hacer ambas cosas. El único inconveniente de Uniprot es que probablemente devolverá una lista grande. Tomarse el tiempo para comprender la estructura de las participaciones de uniprot lo ayudará a lidiar con eso. Si puede salirse con la suya con las secuencias revisadas, me quedaría con esas.

¿Cómo realizar PSI-BLAST para una secuencia de proteína dada solo contra la base de datos de proteínas bacterianas?

zhirzh

Editar 1 - agregar más detalles

Jaime

Respuestas (1)

miguel_a

zhirzh

miguel_a

Explosión de bases de datos

¿Cómo determinar cuál es la secuencia de nucleótidos de un gen?

Número de copia BLAST local por acierto

¿Pueden dos estructuras secundarias de proteínas "superponerse" en el PDB?

Términos GO para organismos no modelo

¿Cómo obtener la transcripción de proteína RefSeq correcta para una transcripción de nucleótido RefSeq dada?

cuál es el mejor valor de corte de E en la búsqueda de homología de miARN

¿Múltiples transcritos que coinciden con el mismo gen en los datos de secuenciación de ARN ensamblados de novo, pero los valores de FPKM varían?

¿Cómo se encuentran los pre-miARN a partir de la salida de miARN maduro de Blast?

¿Por qué se toman diferentes longitudes de nucleótidos para la predicción de la estructura de un área de coincidencia de miARN después del análisis BLAST?