¿Las especies bacterianas X, Y, Z codifican las proteínas A, B, C?

Mi IP me ha asignado la tarea de recopilar evidencia para determinar si una lista de especies particulares de Campylobacter y Helicobacter codifican o no para una lista de varias proteínas. En pocas palabras, me han preguntado: "¿Codifican las especies X, Y, Z para las proteínas A, B, C?" Los genomas de estas especies bacterianas han sido completamente secuenciados y puedo recuperar los archivos FASTA para cada uno de ellos. Tengo problemas para decidir cuál es el método adecuado para examinar estos genomas en busca de genes. Me han dado los nombres de las proteínas, es decir, VgrG y HCP, pero las secuencias de aminoácidos enumeradas en las bases de datos están anotadas para diferentes especies de bacterias. Parece que estoy atrapado en un área gris y tengo problemas para conectar la abrumadora cantidad de recursos disponibles en el sitio web de NCBI.

Respuestas (2)

En primer lugar, no reinvente la rueda, busque primero los homólogos anotados. Suponiendo que no los encuentre, el siguiente paso es:

  1. Recopile las secuencias de sus proteínas de consulta (no genes) de una especie en un archivo multifasta.

  2. Ejecute un tBLASTn con esas secuencias contra los genomas de todas las demás especies de interés.

  3. Analizar. Busque HSP con un cierto nivel de identidad de secuencia. Los detalles del umbral que elija dependerán de sus datos, no puedo ayudarlo allí.

Si bien el enfoque tBLASTn va a ser más sensible, un método más fácil que puede encontrar estructuras genéticas y no solo HSP es usar exonerate:

exonerate -m p2g proteins.fa genome.fa

Finalmente, para una búsqueda más sensible que cualquiera de las anteriores, útil para encontrar homólogos más distantes, ejecute un Psi-tBLASTn de sus proteínas contra los genomas de interés.

En todos estos enfoques, la parte difícil es elegir el umbral correcto. Desafortunadamente, no hay una regla de oro aquí. Todo depende de cuán estrechamente relacionadas estén sus especies y cuán similares sean los homólogos. Tendrás que probar algunos diferentes antes de poder elegir el correcto.

No tengo claro cómo podría obtener estas proteínas de consulta. Todavía no figuran en ninguna base de datos. Creo que mi IP quiere que prediga si existe o no una proteína en estos organismos.
@codax ¡esa es una pregunta completamente diferente! ¿Que estás tratando de hacer? ¿Qué tienes y qué buscas? ¿No tienes una lista de proteínas en la especie X y quieres encontrarlas en la especie Y?
Lamento mucho si no fui claro, pero su consejo es invaluable para mí y estoy aprendiendo mucho. Tengo una lista de especies y necesito encontrar si contienen genes que codifiquen proteínas específicas. Ex. Campylobacter Jejuni y VgrG.
@codax OK, si tiene una lista de proteínas que desea, obtenga sus secuencias de una especie de bacteria relacionada, cuanto más cerca mejor, y use esas secuencias para consultar sus genomas objetivo. Los métodos que describo son lo suficientemente sensibles como para lidiar con pequeñas diferencias en la secuencia.
He probado tu enfoque para este problema. Los HSP indican una similitud general con todas las secuencias ingresadas en la consulta. Por lo que entiendo, hay una identidad cercana al 100% que va del 97 al 100%. Ahora sé que hay una gran similitud entre la lista de proteínas ingresadas y las especies que ingresé. ¿Tendría que hacer una consulta a la vez y lanzarla contra una especie para confirmar si las secuencias codifican las proteínas individuales?
@codax no, cada proteína de consulta debe tener su propio conjunto de HSP. Está buscando HSP que tengan i) alta identidad de secuencia y ii) cubran toda la longitud de la secuencia de consulta (o casi). Ahora que sabe que están ahí y tienen una gran similitud, también puede usar exoneratepara hacer coincidir los genes con mayor precisión.

Realice la alineación de secuencias múltiples de sus secuencias de proteínas. Esto le dará una relación evolutiva entre sus secuencias.

Creo que el OP necesita identificar genes en la secuencia genómica y solo tiene proteínas de una especie. La alineación múltiple no ayudará.
Tengo que identificar si estos genes existen en una lista de especies. Tengo los nombres de algunas proteínas. MSA no se aplicaría en esta situación. Puedo recuperar el FASTA que contiene los genomas completos de estas especies. ¿Hay alguna manera de recuperar las secuencias de proteínas y compararlas con la secuencia de nucleótidos de alguna manera?