Mi IP me ha asignado la tarea de recopilar evidencia para determinar si una lista de especies particulares de Campylobacter y Helicobacter codifican o no para una lista de varias proteínas. En pocas palabras, me han preguntado: "¿Codifican las especies X, Y, Z para las proteínas A, B, C?" Los genomas de estas especies bacterianas han sido completamente secuenciados y puedo recuperar los archivos FASTA para cada uno de ellos. Tengo problemas para decidir cuál es el método adecuado para examinar estos genomas en busca de genes. Me han dado los nombres de las proteínas, es decir, VgrG y HCP, pero las secuencias de aminoácidos enumeradas en las bases de datos están anotadas para diferentes especies de bacterias. Parece que estoy atrapado en un área gris y tengo problemas para conectar la abrumadora cantidad de recursos disponibles en el sitio web de NCBI.
En primer lugar, no reinvente la rueda, busque primero los homólogos anotados. Suponiendo que no los encuentre, el siguiente paso es:
Recopile las secuencias de sus proteínas de consulta (no genes) de una especie en un archivo multifasta.
Ejecute un tBLASTn con esas secuencias contra los genomas de todas las demás especies de interés.
Analizar. Busque HSP con un cierto nivel de identidad de secuencia. Los detalles del umbral que elija dependerán de sus datos, no puedo ayudarlo allí.
Si bien el enfoque tBLASTn va a ser más sensible, un método más fácil que puede encontrar estructuras genéticas y no solo HSP es usar exonerate
:
exonerate -m p2g proteins.fa genome.fa
Finalmente, para una búsqueda más sensible que cualquiera de las anteriores, útil para encontrar homólogos más distantes, ejecute un Psi-tBLASTn de sus proteínas contra los genomas de interés.
En todos estos enfoques, la parte difícil es elegir el umbral correcto. Desafortunadamente, no hay una regla de oro aquí. Todo depende de cuán estrechamente relacionadas estén sus especies y cuán similares sean los homólogos. Tendrás que probar algunos diferentes antes de poder elegir el correcto.
Realice la alineación de secuencias múltiples de sus secuencias de proteínas. Esto le dará una relación evolutiva entre sus secuencias.
códax
terdón
códax
terdón
códax
terdón
exonerate
para hacer coincidir los genes con mayor precisión.