¿Qué herramienta puedo usar para alinear múltiples secuencias de proteínas a una secuencia de referencia?

Tengo una proteína de interés que tiene una longitud de ~300 aminoácidos. También tengo alrededor de 40 secuencias cortas (todas de 9 aminoácidos de longitud); estos son todos muy diferentes entre sí. Me gustaría realizar múltiples alineaciones por pares para ver si estas secuencias coinciden (o tienen una alta similitud de identidad de secuencia) con alguna área en la proteína de interés.

Dado que las secuencias cortas de 9-aa son muy heterogéneas, tendrán similitudes en diferentes regiones de la proteína de interés. Me gustaría saber si es posible realizar los alineamientos para las 40 secuencias en un solo paso, en lugar de usar COBALT 40 veces (y verificar cada una de las secuencias cortas con la secuencia de referencia individualmente).

Avíseme si la descripción de mi problema no es lo suficientemente clara, agradecería cualquier ayuda para identificar una forma de hacerlo.

¡Hola y bienvenido a Bio.SE! Parece que estás reinventando BLAST. Tendría cuidado al alinear esas regiones cortas. No veo ningún problema con la ejecución de 40 alineaciones por pares si puede ejecutar la alineación por pares mediante programación.
Esta parece ser una cuestión de bioinformática más que de biología. —— Tómese el tiempo para realizar el recorrido y luego revise las páginas de ayuda que comienzan con Cómo hacer preguntas de manera efectiva en este sitio. ¡Gracias! 😊

Respuestas (3)

Lo que desea realizar se denomina comúnmente alineación de secuencias múltiples. Como dijo @Wayne_Yux, el primer paso es poner todas sus secuencias de proteínas en un solo archivo fasta. Luego puede usar una de varias herramientas en línea para aplicar diferentes algoritmos de alineación a su conjunto de secuencias de proteínas.

Un algoritmo popular de alineación de secuencias es Clustal, que crea progresivamente una alineación de secuencias múltiples a partir de todas las alineaciones por pares. genoma.jp alberga una herramienta de alineación basada en la web que le permite elegir entre Clustal y otros tipos de alineación (1). Para la alineación de muchas secuencias pequeñas en una sola secuencia más grande, debe usar la opción "LENTO/EXACTO" (2). Después de cargar su fasta (3) y ejecutar la alineación múltiple (4), se generará un archivo aln que podrá descargar (5).

ingrese la descripción de la imagen aquí

Luego puede tomar este archivo aln y cargarlo en una herramienta diferente que le permita visualizar las alineaciones. Personalmente, me gusta ESPript , que brinda alineaciones codificadas por colores en formatos pdf o de imagen. Debido a que desea comparar muchas secuencias, probablemente será necesario cambiar los parámetros de "Diseño de salida de alineaciones", por ejemplo , cambie "Brecha entre bloques" a un número más pequeño para que quepan todas sus secuencias en un cuadro.

Puede almacenar las 40 secuencias en un archivo fasta y luego usarlas blastppara alinearlas todas a la vez con su secuencia de referencia.

Después de eso, puede inspeccionar los aciertos de alineación y ver si se ajustan a sus expectativas de calidad.

En una alineación de secuencias múltiples, los algoritmos intentarán alinear las secuencias a lo largo de su longitud (alineación global). Lo que necesita es un enfoque de alineación local con una penalización alta por falta de coincidencia de bases.

El algoritmo E-INS-i en MAFFT podría proporcionar la funcionalidad deseada. Seleccione la Configuración avanzada y allí:

  1. Estrategia -> Algoritmo E-INS-i

  2. Alinear segmentos no relacionados -> Dejar regiones con huecos

Dependiendo de cuán heterogéneas sean sus secuencias, es posible que también deba ajustar otras configuraciones. Sin los datos, es imposible proporcionar una guía más detallada.