¿Cuál es el algoritmo de última generación para la alineación de secuencias múltiples?

¿Qué algoritmo o algoritmos se consideran estándar o avanzados para la alineación de secuencias múltiples ?

¿Qué tan grande es la necesidad de mejores algoritmos? ¿Cuántas secuencias deben alinearse en una prueba típica? Estoy tratando de entender cuán importante es este problema en bioinformática.

Sería mejor preguntar esto en biostars.org , el intercambio de pila de bioinformática. Para el número típico de secuencias alineadas: no se puede decir eso. Hay tantos usos diferentes de MSA y demasiados conjuntos de datos diferentes que uno podría tener para poder dar un ejemplo típico.
@skymninge Bioinformatics está en el tema aquí, y Biostars no está afiliado a SE de ninguna manera ahora (era un sitio SE 1.0, lo que significa que usaron el software SE pero SE no participó de otra manera en la ejecución del sitio)
@Mad Scientist Aún así, las posibilidades de que este tipo de pregunta teórica se responda en Biostars son mayores. Las preguntas de bioinformática respondidas en este sitio suelen ser enfoques/casos de uso/... No insinué que la pregunta está fuera de tema; de lo contrario, la habría marcado como tal. Solo quería ser útil.
Todas las preguntas de bioinformática son sobre el tema. Solo que si alguien requiere ayuda técnica, biostars tiene más personas que pueden ayudar.
Dicho esto, esta pregunta me parece bastante amplia. Es necesario proporcionar más detalles.
Por cierto, si desea un buen problema de bioinformática, cree un ensamblador que ensamble cualquier illumina final pareado que se ejecute de manera óptima de novo sin ningún parámetro de entrada.

Respuestas (3)

Mi voto va para Mafft(insi) ya que tiene una precisión de ~86 % y resultados en ~1,2 horas. Aunque el más rápido será kalign, solo tarda unos 3 minutos en terminar con una precisión del 74,3 %.

Para las pruebas:

Para cada una de las 218 alineaciones de referencia en el punto de referencia, aplicamos ocho programas de alineación, lo que resultó en un total de 1744 MSA construidos automáticamente. La calidad general de estas alineaciones automáticas se midió utilizando el puntaje de columna (CS) descrito en Métodos.

ingrese la descripción de la imagen aquíFIGURA 1: Desempeño general de alineación para cada uno de los programas MSA probados.

(A) Precisión general

(B) Tiempo de ejecución total para construir todas las alineaciones (se utiliza una escala log10 para fines de visualización).

doi:10.1371/journal.pone.0018093.g003

Herramientas Comparadas

http://www.plosone.org/article/fetchObject.action?uri=info:doi/10.1371/journal.pone.0018093.t001&representation=PNG_L

Fuente y créditos fotográficos:

Un estudio comparativo completo de métodos de alineación de secuencias múltiples: desafíos actuales y perspectivas futuras

PD: Esto es de un documento antiguo de 2011. Si desea las nuevas estadísticas, siempre puede probar por su cuenta, mediante el proceso descrito en el documento de origen.

Personalmente, siempre uso muscle + gblocks para proteínas. Hace el trabajo lo suficientemente bien, en mi opinión.
@5heikki: Estoy de acuerdo. El músculo es realmente bueno.
Siempre Clustalx FTW!
No creo que ninguno de ellos tenga una opción de paralelización. Creo que la paralelización es posible para el paso de cálculo de distancia por pares al menos.
Tenga en cuenta que los resultados de este punto de referencia ya están muy desactualizados.

Los algoritmos PRANK y PAGAN salieron del laboratorio de Loytynoja en Finlandia y están agitando un poco la olla. Utilizan relaciones filogenéticas inferidas como parámetro y tienden a producir una alineación mucho más 'brecha', supuestamente debido a un manejo más preciso de los indeles. Para alineaciones fáciles, el método no importa tanto, pero si las secuencias son muy divergentes, podría valer la pena revisar PAGAN y PRANK .

Clustal se ha reinventado a sí mismo como Clustal Omega usando Modelos Ocultos de Markov, y es particularmente adecuado para la alineación de muchas secuencias.