¿Cuál es el algoritmo de última generación para la alineación de secuencias múltiples?

Question

¿Cuál es el algoritmo de última generación para la alineación de secuencias múltiples?

Biología
bioinformática
análisis de secuencias
alineación de secuencias

msa

¿Qué algoritmo o algoritmos se consideran estándar o avanzados para la alineación de secuencias múltiples ?

¿Qué tan grande es la necesidad de mejores algoritmos? ¿Cuántas secuencias deben alinearse en una prueba típica? Estoy tratando de entender cuán importante es este problema en bioinformática.

skymningen

Sería mejor preguntar esto en biostars.org , el intercambio de pila de bioinformática. Para el número típico de secuencias alineadas: no se puede decir eso. Hay tantos usos diferentes de MSA y demasiados conjuntos de datos diferentes que uno podría tener para poder dar un ejemplo típico.

Científico loco

@skymninge Bioinformatics está en el tema aquí, y Biostars no está afiliado a SE de ninguna manera ahora (era un sitio SE 1.0, lo que significa que usaron el software SE pero SE no participó de otra manera en la ejecución del sitio)

skymningen

@Mad Scientist Aún así, las posibilidades de que este tipo de pregunta teórica se responda en Biostars son mayores. Las preguntas de bioinformática respondidas en este sitio suelen ser enfoques/casos de uso/... No insinué que la pregunta está fuera de tema; de lo contrario, la habría marcado como tal. Solo quería ser útil.

WYSIWYG

Todas las preguntas de bioinformática son sobre el tema. Solo que si alguien requiere ayuda técnica, biostars tiene más personas que pueden ayudar.

WYSIWYG

Dicho esto, esta pregunta me parece bastante amplia. Es necesario proporcionar más detalles.

5heikki

Por cierto, si desea un buen problema de bioinformática, cree un ensamblador que ensamble cualquier illumina final pareado que se ejecute de manera óptima de novo sin ningún parámetro de entrada.

Respuestas (3)

¿Cuál es el algoritmo de última generación para la alineación de secuencias múltiples?

Sería mejor preguntar esto en biostars.org , el intercambio de pila de bioinformática. Para el número típico de secuencias alineadas: no se puede decir eso. Hay tantos usos diferentes de MSA y demasiados conjuntos de datos diferentes que uno podría tener para poder dar un ejemplo típico.
@skymninge Bioinformatics está en el tema aquí, y Biostars no está afiliado a SE de ninguna manera ahora (era un sitio SE 1.0, lo que significa que usaron el software SE pero SE no participó de otra manera en la ejecución del sitio)
@Mad Scientist Aún así, las posibilidades de que este tipo de pregunta teórica se responda en Biostars son mayores. Las preguntas de bioinformática respondidas en este sitio suelen ser enfoques/casos de uso/... No insinué que la pregunta está fuera de tema; de lo contrario, la habría marcado como tal. Solo quería ser útil.
Todas las preguntas de bioinformática son sobre el tema. Solo que si alguien requiere ayuda técnica, biostars tiene más personas que pueden ayudar.
Dicho esto, esta pregunta me parece bastante amplia. Es necesario proporcionar más detalles.
Por cierto, si desea un buen problema de bioinformática, cree un ensamblador que ensamble cualquier illumina final pareado que se ejecute de manera óptima de novo sin ningún parámetro de entrada.

Devashish Das · Answer 1

Mi voto va para Mafft(insi) ya que tiene una precisión de ~86 % y resultados en ~1,2 horas. Aunque el más rápido será kalign, solo tarda unos 3 minutos en terminar con una precisión del 74,3 %.

Para las pruebas:

Para cada una de las 218 alineaciones de referencia en el punto de referencia, aplicamos ocho programas de alineación, lo que resultó en un total de 1744 MSA construidos automáticamente. La calidad general de estas alineaciones automáticas se midió utilizando el puntaje de columna (CS) descrito en Métodos.

ingrese la descripción de la imagen aquí FIGURA 1: Desempeño general de alineación para cada uno de los programas MSA probados.

(A) Precisión general

(B) Tiempo de ejecución total para construir todas las alineaciones (se utiliza una escala log10 para fines de visualización).

doi:10.1371/journal.pone.0018093.g003

Herramientas Comparadas

http://www.plosone.org/article/fetchObject.action?uri=info:doi/10.1371/journal.pone.0018093.t001&representation=PNG_L

Fuente y créditos fotográficos:

Un estudio comparativo completo de métodos de alineación de secuencias múltiples: desafíos actuales y perspectivas futuras

PD: Esto es de un documento antiguo de 2011. Si desea las nuevas estadísticas, siempre puede probar por su cuenta, mediante el proceso descrito en el documento de origen.

Personalmente, siempre uso muscle + gblocks para proteínas. Hace el trabajo lo suficientemente bien, en mi opinión.
No creo que ninguno de ellos tenga una opción de paralelización. Creo que la paralelización es posible para el paso de cálculo de distancia por pares al menos.
Tenga en cuenta que los resultados de este punto de referencia ya están muy desactualizados.

steve enlace · Answer 2

Los algoritmos PRANK y PAGAN salieron del laboratorio de Loytynoja en Finlandia y están agitando un poco la olla. Utilizan relaciones filogenéticas inferidas como parámetro y tienden a producir una alineación mucho más 'brecha', supuestamente debido a un manejo más preciso de los indeles. Para alineaciones fáciles, el método no importa tanto, pero si las secuencias son muy divergentes, podría valer la pena revisar PAGAN y PRANK .

David · Answer 3

Clustal se ha reinventado a sí mismo como Clustal Omega usando Modelos Ocultos de Markov, y es particularmente adecuado para la alineación de muchas secuencias.

¿Cuál es el algoritmo de última generación para la alineación de secuencias múltiples?

msa

skymningen

Científico loco

skymningen

WYSIWYG

WYSIWYG

5heikki

Respuestas (3)

Devashish Das

Herramientas Comparadas

5heikki

Devashish Das

usuario1357

WYSIWYG

Jaime

steve enlace

David

¿Cómo interpretar la matriz de identidad porcentual creada por Clustal Omega?

¿Cuál es la diferencia entre las alineaciones de secuencias locales y globales?

Aplicación de la programación de restricciones a la alineación/análisis de secuencias

¿Alineación de codones a través de Python? [cerrado]

¿Qué herramienta puedo usar para alinear múltiples secuencias de proteínas a una secuencia de referencia?

¿Cómo hacer la alineación de secuencias múltiples?

Conjuntos de datos de secuencias de nucleótidos alineadas [cerrado]

¿Qué indica la superposición de secuencias?

Validación de marcadores usando transcriptoma y secuencias genómicas derivadas de una sola célula

Algoritmo de agrupamiento de secuencias recomendado para datos de transcriptomas